레이블이 Genome인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Genome인 게시물을 표시합니다. 모든 게시물 표시

금요일, 2월 28, 2025

유전체 연구로 밝혀낸 아랍인의 기원과 이동의 역사

오늘은 카타르 게놈 연구로 확보된 6천여명 사람들의 genome을 분석하여 알게 된 결과를 논문으로 게재한 내용을 가져와봤습니다. 제목은 Thousands of Qatari genomes inform human migration history and improve imputation of Arab haplotypes 입니다.

DOI: 10.1038/s41467-021-25287-y


gemini

**카타르 사람들의 유전적 역사**

카타르는 아라비아 반도에 위치한 작은 국가이지만, 그들의 유전적 역사는 매우 다양합니다. 최근 연구에서는 카타르 사람 6,218명의 게놈을 분석하여 그들의 유전적 구조와 역사를 밝혔습니다.

이 연구에 따르면, 카타르 사람들은 주로 페닌슐라 아랍인, 일반 아랍인, 서유럽 및 페르시아 아랍인의 후손입니다. 페닌슐라 아랍인은 레반트의 고대 사냥꾼-채집인과 신석기 농부와 가장 가까운 관계가 있으며, 약 12,000~20,000년 전에 분리되었습니다. 일반 아랍인과 서유럽 및 페르시아 아랍인은 페닌슐라 아랍인과 더 최근에 분리되었으며, 이는 아라비아의 건조화와 레반트에서의 농업의 시작과 관련이 있습니다.

카타르 사람들은 유럽, 남아시아, 남미 인구에 유전적 유입을 받았으며, 이는 지난 1,400년 동안의 이슬람 확장의 결과로 보입니다. Y염색체 J1a2b 계통을 가진 남성 1,491명을 분석하여 29개의 독특한 하위 계통을 확인했습니다.

이 연구는 카타르 사람들의 유전적 다양성과 역사에 대한 중요한 통찰력을 제공하며, 아랍 및 중동 지역의 유전형 보정을 향상시키는 데 도움이 될 수 있습니다.

**카타르 사람들의 유전적 다양성**

카타르 사람들은 다양한 유전적 기원을 가지고 있습니다. 주요 기원은 페닌슐라 아랍인, 일반 아랍인, 서유럽 및 페르시아 아랍인입니다. 이들은 모두 아프리카에서 온 것으로 추정되며, 아라비아 반도에 정착한 후 다양한 유전적 유입을 받았습니다.

**카타르 사람들의 유전적 역사**

카타르 사람들의 유전적 역사는 복잡하고 다양합니다. 그러나 이 연구는 그들의 역사에 대한 중요한 통찰력을 제공했습니다. 예를 들어, 이 연구는 카타르 사람들이 레반트의 고대 사냥꾼-채집인과 신석기 농부와 가장 가까운 관계가 있음을 보여주었습니다. 이는 카타르 사람들이 아라비아 반도에 정착한 후 레반트에서 온 사람들과 혼혈되었다는 것을 의미합니다.

이 연구는 또한 카타르 사람들이 유럽, 남아시아, 남미 인구에 유전적 유입을 받았음을 보여주었습니다. 이는 지난 1,400년 동안의 이슬람 확장의 결과로 보입니다. 이슬람 확장은 많은 사람들이 아라비아 반도로 이주하여 카타르 사람들과 혼혈되게 만들었습니다.

**카타르 사람들의 유전적 연구의 중요성**

카타르 사람들의 유전적 연구는 그들의 역사와 문화를 이해하는 데 중요합니다. 또한 이 연구는 아랍 및 중동 지역의 유전형 보정을 향상시키는 데 도움이 될 수 있습니다. 이는 유전적 질병의 예방과 치료에 중요합니다.

이 연구는 카타르 사람들의 유전적 다양성과 역사에 대한 중요한 통찰력을 제공했습니다. 이 연구는 또한 아랍 및 중동 지역의 유전형 보정을 향상시키는 데 도움이 될 수 있습니다.


clova-x

제목: 카타르인들의 유전체 분석을 통해 본 아랍 인구의 유전적 역사와 다양성

안녕하세요, 여러분! 오늘은 흥미로운 유전학 연구 결과를 소개하려고 합니다. 바로 카타르인들의 유전체를 분석하여 아랍 인구의 유전적 역사와 다양성을 밝힌 논문인데요. 유전체학에 대해 잘 모르는 분들도 쉽게 이해하실 수 있도록 설명해 드리겠습니다.

우선, 이 연구는 6,218명의 카타르인 전체 게놈을 분석하여 다양성과 유전적 계보를 파악했습니다. 이를 통해 유럽, 남아시아, 남미 등의 인구에 대한 이슬람 확장의 영향을 확인할 수 있었습니다. 또한, 새롭게 발견된 유전자형을 활용하여 12,432개의 haplotype으로 구성된 참조 패널을 구축했고, 이를 통해 아랍인과 중동 지역의 희귀 및 일반 대립 유전자에 대한 유전자형 예측 정확도를 향상시켰다고 합니다.

아랍 인구는 그동안 유전적 구조와 역사에 대한 연구가 부족한 편이었는데요. 이번 연구를 통해 아랍인들의 유전적 다양성과 역사적 교류에 대한 이해를 높일 수 있었습니다. 특히, 카타르 인구는 아프리카, 남아시아, 유럽 등 다양한 지역의 유전적 요소를 포함하고 있었는데, 이는 지리적 위치와 역사적 교류에 기인한 것으로 보입니다.

이번 연구는 아랍 인구의 유전적 다양성을 밝히고, 이를 바탕으로 참조 패널을 구축하여 유전학 연구에 큰 도움을 줄 것으로 기대됩니다. 또한, 우리 모두가 서로 다른 유전적 배경을 가지고 있다는 것을 다시 한번 상기시켜주며, 인종 간의 이해와 소통을 증진시키는 데에도 기여할 것입니다.

논문에 대한 자세한 내용은 전문을 참고해 주시기 바라며, 유전학에 대한 관심과 이해를 높이는 데 도움이 되었길 바랍니다. 감사합니다!



chatGPT

### 블로그: 중동 아랍인의 유전적 구조와 역사

아랍 인구는 그동안 과학적으로 충분히 연구되지 못한 지역입니다. 하지만 이번 연구에서는 카타르에 거주하는 6,218명의 전장 유전체 데이터를 활용하여 아랍인의 유전적 구조와 역사를 상세히 분석했습니다. 이 연구는 카타르 게놈 프로젝트(QGP)를 기반으로 진행되었으며, 아랍 반도와 그 주변 지역에서 유래한 독특한 유전자 데이터를 분석한 결과를 제시합니다.

#### 연구 배경

아랍 반도는 수천 년 동안 인류 문명의 교차로였습니다. 하지만 유전체 연구는 주로 서구나 동아시아에 초점이 맞춰져 있어, 중동 지역은 연구 데이터가 상대적으로 부족했습니다. 이로 인해 아랍 인구의 유전적 다양성과 질병 위험에 대한 이해가 제한적이었습니다.

#### 주요 발견

1. **아랍인의 기원과 유전적 계보**  

   연구 결과에 따르면, 아랍인은 크게 두 계보로 나눌 수 있습니다. 

   - **카흐타니족(Peninsular Arabs, PAR):** 아랍 반도의 토착 인구로, 레반트 지역의 신석기 농부들과 가까운 유전적 유사성을 보였습니다. 

   - **아드난족(General Arabs, GAR):** 아랍화된 인구로, 서유라시아 및 다른 지역과의 혼합 유전자 구조를 보여줍니다.

   이 두 계보는 약 12,000~20,000년 전부터 분화하기 시작했으며, 이는 아랍 지역의 건조화 및 농업의 시작과 관련이 있습니다.

2. **유전적 다양성과 혼합**  

   연구는 아랍 인구가 아프리카, 유럽, 남아시아, 심지어 남미에 이르는 다양한 지역의 유전적 흐름에 기여했음을 보여줍니다. 이는 이슬람의 확산과 역사적 교역 경로를 반영한 것입니다.

3. **Y 염색체와 미토콘드리아 DNA**  

   연구는 카타르 남성 중 56.7%가 J1a2b Y 염색체 계보에 속하며, 이는 아랍 반도와 레반트 지역에서 흔히 발견되는 유형입니다. 이 계보는 매우 동질적이며, 부족 간 결혼의 제한적 특성을 반영합니다.

4. **인구의 유전적 다양성 향상**  

   연구팀은 이번 데이터를 기반으로 12,432개의 참조 하플로타입 패널을 구축했습니다. 이 패널은 기존의 서구 중심 유전자 데이터보다 아랍 및 중동 인구의 유전자 예측 정확도를 크게 향상시킬 수 있습니다.

#### 연구의 의미

이 연구는 아랍 인구의 유전적 기원과 분화를 이해하는 데 중요한 통찰을 제공합니다. 특히, 고대 인류의 이동과 아랍인의 독특한 유전적 특성을 추적하는 데 기여했습니다. 또한, 유전적 다양성을 반영한 새로운 참조 패널은 질병 유전자 연구 및 정밀 의학에서 큰 도움을 줄 것입니다.

#### 결론

카타르 게놈 프로젝트는 아랍 지역에서 유전체학 연구의 새 지평을 열고 있습니다. 이 연구는 단순히 과거를 밝히는 데 그치지 않고, 현대 의학 및 유전학 연구에서 중요한 도구로 자리 잡을 것입니다. 앞으로 중동 지역의 추가 유전자 연구가 기대됩니다.

여러분의 질문이나 의견은 언제든 환영합니다! 😊


NotebookLM

## 유전체 연구로 밝혀낸 아랍인의 기원과 이동의 역사

**유전체학**, 생명체의 모든 유전 정보를 담고 있는 유전체를 연구하는 학문은 인류의 기원과 이동, 그리고 질병의 발생 메커니즘을 이해하는데 매우 중요한 역할을 합니다. 최근 카타르 유전체 프로그램(QGP)에서 6,218개의 카타르인 유전체를 분석한 연구 결과가 발표되어 아랍 인구의 유전적 구조와 역사에 대한 새로운 사실들이 밝혀졌습니다.

### 연구의 핵심 내용

* **다양한 아랍 조상**: 연구 결과 카타르 인구는 아라비아 반도의 주요 아랍 혈통인 카흐타니테(반도 아랍인)와 아드나니테(일반 아랍인 및 서유라시아 아랍인)를 대표하는 다양한 유전적 조상을 가지고 있는 것으로 밝혀졌습니다.

* **아라비아 반도의 기후 변화와 인구 이동**:  약 12,000년에서 20,000년 전, 아라비아 반도의 사막화와 레반트 지역의 농업 발달과 함께 아랍 인구는 여러 차례 분열과 이동을 겪었습니다. 이는 정착 생활을 하는 집단과 유목 생활을 하는 집단의 출현으로 이어졌습니다.

* **이슬람 확장과 유전자 흐름**: 연구는 지난 1,400년 동안 이슬람 확장의 결과로 아랍 조상이 유럽, 남아시아, 남미 인구에 상당한 유전적 영향을 미쳤음을 보여줍니다.

* **고대 인류와의 연관성**:  연구팀은 카타르인의 유전체를 고대 인류 유전체와 비교 분석하여 반도 아랍인이 레반트 지역의 고대 수렵 채집인 및 신석기 시대 농부들과 가장 가까운 친척 관계임을 밝혀냈습니다. 이는 아랍인들이 아프리카에서 이주해 나온 최초의 유라시아 인구 후손임을 뒷받침합니다.

* **높은 근친혼 비율**:  아랍 인구는 서유럽이나 미주 지역에 비해 근친혼 비율이 높아 긴 동형접합성 범위(ROH)를 갖는 경향이 있습니다. 이는 열성 유전 질환의 발병 위험을 높일 수 있습니다.

### 연구의 의의

* **아랍 인구의 유전적 다양성과 역사**: 이번 연구는 아랍 인구의 유전적 다양성과 역사에 대한 이해를 넓히는 데 크게 기여했습니다. 특히, 카타르인 유전체 분석을 통해 아랍 혈통의 기원과 이동 경로, 그리고 주변 지역과의 유전적 교류 과정을 엿볼 수 있었습니다.

* **질병 연구**:  아랍 인구의 유전적 특징에 대한 이해는 희귀 질환 및 만성 질환의 유전적 위험 요인을 밝히고, 개인 맞춤형 의료 기술 개발에 활용될 수 있습니다.

* **유전체학 연구**: 이 연구는 아랍 인구를 위한 유전자형 대치 패널을 구축하여 아랍인 유전체 연구의 정확성과 효율성을 높이는 데 기여했습니다.

### 결론

이번 연구는 대규모 유전체 분석을 통해 아랍 인구의 기원, 이동, 그리고 유전적 다양성에 대한 새로운 사실들을 밝혀냈습니다. 이는 아랍 지역의 역사와 문화를 이해하는 데 새로운 시각을 제공할 뿐만 아니라, 질병 연구 및 유전체학 연구 발전에 중요한 기반이 될 것입니다. 

**참고**: 본 블로그 글은 제공된 논문을 바탕으로 작성되었습니다. 논문에 언급된 연구 결과 및 해석은 연구자들의 견해이며, 추가적인 연구를 통해 검증될 필요가 있습니다.


wrtn.ai

## 서론

유전체 분석은 생물 종의 진화 관계, 개인의 유전적 특성, 인구집단의 기원과 이동 등을 밝혀내는 데 매우 중요한 역할을 합니다 [1][2][3][4]. 이번 연구는 특히 아랍 인구의 유전적 다양성에 초점을 맞추고 있습니다. 아랍 지역은 인류 문명의 발상지 중 하나로, 다양한 민족과 문화가 교류해 온 곳이기 때문에 이들의 유전체 분석은 매우 의미 있는 작업이 될 것입니다. 이번 연구에서는 아랍 인구의 기원과 역사적 이동 경로를 밝혀내고자 합니다.

## 카타르인 유전체 분석 - 방법론

카타르 집단의 유전체 분석에는 다양한 방법론이 사용되었습니다. 먼저, mtDNA와 Y 염색체 하플로그룹 분석을 통해 카타르인들의 조상 기원과 이동 경로를 파악했습니다 [15]. 특히 Y 염색체 J1a2b 하플로그룹에 대해서는 계통수 분석을 수행하여 29개의 새로운 하위 하플로그룹을 발견하고 이들의 분기 시기를 추정했습니다 [15]. 또한 카타르 유전체 프로젝트(QGP) 데이터를 이용하여 아랍 및 중동 지역 집단을 위한 유전형 임퓨테이션 패널을 구축했습니다 [17]. 이러한 다양한 유전체 분석 기법들을 통해 카타르 집단의 유전적 특성과 역사적 기원을 심도 있게 이해할 수 있었습니다.

## 카타르인 유전체 분석 - 주요 특징 및 발견

이번 연구에서는 카타르 집단의 유전체 분석을 통해 다음과 같은 주요 발견들을 확인했습니다:

1. 카타르인들의 유전적 다양성이 매우 큰 것으로 나타났습니다. 이들의 유전적 기원은 주로 아랍 계통의 카흐타니트(남부 아라비아 반도 출신)와 아드나니트(일반 아랍인과 서유라시아 아랍인) 두 가지 주요 계통에서 비롯된 것으로 확인되었습니다 [25].

2. 카타르인들의 유전적 기원은 레반트 지역의 선사시대 수렵-채집민과 신석기 농경민에 가장 가까운 것으로 나타났습니다. 이는 아랍 계통 인구들이 약 12,000-20,000년 전 아라비아반도의 건조화와 레반트 지역의 농경 활동으로 정착민과 유목민 집단으로 분화되었음을 보여줍니다 [25].

3. 최근 1,400년 간 이슬람 팽창과 함께 아랍 계통 인구들이 유럽, 남아시아, 남아메리카 등지로 유전적 기여를 했을 것으로 추정됩니다 [25].

4. 카타르인 남성 중 J1a2b 염색체 Y 계통이 가장 크게 나타났으며, 이 계통에서 29개의 독특한 하위 계통이 발견되었습니다 [15].

이번 연구 결과는 아랍인과 중동 지역의 유전적 다양성과 기원, 이동 경로 등을 이해하는 데 크게 기여할 것으로 기대됩니다. 또한 이를 활용하여 중동 지역의 희귀 및 일반 유전자형을 보다 잘 예측할 수 있는 참조 패널을 구축했습니다 [25].

## 아랍 인구의 기원과 이동

유전체 분석 결과에 따르면, 아랍 인구의 기원은 주로 두 가지 계통으로 나뉩니다. 하나는 남부 아라비아 반도 출신의 카흐타니트 계열이고, 다른 하나는 보편적인 아랍인과 서유라시아 아랍인인 아드나니트 계열입니다. 특히 남부 아라비아 반도 출신의 카흐타니트 계열은 레반트 지역의 선사시대 수렵-채집민과 신석기 시대 농경민과 가장 유사한 것으로 나타났습니다 [25]. 

이러한 아랍 조상 집단들은 약 12,000-20,000년 전 아라비아반도의 건조화와 레반트 지역의 농경 활동으로 정착민과 유목민 집단으로 분화되었습니다 [25]. 최근 1,400년 간 이슬람 문화의 확산과 함께 이들 아랍 계통 인구들이 유럽, 남아시아, 남아메리카 등지로 유전적 기여를 했을 것으로 추정됩니다 [25].

## 유전체 다양성의 중요성

유전체 다양성은 인류의 역사와 진화를 이해하는 데 매우 중요합니다. 다양한 인구집단의 유전체 분석을 통해 우리는 인류의 이주 패턴, 조상 관계, 그리고 유전적 변이가 건강과 질병에 미치는 영향 등에 대한 귀중한 통찰을 얻을 수 있습니다.

특히 이번 연구는 아랍 인구의 유전적 구조와 역사를 심도 있게 분석했다는 점에서 의미가 큽니다. 아랍 세계는 그동안 상대적으로 연구가 부족했던 지역이었지만, 이번 카타르 인구 연구를 통해 아랍인의 복잡한 인구학적 역사를 잘 보여주고 있습니다. 특히 카흐타니트(남부 아라비아 반도 출신)와 아드나니트(일반 아랍인과 서유라시아 아랍인) 두 가지 주요 조상 계통이 약 12,000-20,000년 전에 분화되었다는 사실이 주목할 만합니다 [25].

유전체 다양성을 보존하는 것도 매우 중요합니다. 카타르 인구에서 관찰된 높은 수준의 근친혼과 긴 균질 구간은 유해한 유전자 변이와 특정 질병 위험을 증가시킬 수 있기 때문입니다 [35]. 따라서 아랍 인구의 유전적 특성을 이해하는 것은 질병 예방 및 치료 전략을 개발하고, 전반적인 유전적 다양성을 유지하는 데 도움이 될 것입니다.

유전체 분석 기술은 인류 집단의 복잡한 역사와 건강 영향을 밝혀내는 강력한 도구입니다. 이 기술이 계속 발전함에 따라 아랍 세계를 포함한 다양한 인구집단들이 연구에 충분히 반영되도록 하는 것이 중요할 것입니다. 이를 통해 우리는 인류의 진화와 다양성에 대한 이해를 높이고, 전 세계 사람들을 위한 맞춤형 의료 솔루션을 개발할 수 있을 것입니다.

## 결론

유전체 분석 기술은 인류의 역사와 진화, 질병 예방 및 치료에 있어 매우 중요한 역할을 합니다. 이번 연구를 통해 아랍 인구의 유전적 구조와 기원에 대한 심도 있는 이해를 얻을 수 있었습니다. 특히 카타르 집단의 경우, 남부 아라비아 반도 출신 카흐타니트와 일반 아랍인 및 서유라시아 아랍인인 아드나니트의 두 주요 조상 계통이 약 12,000-20,000년 전에 분화되었다는 사실이 주목할 만합니다 [25].

향후에도 유전체 분석 기술이 지속적으로 발전하면서 개인의 유전적 특성을 활용한 맞춤형 의료 서비스가 더욱 확대될 것으로 기대됩니다 [54]. 또한 이를 바탕으로 유전체와 질병의 관계를 규명하고, 신약 개발 등 유전체 기반 기초 및 임상 연구가 활성화될 것입니다 [54].

특히 아랍 세계를 포함한 다양한 인구집단의 유전체 데이터가 충분히 확보되어야 할 것입니다. 이를 통해 우리는 인류의 진화와 다양성에 대한 이해를 높이고, 전 세계 사람들을 위한 맞춤형 의료 솔루션을 개발할 수 있을 것입니다 [4]. 


아랍국가에서 생각했던 것보다 유전체 연구에 진심인 경우가 많습니다. 이유는 근친혼으로 유전병 발생이 높기 때문인데 국가적으로도 많은 고민을 하고 있다고 합니다. 그리고 최근에는 막대한 자본을 투자해서 유전체 분석 센터도 설립하고 있다니 좋은 잡 오퍼가 들어오면 좋겠네요 Orz


출처: @ye._.vely618


월요일, 12월 30, 2024

인간 유전체의 새로운 지평을 열다: 더 완벽하고 다양한 인간 게놈 지도를 향하여

오늘은 조금 더 진일보한 인간 유전체에 대한 논문을 가져와봤습니다. 제목은 Complex genetic variation in nearly complete human genomes 입니다.

DOI: 10.1101/2024.09.24.614721

아직 biorxiv에 있는 논문이긴 한데 아마 조만간 다른 저널지에 공개되거나, 공개되었을 수도 있을듯합니다. ㅎㅎ 

T2T 버전이 세상에 나온지 시간이 흘렀지만 아직 많이 사용하고 있지 않는것은 아마 GRCh38이 나왔을때도 있지않았나 싶습니다.

이번 논문은 T2T로 끝나는 것이 아닌 haplotype기준으로 T2T 수준의 genome 품질을 가진 reference를 구축했다는 것이 차별점이지 않나 싶네요


gemini

## 인간 게놈 프로젝트의 새로운 도약: 더 완벽하고 다양한 인간 게놈 지도를 향하여

**인간 게놈 프로젝트**는 인간의 모든 유전 정보를 해독하여 지도로 만드는 거대한 과학 프로젝트입니다. 이 프로젝트는 2003년에 완료되었지만, 당시 기술의 한계로 인해 완벽한 인간 게놈 지도를 얻는 데는 실패했습니다. 

하지만 기술의 발전과 함께, 과학자들은 끊임없이 더 완벽한 인간 게놈 지도를 만들기 위해 노력해왔습니다. 그리고 이번 논문에서 그 노력의 결실을 확인할 수 있습니다. 이 논문은 **가장 완벽에 가까운 인간 게놈 지도**를 제시하며, 인간 유전체의 복잡성을 이해하는 데 새로운 지평을 열었습니다.

### 기존 인간 게놈과의 차이점

1. **더 완벽한 지도**: 기존의 인간 게놈 지도에는 기술적인 한계로 인해 많은 공백과 오류가 존재했습니다. 이번 논문에서는 65개의 다양한 인간 게놈을 분석하고 130개의 반수체 분해 조립을 구축하여 이전 지도의 **92%의 공백을 채우고**, 염색체의 39%에 대해 **텔로미어-투-텔로미어(T2T) 상태**에 도달했습니다. 즉, 염색체의 양 끝단까지 완벽하게 해독했다는 의미입니다.

2. **복잡한 유전자좌의 완전한 서열**: MHC, SMN1/SMN2, NBPF8, AMY1/AMY2 등 복잡한 유전자좌의 **완전한 서열 연속성**을 확보했습니다. 이는 질병과 관련된 유전자 연구에 매우 중요한 정보를 제공합니다.

3. **구조적 변이의 해결**: 1,852개의 복잡한 구조 변형(SV)을 완전히 해결했습니다. 구조적 변이는 유전체의 큰 부분이 뒤집히거나, 중복되거나, 삭제되는 등의 변화를 의미하며, 암, 자폐증 등 다양한 질병과 관련이 있습니다.

4. **인간 중심체의 조립**: 1,246개의 인간 중심체를 완전히 조립하고 검증했습니다. 중심체는 세포 분열에 필수적인 역할을 하며, 염색체의 구조와 기능을 이해하는 데 중요합니다.

### 새로운 게놈 지도의 장점

1. **질병 연구의 발전**: 새로운 게놈 지도는 질병과 관련된 유전적 변이를 더욱 정확하게 파악할 수 있게 해줍니다. 이는 질병의 예측, 진단, 치료에 혁신적인 발전을 가져올 수 있습니다.

2. **개인 맞춤형 의료**: 개인의 유전 정보에 기반한 맞춤형 의료 시대를 앞당길 수 있습니다. 개인별 유전적 특징을 고려하여 약물 처방, 질병 예방 등을 맞춤형으로 제공할 수 있습니다.

3. **인간 진화 연구**: 인간 게놈의 다양성을 더욱 심층적으로 이해하고, 인간 진화의 역사를 밝히는 데 기여할 수 있습니다.

4. **유전체 연구의 새로운 도구**: 짧은 판독 데이터에서 유전자형 분석의 정확도를 높이고 전체 게놈 추론을 가능하게 합니다. 이는 유전체 연구의 효율성을 높이고 새로운 발견을 가속화할 수 있습니다.

### 결론

이 논문에서 제시된 새로운 인간 게놈 지도는 인간 유전체학 분야의 중요한 발전입니다. 이는 인간 게놈의 복잡한 구조적 변이에 대한 이해를 높이고 질병과의 연관성을 밝히는 데 도움이 될 뿐만 아니라, 개인 맞춤형 의료 시대를 열고 인간 진화 연구에 새로운 가능성을 제시할 것입니다.



clova-x

이번에 저희 연구팀에서 발표한 논문은 인간 유전체의 복잡함에 대한 내용을 담고 있습니다. 인간 유전체는 약 30억 개의 염기쌍으로 이루어져 있으며, 이는 지구상에서 가장 복잡한 생명체의 유전체 중 하나입니다.

이번 연구에서는 65개의 다양한 인간 게놈을 시퀀싱하고, 130개의 haplotype-resolved 어셈블리를 구축했습니다. 이는 기존의 Human Genome과는 몇 가지 면에서 차이가 있습니다.

첫째, 이번에 구축한 어셈블리는 기존의 Human Genome보다 더 높은 품질의 유전체 데이터를 제공합니다. 기존의 Human Genome은 일부 구간에서 불완전한 정보를 가지고 있었지만, 이번에 구축한 어셈블리는 거의 모든 구간에서 완전한 정보를 제공합니다.

둘째, 이번 어셈블리는 기존의 Human Genome보다 더 정확한 변이 정보를 제공합니다. 변이 정보는 유전체 연구에서 매우 중요한 역할을 하는데, 이번 어셈블리를 통해 더 정확한 변이 정보를 얻을 수 있게 되었습니다.

셋째, 이번 어셈블리를 통해 기존에는 파악하기 어려웠던 복잡한 구조적 변이를 완전히 밝힐 수 있었습니다. 예를 들어, MHC, SMN1/SMN2, NBPF8, AMY1/AMY2 등의 복잡한 위치를 포함한 많은 구조적 변이를 밝혀냈습니다.

이러한 고품질의 유전체 데이터를 사용하면 다양한 분야에서 많은 이점을 얻을 수 있습니다. 예를 들어, 의학 분야에서는 질병의 원인을 더 정확하게 파악할 수 있고, 치료법 개발에도 큰 도움이 될 수 있습니다. 또한, 생물학 분야에서는 생명체의 진화와 발달 과정을 더 깊이 이해할 수 있고, 환경과의 상호작용을 파악하는 데에도 큰 도움이 될 수 있습니다.

저희 연구팀은 이번 연구를 통해 인간 유전체의 복잡함을 더욱 깊이 이해하게 되었으며, 앞으로도 지속적인 연구를 통해 더 많은 지식을 쌓아 나갈 것입니다. 이를 통해 인류의 건강과 복지에 기여할 수 있기를 기대합니다.



chatGPT

### 블로그 포스트: 새로운 인간 유전체 데이터로 무엇을 알 수 있을까요?  

인간 유전체(Human Genome)는 우리가 생명과 질병에 대해 이해할 수 있는 가장 기본적인 정보입니다. 기존의 인간 유전체 연구들은 많은 성과를 냈지만, 여전히 복잡한 구조적 변이를 완벽히 다루지 못하거나, 특정 어려운 영역에 대한 정보가 부족하다는 한계가 있었습니다. 이번에 발표된 연구에서는 기존 유전체보다 훨씬 더 정밀하고 완전한 데이터를 통해 이러한 문제를 해결하고자 했습니다.

---

#### **1. 기존 인간 유전체와 무엇이 다른가요?**  

기존 인간 유전체는 주로 단일 기술 기반으로 조립되었으며, 일부 복잡한 영역에서는 데이터가 불완전했습니다. 이번 연구에서 사용한 유전체는 다음과 같은 점에서 다릅니다:

1. **두 가지 기술의 결합**:

   - PacBio HiFi 기술: 짧지만 정확도가 높은 DNA 읽기(read)를 제공합니다.

   - Oxford Nanopore 기술: 길이는 길지만 정확도가 낮은 DNA 읽기를 제공합니다.

   - 두 기술을 결합하여 기존보다 훨씬 완전한 데이터로 유전체를 조립할 수 있었습니다.

2. **유전체의 공백 해결**:

   - 기존 유전체에서 데이터가 없었던 92%의 영역을 채웠으며, 염색체의 약 39%를 끝에서 끝까지(telomere-to-telomere) 완전히 조립했습니다.

3. **복잡한 변이 분석**:

   - 구조적 변이(예: 삽입, 결실, 역위 등)를 26,000개 이상 탐지했습니다.

   - 주요 복잡한 영역(예: 면역과 관련된 MHC, SMN1/SMN2, AMY1/AMY2 등)의 완전한 유전체 데이터를 확보했습니다.

---

#### **2. 새로운 유전체 데이터를 사용하면 어떤 점이 좋을까요?**

1. **질병 연구 및 진단 개선**:

   - 기존에 탐지되지 않았던 변이를 새롭게 찾아냄으로써 질병과 관련된 유전적 요인을 더 정확히 파악할 수 있습니다.

   - 예를 들어, 유전적으로 손상되기 쉬운 센트로미어와 같은 영역이 더 잘 이해되며, 이 데이터는 희귀 질환 연구에 특히 유용합니다.

2. **더 나은 유전자 변이 탐지**:

   - 기존 데이터와 비교해 35% 이상 더 많은 변이를 탐지했습니다.

   - 이러한 데이터는 희귀 변이나 인구별로 특이한 유전적 특징을 연구하는 데 도움이 됩니다.

3. **개인 맞춤형 의학**:

   - 유전 정보를 기반으로 개인 맞춤형 질병 예측 및 치료가 가능해집니다.

   - 특히, 아프리카, 유럽, 아시아 등 다양한 인구 그룹에서 데이터를 확보해 다양한 유전적 배경을 반영할 수 있습니다.

4. **더 나은 참조 유전체 제공**:

   - 기존의 GRCh38 유전체 참조보다 완전한 데이터로 연구자들에게 더 정확한 기준을 제공합니다.

   - 이 데이터를 활용하면 질병 관련 연구와 약물 개발 속도를 높일 수 있습니다.

---

#### **3. 우리가 알아야 할 점**  

이 연구는 유전체 연구의 새로운 기준을 세웠습니다. 기존의 인간 유전체는 여러 한계가 있었지만, 이번 연구를 통해 유전체의 복잡한 구조적 변이를 이해하고, 공백을 메우며, 질병과 유전적 요인 간의 관계를 명확히 할 수 있게 되었습니다.  

새로운 데이터는 질병 예측, 유전자 편집, 개인 맞춤형 치료 등 다양한 분야에서 큰 발전을 가져올 것입니다. 앞으로 이러한 연구가 일반인의 건강과 삶의 질 향상에 어떤 영향을 미칠지 기대가 됩니다.

---

이 새로운 인간 유전체 데이터는 연구자들에게는 도구를, 일반인들에게는 희망을 제공하는 중요한 성과입니다. 지금은 과학 기술이 우리의 건강과 미래를 어떻게 바꾸고 있는지 지켜보기에 가장 좋은 시기입니다.



NotebookLM

## 인간 유전체의 새로운 지평을 열다: 더욱 완벽해진 인간 유전체 데이터

**인간 유전체 프로젝트는 생명체의 설계도를 이해하기 위한 웅장한 과학적 여정입니다. 과학자들은 수십 년간 인간 DNA의 30억 개가 넘는 염기쌍 서열을 밝혀내기 위해 노력해 왔습니다.** 이러한 노력의 결과로 인간 유전체의 초기 지도가 만들어졌지만, 기술적인 한계로 인해 완벽하지 못했습니다. **최근 롱리드 시퀀싱 기술의 발전은 이전에는 접근할 수 없었던 인간 유전체 영역을 탐험할 수 있는 새로운 가능성을 열었습니다.**

**이 논문에서는 65개의 다양한 인간 샘플에서 130개의 haplotype-resolved 유전체를 생성하기 위해 PacBio HiFi 및 ONT 롱리드 시퀀싱 기술을 결합한 최첨단 연구를 소개합니다.** **이 연구의 핵심은 기존 인간 유전체 데이터와 비교하여 훨씬 향상된 품질과 완성도를 자랑하는 새로운 유전체 데이터를 제공한다는 것입니다.**

### 기존 인간 유전체 데이터의 한계

초기 인간 유전체 데이터는 쇼트리드 시퀀싱 기술을 기반으로 제작되었습니다. 이 기술은 짧은 DNA 조각을 읽어내는 데 효과적이지만, 반복적인 서열이나 복잡한 구조 변이가 많은 영역을 정확하게 조립하는 데 어려움을 겪었습니다. **결과적으로 초기 유전체 데이터는 수많은 갭과 오류를 포함하고 있었으며, 이는 유전체의 완전한 이해를 방해하는 요소로 작용했습니다.**

### 새로운 유전체 데이터의 혁신

**이 연구에서 제시된 새로운 유전체 데이터는 롱리드 시퀀싱 기술을 사용하여 이러한 한계를 극복했습니다.** 롱리드 시퀀싱은 훨씬 긴 DNA 조각을 읽어낼 수 있어, 반복적인 서열이 많은 영역도 정확하게 조립할 수 있습니다. 또한, **연구진은 Strand-seq와 같은 다양한 기술을 활용하여 유전체의 haplotype을 정확하게 구분하고 phasing하는 데 성공했습니다.**

**그 결과, 새로운 유전체 데이터는 기존 데이터보다 92% 이상의 갭을 줄였으며, 이전에는 완전히 해결되지 않았던 유전체 영역, 즉 centromere, SMN1/SMN2, MHC와 같은 복잡한 영역을 완벽하게 밝혀냈습니다.** 특히 centromere는 염색체 분열에 필수적인 역할을 하지만, 반복적인 서열이 매우 많아 분석이 어려웠던 영역입니다. **이 연구에서는 1,246개의 centromere를 완전히 조립하여 인간 유전체 다양성에 대한 이해를 넓혔습니다.**

### 새로운 유전체 데이터의 활용

**더욱 완벽해진 새로운 유전체 데이터는 인간 유전체 연구에 광범위한 영향을 미칠 것으로 기대됩니다.** 

* **첫째, 질병과 관련된 유전적 변이를 더욱 정확하게 식별할 수 있습니다.** 이는 개인 맞춤형 의료, 질병 예측 및 새로운 치료법 개발에 기여할 수 있습니다.

* **둘째, 인간 진화와 집단 유전학 연구에 새로운 통찰력을 제공할 수 있습니다.** 예를 들어, 이 연구에서는 아프리카 계통의 유전체가 비 아프리카 계통의 유전체보다 더 많은 segmental duplication을 가지고 있음을 밝혀냈습니다. 이는 인간 집단의 유전적 다양성을 이해하는 데 중요한 정보입니다.

* **셋째, 단편 서열 데이터에서도 더 많은 유전적 변이를 효율적으로 분석할 수 있습니다.** 이 연구에서는 PanGenie라는 새로운 도구를 사용하여 쇼트리드 시퀀싱 데이터에서도 26,115개의 구조적 변이를 검출할 수 있음을 보여주었습니다. 이는 대규모 유전체 연구를 더욱 효율적으로 수행할 수 있게 해 줄 것입니다.

### 결론

**이 논문에서 제시된 새로운 유전체 데이터는 인간 유전체 프로젝트의 중요한 진전입니다.** 더욱 완벽하고 정확한 유전체 데이터는 인간 유전체에 대한 이해를 넓히고, 질병 연구, 진화 연구, 집단 유전학 연구 등 다양한 분야에 새로운 가능성을 열어줄 것입니다.


기존에는 GRCh37, GRCh38과 같이 한개 reference를 사용해서 분석을 했는데, 이제는 130개의 haplotype 서열들을 reference를 사용해서 좀 더 정확한 분석 결과를 얻을 수 있게 되지 않나 싶습니다. 대신 여러개의 reference 결과를 어떻게 merge하는지는 저도 아직 잘 모르겠네요 :)

조만간 시간이 되면 기술적인 내용도 한번 다뤄보도록 하겠습니다.

오늘 글로 24년도를 마무리하려고 합니다.

25년에도 좋은 논문들로 또 봐요~ 제발~ :)



출처: @ye._.vely618


화요일, 6월 11, 2024

Towards the era of cat precision medicine

오늘은 수 많은 동물 중 고양이의 유전체를 연구한 논문을 하나 가져와봤습니다. 

물론 저는 고양이를 키우지 않지만 (물론 개도 키우지 않습니다. 이유는 제 한 몸 간수하기 힘든데 다른 생명체를 어떻게 보살피겠습니까 ㅎㅎ ) 유전체 연구는 흥미진진하니깐 한번 훑어보려고 합니다.

물론 제가 할게 아니니깐 일단 골라봤습니다. :)

제목은 "Genetic epidemiology of blood type, disease and trait variants, and genome-wide genetic diversity in over 11,000 domestic cats" 으로 만여마리 이상의 국내 고양이(여기서 국내는 USA입니다.)를 대상으로 시퀀싱을 하여 질병과 혈액형 그리고 표현 특징들에 대한 변이들에 대해서 한번 분석했다고 합니다.

DOI: 10.1371/journal.pgen.1009804


gemini

## 고양이 유전체 연구: 고양이의 건강과 복지 개선을 위한 새로운 희망

고양이는 인류 역사상 가장 오랫동안 가까이 지내온 동물 중 하나입니다. 우리는 그들의 귀여운 모습, 장난스러운 성격, 그리고 따뜻한 애정에 매료되어 왔습니다. 하지만 고양이 또한 질병, 행동 문제 및 기타 건강 문제에 취약합니다. 

최근 몇 년 동안 과학자들은 고양이 유전체 연구에 대한 투자를 늘려왔습니다. 이 연구는 고양이의 유전자가 건강, 질병, 행동 및 진화에 어떻게 영향을 미치는지 이해하는 것을 목표로 합니다. 연구 결과는 고양이의 건강과 복지를 개선하고 인간 건강에 대한 새로운 통찰력을 제공하며 생물 다양성 보존 노력을 지원하는 데 사용될 수 있습니다.

**고양이 유전체 연구의 주요 발견:**

* 연구원들은 암, 심장병 및 당뇨병과 같은 복잡한 질병의 유전적 기초를 밝히고 있습니다.

* 과학자들은 공격성, 불안 및 강박 장애와 같은 행동 문제의 유전적 기초를 연구하고 있습니다.

* 고양이 유전체 연구는 고양이의 기원과 다양한 품종의 발달에 대한 새로운 통찰력을 제공하고 있습니다.

**고양이 유전체 연구의 잠재적 이점:**

* 유전 질환의 원인을 식별하고 새로운 치료법을 개발하는 데 도움이 됩니다.

* 개인 맞춤형 의료 및 예방 전략 개발을 가능하게 합니다.

* 번식 프로그램을 개선하고 건강한 고양이를 촉진합니다.

* 질병에 대한 진단 및 예후 예측을 개선합니다.

* 새로운 치료법 및 예방 조치 개발을 위한 토대를 마련합니다.

* 고양이와 인간 간의 관계를 개선합니다.

* 고양이의 기원과 다양한 품종의 발달을 연구하는 데 도움이 됩니다.

* 인간과 고양이가 공유하는 질병에 대한 새로운 치료법 개발을 위한 토대를 마련합니다.

* 인간 유전학 및 질병에 대한 새로운 통찰력을 제공합니다.

* 개인 맞춤형 의학 발전에 기여합니다.

**고양이 유전체 연구의 윤리적 고려:**

* 고양이 유전체 연구는 윤리적 원칙에 따라 수행되어야 합니다.

* 연구에 참여하는 고양이의 복지가 보호되어야 합니다.

* 연구 결과는 책임감 있게 사용되어야 합니다.

**결론:**

고양이 유전체 연구는 고양이와 인간 모두에게 다양한 잠재적 이점을 제공하는 강력한 도구입니다. 연구 결과는 고양이의 건강과 복지를 개선하고 인간 건강에 대한 새로운 통찰력을 제공하며 생물 다양성 보존 노력을 지원하는 데 사용될 수 있습니다. 연구는 윤리적 원칙에 따라 수행되어야 하며 연구에 참여하는 고양이의 복지가 보호되어야 합니다.

**이 블로그 게시물이 고양이 유전체 연구에 대한 귀하의 이해를 높이는 데 도움이 되었기를 바랍니다. 궁금한 점이 있으면 언제든지 의견을 남겨주세요.**

**#고양이 #유전체 #연구 #건강 #복지 #질병 #행동 #진화 #윤리 #과학**


clova-x

 고양이의 유전체 연구는 고양이의 생물학적 특성과 유전적 질병을 이해하고, 이를 예방하고 치료하는 데 중요한 역할을 합니다. 고양이의 유전체 연구는 고양이의 생물학적 진화와 국내화를 설명하고, 고양이의 유전적 변이를 설명하는 데에도 유용합니다.

고양이의 유전체 연구는 고양이의 건강과 번식에 대한 정보를 제공합니다. 예를 들어, 유전학적 검사는 유전적 질병을 예방하기 위해 사용되며, 환자에게 맞춤형 치료를 제공하기 위해 사용됩니다. 또한, 고양이의 유전체 연구는 인간, 개, 고양이의 유전학적 연구를 통해 유전학적 질병과 유전적 변이를 식별하는 데 사용됩니다.

고양이의 유전체 연구는 고양이의 생물학적 특성과 유전적 질병을 이해하고, 이를 예방하고 치료하는 데 중요한 역할을 합니다. 또한, 고양이의 건강과 번식에 대한 정보를 제공하여 고양이의 건강과 복지를 증진하는 데에도 기여할 수 있습니다. 고양이의 유전체 연구는 고양이의 건강과 복지를 증진하는 데 매우 중요한 역할을 합니다.


chatGPT

## 고양이 유전체 연구의 중요성과 그 의의

### 고양이 유전체 연구란?

최근 2022년 6월 16일에 발표된 연구는 11,000마리가 넘는 국내 고양이의 유전적 역학에 관한 중요한 내용을 다루고 있습니다. 이 연구는 다양한 고양이 품종을 대상으로 포괄적인 유전자 분석을 수행하여, 고양이의 유전적 다양성과 질병 연관 변이를 체계적으로 조사하고 있습니다.

### 왜 고양이 유전체 연구를 하게 되었을까요?

고양이 유전체 연구의 목적은 여러 가지입니다. 먼저, 고양이 품종 간의 유전적 다양성을 이해하고, 이를 통해 특정 품종에서 발생하는 질병과 관련된 유전 변이를 파악하고자 했습니다. 유전적 다양성을 평가함으로써 품종 간 유전적 취약성을 줄이고 건강을 개선할 수 있는 방안을 찾는 것이 중요했습니다.

또한, 유전자 검사를 통해 질병과 관련된 변이를 조기에 발견하고, 이를 통해 질병의 예방 및 관리에 도움을 주기 위해서입니다. 특히, 족보 있는 고양이의 경우 특정 유전 질병에 취약할 수 있으므로, 이러한 질병을 조기에 발견하고 관리하는 것이 중요합니다.

### 연구의 주요 발견

이 연구는 다음과 같은 주요 결과를 도출했습니다:

1. **질병 연관 변이**: 47개의 품종 또는 품종 유형에서 13개의 질병 연관 변이가 새롭게 발견되었습니다. 이는 고양이의 건강 관리 및 예방에 중요한 정보를 제공합니다.

2. **혈액형 변이**: A, B, AB 혈액형을 결정하는 유전 변이도 조사되었습니다. 이는 수혈이나 의료 상황에서 중요한 역할을 합니다.

3. **외모 관련 유전자 변이**: 다양한 외모를 결정하는 유전자 변이도 다루어져, 고양이의 품종별 특성을 이해하는 데 도움이 됩니다.

4. **유전자 다양성**: 각 고양이 품종의 유전자 다양성을 평가하여 이종 교배의 필요성을 제기하였습니다. 이는 품종의 건강과 생존을 위한 중요한 정보입니다.

### 고양이 유전체 연구의 의의

고양이 유전체 연구는 여러 가지 중요한 의의를 가지고 있습니다:

1. **질병 진단과 치료**: 유전적 질병의 조기 발견과 맞춤형 치료 계획 수립이 가능합니다.

2. **혈통 및 번식 관리**: 유전적 다양성을 유지하고 유전적 결함을 최소화하는 번식 전략을 수립할 수 있습니다.

3. **과학적 연구와 교육**: 유전학의 기초 연구에 기여하며, 교육 자료로 활용될 수 있습니다.

4. **인간 건강 연구와의 연관성**: 고양이는 인간과 유사한 질병을 겪는 경우가 많아, 인간 질병 연구에도 기여할 수 있습니다.

5. **보존과 생물 다양성**: 멸종 위기 종의 보존 전략 수립과 생물 다양성 유지에 도움이 됩니다.

### 결론

고양이 유전체 연구는 고양이의 건강과 복지를 향상시키고, 품종 육성 프로그램과 연구 공동체에 중요한 정보를 제공합니다. 또한, 이 연구는 고양이와 인간 모두의 건강 연구에 중요한 기초 자료를 제공하여, 반려동물 주인과 수의사에게 유용한 정보를 제공할 것입니다. 앞으로도 지속적인 연구를 통해 고양이와 인간의 건강과 행복을 증진시키기를 기대합니다.

이 글을 통해 고양이 유전체 연구의 중요성과 그 의의를 이해하는 데 도움이 되셨기를 바랍니다. 고양이와 함께 행복하고 건강한 삶을 누리시길 바랍니다!


최근 요 몇일 gemini의 센스가 부쩍 늘었습니다. 블로그 게시글 하단에 해시태그까지!! 우리의 clova-x는 살짝 분량이 좀 아쉽네요. 이전에는 이런저런 내용도 덧붙여줬던 것 같은데 말입니다. 요즘에는 어딘가 살짝... 귀차니즘이 들어 앉은 느낌? chatGPT는 역시나 잘 정리해준것 같습니다. 이번에 claude가 빠진 이유는 당연히 무료 분량을 넘어 섰기 때문입니다. :)

그럼 또 다음에 흥미로운 논문을 가져와보도록 하겠습니다.



출처: @ye._.vely618


금요일, 10월 27, 2023

롱리드 시퀀싱을 쓰지 않을 이유가 있는가?

이번 논문은 제가 참여한 논문입니다.. 흠흠..

이름하여 Two long read-based genome assembly and annotation of polyploidy woody plants, Hibiscus syriacus L. using PacBio and Nanopore platforms

DOI: 10.1038/s41597-023-02631-z

Hibiscus syriacus, 쉽게말해 무궁화 genome을 assembly하는데 어떤 데이터를 어떤 assembly 도구로하면 그래도 가성비가 좋은지에 대해서 확인한 논문 되겠습니다.

무궁화는 full genome은 이미 몇해전에 나와있는 상태고요, 아마 무궁화가 2배체가 아니라 4,6배체로 기억됩니다. 그래서 숏리드가지고 assembly가 만만치 않았는데 그 데이터를 바탕으로 이전에는 short리드로 어렵싸리 했었는데 이번에는 롱리드 시퀀싱으로 하면 어떻게 되는지 확인 해보자 입니다.

이전 무궁화 genome project 논문에서 핸들링하는 데이터 양을 정확히는 모르겠으나 어마무시했던것으로 알고 있습니다. 거기다가 숏리드라서 양쪽 로우 퀄리티 좀 정리해주고, scaffold용 mate-paired 데이터 정리작업하는데도 아마 꽤나 시간이 걸릴겁니다.

나노포어 데이터(ONT)와 PacBio data가 있었는데, 솔까말 ONT 데이터로만 해도... 사실 갠춘합니다.

그런데 여기서 중요한것은 ONT가 중요하기도 하지만 ONT의 장점을 십분 발휘할 수 있게 해주는 DNA 뽑는게 ART되겠습니다. ONT가 길게 읽을 수 있는거지 template가 짧으면 ONT도 길게 읽고 싶어도 못읽습니다.

결국 실험자의 손이 중요합니다. 손 똥손이면 ONT도 해결 못해줍니다.

그 똥손도 가능하게 해주는게 commercial prep kit이긴한데 현재 기준으로 그런 kit이 있는지는 저는 모르겠습니다. 


여튼 그래서 ONT 데이터를 앞뒤없이 다 때려박고 assembly하지 않았습니다.

cell 하나, cell 2개, 결과가 어떻게 달라지는지 확인해고, assembly tool마다 결과는 어떻게 나오는지 확인하면서 테스트 하였고, 이거쓰세요는 하지 못했지만 그럭적럭 요정도 생산해서 이 tool쓰면 평타 칩니다 라고 가이드는 해드릴 수 있는 논문되겠습니다.

다음에는 테스트하는 code를 간지나게 git에 올려놓고 논문에 url하나 올려둘 수 있도록 해봐야겠습니다. :)


그럼 또 쓸만한 논문을 찾아 돌아오도록 하겠습니다.




수요일, 7월 20, 2022

Long Read 조립은 누가누가 잘하나

Piroplasm를 나노포어를 사용하여 genome project를 진행했고 나노포어를 활용한 assembler들에 대한 성능 비교 논문 되겠습니다.


제목은 Systematic Comparison of the Performances of De Novo Genome Assemblers for Oxford Nanopore Technology Reads From Piroplasm

doi는 https://doi.org/10.3389/fcimb.2021.696669


piroplasm이 몬지는 모르겠으나 일단 그렇게 엄청나게 복잡하지는 않은 원생동물이나 사람이나 동물들에게 질병을 일으키는 녀석 되는 것 같습니다. funding중에 동물 전염병 및 인수공통전염병 관련 프로그램이 있는것으로 보아하니...


여튼 중요한건 nanopore로 읽어낸 서열을 사용하여 genome 조립할때 어떤 어떤 조립 프로그램이 제일 좋은지를 검토해본 것이니 OLC (Over-Layout-Consensus)나 전통적인 de-Brujin graph, string graph-based 방법 등등의 NECAT, Canu, wtdbg2, Miniasm, Smartdenovo, FlyeNextDenovo, Shasta와 같이 일반적으로 long-read에 사용하는 assembler들을 비교 테스트 하였다고 합니다.

대신 여기서는 assembly의 정확도와 함께 CPU 사용량, 메모리 사용량, 분석시간 사용방법 등등에 대해서도 함께 평가했다고 합니다. 참 바람직한 태도라고 봅니다. 모든 연구팀들이 그래픽카드 4개꼽히고 6T 메모리의 4U 서버를 가지고있는것은 아니니 말입니다.


실험 방법은 prioplasm free한 양 2마리(??)에게 prioplasm을 감염시켜 잘 배양(??)시킨 다음 Qiagen 사용 prep kit을 가지고 DNA 추출하고 PromethION으로 시퀀싱하였고 데이터 셋트에 따른 assembly 결과 평가를 위해 6가지 생산량 (약 15x, 30x, 50x, 70x, 100x, 120x)의 셋트를 만들었다고 합니다. 그리고 추가적(aka error correction)으로 (일루미나와 특허 소송에서 승리한) MGI로도 시퀀싱을 하였다고 합니다.


여튼 결과적으로

N50과 contig개수(적을수록 좋음)는 생산량과 밀접하고,
분석 시간은 생산량이 많으면 어떤 assembler를 사용하던 길어졌고,
polishing은 안하는것보다 하는것이 좋은것 같고 각 tool의 장단점은 Figure3에 방사형 그래프로 이쁘게 표현하였으니 한번 참고하시면 좋을것 같습니다.

그래서 Miniasm, Flye, wtdbg2는 그닥 좋은 선택지는 아닌것 같고 평균 커버리지가 30x 이상 확보된다면 NECAT, Canu, NextDenovo, Smartdenovo가 더 나은것 같다 정도 되겠습니다.

(사실 위의 tool들을 실행시키려면 평균 30x 이상은 있어야 작동을 합니다. 안그러면 작동안하던지 말도안되는 결과들을 뱉어내곤 합니다.)


그리고 시간이 충분했는지 각 assembler 결과들을 병합/후처리하는 작업을 하여 더 나은 assembly 결과를 보여주는지 테스트 했고 몇몇 조합에서 결과물이 향상된것을 확인했다는데... dramatically 좋은 결과는 보여주지 않은것 같았습니다. 

만약 병합/후처리하는 결과가 좋았다면 논문 결과가 single assembler 쓰지말고 ensemble방법을 추천드립니다라고 했었을테니 말이죠.. 



출처: @candyz_hyojung


일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)


오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한  BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -


3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )




Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.


Sequencing Samples Bases(Gbp) Read(x106) Clean rare >Q20 >Q30 GC Mean coverage
BGISEQ500-WES 29.41 294.3 0.41% 96.72% 89.14% 49.75%  328.49X
MGISEQ2000-WES 16.34 163.55 0.25% 98.18% 92.08% 49.71%  129.40X
HiSeq4000-WES 41.93 283.7 4.46% 97.36% 93.01% 50.63%  395.17X
NovaSeq-WES 25.88 178.87 2.25% 95.33% 92.67% 49.73%  241.52X
BGISEQ500-WGS 126.86 1270.02 1.76% 93.73% 83.33% 41.76%  41.03X
MGISEQ2000-WGS 137.36 1374.87 0.21% 96.17% 88.19% 41.76%  45.13X
HiSeq4000-WGS 191 1276.1 8.25% 95.90% 90.11% 41.69%  58.00X
NovaSeq-WGS 98.3 657.45 1.28% 95.89% 93.86% 41.61%  28.96X
HiSeq Xten-WGS 134 894.58 7.29% 94.50% 87.63% 40.71%  38.93X
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ...  :)


출처: @sana_twice.09