Lee Gir-Won (Lee Gil-Won): Genome

레이블이 Genome인 게시물을 표시합니다. 모든 게시물 표시

금요일, 7월 04, 2025

북유라시아에서 남아메리카 파타고니아까지

오늘은 북아시아에서 시작해서 아메리카로 이주와 정착과정에서 유전적 다양성이 어떻게 적응하였는지에 대한 내용입니다. 일단 시퀀싱했어요! 제목은 From North Asia to South America: Tracing the longest human migration through genomic sequencing 입니다.

DOI: 10.1126/science.adk5081

clova-x

이 연구는 고대 유러시아와 아메리카로의 인간 이주와 정착 과정에서의 유전적 다양성과 적응을 조사하였습니다. 대규모 게놈 시퀀싱을 통해 여러 민족 그룹의 유전적 특성과 역사적 배경을 분석하였습니다.
1. **연구 목적**
- 고대 유러시아와 아메리카의 현대 인구 구조 형성에 영향을 미친 동적인 과정을 이해하고자 하였습니다.
- 유전적 다양성, 인구 이동, 환경 요인의 영향을 조사하였습니다.
2. **주요 발견**
- 모든 현대 시베리아인과 일부 북동 유럽 및 중앙아시아인은 케트와 네네츠로 대표되는 서부 시베리아 그룹과 조상을 공유합니다.
- 베링지아의 코랴크, 이누이트, 루오라웨틀란은 다른 시베리아인들과 가장 유전적으로 구별되며, 북극 조건에 적응하기 위한 유전적 변이를 보여줍니다.
- 남아메리카 초기 이민자들은 약 13,900년 전 아마존인, 안데스인, 차코 아메린디언, 파타고니아인으로 분리되었으며, 이후 지리적 장벽으로 인해 인구 고립과 유전적 다양성의 감소가 발생하였습니다.
3. **유전적 적응과 역사적 맥락**
- 서부 베링지아 인구는 의학적으로 관련된 변이를 포함하여 북극 기후에 유전적으로 적응하였습니다.
- 남아메리카의 인구 감소와 전통 생활양식, 문화, 언어의 손실은 몇몇 원주민 공동체를 멸종 위기로 몰아넣었습니다.
4. **연구 방법론**
- 1537명의 개인으로부터 얻은 139개 민족 그룹의 대규모 게놈 시퀀싱 데이터를 사용하여 인구 구조와 역사적 인구학을 재구성하였습니다.
- 과거 환경과 생활양식이 북유라시아와 남아메리카 인구의 다양화에 미친 역할을 명확히 하고자 하였습니다.

chatGPT

안녕하세요! 사용하신 연구 논문 \*\*"From North Asia to South America: Tracing the longest human migration through genomic sequencing"\*\*를 바탕으로 일반 대중이 이해할 수 있도록 블로그 스타일로 쉬운 요약 글을 아래와 같이 구성해보았습니다:
---
## 🧬 인류의 가장 긴 여정: 북아시아에서 남미까지, 유전자를 통해 밝혀낸 이야기
### 📌 연구 배경 – 왜 이 연구가 필요했을까요?
수천 년 전, 인류는 아프리카에서 출발해 유럽과 아시아를 거쳐 결국 아메리카 대륙에까지 도달했습니다. 특히 남미의 끝자락인 파타고니아까지 도달한 사람들은 가장 긴 인류의 여정을 완성한 셈인데요, 이들이 어떻게 이동했고 어떤 경로를 따라갔는지, 그리고 그 여정이 현재의 사람들 유전자에 어떤 흔적을 남겼는지를 밝히는 것은 아직도 미지의 영역이 많았습니다. 기존 연구는 일부 유전자 정보만을 기반으로 해 한계가 있었기에, 보다 정밀한 분석이 필요했습니다.
### 🔍 연구 목적 – 연구진이 알고자 했던 것
이 연구는 인류가 북아시아에서 남미까지 어떻게 이동했는지 그 과정을 유전체 분석을 통해 추적하고자 했습니다. 이를 통해 옛 환경 조건, 인종 간 혼합, 고립 현상 등이 현대인의 유전적 다양성에 어떤 영향을 미쳤는지를 밝혀내고자 했습니다.
### 🧪 데이터 또는 재료 설명 – 어떤 데이터를 사용했을까요?
연구진은 북유럽, 시베리아, 러시아 극동, 그리고 남미 원주민 등 다양한 지역의 **139개 민족, 총 1537명의 전체 유전체(Genome)를 분석**했습니다. 쉽게 말해, 각 사람의 DNA 전체를 분석해서 조상과의 관계, 유전적 특성, 유전병 가능성 등을 파악한 것입니다. 이 데이터는 기존보다 훨씬 더 정밀하고 방대한 자료입니다.
### 🔬 연구 방법 – 연구는 어떻게 진행되었나요?
1. **DNA 전체 분석(Whole-Genome Sequencing)**: 기존 일부 유전자만 보는 방식이 아닌, 유전체 전체를 분석했습니다.
2. **인종 및 조상 추적**: 각 민족의 유전적 유사성, 혼합 여부, 고립 정도를 분석했습니다.
3. **환경 적응 유전자 확인**: 극지방이나 고산지대 등 특수한 환경에 적응한 유전자를 추적했습니다.
4. **면역 및 질병 관련 유전자 분석**: 면역력과 관련된 유전자(HLA)를 중심으로 인구의 건강 리스크도 평가했습니다.
### 📈 연구 결과 및 예시 – 어떤 결과가 나왔나요?
* **공통 조상**: 북시베리아에 살았던 켓(Ket)과 네넷(Nenets)이라는 부족이 대부분의 시베리아인과 일부 유럽·중앙아시아인들의 공통 조상입니다.
* **극지방 적응 유전자**: 이누이트와 같은 북극권 주민은 지방 대사와 체온 유지에 특화된 유전자를 가지고 있습니다.
* **남미 원주민의 네 계통**: 아마존, 안데스, 차코, 파타고니아 지역 원주민들은 약 1만 3천 년 전 공통 조상에서 갈라졌고, 지리적 고립으로 인해 서로 매우 다르게 진화했습니다.
* **유전적 다양성 감소**: 남미로 내려간 인구는 제한된 수였기 때문에, 유전적 다양성이 줄어들었고 일부 집단(예: 카웨스카르)은 유전적 고립이 심각해졌습니다.
예시: 안데스 고산지대에 사는 케추아족은 고산지에 적응한 \*\*'산소 부족에 강한 유전자(EPAS1)'\*\*를 가지고 있어 낮은 산소 환경에서도 잘 살아갑니다. 이 유전자는 티베트인에게서도 발견됩니다.
### 🌍 의미와 영향 – 이 연구가 왜 중요한가요?
* **유전학 연구에 새로운 기준 제공**: 기존에 잘 연구되지 않았던 시베리아 및 남미 원주민에 대한 대규모 유전체 데이터는 향후 질병 연구나 맞춤형 의학에서 중요한 기준이 됩니다.
* **감염병 및 약물 반응**: 유전적 다양성이 낮은 일부 집단은 새로운 감염병에 취약할 수 있으며, 약물에 대한 반응도 다를 수 있어 의료 정책 설계 시 고려되어야 합니다.
* **환경 보호 및 문화 보존**: 유전적 적응은 오랜 시간에 걸쳐 형성된 것이므로, 이들이 살아가는 환경(예: 극지방, 고산지대)이 보존되어야 건강한 삶을 유지할 수 있습니다.
---
이 논문은 단순한 과거 인류의 이동 경로를 밝히는 데 그치지 않고, 현재와 미래의 인류 건강과 공존을 위해 중요한 정보를 제공하고 있다는 점에서 큰 의미가 있습니다. 유전체 연구가 단지 과학실에서 끝나는 것이 아니라, 우리가 사는 세상과 밀접하게 연결되어 있다는 점을 다시금 느낄 수 있는 연구였습니다.

NotebookLM

안녕하세요! 개인 블로그에 흥미로운 연구 논문 내용을 공유하시고 싶으신 거군요. 전공자가 아닌 분들도 쉽게 이해하실 수 있도록 제공해주신 연구 논문을 바탕으로 요청하신 구성에 맞춰 요약 글을 작성해 드리겠습니다.
---
## 유전체 연구로 밝혀낸 인류의 가장 긴 여정: 북유라시아에서 남아메리카 파타고니아까지
안녕하세요, 여러분! 지구 반대편까지 이어진 인류의 놀라운 이동에 대해 유전체 연구로 밝혀낸 흥미로운 사실들을 함께 알아봐요.
**연구 배경 – 이 연구가 왜 필요했는지**
우리 인류는 아프리카에서 시작하여 전 세계로 퍼져 나갔어요. 특히 아시아를 거쳐 아메리카 대륙으로 이동한 후, 남아메리카 남쪽 끝인 파타고니아까지 도달한 여정은 '아프리카 밖으로의 이동' 중 가장 긴 여정이라고 할 수 있습니다.
이 장대한 여정의 중간 기착지였던 북유라시아와 최종 목적지인 남아메리카 원주민들이 어떻게 유전적으로 분화되고, 서로 섞이며, 고립되었는지에 대해서는 아직 논쟁이 많았어요. 기존 연구들은 주로 유전체 전체를 자세히 분석하는 '전장 유전체 시퀀싱'보다는 일부 유전자형만 분석하는 방식을 사용했기 때문에, 인류 이동의 고대 역동성을 더 깊이 이해하는 데는 한계가 있었습니다.
그래서 이 연구는 **북유라시아와 남아메리카의 현재 인구 집단들이 가진 유전적 다양성을 훨씬 더 자세하게 분석하여, 과거 인류 이동의 역사를 더 정확하게 밝혀낼 필요성** 때문에 시작되었습니다.
**연구 목적 – 연구진이 알고자 했던 것**
연구진은 대규모 전장 유전체 시퀀싱 데이터를 활용하여 다음 세 가지를 중점적으로 알고자 했습니다:
1. **인구 집단 구조 이해:** 북유라시아와 아메리카 원주민 집단들이 유전적으로 어떻게 구성되어 있고, 서로 어떤 관계가 있는지 알고 싶었어요.
2. **선사시대 인류 이동 경로 밝히기:** 과거 인류가 어떤 경로로 이동하고 정착했는지, 그리고 이 과정에서 서로 어떻게 유전적으로 섞였는지(혼혈) 구체적으로 밝히는 것을 목표로 했습니다.
3. **환경 요인이 인류 다양성에 미친 영향 탐구:** 추운 북극 환경이나 높은 안데스 산맥과 같은 다양한 환경에 적응하면서 인류의 유전자가 어떻게 변화했는지, 즉 자연 선택이 어떻게 작용했는지 알아보고 싶었습니다.
결과적으로, 이러한 인구 역사와 환경 적응 정보가 현재의 생물의학 연구에 어떤 중요한 시사점을 주는지도 함께 보여주고자 했습니다.
**데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지 (전공자가 아니어도 이해할 수 있게)**
이 연구에서는 **총 1537명의 유전체 데이터**가 사용되었어요. 이는 북유라시아와 아메리카 원주민 지역에 사는 **139개 민족 집단**에서 얻은 것입니다.
마치 우리 몸의 설계도와 같은 '유전체' 전체를 매우 자세하게 읽어내는 **'전장 유전체 시퀀싱'**이라는 최신 기술을 사용했습니다. 이를 통해 이전 연구들보다 훨씬 더 많은 유전 정보(약 7천만 개의 단일 염기 다형성(SNP)과 4만 개 이상의 삽입 및 삭제 변이)를 얻을 수 있었어요.
새롭게 분석한 데이터에 더해, 기존에 공개된 북아메리카 원주민들의 유전체 데이터도 함께 활용하여 더 풍부한 분석을 진행했습니다.
**연구 방법 – 연구가 어떻게 진행되었는지 (복잡한 용어는 쉽게 풀어 주세요)**
연구진은 확보한 대규모 유전체 데이터를 분석하기 위해 여러 가지 첨단 방법을 사용했어요:
1. **인구 구조 분석 (Admixture, PCA 등):** 다양한 통계 기법을 사용해서 각 개인의 유전체에 어떤 조상 그룹의 특징이 얼마나 섞여 있는지 파악했어요. 마치 여러 색깔의 물감이 섞여 새로운 색을 만들 듯이, 인류 집단들도 과거에 다른 조상 그룹과 만나 유전적으로 섞이는 과정(혼혈)을 거쳤거든요.
2. **인구 이동 및 분화 시점 추정 (Relate, qpGraph 등):** 각 인구 집단이 서로 언제 유전적으로 갈라졌는지, 그리고 각 집단의 인구 규모가 시간 흐름에 따라 어떻게 변했는지 등을 수학적 모델을 사용해서 계산했습니다. 과거 특정 시점에 인구 규모가 갑자기 줄어드는 '병목 현상'이나, 소수의 인원이 새로운 지역으로 이동하면서 유전적 다양성이 줄어드는 '창시자 효과' 같은 것들을 추정할 수 있어요.
3. **자연 선택 탐색 (XP-EHH, iHS, iSAFE 등):** 특정 환경에 적응하는 데 도움이 되는 유전자들이 다음 세대로 더 잘 전달되는 '자연 선택'이 일어난 흔적을 유전체 데이터에서 찾아냈습니다. 예를 들어, 추위에 잘 견디거나 산소가 희박한 곳에서 잘 지내게 하는 유전자들이죠.
4. **의학적으로 중요한 유전자 변이 분석:** 질병에 걸릴 위험을 높이거나 특정 약물에 대한 반응이 다르게 나타날 수 있는 유전자 변이들이 각 인구 집단에 얼마나 흔하게 나타나는지 조사했습니다.
이러한 다양한 분석 기법들을 통해 인류의 과거 이동과 환경 적응이 현재 인구 집단의 유전체에 남긴 흔적을 종합적으로 파악했습니다.
**연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시가 있다면 함께 설명**
연구의 주요 결과는 다음과 같습니다:
* **시베리아와 북유라시아의 복잡한 유전적 역사:** 현재 시베리아와 일부 북동 유럽, 중앙아시아 사람들은 케트족이나 네네츠족과 같은 **서시베리아 그룹과 조상을 공유**하는 것으로 나타났어요. 이는 과거 북유라시아 전역에 서시베리아 조상을 가진 인구 집단이 넓게 퍼져 있었다는 것을 의미합니다. 하지만 이들 그룹은 현재 인구가 크게 감소하는 추세라고 합니다.
* **북극 환경에 적응한 베링기아 사람들:** 서베링기아(추코트카 반도, 캄차카 반도 등)에 사는 코랴크족, 이누이트족, 루오라벳란족(축치족) 등은 유전적으로 다른 시베리아 사람들과 구별되는 특징을 보였습니다. 이들은 **추운 북극 환경에 적응하면서 유전적인 변화**를 겪었는데, 예를 들어 지방 대사, 체온 생성, 감각 인지, 생식 및 면역 기능 조절과 관련된 유전자들에서 자연 선택의 흔적이 발견되었습니다.
* **예시: 추위 적응 유전자:** CPT1A라는 유전자 변이는 북극 인구 집단에서 매우 흔하게 나타나는데, 이 변이를 가진 사람들은 특정 지방을 몸 안에 더 오래 유지하게 하여 체온을 유지하는 데 도움을 줄 수 있다고 합니다. 또한 LPAR1 유전자도 체온 생성과 관련되어 북극 환경 적응에 기여했을 가능성이 제시되었습니다.
* **아메리카 원주민의 기원과 분화:** 유전적으로 가장 가까운 현재 시베리아 그룹을 특정하기는 어려웠지만, **서베링기아 인구(이누이트, 코랴크, 루오라벳란족)가 아메리카 원주민과 가장 가까운 관계**라는 것이 확인되었습니다. 또한, 아메리카에서 베링기아 지역으로 유전자가 다시 흘러들어 간 흔적도 발견되었습니다.
* **남아메리카 원주민의 급속한 분화와 유전적 다양성 감소:** 남아메리카로 이동한 인류는 약 **13,900년 전에서 10,000년 전 사이에 아마존, 안데스, 차코 아메리카 원주민, 파타고니아인 네 그룹으로 빠르게 분화**했습니다.
* **예시: 창시자 효과와 지리적 고립:** 남아메리카는 좁은 파나마 지협을 통해 이동했기 때문에 소수의 인원만이 새로운 대륙으로 들어왔을 가능성이 높습니다. 이는 '창시자 효과'로 이어져 이미 유전적 다양성이 북유라시아 인구보다 낮았어요. 게다가 안데스 산맥, 아마존 밀림 같은 **지리적 장벽으로 인해 각 그룹이 고립되면서 유전적 다양성이 더욱 줄어들었습니다**. 특히 면역 시스템과 관련된 중요한 유전자들(HLA 유전자)의 다양성도 감소했습니다.
* **예시: 고산 지대 적응 유전자:** 안데스 산맥에 사는 사람들은 산소가 희박한 고산 환경에 적응하기 위해 EPAS1이라는 유전자에서 자연 선택의 흔적을 보였습니다. 이 유전자는 혈관 생성이나 적혈구 생성과 관련이 있어 높은 산소 농도를 유지하는 데 도움을 줄 수 있습니다.
* **최근 수천 년간 인구 감소:** 지난 10,000년 동안 네 그룹의 남아메리카 원주민 모두 인구가 **최소 38%에서 최대 80%까지 크게 감소**했습니다. 이러한 인구 감소와 전통 생활 방식, 문화, 언어의 손실이 일부 공동체를 멸종 위기로 몰아넣고 있다고 지적합니다.
* **의학적으로 중요한 유전자 변이:** 질병과 관련된 변이나 약물 부작용과 관련된 변이의 빈도가 인구 집단마다 다르게 나타나는 것을 확인했습니다.
**의미와 영향 – 이 연구가 다른 연구에는 어떤 영향을 줄 수 있는지 그리고 우리 일상이나 사회에 어떤 영향을 줄 지에 대한 내용도 함께 설명해주세요.**
이 연구는 대규모 전장 유전체 데이터를 통해 북유라시아와 아메리카 대륙 인류의 복잡한 이동 경로와 인구 역사를 **가장 상세하게 재구성**했다는 점에서 중요한 의미가 있습니다. 이는 향후 이 지역 인류의 역사를 연구하는 다른 연구들에게 핵심적인 기반 데이터를 제공할 것입니다.
또한, 다양한 환경(추위, 고산 지대 등)에 적응하면서 나타난 유전적 변화들을 구체적인 유전자를 통해 밝혀냄으로써 **인류가 어떻게 환경에 맞춰 진화해왔는지 이해하는 데 큰 도움**을 줍니다.
이 연구 결과는 우리 일상이나 사회에도 여러 시사점을 줍니다:
1. **생물의학 및 건강:** 인구 집단마다 질병에 대한 취약성이나 약물 반응이 다를 수 있다는 것은 이미 알려져 있지만, 이 연구는 특정 지역의 인구 역사와 유전적 특징(예: HLA 유전자 다양성 감소)이 이러한 차이에 어떻게 영향을 미칠 수 있는지 보여줍니다. 특히 유전적 다양성이 낮은 고립된 집단의 경우, 새로운 전염병에 더 취약할 수 있다는 점은 **해당 지역의 공중 보건 시스템 구축이나 의료 지원에 중요한 고려 사항**이 될 수 있습니다. 앞으로 맞춤 의학이나 질병 연구를 할 때, 각 인구 집단의 고유한 유전적 배경을 이해하는 것이 중요함을 강조합니다.
2. **문화 및 환경 보존:** 이 연구는 북극이나 안데스 고산 지대처럼 특정 환경에 적응하며 살아온 원주민들의 유전자가 그들의 전통적인 생활 방식이나 식단과 깊이 연결되어 있음을 시사합니다. 환경 파괴, 오염, 전통적인 식단 및 생활 방식의 상실은 이러한 집단들의 생존을 위협할 수 있습니다. 따라서 이 연구 결과는 **원주민 공동체의 환경을 보존하고 전통 문화를 존중하는 것이 그들의 건강과 생존, 그리고 인류 유전적 다양성 보존을 위해 얼마나 중요한지** 다시 한번 일깨워줍니다.
3. **인류 다양성에 대한 이해:** 유전체 연구를 통해 인류가 얼마나 다양하고, 각각의 집단이 어떻게 고유한 역사를 가지며 환경에 적응해왔는지를 이해하게 됩니다. 이는 우리 사회가 다양한 문화와 배경을 가진 사람들을 **더 깊이 이해하고 존중하는 데 기여**할 수 있습니다.
이 연구는 과거 인류의 위대한 여정이 현재 우리 유전자에 어떤 흔적을 남겼는지 보여주며, 이는 단지 과학적인 사실을 넘어 현재 인류의 건강 문제나 문화 및 환경 보존 문제와도 연결된다는 점을 강조합니다.

grok3

북아시아에서 남아메리카까지: 인류의 긴 여정을 유전자로 추적하다
연구 배경 – 왜 이 연구가 필요했을까?
인류는 아주 오래전, 약 4만 5천 년 전부터 북아시아의 추운 땅으로 퍼져나가기 시작했어요. 그리고 시간이 지나면서 일부는 베링 해협을 건너 아메리카大陸에 도착했죠. 특히 남아메리카 최남단인 파타고니아까지 도달한 사람들은 아프리카를 떠난 인류 중 가장 먼 거리를 이동한 셈이에요. 하지만 이 긴 여정이 정확히 어떻게 이루어졌는지, 어떤 사람들이 어디서 어떻게 갈라졌는지 아직 명확하지 않았어요. 기존 연구들은 주로 유전자 칩 데이터를 사용했지만, 이 연구는 더 정밀한 전체 유전자 분석을 통해 이 미스터리를 풀어보려고 했습니다.
연구 목적 – 연구진이 알고 싶었던 것
연구진은 북아시아와 남아메리카 원주민들의 유전자를 분석해서 다음 질문들에 답하고 싶었어요:
이 지역 사람들의 유전자는 어떤 공통점을 가지고 있을까?
인류는 언제, 어떻게 아메리카로 이동했을까?
추운 시베리아나 남아메리카의 다양한 환경이 사람들의 유전자에 어떤 영향을 미쳤을까?
이런 유전자 정보가 오늘날 건강이나 의료 연구에 어떻게 도움이 될까?
쉽게 말해, 인류의 이동 경로와 그 과정에서 어떻게 적응했는지, 그리고 그 결과가 현재 어떤 영향을 미치는지 알아보려 했어요.
데이터 또는 재료 설명 – 어떤 데이터를 사용했나?
연구진은 27개국에서 139개 민족 집단, 총 1537명의 유전자를 분석했어요. 이건 엄청 큰 규모의 데이터예요! 특히 북아시아(시베리아, 러시아 극동 지역)와 남아메리카 원주민들의 유전자를 집중적으로 봤죠. 이 유전자 데이터는 사람의 DNA를 아주 정밀하게 읽어내는 기계(일루미나 시퀀싱 플랫폼)로 얻었어요. 쉽게 말하면, 사람들의 유전자 코드를 책처럼 읽어서 비교한 거예요. 추가로, 과거 고대인의 유전자 데이터도 일부 포함해서 더 깊이 있는 분석을 했습니다.
예를 들어, 시베리아의 켓족이나 네네츠족, 남아메리카의 파타고니아 원주민 같은 다양한 그룹의 유전자를 살펴봤어요. 이렇게 많은 사람들의 데이터를 모으니까, 인류가 어떻게 이동하고 섞였는지 큰 그림을 그릴 수 있었죠.
연구 방법 – 어떻게 연구했나?
연구진은 여러 가지 분석 도구를 사용했어요. 복잡한 용어는 피하고 쉽게 설명하자면:
유전자 비교: 사람들의 유전자를 비교해서 어떤 그룹이 서로 비슷한지, 어떤 공통 조상을 가졌는지 알아봤어요. 마치 가족 나무를 그리는 것과 비슷해요.
인구 변화 추적: 과거에 인구가 얼마나 컸었는지, 언제 줄어들었는지 알아내는 도구를 사용했어요. 이건 시간 여행을 하며 인구 변화를 지켜보는 것 같은 작업이에요.
환경 적응 분석: 특정 유전자가 추운 환경이나 고지대 환경에 어떻게 적응했는지 찾아냈어요. 예를 들어, 추운 지역에 사는 사람들이 체온을 유지하는 데 도움이 되는 유전자를 가지고 있는지 살펴봤죠.
면역 유전자 조사: 면역 관련 유전자(HLA 유전자)가 얼마나 다양하고, 이게 건강에 어떤 영향을 미치는지 분석했어요.
이 모든 분석은 컴퓨터 프로그램을 사용해서 유전자 데이터를 꼼꼼히 들여다보는 방식으로 진행됐어요.
연구 결과 및 예시 – 어떤 결과를 얻었나?
이 연구에서 나온 주요 결과들을 쉽게 정리해볼게요:
북아시아의 유전자 연결:
시베리아의 켓족이나 네네츠족 같은 서시베리아 사람들은 동아시아와 북유럽 사람들의 유전자를 섞여 가지고 있어요. 약 1만 년 전만 해도 이들은 꽤 큰 인구였지만, 지금은 73.6%나 줄어들었어요.
코랴크족이나 이누이트족 같은 베링해협 근처 사람들은 아메리카 원주민과 가장 가까운 유전자를 가지고 있어요. 예를 들어, 이누이트족은 28% 정도 아메리카 원주민 유전자를 공유하고 있죠.
남아메리카로의 이동:
약 1만 3900년에서 1만 년 전, 남아메리카 원주민은 아마존, 안데스, 차코, 파타고니아 네 그룹으로 나뉘었어요. 이건 마치 한 가족이 네 방향으로 흩어져 각자 다른 마을을 만든 것과 비슷해요.
이 과정에서 유전자 다양성이 많이 줄어들었어요. 특히 파타고니아의 카웨스카르족은 가장 먼 거리를 이동해서 유전자 다양성이 가장 적어요. 이건 작은 마을에서 오랫동안 서로만 결혼한 것과 비슷한 효과예요.
환경 적응:
베링해협 지역 사람들은 추운 환경에 적응한 유전자를 가지고 있어요. 예를 들어, 지방을 에너지로 바꾸는 데 중요한 CPT1A 유전자가 이들에게 많아요. 이 유전자는 추운 날씨에서 체온을 유지하는 데 도움을 줘요.
안데스 고지대 사람들은 높은 고도에 적응한 유전자를 가지고 있어요. 마치 산에서 숨쉬기 쉽게 만드는 유전자 비법 같은 거죠.
면역과 건강:
남아메리카 원주민, 특히 파타고니아 사람들은 면역 관련 유전자(HLA)가 다양하지 않아요. 이건 새로운 병원균에 취약할 수 있다는 뜻이에요. 예를 들어, 유럽인들이 1600년대에 새로운 질병을 가져왔을 때 원주민들이 큰 타격을 받은 이유 중 하나일 수 있어요.
의미와 영향 – 이 연구가 왜 중요할까?
이 연구는 단순히 과거를 알아내는 데 그치지 않아요. 몇 가지 중요한 점을 우리에게 알려줍니다:
인류의 역사 이해:
인류가 어떻게 전 세계로 퍼져나갔는지, 특히 아메리카로 어떻게 갔는지 큰 그림을 보여줘요. 이건 우리가 어디서 왔는지, 어떻게 지금의 우리가 되었는지 이해하는 데 큰 도움을 줍니다.
건강과 의료:
유전자 다양성이 적은 원주민들은 새로운 병원균에 취약할 수 있어요. 이 정보는 의료 전문가들이 원주민 공동체에 더 나은 의료 지원을 제공하는 데 도움을 줄 수 있어요. 예를 들어, 특정 약물이 어떤 유전자를 가진 사람들에게 부작용을 일으킬 수 있다는 걸 알게 되면, 더 안전한 치료법을 찾을 수 있죠.
문화와 환경 보존:
원주민들의 전통적인 생활 방식과 환경이 그들의 유전자에 큰 영향을 미쳤어요. 하지만 현대 사회에서 환경 파괴나 전통 음식의 상실은 이들의 건강과 문화를 위협하고 있어요. 이 연구는 원주민 공동체를 보호하고, 그들의 전통을 지키는 게 얼마나 중요한지 보여줍니다.
미래 연구에 미치는 영향:
이 연구는 다른 유전자 연구나 인류학 연구에 큰 도움을 줄 거예요. 예를 들어, 특정 유전자가 환경에 어떻게 적응했는지 더 깊이 연구하거나, 다른 지역 원주민들의 유전자도 비슷한 방식으로 분석할 수 있죠.
일상에 미치는 영향
이 연구는 우리 일상에도 시사점이 있어요. 예를 들어, 원주민들이 겪은 유전자 다양성 감소는 현대 사회에서도 작은 공동체에서 비슷하게 나타날 수 있어요. 또한, 특정 유전자가 건강에 미치는 영향을 알면, 개인 맞춤형 의료가 발전하는 데 도움이 됩니다. 무엇보다, 원주민들의 전통과 환경을 지키는 게 그들뿐 아니라 우리 모두의 미래에 중요하다는 메시지를 전해줍니다.
이 연구를 읽으며, 인류의 긴 여정과 그 안에서 적응해온 놀라운 이야기에 감탄했어요. 여러분도 이 이야기가 흥미로웠다면, 주변에 공유해보세요! 우리 모두의 뿌리를 알아가는 건 정말 멋진 일이니까요.

perplexity.ai

## 연구 배경
인류는 약 4만 5천 년 전부터 유라시아 대륙을 넘어, 결국 아메리카 대륙까지 확장하며 지구 곳곳에 퍼졌습니다. 특히 남아메리카의 파타고니아까지 이르는 여정은 인류가 아프리카를 떠난 이후 가장 긴 이주 경로로 꼽힙니다. 하지만 북아시아와 남아메리카 원주민들의 유전적 관계, 그리고 이들이 어떻게 각 지역에 정착하고 다양해졌는지에 대해서는 아직도 많은 논쟁이 있었습니다. 기존 연구들은 주로 일부 유전자 정보만을 사용해왔기 때문에, 더 정밀하고 방대한 데이터가 필요했습니다[1].
## 연구 목적
이 연구진은 북아시아와 남아메리카 인구의 유전적 구조와 이동 경로, 그리고 다양한 환경에 적응해온 과정을 더 깊이 이해하고자 했습니다. 특히, 고대 인구들이 어떻게 분화되고 서로 섞였는지, 그리고 환경 변화가 인류의 유전적 다양성에 어떤 영향을 미쳤는지 밝히는 것이 목표였습니다[1].
## 데이터 또는 재료 설명
연구진은 27개국 139개 민족에서 온 1,537명의 현대인 유전체(전장 유전체)를 분석했습니다. 쉽게 말해, 다양한 지역과 민족의 사람들로부터 DNA 정보를 모아 비교한 것입니다. 이 데이터에는 시베리아, 북유럽, 러시아 극동, 그리고 아메리카 원주민 등이 포함되어 있습니다. 이 외에도 고대와 현대의 공개된 유전자 데이터도 함께 활용했습니다. 유전체 분석이란, 사람의 모든 유전 정보를 컴퓨터로 해석해서 서로 얼마나 비슷하거나 다른지 알아보는 방법입니다[1].
## 연구 방법
연구는 최신 유전체 시퀀싱(유전자 염기서열 분석) 기술을 사용해 각 개인의 DNA를 정밀하게 읽고, 이 데이터를 바탕으로 민족 간의 유전적 유사성과 차이, 그리고 과거 인구 이동 경로를 추적했습니다. 또한, 유전적 다양성이 어떻게 변화했는지, 특정 환경(예: 북극의 추위)에 어떻게 적응했는지까지 분석했습니다. 복잡하게 들릴 수 있지만, 쉽게 말하면 ‘인류의 가족관계와 이동 경로를 DNA로 추적한 것’입니다[1].
## 연구 결과 및 예시
- **시베리아와 아메리카 원주민의 관계**: 현대 시베리아인(특히 켓족, 네네츠족)은 1만 년 전 시베리아 전역에 널리 퍼져 있었으나, 현재는 인구가 73.6%나 줄어 소수민족이 되었습니다.
- **극지방 적응**: 코랴크족, 이누이트족 등 서베링기아 지역(러시아 극동)의 원주민들은 추운 북극 환경에 맞춘 유전적 특성을 가지고 있었습니다. 예를 들어, 지방 대사, 체온 조절, 감각기관, 면역 기능 등과 관련된 유전자 변이가 발견되었습니다.
- **아메리카 대륙 이주와 분화**: 남아메리카에 도착한 초기 인류는 약 13,900~10,000년 전에 아마존, 안데스, 차코, 파타고니아 네 집단으로 나뉘었습니다. 대륙을 이동하면서 지리적 장벽에 의해 서로 고립되어 유전적 다양성이 크게 줄었고, 특히 면역 관련 유전자(HLA) 다양성이 감소했습니다.
- **인구 감소와 문화 위기**: 지난 1만 년 동안 남아메리카 원주민들은 38~80%에 달하는 인구 감소를 겪었습니다. 이로 인해 전통 생활방식, 문화, 언어가 사라질 위기에 처한 집단(예: 카웨스카르족)도 있습니다.
예를 들어, 남아메리카의 아마존과 파타고니아 원주민은 서로 DNA가 꽤 다르며, 이는 오랜 시간 서로 고립된 결과입니다. 또, 극지방에 사는 이누이트족은 추운 환경에 맞춰 ‘지방을 잘 분해하고, 체온을 잘 유지하는’ 유전적 특성을 갖고 있습니다[1].
## 의미와 영향
이 연구는 인류가 어떻게 지구 곳곳에 퍼지고, 각 지역 환경에 맞춰 적응해왔는지에 대한 새로운 증거를 제공합니다. 특히, 남아메리카 원주민의 유전적 다양성이 매우 낮아졌다는 사실은 질병에 대한 저항력이 약해질 수 있음을 시사하며, 이는 보건·의료 연구에 중요한 자료가 됩니다. 또한, 전통 문화와 언어가 사라질 위기에 처한 소수민족의 현실을 보여주며, 이들의 보존과 지원 필요성을 강조합니다.
더 나아가, 이런 대규모 유전체 연구는 앞으로 질병 연구, 맞춤형 의료, 인류학 등 다양한 분야에서 중요한 기초 자료로 활용될 수 있습니다. 즉, 우리의 뿌리와 미래를 이해하는 데 큰 도움을 주는 연구입니다[1].

출처: @ye._.vely618

수요일, 5월 28, 2025

병원균 유전체를 빠르고 정확하게 알아내는 방법에 대해서

오늘은 여기저기 끄적이다가 본 논문인데 보통 k-mer 방법으로 유전체의 크기를 추정하는데, 그 방법을 활용해서 outbreak를 일으킨 병원균들을 좀 더 빠르게 분석할 수 있는 tool을 개발한 내용을 가져와봤습니다. 제목은 Seamless, rapid, and accurate analyses of outbreak genomic data using split k-mer analysis 입니다.

DOI: 10.1101/gr.279449.124

clova-x

Split k-mer analysis (SKA2)는 bacterial genome 데이터를 빠르고 정확하게 분석하여 outbreak 및 transmission을 재구성하는 방법입니다. 이 방법은 reference bias 없이 높은 정확성과 속도를 자랑하며, 다양한 환경에서 사용될 수 있습니다.
1. **Split k-mer analysis의 배경**
- 기존의 read alignment 방식은 reference bias와 복잡한 절차로 인해 시간이 많이 소요됩니다.
- SKA2는 이러한 문제를 해결하기 위해 reference-free 및 reference-based mapping을 모두 지원합니다.
2. **SKA2의 특징과 장점**
- SKA2는 closely related samples에 대해 높은 정확성을 보이며, outbreak 시뮬레이션에서도 우수한 variant recall 성능을 발휘합니다.
- 이 방법은 기존 방법보다 훨씬 빠르며, 새로운 genomes를 추가할 때도 재분석 없이 순차적으로 사용할 수 있습니다.
3. **응용 분야와 잠재적 영향**
- SKA2는 public health와 clinical setting에서 outbreak의 신속한 분석과 transmission 추적에 유용합니다.
- 이 방법은 low-resource settings에서의 bacterial disease 연구에도 큰 기여를 할 수 있습니다.
4. **기술적 구현과 사용 편의성**
- SKA2는 Rust로 구현되었으며, open-source 소프트웨어로서 무료로 사용할 수 있습니다.
- 사용자는 약간의 command line expertise만으로 데이터를 빠르게 분석하고 가설을 테스트할 수 있습니다.

deepseek

### 연구 배경
병원체의 유전체 분석은 전염병 확산 추적과 공중보건 대응에 중요합니다. 기존 방법은 참조 유전체(reference genome)에 의존해 변이를 찾지만, 이는 **참조 편향성** 문제(참조 유전체와 다를 경우 오류 발생)를 일으키며 복잡한 분석 과정이 필요했습니다. 또한 데이터 양이 급증함에 따라 빠르고 간단한 분석 도구가 요구되었습니다. 이 연구는 **split k-mer 분석(SKA2)**이라는 새로운 방법을 개발해 이러한 문제를 해결하고자 했습니다.
---
### 연구 내용 및 목표
**split k-mer**는 유전체 서열을 작은 조각(k-mer)으로 나누고, 중간 염기를 변이 탐지에 활용하는 기술입니다. 기존 정렬 과정을 생략해 **참조 편향성 없이** 변이를 빠르게 식별할 수 있습니다. 주요 목표는 다음과 같습니다:
1. **신속한 분석**: 전염병 발병 시 수시간 내에 유전체 데이터를 처리합니다.
2. **정확성 향상**: 참조 유전체와 먼 병원체에서도 오류 없이 변이를 탐지합니다.
3. **사용 편의성**: 복잡한 설정 없이 명령어 몇 개로 분석이 가능합니다.
4. **확장성**: 대규모 데이터셋에 효율적으로 적용하고, 새로운 데이터를 추가할 때 전체 재분석이 필요 없습니다.
---
### 연구 결과
1. **정확성**: 시뮬레이션 결과, SKA2는 기존 방법보다 **변위 탐지 정확도가 높았습니다**. 특히 참조 유전체와 차이가 큰 병원체에서도 오탐지(false positive) 없이 변이를 찾았습니다.
2. **속도**: 기존 방법 대비 **14~60배 빠른 처리 속도**를 보였습니다. 30개 유전체 분석 시 5.5분 이내 완료(기존 방법은 77분 이상 소요).
3. **재조합 검출**: 유전체 상의 재조합 영역을 정확히 식별해 전염병 진화 경로 추적에 유용했습니다.
4. **대규모 데이터 처리**: 288개 유전체를 순차적으로 추가하며 분석할 때도 안정적 성능을 유지했습니다.
---
### 고찰 및 한계
- **장점**: 참조 편향성 없이 빠르고 정확한 분석이 가능하며, 낮은 컴퓨팅 자원으로도 실행됩니다. 전염병 감시나 임상 현장에서 즉시 활용 가능합니다.
- **한계**: 긴 반복 서열이나 구조적 변이(인델 등)는 탐지하지 못합니다. 또한 초고해상도 유전체(예: 인간) 분석에는 적합하지 않습니다.
- **향후 개선 방향**: 더 효율적인 데이터 압축 기술 도입, 혼합 샘플(예: 여러 균주가 섞인 시료) 분석 기능 추가, 다양한 변이 유형 탐지 확장 등이 필요합니다.
---
### 결론
SKA2는 **전염병 유전체 분석의 혁신**을 이끌 도구입니다. 빠르고 정확하며 사용하기 쉬워 전문가뿐만 아니라 현장 실무자도 쉽게 활용할 수 있습니다. 이 기술이 보급된다면 전 세계적 전염병 대응 역량이 크게 향상될 것으로 기대됩니다.

NotebookLM

## 업로드한 소스 파일에 대한 쉬운 설명: 질병 발생 데이터의 빠르고 정확한 분석 방법
이 연구는 **감염병이 발생했을 때 (outbreak) 미생물 (pathogen)의 유전 정보를 빠르고 정확하게 분석하는 새로운 방법**에 대해 설명합니다. 유전체학(genomics)과 생명공학(biotechnology)을 전공하지 않은 일반인도 이해할 수 있도록 쉽게 풀어서 이야기해 보겠습니다.
**1. 연구 배경: 왜 새로운 분석 방법이 필요할까요?**
* 감염병이 발생하면, 과학자들은 병원체의 유전적 특징을 분석하여 **어떻게 병이 퍼지고 있는지 (transmission) 추적**하고, **공중 보건 조치**를 결정하는 데 도움을 받을 수 있습니다. 마치 범죄 수사에서 범인의 DNA를 분석하는 것과 비슷합니다.
* 기존에는 병원체의 유전 정보를 분석하기 위해 **표준 유전체 (reference genome)에 맞춰서 비교**하는 방법을 주로 사용했습니다. 하지만 이 방법은 몇 가지 문제점이 있습니다. 예를 들어, 비교 대상인 표준 유전체가 실제 병원체와 많이 다르면 **분석 결과가 부정확**해질 수 있습니다. 또한, 분석 과정이 **복잡하고 시간이 오래 걸리며, 많은 계산 자원과 전문적인 기술**이 필요합니다.
* 따라서, **더 빠르고, 더 간단하며, 표준 유전체에 덜 의존적인 새로운 분석 방법**에 대한 필요성이 커지고 있습니다. 특히, 유전체 분석 기술이 발전하면서 **매우 많은 양의 유전체 데이터**가 생성되고 있기 때문에, 이러한 데이터를 효율적으로 처리할 수 있는 도구가 중요합니다.
**2. 연구 내용: SKA2는 어떻게 작동할까요?**
* 연구자들은 **SKA2 (split k-mer analysis 2)** 라는 새로운 분석 방법을 개발했습니다.
* SKA2는 유전체 전체를 비교하는 대신, **매우 짧은 DNA 조각 (k-mer)** 들을 이용하여 유전적 차이를 분석합니다. 마치 긴 문서를 짧은 단어 단위로 쪼개서 단어들의 조합이 어떻게 다른지 비교하는 것과 비슷합니다.
* 특히, SKA2는 **"split k-mer"** 라는 특별한 형태의 짧은 DNA 조각을 사용합니다. 이 split k-mer는 **가운데 부분만 다를 수 있고, 양쪽 끝 부분은 고정된 형태**를 가집니다. 예를 들어, 길이가 11개 염기인 split k-mer는 'XXXXX-XXXXX' 와 같은 형태인데, '-' 부분 (가운데 염기)만 A, C, G, T 중 어떤 염기로든 달라질 수 있습니다. 양쪽의 'X' 부분은 변하지 않습니다.
* 이러한 split k-mer를 사용하면, **전체 유전체를 일일이 비교하지 않고도** 특정 위치의 유전적 변이 (SNP, 단일 염기 변이)를 효율적으로 찾아낼 수 있습니다. 또한, 표준 유전체가 없거나 다르더라도 **샘플 간의 직접적인 비교 (reference-free)** 가 가능합니다.
* SKA2는 **유전자 서열 데이터 (FASTA/FASTQ)** 를 입력으로 받아 split k-mer를 만들고, 이를 이용하여 **유전적 변이를 확인**하고, **샘플 간의 유전적 거리**를 계산합니다. 또한, 계산된 유전적 거리를 바탕으로 **계통수 (phylogenetic tree)** 를 그리거나, **감염병 전파 가능성이 높은 그룹 (transmission cluster)** 을 찾을 수도 있습니다.
* SKA2는 **기존 방법들보다 훨씬 빠르고**, **계산에 필요한 컴퓨터 자원도 적으며**, **결과도 매우 정확**하다는 것을 연구자들은 다양한 실험과 시뮬레이션을 통해 입증했습니다.
**3. 연구 목표: 무엇을 이루고 싶었을까요?**
* 연구의 가장 큰 목표는 **기존 유전체 분석 방법의 한계를 극복**하고, **감염병 발생 상황에서 즉각적이고 효과적으로 대응**할 수 있는 새로운 도구를 개발하는 것이었습니다.
* 구체적으로는 다음과 같은 목표를 가지고 연구를 진행했습니다.
* **분석 속도 향상:** 많은 양의 유전체 데이터를 신속하게 처리할 수 있도록 합니다.
* **분석 정확도 향상:** 표준 유전체에 대한 의존성을 낮추고, 유전적 변이를 더 정확하게 찾아낼 수 있도록 합니다.
* **사용 편의성 증대:** 유전체학 전문가가 아니더라도 쉽게 사용할 수 있도록 도구를 설계합니다.
* **계산 자원 효율성 증대:** 고성능 컴퓨터 없이도 일반적인 컴퓨터에서 분석이 가능하도록 합니다.
* **새로운 분석 기능 제공:** 기존 방법으로는 어려웠던 대규모 데이터의 온라인 분석 등을 가능하게 합니다.
**4. 연구 결과: SKA2의 성능은 어떠했나요?**
* 연구 결과, SKA2는 **기존의 표준 유전체 기반 분석 방법들보다 훨씬 빠르고 정확**한 것으로 나타났습니다.
* **시뮬레이션 실험**에서, SKA2는 표준 유전체와 실제 병원체의 유전적 거리가 멀수록 기존 방법들보다 **더 많은 실제 유전적 변이를 정확하게 찾아냈으며 (높은 민감도), 잘못된 변이를 찾아내는 오류 (false positive)는 거의 없었습니다 (높은 특이도)**.
* 실제 병원체 데이터를 이용한 분석에서도 SKA2는 **기존 방법들과 유사하거나 더 나은 성능**을 보여주었으며, 특히 **분석에 소요되는 시간과 컴퓨터 자원 면에서 큰 장점**을 나타냈습니다.
* SKA2는 **대규모 유전체 데이터를 효율적으로 저장하고 관리**할 수 있도록 해 주며, **새로운 데이터가 추가될 때마다 전체를 다시 분석할 필요 없이** 기존 분석에 통합하는 **온라인 분석** 기능도 효과적으로 지원하는 것으로 확인되었습니다.
* 또한, SKA2를 이용하여 **세균의 유전자 재조합 (recombination)** 현상을 분석한 결과, 기존 방법과 유사한 결과를 훨씬 빠른 속도로 얻을 수 있었습니다.
**5. 고찰: 이 연구의 의미와 앞으로의 방향은 무엇일까요?**
* 이 연구는 **SKA2라는 새로운 유전체 분석 방법이 감염병 발생 상황에서 매우 유용하게 활용될 수 있음**을 보여줍니다. SKA2의 빠른 속도, 높은 정확도, 쉬운 사용법, 그리고 낮은 계산 자원 요구량은 유전체 분석을 더 많은 연구자들과 공중 보건 전문가들이 활용할 수 있도록 **접근성을 높여줄 것**으로 기대됩니다.
* 특히, 표준 유전체가 부족하거나 유전적 다양성이 큰 병원체의 분석, 그리고 신속한 대응이 중요한 감염병 발생 초기 단계에서 SKA2는 **결정적인 역할**을 할 수 있을 것입니다.
* 연구자들은 앞으로 SKA2의 **데이터 압축 효율성을 더욱 개선**하고, **다양한 형태의 유전적 변이 (삽입, 결실 등)** 를 분석할 수 있도록 기능을 확장할 계획을 가지고 있습니다. 또한, 생명정보학 전문가가 아니더라도 웹 브라우저를 통해 쉽게 SKA2를 사용할 수 있도록 개발하는 것을 목표로 하고 있습니다.
결론적으로, 이 연구는 **SKA2라는 혁신적인 유전체 분석 도구를 제시함으로써, 감염병 연구와 공중 보건 분야에 크게 기여할 수 있을 것**으로 기대됩니다. 마치 기존의 복잡하고 느린 길 대신, 빠르고 정확한 새로운 지름길을 발견한 것과 같습니다.

속도가 많이 개선되었다는데 30개 데이터를 77분 걸리던걸 5분으로 줄였지만... 이게 그렇게 큰 의미인지가.. 몇날 몇일 걸리던걸 한시간 이내로 줄였다면 큰 의미겠지만..
그리고 30분내에 약을 먹으면 죽음을 면할 수 있다는 수준의 outbreak가 자주 발생해서 77분이면 큰일난다라는 사례가 얼마나 있을지 좀 궁금하기도하네요 ㅎㅎ

병원균의 유전체를 효율적으로 분석 할 수 있는 좋은 tool을 보유하게 되었다는 면말고는 so what?

출처: @ye._.vely618

금요일, 2월 28, 2025

유전체 연구로 밝혀낸 아랍인의 기원과 이동의 역사

오늘은 카타르 게놈 연구로 확보된 6천여명 사람들의 genome을 분석하여 알게 된 결과를 논문으로 게재한 내용을 가져와봤습니다. 제목은 Thousands of Qatari genomes inform human migration history and improve imputation of Arab haplotypes 입니다.

DOI: 10.1038/s41467-021-25287-y

gemini

**카타르 사람들의 유전적 역사**
카타르는 아라비아 반도에 위치한 작은 국가이지만, 그들의 유전적 역사는 매우 다양합니다. 최근 연구에서는 카타르 사람 6,218명의 게놈을 분석하여 그들의 유전적 구조와 역사를 밝혔습니다.
이 연구에 따르면, 카타르 사람들은 주로 페닌슐라 아랍인, 일반 아랍인, 서유럽 및 페르시아 아랍인의 후손입니다. 페닌슐라 아랍인은 레반트의 고대 사냥꾼-채집인과 신석기 농부와 가장 가까운 관계가 있으며, 약 12,000~20,000년 전에 분리되었습니다. 일반 아랍인과 서유럽 및 페르시아 아랍인은 페닌슐라 아랍인과 더 최근에 분리되었으며, 이는 아라비아의 건조화와 레반트에서의 농업의 시작과 관련이 있습니다.
카타르 사람들은 유럽, 남아시아, 남미 인구에 유전적 유입을 받았으며, 이는 지난 1,400년 동안의 이슬람 확장의 결과로 보입니다. Y염색체 J1a2b 계통을 가진 남성 1,491명을 분석하여 29개의 독특한 하위 계통을 확인했습니다.
이 연구는 카타르 사람들의 유전적 다양성과 역사에 대한 중요한 통찰력을 제공하며, 아랍 및 중동 지역의 유전형 보정을 향상시키는 데 도움이 될 수 있습니다.
**카타르 사람들의 유전적 다양성**
카타르 사람들은 다양한 유전적 기원을 가지고 있습니다. 주요 기원은 페닌슐라 아랍인, 일반 아랍인, 서유럽 및 페르시아 아랍인입니다. 이들은 모두 아프리카에서 온 것으로 추정되며, 아라비아 반도에 정착한 후 다양한 유전적 유입을 받았습니다.
**카타르 사람들의 유전적 역사**
카타르 사람들의 유전적 역사는 복잡하고 다양합니다. 그러나 이 연구는 그들의 역사에 대한 중요한 통찰력을 제공했습니다. 예를 들어, 이 연구는 카타르 사람들이 레반트의 고대 사냥꾼-채집인과 신석기 농부와 가장 가까운 관계가 있음을 보여주었습니다. 이는 카타르 사람들이 아라비아 반도에 정착한 후 레반트에서 온 사람들과 혼혈되었다는 것을 의미합니다.
이 연구는 또한 카타르 사람들이 유럽, 남아시아, 남미 인구에 유전적 유입을 받았음을 보여주었습니다. 이는 지난 1,400년 동안의 이슬람 확장의 결과로 보입니다. 이슬람 확장은 많은 사람들이 아라비아 반도로 이주하여 카타르 사람들과 혼혈되게 만들었습니다.
**카타르 사람들의 유전적 연구의 중요성**
카타르 사람들의 유전적 연구는 그들의 역사와 문화를 이해하는 데 중요합니다. 또한 이 연구는 아랍 및 중동 지역의 유전형 보정을 향상시키는 데 도움이 될 수 있습니다. 이는 유전적 질병의 예방과 치료에 중요합니다.
이 연구는 카타르 사람들의 유전적 다양성과 역사에 대한 중요한 통찰력을 제공했습니다. 이 연구는 또한 아랍 및 중동 지역의 유전형 보정을 향상시키는 데 도움이 될 수 있습니다.

clova-x

제목: 카타르인들의 유전체 분석을 통해 본 아랍 인구의 유전적 역사와 다양성
안녕하세요, 여러분! 오늘은 흥미로운 유전학 연구 결과를 소개하려고 합니다. 바로 카타르인들의 유전체를 분석하여 아랍 인구의 유전적 역사와 다양성을 밝힌 논문인데요. 유전체학에 대해 잘 모르는 분들도 쉽게 이해하실 수 있도록 설명해 드리겠습니다.
우선, 이 연구는 6,218명의 카타르인 전체 게놈을 분석하여 다양성과 유전적 계보를 파악했습니다. 이를 통해 유럽, 남아시아, 남미 등의 인구에 대한 이슬람 확장의 영향을 확인할 수 있었습니다. 또한, 새롭게 발견된 유전자형을 활용하여 12,432개의 haplotype으로 구성된 참조 패널을 구축했고, 이를 통해 아랍인과 중동 지역의 희귀 및 일반 대립 유전자에 대한 유전자형 예측 정확도를 향상시켰다고 합니다.
아랍 인구는 그동안 유전적 구조와 역사에 대한 연구가 부족한 편이었는데요. 이번 연구를 통해 아랍인들의 유전적 다양성과 역사적 교류에 대한 이해를 높일 수 있었습니다. 특히, 카타르 인구는 아프리카, 남아시아, 유럽 등 다양한 지역의 유전적 요소를 포함하고 있었는데, 이는 지리적 위치와 역사적 교류에 기인한 것으로 보입니다.
이번 연구는 아랍 인구의 유전적 다양성을 밝히고, 이를 바탕으로 참조 패널을 구축하여 유전학 연구에 큰 도움을 줄 것으로 기대됩니다. 또한, 우리 모두가 서로 다른 유전적 배경을 가지고 있다는 것을 다시 한번 상기시켜주며, 인종 간의 이해와 소통을 증진시키는 데에도 기여할 것입니다.
논문에 대한 자세한 내용은 전문을 참고해 주시기 바라며, 유전학에 대한 관심과 이해를 높이는 데 도움이 되었길 바랍니다. 감사합니다!

chatGPT

### 블로그: 중동 아랍인의 유전적 구조와 역사
아랍 인구는 그동안 과학적으로 충분히 연구되지 못한 지역입니다. 하지만 이번 연구에서는 카타르에 거주하는 6,218명의 전장 유전체 데이터를 활용하여 아랍인의 유전적 구조와 역사를 상세히 분석했습니다. 이 연구는 카타르 게놈 프로젝트(QGP)를 기반으로 진행되었으며, 아랍 반도와 그 주변 지역에서 유래한 독특한 유전자 데이터를 분석한 결과를 제시합니다.
#### 연구 배경
아랍 반도는 수천 년 동안 인류 문명의 교차로였습니다. 하지만 유전체 연구는 주로 서구나 동아시아에 초점이 맞춰져 있어, 중동 지역은 연구 데이터가 상대적으로 부족했습니다. 이로 인해 아랍 인구의 유전적 다양성과 질병 위험에 대한 이해가 제한적이었습니다.
#### 주요 발견
1. **아랍인의 기원과 유전적 계보**
연구 결과에 따르면, 아랍인은 크게 두 계보로 나눌 수 있습니다.
- **카흐타니족(Peninsular Arabs, PAR):** 아랍 반도의 토착 인구로, 레반트 지역의 신석기 농부들과 가까운 유전적 유사성을 보였습니다.
- **아드난족(General Arabs, GAR):** 아랍화된 인구로, 서유라시아 및 다른 지역과의 혼합 유전자 구조를 보여줍니다.
이 두 계보는 약 12,000~20,000년 전부터 분화하기 시작했으며, 이는 아랍 지역의 건조화 및 농업의 시작과 관련이 있습니다.
2. **유전적 다양성과 혼합**
연구는 아랍 인구가 아프리카, 유럽, 남아시아, 심지어 남미에 이르는 다양한 지역의 유전적 흐름에 기여했음을 보여줍니다. 이는 이슬람의 확산과 역사적 교역 경로를 반영한 것입니다.
3. **Y 염색체와 미토콘드리아 DNA**
연구는 카타르 남성 중 56.7%가 J1a2b Y 염색체 계보에 속하며, 이는 아랍 반도와 레반트 지역에서 흔히 발견되는 유형입니다. 이 계보는 매우 동질적이며, 부족 간 결혼의 제한적 특성을 반영합니다.
4. **인구의 유전적 다양성 향상**
연구팀은 이번 데이터를 기반으로 12,432개의 참조 하플로타입 패널을 구축했습니다. 이 패널은 기존의 서구 중심 유전자 데이터보다 아랍 및 중동 인구의 유전자 예측 정확도를 크게 향상시킬 수 있습니다.
#### 연구의 의미
이 연구는 아랍 인구의 유전적 기원과 분화를 이해하는 데 중요한 통찰을 제공합니다. 특히, 고대 인류의 이동과 아랍인의 독특한 유전적 특성을 추적하는 데 기여했습니다. 또한, 유전적 다양성을 반영한 새로운 참조 패널은 질병 유전자 연구 및 정밀 의학에서 큰 도움을 줄 것입니다.
#### 결론
카타르 게놈 프로젝트는 아랍 지역에서 유전체학 연구의 새 지평을 열고 있습니다. 이 연구는 단순히 과거를 밝히는 데 그치지 않고, 현대 의학 및 유전학 연구에서 중요한 도구로 자리 잡을 것입니다. 앞으로 중동 지역의 추가 유전자 연구가 기대됩니다.
여러분의 질문이나 의견은 언제든 환영합니다! 😊

NotebookLM

## 유전체 연구로 밝혀낸 아랍인의 기원과 이동의 역사
**유전체학**, 생명체의 모든 유전 정보를 담고 있는 유전체를 연구하는 학문은 인류의 기원과 이동, 그리고 질병의 발생 메커니즘을 이해하는데 매우 중요한 역할을 합니다. 최근 카타르 유전체 프로그램(QGP)에서 6,218개의 카타르인 유전체를 분석한 연구 결과가 발표되어 아랍 인구의 유전적 구조와 역사에 대한 새로운 사실들이 밝혀졌습니다.
### 연구의 핵심 내용
* **다양한 아랍 조상**: 연구 결과 카타르 인구는 아라비아 반도의 주요 아랍 혈통인 카흐타니테(반도 아랍인)와 아드나니테(일반 아랍인 및 서유라시아 아랍인)를 대표하는 다양한 유전적 조상을 가지고 있는 것으로 밝혀졌습니다.
* **아라비아 반도의 기후 변화와 인구 이동**: 약 12,000년에서 20,000년 전, 아라비아 반도의 사막화와 레반트 지역의 농업 발달과 함께 아랍 인구는 여러 차례 분열과 이동을 겪었습니다. 이는 정착 생활을 하는 집단과 유목 생활을 하는 집단의 출현으로 이어졌습니다.
* **이슬람 확장과 유전자 흐름**: 연구는 지난 1,400년 동안 이슬람 확장의 결과로 아랍 조상이 유럽, 남아시아, 남미 인구에 상당한 유전적 영향을 미쳤음을 보여줍니다.
* **고대 인류와의 연관성**: 연구팀은 카타르인의 유전체를 고대 인류 유전체와 비교 분석하여 반도 아랍인이 레반트 지역의 고대 수렵 채집인 및 신석기 시대 농부들과 가장 가까운 친척 관계임을 밝혀냈습니다. 이는 아랍인들이 아프리카에서 이주해 나온 최초의 유라시아 인구 후손임을 뒷받침합니다.
* **높은 근친혼 비율**: 아랍 인구는 서유럽이나 미주 지역에 비해 근친혼 비율이 높아 긴 동형접합성 범위(ROH)를 갖는 경향이 있습니다. 이는 열성 유전 질환의 발병 위험을 높일 수 있습니다.
### 연구의 의의
* **아랍 인구의 유전적 다양성과 역사**: 이번 연구는 아랍 인구의 유전적 다양성과 역사에 대한 이해를 넓히는 데 크게 기여했습니다. 특히, 카타르인 유전체 분석을 통해 아랍 혈통의 기원과 이동 경로, 그리고 주변 지역과의 유전적 교류 과정을 엿볼 수 있었습니다.
* **질병 연구**: 아랍 인구의 유전적 특징에 대한 이해는 희귀 질환 및 만성 질환의 유전적 위험 요인을 밝히고, 개인 맞춤형 의료 기술 개발에 활용될 수 있습니다.
* **유전체학 연구**: 이 연구는 아랍 인구를 위한 유전자형 대치 패널을 구축하여 아랍인 유전체 연구의 정확성과 효율성을 높이는 데 기여했습니다.
### 결론
이번 연구는 대규모 유전체 분석을 통해 아랍 인구의 기원, 이동, 그리고 유전적 다양성에 대한 새로운 사실들을 밝혀냈습니다. 이는 아랍 지역의 역사와 문화를 이해하는 데 새로운 시각을 제공할 뿐만 아니라, 질병 연구 및 유전체학 연구 발전에 중요한 기반이 될 것입니다.
**참고**: 본 블로그 글은 제공된 논문을 바탕으로 작성되었습니다. 논문에 언급된 연구 결과 및 해석은 연구자들의 견해이며, 추가적인 연구를 통해 검증될 필요가 있습니다.

wrtn.ai

## 서론
유전체 분석은 생물 종의 진화 관계, 개인의 유전적 특성, 인구집단의 기원과 이동 등을 밝혀내는 데 매우 중요한 역할을 합니다 [1][2][3][4]. 이번 연구는 특히 아랍 인구의 유전적 다양성에 초점을 맞추고 있습니다. 아랍 지역은 인류 문명의 발상지 중 하나로, 다양한 민족과 문화가 교류해 온 곳이기 때문에 이들의 유전체 분석은 매우 의미 있는 작업이 될 것입니다. 이번 연구에서는 아랍 인구의 기원과 역사적 이동 경로를 밝혀내고자 합니다.
## 카타르인 유전체 분석 - 방법론
카타르 집단의 유전체 분석에는 다양한 방법론이 사용되었습니다. 먼저, mtDNA와 Y 염색체 하플로그룹 분석을 통해 카타르인들의 조상 기원과 이동 경로를 파악했습니다 [15]. 특히 Y 염색체 J1a2b 하플로그룹에 대해서는 계통수 분석을 수행하여 29개의 새로운 하위 하플로그룹을 발견하고 이들의 분기 시기를 추정했습니다 [15]. 또한 카타르 유전체 프로젝트(QGP) 데이터를 이용하여 아랍 및 중동 지역 집단을 위한 유전형 임퓨테이션 패널을 구축했습니다 [17]. 이러한 다양한 유전체 분석 기법들을 통해 카타르 집단의 유전적 특성과 역사적 기원을 심도 있게 이해할 수 있었습니다.
## 카타르인 유전체 분석 - 주요 특징 및 발견
이번 연구에서는 카타르 집단의 유전체 분석을 통해 다음과 같은 주요 발견들을 확인했습니다:
1. 카타르인들의 유전적 다양성이 매우 큰 것으로 나타났습니다. 이들의 유전적 기원은 주로 아랍 계통의 카흐타니트(남부 아라비아 반도 출신)와 아드나니트(일반 아랍인과 서유라시아 아랍인) 두 가지 주요 계통에서 비롯된 것으로 확인되었습니다 [25].
2. 카타르인들의 유전적 기원은 레반트 지역의 선사시대 수렵-채집민과 신석기 농경민에 가장 가까운 것으로 나타났습니다. 이는 아랍 계통 인구들이 약 12,000-20,000년 전 아라비아반도의 건조화와 레반트 지역의 농경 활동으로 정착민과 유목민 집단으로 분화되었음을 보여줍니다 [25].
3. 최근 1,400년 간 이슬람 팽창과 함께 아랍 계통 인구들이 유럽, 남아시아, 남아메리카 등지로 유전적 기여를 했을 것으로 추정됩니다 [25].
4. 카타르인 남성 중 J1a2b 염색체 Y 계통이 가장 크게 나타났으며, 이 계통에서 29개의 독특한 하위 계통이 발견되었습니다 [15].
이번 연구 결과는 아랍인과 중동 지역의 유전적 다양성과 기원, 이동 경로 등을 이해하는 데 크게 기여할 것으로 기대됩니다. 또한 이를 활용하여 중동 지역의 희귀 및 일반 유전자형을 보다 잘 예측할 수 있는 참조 패널을 구축했습니다 [25].
## 아랍 인구의 기원과 이동
유전체 분석 결과에 따르면, 아랍 인구의 기원은 주로 두 가지 계통으로 나뉩니다. 하나는 남부 아라비아 반도 출신의 카흐타니트 계열이고, 다른 하나는 보편적인 아랍인과 서유라시아 아랍인인 아드나니트 계열입니다. 특히 남부 아라비아 반도 출신의 카흐타니트 계열은 레반트 지역의 선사시대 수렵-채집민과 신석기 시대 농경민과 가장 유사한 것으로 나타났습니다 [25].
이러한 아랍 조상 집단들은 약 12,000-20,000년 전 아라비아반도의 건조화와 레반트 지역의 농경 활동으로 정착민과 유목민 집단으로 분화되었습니다 [25]. 최근 1,400년 간 이슬람 문화의 확산과 함께 이들 아랍 계통 인구들이 유럽, 남아시아, 남아메리카 등지로 유전적 기여를 했을 것으로 추정됩니다 [25].
## 유전체 다양성의 중요성
유전체 다양성은 인류의 역사와 진화를 이해하는 데 매우 중요합니다. 다양한 인구집단의 유전체 분석을 통해 우리는 인류의 이주 패턴, 조상 관계, 그리고 유전적 변이가 건강과 질병에 미치는 영향 등에 대한 귀중한 통찰을 얻을 수 있습니다.
특히 이번 연구는 아랍 인구의 유전적 구조와 역사를 심도 있게 분석했다는 점에서 의미가 큽니다. 아랍 세계는 그동안 상대적으로 연구가 부족했던 지역이었지만, 이번 카타르 인구 연구를 통해 아랍인의 복잡한 인구학적 역사를 잘 보여주고 있습니다. 특히 카흐타니트(남부 아라비아 반도 출신)와 아드나니트(일반 아랍인과 서유라시아 아랍인) 두 가지 주요 조상 계통이 약 12,000-20,000년 전에 분화되었다는 사실이 주목할 만합니다 [25].
유전체 다양성을 보존하는 것도 매우 중요합니다. 카타르 인구에서 관찰된 높은 수준의 근친혼과 긴 균질 구간은 유해한 유전자 변이와 특정 질병 위험을 증가시킬 수 있기 때문입니다 [35]. 따라서 아랍 인구의 유전적 특성을 이해하는 것은 질병 예방 및 치료 전략을 개발하고, 전반적인 유전적 다양성을 유지하는 데 도움이 될 것입니다.
유전체 분석 기술은 인류 집단의 복잡한 역사와 건강 영향을 밝혀내는 강력한 도구입니다. 이 기술이 계속 발전함에 따라 아랍 세계를 포함한 다양한 인구집단들이 연구에 충분히 반영되도록 하는 것이 중요할 것입니다. 이를 통해 우리는 인류의 진화와 다양성에 대한 이해를 높이고, 전 세계 사람들을 위한 맞춤형 의료 솔루션을 개발할 수 있을 것입니다.
## 결론
유전체 분석 기술은 인류의 역사와 진화, 질병 예방 및 치료에 있어 매우 중요한 역할을 합니다. 이번 연구를 통해 아랍 인구의 유전적 구조와 기원에 대한 심도 있는 이해를 얻을 수 있었습니다. 특히 카타르 집단의 경우, 남부 아라비아 반도 출신 카흐타니트와 일반 아랍인 및 서유라시아 아랍인인 아드나니트의 두 주요 조상 계통이 약 12,000-20,000년 전에 분화되었다는 사실이 주목할 만합니다 [25].
향후에도 유전체 분석 기술이 지속적으로 발전하면서 개인의 유전적 특성을 활용한 맞춤형 의료 서비스가 더욱 확대될 것으로 기대됩니다 [54]. 또한 이를 바탕으로 유전체와 질병의 관계를 규명하고, 신약 개발 등 유전체 기반 기초 및 임상 연구가 활성화될 것입니다 [54].
특히 아랍 세계를 포함한 다양한 인구집단의 유전체 데이터가 충분히 확보되어야 할 것입니다. 이를 통해 우리는 인류의 진화와 다양성에 대한 이해를 높이고, 전 세계 사람들을 위한 맞춤형 의료 솔루션을 개발할 수 있을 것입니다 [4].

아랍국가에서 생각했던 것보다 유전체 연구에 진심인 경우가 많습니다. 이유는 근친혼으로 유전병 발생이 높기 때문인데 국가적으로도 많은 고민을 하고 있다고 합니다. 그리고 최근에는 막대한 자본을 투자해서 유전체 분석 센터도 설립하고 있다니 좋은 잡 오퍼가 들어오면 좋겠네요 Orz

출처: @ye._.vely618

월요일, 12월 30, 2024

인간 유전체의 새로운 지평을 열다: 더 완벽하고 다양한 인간 게놈 지도를 향하여

오늘은 조금 더 진일보한 인간 유전체에 대한 논문을 가져와봤습니다. 제목은 Complex genetic variation in nearly complete human genomes 입니다.

DOI: 10.1101/2024.09.24.614721

아직 biorxiv에 있는 논문이긴 한데 아마 조만간 다른 저널지에 공개되거나, 공개되었을 수도 있을듯합니다. ㅎㅎ

T2T 버전이 세상에 나온지 시간이 흘렀지만 아직 많이 사용하고 있지 않는것은 아마 GRCh38이 나왔을때도 있지않았나 싶습니다.

이번 논문은 T2T로 끝나는 것이 아닌 haplotype기준으로 T2T 수준의 genome 품질을 가진 reference를 구축했다는 것이 차별점이지 않나 싶네요

gemini

## 인간 게놈 프로젝트의 새로운 도약: 더 완벽하고 다양한 인간 게놈 지도를 향하여
**인간 게놈 프로젝트**는 인간의 모든 유전 정보를 해독하여 지도로 만드는 거대한 과학 프로젝트입니다. 이 프로젝트는 2003년에 완료되었지만, 당시 기술의 한계로 인해 완벽한 인간 게놈 지도를 얻는 데는 실패했습니다.
하지만 기술의 발전과 함께, 과학자들은 끊임없이 더 완벽한 인간 게놈 지도를 만들기 위해 노력해왔습니다. 그리고 이번 논문에서 그 노력의 결실을 확인할 수 있습니다. 이 논문은 **가장 완벽에 가까운 인간 게놈 지도**를 제시하며, 인간 유전체의 복잡성을 이해하는 데 새로운 지평을 열었습니다.
### 기존 인간 게놈과의 차이점
1. **더 완벽한 지도**: 기존의 인간 게놈 지도에는 기술적인 한계로 인해 많은 공백과 오류가 존재했습니다. 이번 논문에서는 65개의 다양한 인간 게놈을 분석하고 130개의 반수체 분해 조립을 구축하여 이전 지도의 **92%의 공백을 채우고**, 염색체의 39%에 대해 **텔로미어-투-텔로미어(T2T) 상태**에 도달했습니다. 즉, 염색체의 양 끝단까지 완벽하게 해독했다는 의미입니다.
2. **복잡한 유전자좌의 완전한 서열**: MHC, SMN1/SMN2, NBPF8, AMY1/AMY2 등 복잡한 유전자좌의 **완전한 서열 연속성**을 확보했습니다. 이는 질병과 관련된 유전자 연구에 매우 중요한 정보를 제공합니다.
3. **구조적 변이의 해결**: 1,852개의 복잡한 구조 변형(SV)을 완전히 해결했습니다. 구조적 변이는 유전체의 큰 부분이 뒤집히거나, 중복되거나, 삭제되는 등의 변화를 의미하며, 암, 자폐증 등 다양한 질병과 관련이 있습니다.
4. **인간 중심체의 조립**: 1,246개의 인간 중심체를 완전히 조립하고 검증했습니다. 중심체는 세포 분열에 필수적인 역할을 하며, 염색체의 구조와 기능을 이해하는 데 중요합니다.
### 새로운 게놈 지도의 장점
1. **질병 연구의 발전**: 새로운 게놈 지도는 질병과 관련된 유전적 변이를 더욱 정확하게 파악할 수 있게 해줍니다. 이는 질병의 예측, 진단, 치료에 혁신적인 발전을 가져올 수 있습니다.
2. **개인 맞춤형 의료**: 개인의 유전 정보에 기반한 맞춤형 의료 시대를 앞당길 수 있습니다. 개인별 유전적 특징을 고려하여 약물 처방, 질병 예방 등을 맞춤형으로 제공할 수 있습니다.
3. **인간 진화 연구**: 인간 게놈의 다양성을 더욱 심층적으로 이해하고, 인간 진화의 역사를 밝히는 데 기여할 수 있습니다.
4. **유전체 연구의 새로운 도구**: 짧은 판독 데이터에서 유전자형 분석의 정확도를 높이고 전체 게놈 추론을 가능하게 합니다. 이는 유전체 연구의 효율성을 높이고 새로운 발견을 가속화할 수 있습니다.
### 결론
이 논문에서 제시된 새로운 인간 게놈 지도는 인간 유전체학 분야의 중요한 발전입니다. 이는 인간 게놈의 복잡한 구조적 변이에 대한 이해를 높이고 질병과의 연관성을 밝히는 데 도움이 될 뿐만 아니라, 개인 맞춤형 의료 시대를 열고 인간 진화 연구에 새로운 가능성을 제시할 것입니다.

clova-x

이번에 저희 연구팀에서 발표한 논문은 인간 유전체의 복잡함에 대한 내용을 담고 있습니다. 인간 유전체는 약 30억 개의 염기쌍으로 이루어져 있으며, 이는 지구상에서 가장 복잡한 생명체의 유전체 중 하나입니다.
이번 연구에서는 65개의 다양한 인간 게놈을 시퀀싱하고, 130개의 haplotype-resolved 어셈블리를 구축했습니다. 이는 기존의 Human Genome과는 몇 가지 면에서 차이가 있습니다.
첫째, 이번에 구축한 어셈블리는 기존의 Human Genome보다 더 높은 품질의 유전체 데이터를 제공합니다. 기존의 Human Genome은 일부 구간에서 불완전한 정보를 가지고 있었지만, 이번에 구축한 어셈블리는 거의 모든 구간에서 완전한 정보를 제공합니다.
둘째, 이번 어셈블리는 기존의 Human Genome보다 더 정확한 변이 정보를 제공합니다. 변이 정보는 유전체 연구에서 매우 중요한 역할을 하는데, 이번 어셈블리를 통해 더 정확한 변이 정보를 얻을 수 있게 되었습니다.
셋째, 이번 어셈블리를 통해 기존에는 파악하기 어려웠던 복잡한 구조적 변이를 완전히 밝힐 수 있었습니다. 예를 들어, MHC, SMN1/SMN2, NBPF8, AMY1/AMY2 등의 복잡한 위치를 포함한 많은 구조적 변이를 밝혀냈습니다.
이러한 고품질의 유전체 데이터를 사용하면 다양한 분야에서 많은 이점을 얻을 수 있습니다. 예를 들어, 의학 분야에서는 질병의 원인을 더 정확하게 파악할 수 있고, 치료법 개발에도 큰 도움이 될 수 있습니다. 또한, 생물학 분야에서는 생명체의 진화와 발달 과정을 더 깊이 이해할 수 있고, 환경과의 상호작용을 파악하는 데에도 큰 도움이 될 수 있습니다.
저희 연구팀은 이번 연구를 통해 인간 유전체의 복잡함을 더욱 깊이 이해하게 되었으며, 앞으로도 지속적인 연구를 통해 더 많은 지식을 쌓아 나갈 것입니다. 이를 통해 인류의 건강과 복지에 기여할 수 있기를 기대합니다.

chatGPT

### 블로그 포스트: 새로운 인간 유전체 데이터로 무엇을 알 수 있을까요?
인간 유전체(Human Genome)는 우리가 생명과 질병에 대해 이해할 수 있는 가장 기본적인 정보입니다. 기존의 인간 유전체 연구들은 많은 성과를 냈지만, 여전히 복잡한 구조적 변이를 완벽히 다루지 못하거나, 특정 어려운 영역에 대한 정보가 부족하다는 한계가 있었습니다. 이번에 발표된 연구에서는 기존 유전체보다 훨씬 더 정밀하고 완전한 데이터를 통해 이러한 문제를 해결하고자 했습니다.
---
#### **1. 기존 인간 유전체와 무엇이 다른가요?**
기존 인간 유전체는 주로 단일 기술 기반으로 조립되었으며, 일부 복잡한 영역에서는 데이터가 불완전했습니다. 이번 연구에서 사용한 유전체는 다음과 같은 점에서 다릅니다:
1. **두 가지 기술의 결합**:
- PacBio HiFi 기술: 짧지만 정확도가 높은 DNA 읽기(read)를 제공합니다.
- Oxford Nanopore 기술: 길이는 길지만 정확도가 낮은 DNA 읽기를 제공합니다.
- 두 기술을 결합하여 기존보다 훨씬 완전한 데이터로 유전체를 조립할 수 있었습니다.
2. **유전체의 공백 해결**:
- 기존 유전체에서 데이터가 없었던 92%의 영역을 채웠으며, 염색체의 약 39%를 끝에서 끝까지(telomere-to-telomere) 완전히 조립했습니다.
3. **복잡한 변이 분석**:
- 구조적 변이(예: 삽입, 결실, 역위 등)를 26,000개 이상 탐지했습니다.
- 주요 복잡한 영역(예: 면역과 관련된 MHC, SMN1/SMN2, AMY1/AMY2 등)의 완전한 유전체 데이터를 확보했습니다.
---
#### **2. 새로운 유전체 데이터를 사용하면 어떤 점이 좋을까요?**
1. **질병 연구 및 진단 개선**:
- 기존에 탐지되지 않았던 변이를 새롭게 찾아냄으로써 질병과 관련된 유전적 요인을 더 정확히 파악할 수 있습니다.
- 예를 들어, 유전적으로 손상되기 쉬운 센트로미어와 같은 영역이 더 잘 이해되며, 이 데이터는 희귀 질환 연구에 특히 유용합니다.
2. **더 나은 유전자 변이 탐지**:
- 기존 데이터와 비교해 35% 이상 더 많은 변이를 탐지했습니다.
- 이러한 데이터는 희귀 변이나 인구별로 특이한 유전적 특징을 연구하는 데 도움이 됩니다.
3. **개인 맞춤형 의학**:
- 유전 정보를 기반으로 개인 맞춤형 질병 예측 및 치료가 가능해집니다.
- 특히, 아프리카, 유럽, 아시아 등 다양한 인구 그룹에서 데이터를 확보해 다양한 유전적 배경을 반영할 수 있습니다.
4. **더 나은 참조 유전체 제공**:
- 기존의 GRCh38 유전체 참조보다 완전한 데이터로 연구자들에게 더 정확한 기준을 제공합니다.
- 이 데이터를 활용하면 질병 관련 연구와 약물 개발 속도를 높일 수 있습니다.
---
#### **3. 우리가 알아야 할 점**
이 연구는 유전체 연구의 새로운 기준을 세웠습니다. 기존의 인간 유전체는 여러 한계가 있었지만, 이번 연구를 통해 유전체의 복잡한 구조적 변이를 이해하고, 공백을 메우며, 질병과 유전적 요인 간의 관계를 명확히 할 수 있게 되었습니다.
새로운 데이터는 질병 예측, 유전자 편집, 개인 맞춤형 치료 등 다양한 분야에서 큰 발전을 가져올 것입니다. 앞으로 이러한 연구가 일반인의 건강과 삶의 질 향상에 어떤 영향을 미칠지 기대가 됩니다.
---
이 새로운 인간 유전체 데이터는 연구자들에게는 도구를, 일반인들에게는 희망을 제공하는 중요한 성과입니다. 지금은 과학 기술이 우리의 건강과 미래를 어떻게 바꾸고 있는지 지켜보기에 가장 좋은 시기입니다.

NotebookLM

## 인간 유전체의 새로운 지평을 열다: 더욱 완벽해진 인간 유전체 데이터
**인간 유전체 프로젝트는 생명체의 설계도를 이해하기 위한 웅장한 과학적 여정입니다. 과학자들은 수십 년간 인간 DNA의 30억 개가 넘는 염기쌍 서열을 밝혀내기 위해 노력해 왔습니다.** 이러한 노력의 결과로 인간 유전체의 초기 지도가 만들어졌지만, 기술적인 한계로 인해 완벽하지 못했습니다. **최근 롱리드 시퀀싱 기술의 발전은 이전에는 접근할 수 없었던 인간 유전체 영역을 탐험할 수 있는 새로운 가능성을 열었습니다.**
**이 논문에서는 65개의 다양한 인간 샘플에서 130개의 haplotype-resolved 유전체를 생성하기 위해 PacBio HiFi 및 ONT 롱리드 시퀀싱 기술을 결합한 최첨단 연구를 소개합니다.** **이 연구의 핵심은 기존 인간 유전체 데이터와 비교하여 훨씬 향상된 품질과 완성도를 자랑하는 새로운 유전체 데이터를 제공한다는 것입니다.**
### 기존 인간 유전체 데이터의 한계
초기 인간 유전체 데이터는 쇼트리드 시퀀싱 기술을 기반으로 제작되었습니다. 이 기술은 짧은 DNA 조각을 읽어내는 데 효과적이지만, 반복적인 서열이나 복잡한 구조 변이가 많은 영역을 정확하게 조립하는 데 어려움을 겪었습니다. **결과적으로 초기 유전체 데이터는 수많은 갭과 오류를 포함하고 있었으며, 이는 유전체의 완전한 이해를 방해하는 요소로 작용했습니다.**
### 새로운 유전체 데이터의 혁신
**이 연구에서 제시된 새로운 유전체 데이터는 롱리드 시퀀싱 기술을 사용하여 이러한 한계를 극복했습니다.** 롱리드 시퀀싱은 훨씬 긴 DNA 조각을 읽어낼 수 있어, 반복적인 서열이 많은 영역도 정확하게 조립할 수 있습니다. 또한, **연구진은 Strand-seq와 같은 다양한 기술을 활용하여 유전체의 haplotype을 정확하게 구분하고 phasing하는 데 성공했습니다.**
**그 결과, 새로운 유전체 데이터는 기존 데이터보다 92% 이상의 갭을 줄였으며, 이전에는 완전히 해결되지 않았던 유전체 영역, 즉 centromere, SMN1/SMN2, MHC와 같은 복잡한 영역을 완벽하게 밝혀냈습니다.** 특히 centromere는 염색체 분열에 필수적인 역할을 하지만, 반복적인 서열이 매우 많아 분석이 어려웠던 영역입니다. **이 연구에서는 1,246개의 centromere를 완전히 조립하여 인간 유전체 다양성에 대한 이해를 넓혔습니다.**
### 새로운 유전체 데이터의 활용
**더욱 완벽해진 새로운 유전체 데이터는 인간 유전체 연구에 광범위한 영향을 미칠 것으로 기대됩니다.**
* **첫째, 질병과 관련된 유전적 변이를 더욱 정확하게 식별할 수 있습니다.** 이는 개인 맞춤형 의료, 질병 예측 및 새로운 치료법 개발에 기여할 수 있습니다.
* **둘째, 인간 진화와 집단 유전학 연구에 새로운 통찰력을 제공할 수 있습니다.** 예를 들어, 이 연구에서는 아프리카 계통의 유전체가 비 아프리카 계통의 유전체보다 더 많은 segmental duplication을 가지고 있음을 밝혀냈습니다. 이는 인간 집단의 유전적 다양성을 이해하는 데 중요한 정보입니다.
* **셋째, 단편 서열 데이터에서도 더 많은 유전적 변이를 효율적으로 분석할 수 있습니다.** 이 연구에서는 PanGenie라는 새로운 도구를 사용하여 쇼트리드 시퀀싱 데이터에서도 26,115개의 구조적 변이를 검출할 수 있음을 보여주었습니다. 이는 대규모 유전체 연구를 더욱 효율적으로 수행할 수 있게 해 줄 것입니다.
### 결론
**이 논문에서 제시된 새로운 유전체 데이터는 인간 유전체 프로젝트의 중요한 진전입니다.** 더욱 완벽하고 정확한 유전체 데이터는 인간 유전체에 대한 이해를 넓히고, 질병 연구, 진화 연구, 집단 유전학 연구 등 다양한 분야에 새로운 가능성을 열어줄 것입니다.

기존에는 GRCh37, GRCh38과 같이 한개 reference를 사용해서 분석을 했는데, 이제는 130개의 haplotype 서열들을 reference를 사용해서 좀 더 정확한 분석 결과를 얻을 수 있게 되지 않나 싶습니다. 대신 여러개의 reference 결과를 어떻게 merge하는지는 저도 아직 잘 모르겠네요 :)

조만간 시간이 되면 기술적인 내용도 한번 다뤄보도록 하겠습니다.

오늘 글로 24년도를 마무리하려고 합니다.

25년에도 좋은 논문들로 또 봐요~ 제발~ :)

출처: @ye._.vely618

화요일, 6월 11, 2024

Towards the era of cat precision medicine

오늘은 수 많은 동물 중 고양이의 유전체를 연구한 논문을 하나 가져와봤습니다.

물론 저는 고양이를 키우지 않지만 (물론 개도 키우지 않습니다. 이유는 제 한 몸 간수하기 힘든데 다른 생명체를 어떻게 보살피겠습니까 ㅎㅎ ) 유전체 연구는 흥미진진하니깐 한번 훑어보려고 합니다.

물론 제가 할게 아니니깐 일단 골라봤습니다. :)

제목은 "Genetic epidemiology of blood type, disease and trait variants, and genome-wide genetic diversity in over 11,000 domestic cats" 으로 만여마리 이상의 국내 고양이(여기서 국내는 USA입니다.)를 대상으로 시퀀싱을 하여 질병과 혈액형 그리고 표현 특징들에 대한 변이들에 대해서 한번 분석했다고 합니다.

DOI: 10.1371/journal.pgen.1009804

gemini

## 고양이 유전체 연구: 고양이의 건강과 복지 개선을 위한 새로운 희망
고양이는 인류 역사상 가장 오랫동안 가까이 지내온 동물 중 하나입니다. 우리는 그들의 귀여운 모습, 장난스러운 성격, 그리고 따뜻한 애정에 매료되어 왔습니다. 하지만 고양이 또한 질병, 행동 문제 및 기타 건강 문제에 취약합니다.
최근 몇 년 동안 과학자들은 고양이 유전체 연구에 대한 투자를 늘려왔습니다. 이 연구는 고양이의 유전자가 건강, 질병, 행동 및 진화에 어떻게 영향을 미치는지 이해하는 것을 목표로 합니다. 연구 결과는 고양이의 건강과 복지를 개선하고 인간 건강에 대한 새로운 통찰력을 제공하며 생물 다양성 보존 노력을 지원하는 데 사용될 수 있습니다.
**고양이 유전체 연구의 주요 발견:**
* 연구원들은 암, 심장병 및 당뇨병과 같은 복잡한 질병의 유전적 기초를 밝히고 있습니다.
* 과학자들은 공격성, 불안 및 강박 장애와 같은 행동 문제의 유전적 기초를 연구하고 있습니다.
* 고양이 유전체 연구는 고양이의 기원과 다양한 품종의 발달에 대한 새로운 통찰력을 제공하고 있습니다.
**고양이 유전체 연구의 잠재적 이점:**
* 유전 질환의 원인을 식별하고 새로운 치료법을 개발하는 데 도움이 됩니다.
* 개인 맞춤형 의료 및 예방 전략 개발을 가능하게 합니다.
* 번식 프로그램을 개선하고 건강한 고양이를 촉진합니다.
* 질병에 대한 진단 및 예후 예측을 개선합니다.
* 새로운 치료법 및 예방 조치 개발을 위한 토대를 마련합니다.
* 고양이와 인간 간의 관계를 개선합니다.
* 고양이의 기원과 다양한 품종의 발달을 연구하는 데 도움이 됩니다.
* 인간과 고양이가 공유하는 질병에 대한 새로운 치료법 개발을 위한 토대를 마련합니다.
* 인간 유전학 및 질병에 대한 새로운 통찰력을 제공합니다.
* 개인 맞춤형 의학 발전에 기여합니다.
**고양이 유전체 연구의 윤리적 고려:**
* 고양이 유전체 연구는 윤리적 원칙에 따라 수행되어야 합니다.
* 연구에 참여하는 고양이의 복지가 보호되어야 합니다.
* 연구 결과는 책임감 있게 사용되어야 합니다.
**결론:**
고양이 유전체 연구는 고양이와 인간 모두에게 다양한 잠재적 이점을 제공하는 강력한 도구입니다. 연구 결과는 고양이의 건강과 복지를 개선하고 인간 건강에 대한 새로운 통찰력을 제공하며 생물 다양성 보존 노력을 지원하는 데 사용될 수 있습니다. 연구는 윤리적 원칙에 따라 수행되어야 하며 연구에 참여하는 고양이의 복지가 보호되어야 합니다.
**이 블로그 게시물이 고양이 유전체 연구에 대한 귀하의 이해를 높이는 데 도움이 되었기를 바랍니다. 궁금한 점이 있으면 언제든지 의견을 남겨주세요.**
**#고양이 #유전체 #연구 #건강 #복지 #질병 #행동 #진화 #윤리 #과학**

clova-x

고양이의 유전체 연구는 고양이의 생물학적 특성과 유전적 질병을 이해하고, 이를 예방하고 치료하는 데 중요한 역할을 합니다. 고양이의 유전체 연구는 고양이의 생물학적 진화와 국내화를 설명하고, 고양이의 유전적 변이를 설명하는 데에도 유용합니다.
고양이의 유전체 연구는 고양이의 건강과 번식에 대한 정보를 제공합니다. 예를 들어, 유전학적 검사는 유전적 질병을 예방하기 위해 사용되며, 환자에게 맞춤형 치료를 제공하기 위해 사용됩니다. 또한, 고양이의 유전체 연구는 인간, 개, 고양이의 유전학적 연구를 통해 유전학적 질병과 유전적 변이를 식별하는 데 사용됩니다.
고양이의 유전체 연구는 고양이의 생물학적 특성과 유전적 질병을 이해하고, 이를 예방하고 치료하는 데 중요한 역할을 합니다. 또한, 고양이의 건강과 번식에 대한 정보를 제공하여 고양이의 건강과 복지를 증진하는 데에도 기여할 수 있습니다. 고양이의 유전체 연구는 고양이의 건강과 복지를 증진하는 데 매우 중요한 역할을 합니다.

chatGPT

## 고양이 유전체 연구의 중요성과 그 의의
### 고양이 유전체 연구란?
최근 2022년 6월 16일에 발표된 연구는 11,000마리가 넘는 국내 고양이의 유전적 역학에 관한 중요한 내용을 다루고 있습니다. 이 연구는 다양한 고양이 품종을 대상으로 포괄적인 유전자 분석을 수행하여, 고양이의 유전적 다양성과 질병 연관 변이를 체계적으로 조사하고 있습니다.
### 왜 고양이 유전체 연구를 하게 되었을까요?
고양이 유전체 연구의 목적은 여러 가지입니다. 먼저, 고양이 품종 간의 유전적 다양성을 이해하고, 이를 통해 특정 품종에서 발생하는 질병과 관련된 유전 변이를 파악하고자 했습니다. 유전적 다양성을 평가함으로써 품종 간 유전적 취약성을 줄이고 건강을 개선할 수 있는 방안을 찾는 것이 중요했습니다.
또한, 유전자 검사를 통해 질병과 관련된 변이를 조기에 발견하고, 이를 통해 질병의 예방 및 관리에 도움을 주기 위해서입니다. 특히, 족보 있는 고양이의 경우 특정 유전 질병에 취약할 수 있으므로, 이러한 질병을 조기에 발견하고 관리하는 것이 중요합니다.
### 연구의 주요 발견
이 연구는 다음과 같은 주요 결과를 도출했습니다:
1. **질병 연관 변이**: 47개의 품종 또는 품종 유형에서 13개의 질병 연관 변이가 새롭게 발견되었습니다. 이는 고양이의 건강 관리 및 예방에 중요한 정보를 제공합니다.
2. **혈액형 변이**: A, B, AB 혈액형을 결정하는 유전 변이도 조사되었습니다. 이는 수혈이나 의료 상황에서 중요한 역할을 합니다.
3. **외모 관련 유전자 변이**: 다양한 외모를 결정하는 유전자 변이도 다루어져, 고양이의 품종별 특성을 이해하는 데 도움이 됩니다.
4. **유전자 다양성**: 각 고양이 품종의 유전자 다양성을 평가하여 이종 교배의 필요성을 제기하였습니다. 이는 품종의 건강과 생존을 위한 중요한 정보입니다.
### 고양이 유전체 연구의 의의
고양이 유전체 연구는 여러 가지 중요한 의의를 가지고 있습니다:
1. **질병 진단과 치료**: 유전적 질병의 조기 발견과 맞춤형 치료 계획 수립이 가능합니다.
2. **혈통 및 번식 관리**: 유전적 다양성을 유지하고 유전적 결함을 최소화하는 번식 전략을 수립할 수 있습니다.
3. **과학적 연구와 교육**: 유전학의 기초 연구에 기여하며, 교육 자료로 활용될 수 있습니다.
4. **인간 건강 연구와의 연관성**: 고양이는 인간과 유사한 질병을 겪는 경우가 많아, 인간 질병 연구에도 기여할 수 있습니다.
5. **보존과 생물 다양성**: 멸종 위기 종의 보존 전략 수립과 생물 다양성 유지에 도움이 됩니다.
### 결론
고양이 유전체 연구는 고양이의 건강과 복지를 향상시키고, 품종 육성 프로그램과 연구 공동체에 중요한 정보를 제공합니다. 또한, 이 연구는 고양이와 인간 모두의 건강 연구에 중요한 기초 자료를 제공하여, 반려동물 주인과 수의사에게 유용한 정보를 제공할 것입니다. 앞으로도 지속적인 연구를 통해 고양이와 인간의 건강과 행복을 증진시키기를 기대합니다.
이 글을 통해 고양이 유전체 연구의 중요성과 그 의의를 이해하는 데 도움이 되셨기를 바랍니다. 고양이와 함께 행복하고 건강한 삶을 누리시길 바랍니다!

최근 요 몇일 gemini의 센스가 부쩍 늘었습니다. 블로그 게시글 하단에 해시태그까지!! 우리의 clova-x는 살짝 분량이 좀 아쉽네요. 이전에는 이런저런 내용도 덧붙여줬던 것 같은데 말입니다. 요즘에는 어딘가 살짝... 귀차니즘이 들어 앉은 느낌? chatGPT는 역시나 잘 정리해준것 같습니다. 이번에 claude가 빠진 이유는 당연히 무료 분량을 넘어 섰기 때문입니다. :)

그럼 또 다음에 흥미로운 논문을 가져와보도록 하겠습니다.

출처: @ye._.vely618

금요일, 10월 27, 2023

롱리드 시퀀싱을 쓰지 않을 이유가 있는가?

이번 논문은 제가 참여한 논문입니다.. 흠흠..

이름하여 Two long read-based genome assembly and annotation of polyploidy woody plants, Hibiscus syriacus L. using PacBio and Nanopore platforms

DOI: 10.1038/s41597-023-02631-z

Hibiscus syriacus, 쉽게말해 무궁화 genome을 assembly하는데 어떤 데이터를 어떤 assembly 도구로하면 그래도 가성비가 좋은지에 대해서 확인한 논문 되겠습니다.

무궁화는 full genome은 이미 몇해전에 나와있는 상태고요, 아마 무궁화가 2배체가 아니라 4,6배체로 기억됩니다. 그래서 숏리드가지고 assembly가 만만치 않았는데 그 데이터를 바탕으로 이전에는 short리드로 어렵싸리 했었는데 이번에는 롱리드 시퀀싱으로 하면 어떻게 되는지 확인 해보자 입니다.

이전 무궁화 genome project 논문에서 핸들링하는 데이터 양을 정확히는 모르겠으나 어마무시했던것으로 알고 있습니다. 거기다가 숏리드라서 양쪽 로우 퀄리티 좀 정리해주고, scaffold용 mate-paired 데이터 정리작업하는데도 아마 꽤나 시간이 걸릴겁니다.

나노포어 데이터(ONT)와 PacBio data가 있었는데, 솔까말 ONT 데이터로만 해도... 사실 갠춘합니다.

그런데 여기서 중요한것은 ONT가 중요하기도 하지만 ONT의 장점을 십분 발휘할 수 있게 해주는 DNA 뽑는게 ART되겠습니다. ONT가 길게 읽을 수 있는거지 template가 짧으면 ONT도 길게 읽고 싶어도 못읽습니다.

결국 실험자의 손이 중요합니다. 손 똥손이면 ONT도 해결 못해줍니다.

그 똥손도 가능하게 해주는게 commercial prep kit이긴한데 현재 기준으로 그런 kit이 있는지는 저는 모르겠습니다.

여튼 그래서 ONT 데이터를 앞뒤없이 다 때려박고 assembly하지 않았습니다.

cell 하나, cell 2개, 결과가 어떻게 달라지는지 확인해고, assembly tool마다 결과는 어떻게 나오는지 확인하면서 테스트 하였고, 이거쓰세요는 하지 못했지만 그럭적럭 요정도 생산해서 이 tool쓰면 평타 칩니다 라고 가이드는 해드릴 수 있는 논문되겠습니다.

다음에는 테스트하는 code를 간지나게 git에 올려놓고 논문에 url하나 올려둘 수 있도록 해봐야겠습니다. :)

그럼 또 쓸만한 논문을 찾아 돌아오도록 하겠습니다.

출처: @ye._.vely618

수요일, 7월 20, 2022

Long Read 조립은 누가누가 잘하나

Piroplasm를 나노포어를 사용하여 genome project를 진행했고 나노포어를 활용한 assembler들에 대한 성능 비교 논문 되겠습니다.

제목은 Systematic Comparison of the Performances of De Novo Genome Assemblers for Oxford Nanopore Technology Reads From Piroplasm

doi는 https://doi.org/10.3389/fcimb.2021.696669

piroplasm이 몬지는 모르겠으나 일단 그렇게 엄청나게 복잡하지는 않은 원생동물이나 사람이나 동물들에게 질병을 일으키는 녀석 되는 것 같습니다. funding중에 동물 전염병 및 인수공통전염병 관련 프로그램이 있는것으로 보아하니...

여튼 중요한건 nanopore로 읽어낸 서열을 사용하여 genome 조립할때 어떤 어떤 조립 프로그램이 제일 좋은지를 검토해본 것이니 OLC (Over-Layout-Consensus)나 전통적인 de-Brujin graph, string graph-based 방법 등등의 NECAT, Canu, wtdbg2, Miniasm, Smartdenovo, Flye, NextDenovo, Shasta와 같이 일반적으로 long-read에 사용하는 assembler들을 비교 테스트 하였다고 합니다.

대신 여기서는 assembly의 정확도와 함께 CPU 사용량, 메모리 사용량, 분석시간 사용방법 등등에 대해서도 함께 평가했다고 합니다. 참 바람직한 태도라고 봅니다. 모든 연구팀들이 그래픽카드 4개꼽히고 6T 메모리의 4U 서버를 가지고있는것은 아니니 말입니다.

실험 방법은 prioplasm free한 양 2마리(??)에게 prioplasm을 감염시켜 잘 배양(??)시킨 다음 Qiagen 사용 prep kit을 가지고 DNA 추출하고 PromethION으로 시퀀싱하였고 데이터 셋트에 따른 assembly 결과 평가를 위해 6가지 생산량 (약 15x, 30x, 50x, 70x, 100x, 120x)의 셋트를 만들었다고 합니다. 그리고 추가적(aka error correction)으로 (일루미나와 특허 소송에서 승리한) MGI로도 시퀀싱을 하였다고 합니다.

여튼 결과적으로

N50과 contig개수(적을수록 좋음)는 생산량과 밀접하고,
분석 시간은 생산량이 많으면 어떤 assembler를 사용하던 길어졌고,
polishing은 안하는것보다 하는것이 좋은것 같고 각 tool의 장단점은 Figure3에 방사형 그래프로 이쁘게 표현하였으니 한번 참고하시면 좋을것 같습니다.

그래서 Miniasm, Flye, wtdbg2는 그닥 좋은 선택지는 아닌것 같고 평균 커버리지가 30x 이상 확보된다면 NECAT, Canu, NextDenovo, Smartdenovo가 더 나은것 같다 정도 되겠습니다.

(사실 위의 tool들을 실행시키려면 평균 30x 이상은 있어야 작동을 합니다. 안그러면 작동안하던지 말도안되는 결과들을 뱉어내곤 합니다.)

그리고 시간이 충분했는지 각 assembler 결과들을 병합/후처리하는 작업을 하여 더 나은 assembly 결과를 보여주는지 테스트 했고 몇몇 조합에서 결과물이 향상된것을 확인했다는데... dramatically 좋은 결과는 보여주지 않은것 같았습니다.

만약 병합/후처리하는 결과가 좋았다면 논문 결과가 single assembler 쓰지말고 ensemble방법을 추천드립니다라고 했었을테니 말이죠..

출처: @candyz_hyojung

일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)

오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한 BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -

3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )

Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.

Sequencing Samples	Bases(Gbp)	Read(x10⁶)	Clean rare	>Q20	>Q30	GC	Mean coverage
BGISEQ500-WES	29.41	294.3	0.41%	96.72%	89.14%	49.75%	328.49X
MGISEQ2000-WES	16.34	163.55	0.25%	98.18%	92.08%	49.71%	129.40X
HiSeq4000-WES	41.93	283.7	4.46%	97.36%	93.01%	50.63%	395.17X
NovaSeq-WES	25.88	178.87	2.25%	95.33%	92.67%	49.73%	241.52X
BGISEQ500-WGS	126.86	1270.02	1.76%	93.73%	83.33%	41.76%	41.03X
MGISEQ2000-WGS	137.36	1374.87	0.21%	96.17%	88.19%	41.76%	45.13X
HiSeq4000-WGS	191	1276.1	8.25%	95.90%	90.11%	41.69%	58.00X
NovaSeq-WGS	98.3	657.45	1.28%	95.89%	93.86%	41.61%	28.96X
HiSeq Xten-WGS	134	894.58	7.29%	94.50%	87.63%	40.71%	38.93X

Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ... :)

출처: @sana_twice.09

Pages

금요일, 7월 04, 2025

수요일, 5월 28, 2025

금요일, 2월 28, 2025

월요일, 12월 30, 2024

화요일, 6월 11, 2024

금요일, 10월 27, 2023

수요일, 7월 20, 2022

일요일, 11월 10, 2019