오늘은 충남대에서 교직생활을 하고 있으신 김준 교수님께서 출판하신 논문을 가져와봤습니다. 제 기억으로는 랜선친구인거로 기억하는데....
여튼 3명의 한국인의 서열을 Long read로 시퀀싱해서 이것저것 한번 확인해보셨다고 하네요
어떤 내용인지 한번 같이 알아가 보시죠
DOI: 10.1093/nar/gkae1294
gemini
## 연구 목적 및 배경
* 한국인 집단의 유전적 변이를 보다 자세히 이해하기 위해
* 특히 염색체 말단 부위에 위치한 복잡한 유전적 변이인 구조적 변이(Structural Variation, SV)에 초점을 맞추었습니다.
* 기존의 인간 참조 지놈보다 훨씬 더 완전하고 정확한 지놈 조립이 가능해졌습니다.
## genome 조립을 위한 프로그램과 파이프라인
* Long-read sequencing technology를 사용하여 3명의 한국인 개인으로부터 고품질의 장거리 시퀀싱 데이터를 생성하였습니다.
* 이들 데이터를 이용하여 각 개인의 지놈을 de novo 조립하였습니다.
* 조립된 지놈을 기존의 인간 참조 지놈(CHM13)에 정렬하여 구조적 변이를 식별하였습니다.
## 구조적 변이 분석
* 131,138개의 deletion SV와 121,461개의 insertion SV를 발견하였습니다.
* 이 중 41.6%는 동아시아 인구에서 흔하게 발견되는 것으로 나타났습니다.
* 또한, 103명의 한국인에 대한 단거리 시퀀싱 데이터를 이용하여, 이들 간의 공통적인 구조적 변이를 확인하였습니다.
## 구조적 변이가 false positive가 아니라 한국인 집단에서 보여지는 근거
* 단거리 시퀀싱 데이터를 이용하여 구조적 변이를 검증한 결과, 두 종류의 시퀀싱 데이터에서 검출된 구조적 변이는 높은 일치율을 보였습니다.
* 또한, 한국인 집단에서만 발견되는 구조적 변이도 다수 발견되었습니다.
## 연구의 의의
* 이 연구는 한국인 집단의 유전적 변이를 보다 자세히 이해하는 데 도움이 될 뿐만 아니라, 인간 염색체 진화에 대한 이해를 넓히는 데에도 기여할 것으로 기대됩니다.
* 특히, 염색체 말단 부위에 위치한 구조적 변이에 대한 연구는 인간 유전 질환의 원인을 밝히는 데 도움이 될 수 있습니다.
clova-x
이 논문은 한국인의 유전적 변이를 연구하기 위해 고품질 Long read 데이터를 생산하고 이를 이용하여 개인 게놈을 조립한 연구에 대한 내용을 담고 있습니다. Long read 시퀀싱 기술을 사용하여 복잡한 유전적 변이를 파악하고, 특히 서브텔로미어 영역의 구조적 변이를 밝히는 데 초점을 맞췄습니다.
연구를 진행한 배경에는 최근 발전한 Long read 시퀀싱 기술을 활용하여 한국인의 유전적 변이를 깊이 있게 이해하고자 하는 목적이 있었습니다. 이 기술은 이전 기술보다 더 정확하고 상세한 게놈 정보를 제공할 수 있어, 복잡한 유전적 변이를 효과적으로 식별할 수 있습니다.
게놈을 조립하는 데에는 Canu와 wtdbg2라는 프로그램을 사용했으며, phase를 결정하는 데에는 Falcon과 hap.py를 사용했습니다. 또한, 조립된 게놈의 품질을 검증하기 위해 QUAST와 BUSCO를 사용했습니다. 이러한 프로그램과 파이프라인을 통해 신뢰성 있는 게놈 조립 결과를 얻을 수 있었습니다.
조립된 게놈에서 구조적 변이를 식별하고 분석한 결과, 발굴한 구조적 변이 중 41.6%가 동아시아 인구에서 자주 관찰되는 것으로 나타났습니다. 또한, 발굴한 변이들이 부모로부터 유래한 것임을 확인함으로써, 이 변이들이 한국인 집단에서 실제로 나타나는 것임을 입증했습니다.
이 연구는 한국인의 유전적 변이에 대한 이해를 높이는 데 크게 기여할 것으로 기대됩니다. 또한, 구조적 변이가 인간 질병과 관련된 유전자 발현에 영향을 미칠 수 있다는 것을 보여줌으로써, 개인 맞춤형 치료와 예방에 도움이 될 수 있는 정보를 제공할 것으로 예상됩니다.
chatGPT
### 연구의 이유 및 배경
한국인의 유전자 변이를 이해하기 위해 이 연구는 한국인의 고품질 장독립(long-read) 유전체 데이터를 기반으로 개인 유전체를 조립하고 구조 변이를 분석했습니다. 이는 기존 단독립(short-read) 기반 연구가 반복적이거나 복잡한 유전체 영역에서 변이를 정확히 식별하지 못하는 한계를 보완하고자 한 것입니다. 특히, 한국인을 포함한 아시아 인구는 현재 전 세계 인구 유전체 데이터베이스에서 상대적으로 과소 대표되고 있어, 이번 연구는 아시아 인구의 유전적 다양성을 더욱 명확히 하는 데 기여하고자 했습니다.
---
### 유전체 조립에 사용된 프로그램 및 파이프라인 (한국어 설명)
연구에서 사용된 유전체 조립 파이프라인은 다음과 같습니다:
1. **데이터 생성**: Pacific Biosciences Sequel IIe HiFi 시스템을 이용해 약 20배 커버리지의 장독립 HiFi 데이터를 생성했습니다.
2. **유전체 조립**:
- **hifiasm (v0.16.0)**을 사용해 HiFi 읽기 데이터를 바탕으로 contig을 조립했습니다.
- 이후 **RagTag (v2.0.1)**를 이용해 CHM13 참조 유전체(버전 1.1 및 2.0)와 비교하며 contig을 scaffold 수준으로 확장했습니다.
3. **구조 변이 식별**:
- 조립된 유전체를 Winnowmap2(v2.03)으로 CHM13 참조 유전체에 정렬했습니다.
- 정렬 데이터를 **SVIM-asm (v1.0.2)**을 사용해 구조 변이를 호출했습니다.
- 이후 구조 변이를 필터링하고 분석했습니다.
4. **단독립 데이터 비교**:
- Manta (v1.6.0)와 GATK(v4.4.0)을 이용해 단독립 데이터를 기반으로 추가 구조 변이를 식별하고, 장독립 데이터와 교차 검증을 수행했습니다.
---
### 구조 변이의 신뢰성 (한국인 고유 변이인지 여부)
1. **데이터 검증**:
- 총 103명의 한국인 단독립 데이터와 비교 분석해 조립 기반 구조 변이가 한국인 전체 집단에서 흔히 관찰되는 변이임을 확인했습니다.
- 추가적으로, 구조 변이의 신뢰도를 검증하기 위해 선택된 변이에 대해 PCR 실험을 수행한 결과 92.9%의 변이가 실험적으로 확인되었습니다.
2. **고유성 확인**:
- 이 연구에서 확인된 구조 변이 중 일부는 동아시아 인구(41.6%)와 다른 전 세계 인구에서도 발견되었으나, subtelomeric 구조 변이는 한국인에게 특히 흔한 특성을 보여주었습니다.
- 주요 변이들은 텔로미어 손상 후 DNA 복구 과정에서 발생한 것으로 나타났으며, 이는 단순한 오류가 아니라 복구 메커니즘의 결과임을 시사합니다.
---
### 연구의 영향
이 연구는 유전체학 및 의학적 연구에 다음과 같은 영향을 미칠 수 있습니다:
1. **유전적 질병 연구**:
- 고품질 유전체 데이터는 한국인에게 흔한 유전적 변이를 더 명확히 이해하는 데 도움을 줄 수 있으며, 이를 통해 한국인을 대상으로 한 질병 연구 및 치료 전략 개발이 강화될 수 있습니다.
2. **유전체 진단 정확성**:
- 장독립 데이터를 기반으로 한 구조 변이 분석은 기존 단독립 데이터보다 더 많은 변이를 정확히 식별할 수 있어, 유전체 기반 진단 기술의 신뢰도를 높일 수 있습니다.
3. **진화 연구**:
- 텔로미어와 subtelomeric 변이는 인류의 유전체 진화와 텔로미어 유지 메커니즘을 이해하는 데 중요한 단서를 제공합니다.
추가적으로 연구에 대한 세부 사항이 더 필요하시다면 말씀해주세요!
NotebookLM
제공된 소스는 **한국인 3명의 고품질 드래프트 게놈(draft genome)을 분석하여 한국인 집단의 유전적 변이를 연구한 논문**입니다. 이 연구는 **최첨단 Long-read 시퀀싱 기술을 활용하여 복잡한 게놈 영역, 특히 텔로미어(telomere)와 서브텔로미어(subtelomere) 영역의 구조적 변이(structural variation, SV)를 밝히는 데 초점**을 맞추고 있습니다.
**연구 배경 및 이유**
* **유전적 변이 연구의 중요성:** 유전적 변이는 인간의 진화와 유전 질환 연구에 있어 매우 중요합니다. 특히, **구조적 변이(SVs)는 유전체 내에서 큰 규모의 DNA 변이를 일으키며, 질병과 진화에 큰 영향**을 미칠 수 있습니다.
* **기존 연구의 한계:** 기존의 인구 규모 유전체 연구는 주로 짧은 리드(short-read) 시퀀싱 기술을 사용해 왔습니다. 이 기술은 **반복적인 서열을 가진 텔로미어와 서브텔로미어 영역을 분석하는 데 어려움**이 있었습니다. 이러한 영역은 **유전체의 '어두운 물질(genomic dark matter)'로 여겨져 왔으며, 유전적 변이에 대한 이해를 방해**했습니다.
* **Long-read 시퀀싱 기술의 등장:** 최근 Long-read 시퀀싱 기술은 **단일 뉴클레오티드 수준에서 게놈의 어두운 물질을 평가하고, 유전적 변이를 일으키는 메커니즘을 식별하는 데 기여**했습니다. 특히, **반복적인 서열이 많은 텔로미어와 서브텔로미어 영역을 분석하는 데 매우 유용**합니다.
* **아시아인 유전체 데이터의 부족:** 기존의 인간 판게놈(pangenome) 참고 자료에는 **아시아인의 유전체 데이터가 충분히 반영되지 않았습니다**. 이 연구는 **한국인 유전체 데이터를 추가하여 이러한 불균형을 해소**하고자 했습니다.
* **텔로미어 진화 연구:** 텔로미어와 서브텔로미어는 **DNA 손상에 취약한 영역**이며, 이러한 영역에서 발생하는 SV는 **텔로미어 진화 과정을 이해하는 데 중요**합니다.
**게놈 조립에 사용된 프로그램 및 파이프라인**
* **HiFi Long-read 시퀀싱:** 연구진은 세 명의 한국인에게서 **약 20배의 높은 정확도(HiFi) Long-read 시퀀싱 데이터**를 생성했습니다. 이 데이터는 **개별 게놈 조립에 사용**되었습니다.
* **De novo 어셈블리:** 생성된 HiFi 리드(read)를 **hifiasm(version 0.16.0) 프로그램**을 사용하여 contig(연속적인 DNA 서열 조각)로 de novo 조립했습니다.
* **GFA 형식 변환:** hifiasm의 GFA 형식 출력 파일을 **FASTA 형식 파일로 변환**했습니다.
* **스캐폴딩(scaffolding):** contig들을 **RagTag(version v2.0.1) 프로그램**을 사용하여 **CHM13 게놈을 참조하여 의사 염색체 수준(pseudo-chromosome-level)으로 스캐폴딩**했습니다.
* **SV 호출:** 조립된 게놈을 **Winnowmap2(version 2.03) 프로그램**으로 CHM13 게놈에 정렬하고, **SVIM-asm(version 1.0.2) 프로그램**을 사용하여 구조적 변이를 호출했습니다.
* **chrY 제외:** 확인된 SV의 정확도를 고려하여 **chrY(Y 염색체)에 위치한 SV는 제외**했습니다.
**구조적 변이 분석 및 false positive 여부**
* **Long-read 기반 SV 감지:** 연구진은 **약 13만 개의 삭제(deletion) SV와 12만 개의 삽입(insertion) SV**를 확인했습니다. 이러한 SV는 **주로 센트로미어(centromere)와 서브텔로미어 영역에 위치**했습니다.
* **Short-read 시퀀싱 데이터와 비교:** 연구진은 **103명의 한국인으로부터 얻은 Short-read 시퀀싱 데이터**를 사용하여 **long-read 시퀀싱으로 확인된 SV를 검증**했습니다. Short-read 시퀀싱 데이터에서 발견된 **삭제 및 삽입 SV의 >91% 와 >95% 가 Long-read 어셈블리 기반 방법으로도 확인**되었습니다.
* **Long-read 기반 SV의 정확성:** **Long-read 기반 어셈블리 방법으로 확인된 SV는 Short-read 기반으로 발견된 singleton(하나의 개인에서만 발견되는 변이) SV를 상당수 포함**하고 있습니다. 이는 **Long-read 기반 SV가 false positive가 아닐 가능성이 높음**을 시사합니다.
* **Short-read 기반 데이터의 한계:** Long-read 데이터에서 발견된 **삭제 및 삽입 SV 중 일부만이 Short-read 데이터에서 감지**되었습니다. 이는 **Long-read 시퀀싱 데이터가 SV 감지에서 false negative를 줄이는 데 기여함**을 보여줍니다.
* **어셈블리 기반 vs 매핑 기반 SV 호출:** **어셈블리 기반 SV 호출 방법이 매핑 기반 방법보다 더 큰 규모의 SV를 더 많이 검출**했습니다. 이는 **어셈블리 기반 방법이 복잡한 게놈 영역, 특히 서브텔로미어 영역에서 더 나은 정밀도를 제공**함을 의미합니다.
* **PCR 검증:** 연구진은 **56개의 SV를 무작위로 선택하여 PCR 분석을 통해 검증**했습니다. **56개의 SV 중 52개(92.9%)가 PCR을 통해 확인**되었으며, 이는 **Long-read 어셈블리에서 발견된 SV의 신뢰성**을 높입니다.
* **다른 인종 집단과의 비교:** **한국인에게서 흔하게 발견되는 SV의 상당 부분이 다른 인종 집단에서도 발견**되었습니다. 이는 **SV가 인공적인 산물이 아님**을 시사합니다.
**연구 결과의 영향**
* **한국인 유전체 연구의 발전:** 이 연구는 **한국인 유전체 데이터의 다양성을 이해하는 데 중요한 기반**을 제공합니다. 또한, **유전 질환 연구에 귀중한 자료**를 제공합니다.
* **정밀 의학 발전 기여:** **개인 유전체 정보를 활용하여 질병을 예측하고 예방하는 정밀 의학 발전**에 기여할 수 있습니다.
* **텔로미어 및 서브텔로미어 연구 발전:** **텔로미어와 서브텔로미어 영역의 구조적 변이를 밝힘으로써** 텔로미어 진화 및 DNA 손상 복구 메커니즘에 대한 이해를 높일 수 있습니다.
* **암 연구 기여:** **텔로미어 손상 및 복구 메커니즘은 암 발생 및 진행에 중요한 역할**을 할 수 있으며, 이 연구는 **암 연구에도 기여**할 수 있습니다.
* **유전체 암흑 물질 해소:** 이 연구는 **유전체의 어두운 물질로 여겨졌던 텔로미어와 서브텔로미어 영역에 대한 이해를 넓히는 데 도움**을 줍니다.
요약하자면, 이 논문은 **한국인 3명의 고품질 Long-read 게놈 데이터를 활용하여 구조적 변이를 분석하고, 이러한 변이가 한국인 집단에서 흔하게 나타나는 것임을 밝혀냈습니다**. 이 연구는 **유전체 연구, 정밀 의학, 텔로미어 진화, 그리고 암 연구에 중요한 영향**을 미칠 수 있습니다.
wrtn.ai
## 서론
유전체 연구는 인간의 진화와 유전 질환을 이해하는 데 있어 중요한 역할을 합니다. 특히 한국인 집단의 유전적 변이를 연구하는 것은 현재 아시아 계열이 과소 대표된 인류 유전체 연구에 중요한 기여를 합니다 [1]. 본 연구는 한국인 3명의 고품질 드래프트 지놈을 바탕으로 한국인 집단의 유전적 변이를 분석하여 이 집단의 유전적 다양성을 이해하고, 구조적 변이를 식별하는 것을 목표로 합니다 [2].
## 데이터 생산 및 유전체 조립 - Long read 시퀀싱 데이터 생산 과정
본 연구에서는 한국인 3명(K-001, K-002, K-003)으로부터 고품질 Long read HiFi 시퀀싱 데이터를 생산하였습니다. HiFi 기술은 이전 단일 세포 수준의 전체 유전체 분석 및 de novo 조립 연구에서 검증된 방법을 사용하였습니다 [2]. 각 개인당 평균 20배 커버리지의 HiFi 데이터를 생산하였는데, 이는 유전체 내 복잡한 구조적 변이를 정확하게 파악할 수 있는 충분한 깊이의 데이터입니다 [1]. 이를 통해 본 연구는 한국인 집단의 유전적 다양성과 구조적 변이를 심도 있게 분석할 수 있었습니다.
## 데이터 생산 및 유전체 조립 - 유전체 조립에 사용한 프로그램 및 파이프라인
본 연구에서는 유전체 조립을 위해 다음과 같은 프로그램과 파이프라인을 사용하였습니다.
hifiasm은 단일 뉴클레오티드 수준에서의 고품질 de novo 유전체 조립을 가능하게 하는 프로그램입니다 . 이 프로그램은 long read 데이터를 이용하여 염색체 단위의 정확한 유전체 조립을 수행합니다. 또한 RagTag는 자동화된 조립 스캐폴딩 도구로 사용되어 유전체 조립 과정을 효율적으로 수행할 수 있게 하였습니다 .
구조적 변이 분석을 위해서는 SVIM-asm이 사용되었습니다 . 이 프로그램은 하플로이드 및 디플로이드 유전체 조립체로부터 구조적 변이를 검출할 수 있습니다. 따라서 본 연구에서는 SVIM-asm을 활용하여 한국인 유전체의 구조적 변이를 정확히 파악할 수 있었습니다.
이처럼 다양한 프로그램과 파이프라인을 사용하여 고품질 유전체 조립과 구조적 변이 분석을 수행함으로써, 한국인 집단의 유전적 다양성을 심도 있게 분석할 수 있었습니다.
## 한국인 집단 내 구조적 변이 분석 - 실제 변이 입증 근거
연구팀은 한국인 집단에서 식별된 구조적 변이가 실제로 존재함을 다음과 같은 방법으로 입증하였습니다.
첫째, 3명의 한국인 개인 유전체 조립체 간 비교를 통해 약 75%의 구조적 변이가 2개 이상의 조립체에서 공통적으로 발견되었다는 것을 확인하였습니다. 이는 이러한 구조적 변이가 한국인 집단에서 일반적으로 나타나는 변이임을 시사합니다.
둘째, 추가로 100명의 한국인 샘플에 대해 단기 읽기 시퀀싱 데이터를 생산하고 분석한 결과, 장기 읽기 기반 조립체에서 식별된 구조적 변이의 약 76%가 단기 읽기 데이터에서도 확인되었습니다. 이를 통해 연구팀은 이러한 구조적 변이가 한국인 집단 내에서 널리 나타나는 변이라는 것을 입증하였습니다.
셋째, 103명의 한국인 샘플에서 식별된 작은 변이(SNP, 단일 염기 삽입/결실)에 대한 주성분 분석(PCA)을 수행한 결과, 본 연구에서 사용된 3명의 개인이 전체 한국인 집단의 대표성을 가지고 있음이 확인되었습니다.
마지막으로, 연구팀은 PCR 검증을 통해 5 kb 미만의 구조적 변이 56개와 5 kb 이상의 아단말부 구조적 변이 10개에 대해 그 존재를 확인하였습니다.
이와 같은 다양한 방법을 통해 연구팀은 한국인 유전체에서 식별된 구조적 변이, 특히 아단말부 구조적 변이가 실제로 한국인 집단 내에 존재하는 변이임을 입증하였습니다. [1][40][41]
## 한국인 집단 내 구조적 변이 분석 - 변이의 중요성
이번 연구에서 식별된 구조적 변이는 한국인 집단 내 유전적 다양성을 나타내는 중요한 사례입니다. 특히 subtelomeric 구조적 변이는 인구별 유전적 차이를 나타내는 데 중요한 역할을 합니다 [1]. 이를 통해 한국인 집단의 유전적 특성을 이해할 수 있습니다.
연구팀은 이러한 구조적 변이가 한국인뿐만 아니라 다른 인종 그룹에서도 공통적으로 나타나는 것을 확인하였습니다 [40]. 그러나 한국인 집단에서는 이러한 변이가 독특한 패턴을 보이는 것으로 나타났습니다. 특히 subtelomeric 영역의 구조적 변이는 다른 집단과 구분되는 특징을 보여주었습니다 [1]. 이는 한국인 집단의 유전적 다양성을 강조하는 중요한 사례라고 할 수 있습니다.
따라서 이번 연구에서 발견된 구조적 변이는 한국인 집단의 유전적 특성을 이해하는 데 중요한 기여를 할 것으로 기대됩니다. 특히 subtelomeric 영역의 변이 분석은 인구 간 유전적 차이를 규명하는 데 유용할 것입니다.
## 결론
본 연구는 한국인 고품질 드래프트 지놈을 통해 구조적 변이를 분석한 결과, 한국인 집단의 유전적 다양성을 입증하였습니다. 특히 subtelomeric 영역의 구조적 변이 분석은 인구 간 유전적 차이를 규명하는 데 중요한 역할을 할 것으로 기대됩니다. 이는 유전체 연구에 중요한 기여를 하며, 향후 연구에 필요한 기초 자료를 제공합니다.
향후에는 더 많은 인구 샘플을 분석하여 유전체 연구의 정확성을 높이고, 유전적 변이의 기작을 더 깊이 이해하는 방향으로 나아갈 것입니다. 이를 통해 유전체 연구가 인간 유전 질환의 발병 기전 규명과 새로운 치료법 개발에 기여할 수 있을 것으로 기대됩니다. [1][2]
결론적으로 PacBio HiFi 20x 커버리지 정도면 draft genome을 확보 할 수 있고, 그 genome으로 변이와 SV들도 확인 할 수 있는 수준이 된다. PacBio HiFi 20x 비용에 따라 달라지겠지만 Whole Genome기반의 개인유전체분석은 ilumina가 아닌 PacBio나 ONT가 이끌겠네요
물론 기본 분석 이후 annotation과 interpretation이 이라는 허들이 남아있긴 하지만...
![]() |
출처: @ye._.vely618 |