레이블이 Long Read인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Long Read인 게시물을 표시합니다. 모든 게시물 표시

월요일, 2월 17, 2025

한국인의 유전적 변이를 알아보자: Long read로

오늘은 충남대에서 교직생활을 하고 있으신 김준 교수님께서 출판하신 논문을 가져와봤습니다. 제 기억으로는 랜선친구인거로 기억하는데.... 

여튼 3명의 한국인의 서열을 Long read로 시퀀싱해서 이것저것 한번 확인해보셨다고 하네요 

제목은 Highly accurate Korean draft genomes reveal structural variation highlighting human telomere evolution 입니다.

어떤 내용인지 한번 같이 알아가 보시죠

DOI: 10.1093/nar/gkae1294


gemini

## 연구 목적 및 배경

* 한국인 집단의 유전적 변이를 보다 자세히 이해하기 위해

* 특히 염색체 말단 부위에 위치한 복잡한 유전적 변이인 구조적 변이(Structural Variation, SV)에 초점을 맞추었습니다.

* 기존의 인간 참조 지놈보다 훨씬 더 완전하고 정확한 지놈 조립이 가능해졌습니다.

## genome 조립을 위한 프로그램과 파이프라인

* Long-read sequencing technology를 사용하여 3명의 한국인 개인으로부터 고품질의 장거리 시퀀싱 데이터를 생성하였습니다.

* 이들 데이터를 이용하여 각 개인의 지놈을 de novo 조립하였습니다.

* 조립된 지놈을 기존의 인간 참조 지놈(CHM13)에 정렬하여 구조적 변이를 식별하였습니다.

## 구조적 변이 분석

* 131,138개의 deletion SV와 121,461개의 insertion SV를 발견하였습니다.

* 이 중 41.6%는 동아시아 인구에서 흔하게 발견되는 것으로 나타났습니다.

* 또한, 103명의 한국인에 대한 단거리 시퀀싱 데이터를 이용하여, 이들 간의 공통적인 구조적 변이를 확인하였습니다.

## 구조적 변이가 false positive가 아니라 한국인 집단에서 보여지는 근거

* 단거리 시퀀싱 데이터를 이용하여 구조적 변이를 검증한 결과, 두 종류의 시퀀싱 데이터에서 검출된 구조적 변이는 높은 일치율을 보였습니다.

* 또한, 한국인 집단에서만 발견되는 구조적 변이도 다수 발견되었습니다.

## 연구의 의의

* 이 연구는 한국인 집단의 유전적 변이를 보다 자세히 이해하는 데 도움이 될 뿐만 아니라, 인간 염색체 진화에 대한 이해를 넓히는 데에도 기여할 것으로 기대됩니다.

* 특히, 염색체 말단 부위에 위치한 구조적 변이에 대한 연구는 인간 유전 질환의 원인을 밝히는 데 도움이 될 수 있습니다.


clova-x

이 논문은 한국인의 유전적 변이를 연구하기 위해 고품질 Long read 데이터를 생산하고 이를 이용하여 개인 게놈을 조립한 연구에 대한 내용을 담고 있습니다. Long read 시퀀싱 기술을 사용하여 복잡한 유전적 변이를 파악하고, 특히 서브텔로미어 영역의 구조적 변이를 밝히는 데 초점을 맞췄습니다.

연구를 진행한 배경에는 최근 발전한 Long read 시퀀싱 기술을 활용하여 한국인의 유전적 변이를 깊이 있게 이해하고자 하는 목적이 있었습니다. 이 기술은 이전 기술보다 더 정확하고 상세한 게놈 정보를 제공할 수 있어, 복잡한 유전적 변이를 효과적으로 식별할 수 있습니다.

게놈을 조립하는 데에는 Canu와 wtdbg2라는 프로그램을 사용했으며, phase를 결정하는 데에는 Falcon과 hap.py를 사용했습니다. 또한, 조립된 게놈의 품질을 검증하기 위해 QUAST와 BUSCO를 사용했습니다. 이러한 프로그램과 파이프라인을 통해 신뢰성 있는 게놈 조립 결과를 얻을 수 있었습니다.

조립된 게놈에서 구조적 변이를 식별하고 분석한 결과, 발굴한 구조적 변이 중 41.6%가 동아시아 인구에서 자주 관찰되는 것으로 나타났습니다. 또한, 발굴한 변이들이 부모로부터 유래한 것임을 확인함으로써, 이 변이들이 한국인 집단에서 실제로 나타나는 것임을 입증했습니다.

이 연구는 한국인의 유전적 변이에 대한 이해를 높이는 데 크게 기여할 것으로 기대됩니다. 또한, 구조적 변이가 인간 질병과 관련된 유전자 발현에 영향을 미칠 수 있다는 것을 보여줌으로써, 개인 맞춤형 치료와 예방에 도움이 될 수 있는 정보를 제공할 것으로 예상됩니다.


chatGPT

### 연구의 이유 및 배경

한국인의 유전자 변이를 이해하기 위해 이 연구는 한국인의 고품질 장독립(long-read) 유전체 데이터를 기반으로 개인 유전체를 조립하고 구조 변이를 분석했습니다. 이는 기존 단독립(short-read) 기반 연구가 반복적이거나 복잡한 유전체 영역에서 변이를 정확히 식별하지 못하는 한계를 보완하고자 한 것입니다. 특히, 한국인을 포함한 아시아 인구는 현재 전 세계 인구 유전체 데이터베이스에서 상대적으로 과소 대표되고 있어, 이번 연구는 아시아 인구의 유전적 다양성을 더욱 명확히 하는 데 기여하고자 했습니다.

---

### 유전체 조립에 사용된 프로그램 및 파이프라인 (한국어 설명)

연구에서 사용된 유전체 조립 파이프라인은 다음과 같습니다:

1. **데이터 생성**: Pacific Biosciences Sequel IIe HiFi 시스템을 이용해 약 20배 커버리지의 장독립 HiFi 데이터를 생성했습니다.

2. **유전체 조립**: 

   - **hifiasm (v0.16.0)**을 사용해 HiFi 읽기 데이터를 바탕으로 contig을 조립했습니다.

   - 이후 **RagTag (v2.0.1)**를 이용해 CHM13 참조 유전체(버전 1.1 및 2.0)와 비교하며 contig을 scaffold 수준으로 확장했습니다.

3. **구조 변이 식별**:

   - 조립된 유전체를 Winnowmap2(v2.03)으로 CHM13 참조 유전체에 정렬했습니다.

   - 정렬 데이터를 **SVIM-asm (v1.0.2)**을 사용해 구조 변이를 호출했습니다.

   - 이후 구조 변이를 필터링하고 분석했습니다.

4. **단독립 데이터 비교**:

   - Manta (v1.6.0)와 GATK(v4.4.0)을 이용해 단독립 데이터를 기반으로 추가 구조 변이를 식별하고, 장독립 데이터와 교차 검증을 수행했습니다.

---

### 구조 변이의 신뢰성 (한국인 고유 변이인지 여부)

1. **데이터 검증**:

   - 총 103명의 한국인 단독립 데이터와 비교 분석해 조립 기반 구조 변이가 한국인 전체 집단에서 흔히 관찰되는 변이임을 확인했습니다.

   - 추가적으로, 구조 변이의 신뢰도를 검증하기 위해 선택된 변이에 대해 PCR 실험을 수행한 결과 92.9%의 변이가 실험적으로 확인되었습니다.

2. **고유성 확인**:

   - 이 연구에서 확인된 구조 변이 중 일부는 동아시아 인구(41.6%)와 다른 전 세계 인구에서도 발견되었으나, subtelomeric 구조 변이는 한국인에게 특히 흔한 특성을 보여주었습니다.

   - 주요 변이들은 텔로미어 손상 후 DNA 복구 과정에서 발생한 것으로 나타났으며, 이는 단순한 오류가 아니라 복구 메커니즘의 결과임을 시사합니다.

---

### 연구의 영향

이 연구는 유전체학 및 의학적 연구에 다음과 같은 영향을 미칠 수 있습니다:

1. **유전적 질병 연구**:

   - 고품질 유전체 데이터는 한국인에게 흔한 유전적 변이를 더 명확히 이해하는 데 도움을 줄 수 있으며, 이를 통해 한국인을 대상으로 한 질병 연구 및 치료 전략 개발이 강화될 수 있습니다.

2. **유전체 진단 정확성**:

   - 장독립 데이터를 기반으로 한 구조 변이 분석은 기존 단독립 데이터보다 더 많은 변이를 정확히 식별할 수 있어, 유전체 기반 진단 기술의 신뢰도를 높일 수 있습니다.

3. **진화 연구**:

   - 텔로미어와 subtelomeric 변이는 인류의 유전체 진화와 텔로미어 유지 메커니즘을 이해하는 데 중요한 단서를 제공합니다.

추가적으로 연구에 대한 세부 사항이 더 필요하시다면 말씀해주세요!



NotebookLM

제공된 소스는 **한국인 3명의 고품질 드래프트 게놈(draft genome)을 분석하여 한국인 집단의 유전적 변이를 연구한 논문**입니다. 이 연구는 **최첨단 Long-read 시퀀싱 기술을 활용하여 복잡한 게놈 영역, 특히 텔로미어(telomere)와 서브텔로미어(subtelomere) 영역의 구조적 변이(structural variation, SV)를 밝히는 데 초점**을 맞추고 있습니다.

**연구 배경 및 이유**

*   **유전적 변이 연구의 중요성:** 유전적 변이는 인간의 진화와 유전 질환 연구에 있어 매우 중요합니다. 특히, **구조적 변이(SVs)는 유전체 내에서 큰 규모의 DNA 변이를 일으키며, 질병과 진화에 큰 영향**을 미칠 수 있습니다.

*   **기존 연구의 한계:** 기존의 인구 규모 유전체 연구는 주로 짧은 리드(short-read) 시퀀싱 기술을 사용해 왔습니다. 이 기술은 **반복적인 서열을 가진 텔로미어와 서브텔로미어 영역을 분석하는 데 어려움**이 있었습니다. 이러한 영역은 **유전체의 '어두운 물질(genomic dark matter)'로 여겨져 왔으며, 유전적 변이에 대한 이해를 방해**했습니다.

*   **Long-read 시퀀싱 기술의 등장:** 최근 Long-read 시퀀싱 기술은 **단일 뉴클레오티드 수준에서 게놈의 어두운 물질을 평가하고, 유전적 변이를 일으키는 메커니즘을 식별하는 데 기여**했습니다. 특히, **반복적인 서열이 많은 텔로미어와 서브텔로미어 영역을 분석하는 데 매우 유용**합니다.

*   **아시아인 유전체 데이터의 부족:** 기존의 인간 판게놈(pangenome) 참고 자료에는 **아시아인의 유전체 데이터가 충분히 반영되지 않았습니다**. 이 연구는 **한국인 유전체 데이터를 추가하여 이러한 불균형을 해소**하고자 했습니다.

*   **텔로미어 진화 연구:** 텔로미어와 서브텔로미어는 **DNA 손상에 취약한 영역**이며, 이러한 영역에서 발생하는 SV는 **텔로미어 진화 과정을 이해하는 데 중요**합니다.

**게놈 조립에 사용된 프로그램 및 파이프라인**

*   **HiFi Long-read 시퀀싱:** 연구진은 세 명의 한국인에게서 **약 20배의 높은 정확도(HiFi) Long-read 시퀀싱 데이터**를 생성했습니다. 이 데이터는 **개별 게놈 조립에 사용**되었습니다.

*   **De novo 어셈블리:** 생성된 HiFi 리드(read)를 **hifiasm(version 0.16.0) 프로그램**을 사용하여 contig(연속적인 DNA 서열 조각)로 de novo 조립했습니다.

*   **GFA 형식 변환:** hifiasm의 GFA 형식 출력 파일을 **FASTA 형식 파일로 변환**했습니다.

*   **스캐폴딩(scaffolding):** contig들을 **RagTag(version v2.0.1) 프로그램**을 사용하여 **CHM13 게놈을 참조하여 의사 염색체 수준(pseudo-chromosome-level)으로 스캐폴딩**했습니다.

*   **SV 호출:** 조립된 게놈을 **Winnowmap2(version 2.03) 프로그램**으로 CHM13 게놈에 정렬하고, **SVIM-asm(version 1.0.2) 프로그램**을 사용하여 구조적 변이를 호출했습니다.

*   **chrY 제외:** 확인된 SV의 정확도를 고려하여 **chrY(Y 염색체)에 위치한 SV는 제외**했습니다.

**구조적 변이 분석 및 false positive 여부**

*   **Long-read 기반 SV 감지:** 연구진은 **약 13만 개의 삭제(deletion) SV와 12만 개의 삽입(insertion) SV**를 확인했습니다. 이러한 SV는 **주로 센트로미어(centromere)와 서브텔로미어 영역에 위치**했습니다.

*   **Short-read 시퀀싱 데이터와 비교:** 연구진은 **103명의 한국인으로부터 얻은 Short-read 시퀀싱 데이터**를 사용하여 **long-read 시퀀싱으로 확인된 SV를 검증**했습니다. Short-read 시퀀싱 데이터에서 발견된 **삭제 및 삽입 SV의 >91% 와 >95% 가 Long-read 어셈블리 기반 방법으로도 확인**되었습니다.

*   **Long-read 기반 SV의 정확성:** **Long-read 기반 어셈블리 방법으로 확인된 SV는 Short-read 기반으로 발견된 singleton(하나의 개인에서만 발견되는 변이) SV를 상당수 포함**하고 있습니다. 이는 **Long-read 기반 SV가 false positive가 아닐 가능성이 높음**을 시사합니다.

*   **Short-read 기반 데이터의 한계:** Long-read 데이터에서 발견된 **삭제 및 삽입 SV 중 일부만이 Short-read 데이터에서 감지**되었습니다. 이는 **Long-read 시퀀싱 데이터가 SV 감지에서 false negative를 줄이는 데 기여함**을 보여줍니다.

*   **어셈블리 기반 vs 매핑 기반 SV 호출:** **어셈블리 기반 SV 호출 방법이 매핑 기반 방법보다 더 큰 규모의 SV를 더 많이 검출**했습니다. 이는 **어셈블리 기반 방법이 복잡한 게놈 영역, 특히 서브텔로미어 영역에서 더 나은 정밀도를 제공**함을 의미합니다.

*   **PCR 검증:** 연구진은 **56개의 SV를 무작위로 선택하여 PCR 분석을 통해 검증**했습니다. **56개의 SV 중 52개(92.9%)가 PCR을 통해 확인**되었으며, 이는 **Long-read 어셈블리에서 발견된 SV의 신뢰성**을 높입니다.

*   **다른 인종 집단과의 비교:** **한국인에게서 흔하게 발견되는 SV의 상당 부분이 다른 인종 집단에서도 발견**되었습니다. 이는 **SV가 인공적인 산물이 아님**을 시사합니다.

**연구 결과의 영향**

*   **한국인 유전체 연구의 발전:** 이 연구는 **한국인 유전체 데이터의 다양성을 이해하는 데 중요한 기반**을 제공합니다. 또한, **유전 질환 연구에 귀중한 자료**를 제공합니다.

*   **정밀 의학 발전 기여:** **개인 유전체 정보를 활용하여 질병을 예측하고 예방하는 정밀 의학 발전**에 기여할 수 있습니다.

*   **텔로미어 및 서브텔로미어 연구 발전:** **텔로미어와 서브텔로미어 영역의 구조적 변이를 밝힘으로써** 텔로미어 진화 및 DNA 손상 복구 메커니즘에 대한 이해를 높일 수 있습니다.

*   **암 연구 기여:** **텔로미어 손상 및 복구 메커니즘은 암 발생 및 진행에 중요한 역할**을 할 수 있으며, 이 연구는 **암 연구에도 기여**할 수 있습니다.

*   **유전체 암흑 물질 해소:** 이 연구는 **유전체의 어두운 물질로 여겨졌던 텔로미어와 서브텔로미어 영역에 대한 이해를 넓히는 데 도움**을 줍니다.

요약하자면, 이 논문은 **한국인 3명의 고품질 Long-read 게놈 데이터를 활용하여 구조적 변이를 분석하고, 이러한 변이가 한국인 집단에서 흔하게 나타나는 것임을 밝혀냈습니다**. 이 연구는 **유전체 연구, 정밀 의학, 텔로미어 진화, 그리고 암 연구에 중요한 영향**을 미칠 수 있습니다.


wrtn.ai

## 서론

유전체 연구는 인간의 진화와 유전 질환을 이해하는 데 있어 중요한 역할을 합니다. 특히 한국인 집단의 유전적 변이를 연구하는 것은 현재 아시아 계열이 과소 대표된 인류 유전체 연구에 중요한 기여를 합니다 [1]. 본 연구는 한국인 3명의 고품질 드래프트 지놈을 바탕으로 한국인 집단의 유전적 변이를 분석하여 이 집단의 유전적 다양성을 이해하고, 구조적 변이를 식별하는 것을 목표로 합니다 [2].

## 데이터 생산 및 유전체 조립 - Long read 시퀀싱 데이터 생산 과정

본 연구에서는 한국인 3명(K-001, K-002, K-003)으로부터 고품질 Long read HiFi 시퀀싱 데이터를 생산하였습니다. HiFi 기술은 이전 단일 세포 수준의 전체 유전체 분석 및 de novo 조립 연구에서 검증된 방법을 사용하였습니다 [2]. 각 개인당 평균 20배 커버리지의 HiFi 데이터를 생산하였는데, 이는 유전체 내 복잡한 구조적 변이를 정확하게 파악할 수 있는 충분한 깊이의 데이터입니다 [1]. 이를 통해 본 연구는 한국인 집단의 유전적 다양성과 구조적 변이를 심도 있게 분석할 수 있었습니다.

## 데이터 생산 및 유전체 조립 - 유전체 조립에 사용한 프로그램 및 파이프라인

본 연구에서는 유전체 조립을 위해 다음과 같은 프로그램과 파이프라인을 사용하였습니다.

hifiasm은 단일 뉴클레오티드 수준에서의 고품질 de novo 유전체 조립을 가능하게 하는 프로그램입니다 . 이 프로그램은 long read 데이터를 이용하여 염색체 단위의 정확한 유전체 조립을 수행합니다. 또한 RagTag는 자동화된 조립 스캐폴딩 도구로 사용되어 유전체 조립 과정을 효율적으로 수행할 수 있게 하였습니다 .

구조적 변이 분석을 위해서는 SVIM-asm이 사용되었습니다 . 이 프로그램은 하플로이드 및 디플로이드 유전체 조립체로부터 구조적 변이를 검출할 수 있습니다. 따라서 본 연구에서는 SVIM-asm을 활용하여 한국인 유전체의 구조적 변이를 정확히 파악할 수 있었습니다.

이처럼 다양한 프로그램과 파이프라인을 사용하여 고품질 유전체 조립과 구조적 변이 분석을 수행함으로써, 한국인 집단의 유전적 다양성을 심도 있게 분석할 수 있었습니다.

## 한국인 집단 내 구조적 변이 분석 - 실제 변이 입증 근거

연구팀은 한국인 집단에서 식별된 구조적 변이가 실제로 존재함을 다음과 같은 방법으로 입증하였습니다.

첫째, 3명의 한국인 개인 유전체 조립체 간 비교를 통해 약 75%의 구조적 변이가 2개 이상의 조립체에서 공통적으로 발견되었다는 것을 확인하였습니다. 이는 이러한 구조적 변이가 한국인 집단에서 일반적으로 나타나는 변이임을 시사합니다.

둘째, 추가로 100명의 한국인 샘플에 대해 단기 읽기 시퀀싱 데이터를 생산하고 분석한 결과, 장기 읽기 기반 조립체에서 식별된 구조적 변이의 약 76%가 단기 읽기 데이터에서도 확인되었습니다. 이를 통해 연구팀은 이러한 구조적 변이가 한국인 집단 내에서 널리 나타나는 변이라는 것을 입증하였습니다.

셋째, 103명의 한국인 샘플에서 식별된 작은 변이(SNP, 단일 염기 삽입/결실)에 대한 주성분 분석(PCA)을 수행한 결과, 본 연구에서 사용된 3명의 개인이 전체 한국인 집단의 대표성을 가지고 있음이 확인되었습니다.

마지막으로, 연구팀은 PCR 검증을 통해 5 kb 미만의 구조적 변이 56개와 5 kb 이상의 아단말부 구조적 변이 10개에 대해 그 존재를 확인하였습니다.

이와 같은 다양한 방법을 통해 연구팀은 한국인 유전체에서 식별된 구조적 변이, 특히 아단말부 구조적 변이가 실제로 한국인 집단 내에 존재하는 변이임을 입증하였습니다. [1][40][41]

## 한국인 집단 내 구조적 변이 분석 - 변이의 중요성

이번 연구에서 식별된 구조적 변이는 한국인 집단 내 유전적 다양성을 나타내는 중요한 사례입니다. 특히 subtelomeric 구조적 변이는 인구별 유전적 차이를 나타내는 데 중요한 역할을 합니다 [1]. 이를 통해 한국인 집단의 유전적 특성을 이해할 수 있습니다. 

연구팀은 이러한 구조적 변이가 한국인뿐만 아니라 다른 인종 그룹에서도 공통적으로 나타나는 것을 확인하였습니다 [40]. 그러나 한국인 집단에서는 이러한 변이가 독특한 패턴을 보이는 것으로 나타났습니다. 특히 subtelomeric 영역의 구조적 변이는 다른 집단과 구분되는 특징을 보여주었습니다 [1]. 이는 한국인 집단의 유전적 다양성을 강조하는 중요한 사례라고 할 수 있습니다.

따라서 이번 연구에서 발견된 구조적 변이는 한국인 집단의 유전적 특성을 이해하는 데 중요한 기여를 할 것으로 기대됩니다. 특히 subtelomeric 영역의 변이 분석은 인구 간 유전적 차이를 규명하는 데 유용할 것입니다.

## 결론

본 연구는 한국인 고품질 드래프트 지놈을 통해 구조적 변이를 분석한 결과, 한국인 집단의 유전적 다양성을 입증하였습니다. 특히 subtelomeric 영역의 구조적 변이 분석은 인구 간 유전적 차이를 규명하는 데 중요한 역할을 할 것으로 기대됩니다. 이는 유전체 연구에 중요한 기여를 하며, 향후 연구에 필요한 기초 자료를 제공합니다.

향후에는 더 많은 인구 샘플을 분석하여 유전체 연구의 정확성을 높이고, 유전적 변이의 기작을 더 깊이 이해하는 방향으로 나아갈 것입니다. 이를 통해 유전체 연구가 인간 유전 질환의 발병 기전 규명과 새로운 치료법 개발에 기여할 수 있을 것으로 기대됩니다. [1][2] 


결론적으로 PacBio HiFi 20x 커버리지 정도면 draft genome을 확보 할 수 있고, 그 genome으로 변이와 SV들도 확인 할 수 있는 수준이 된다. PacBio HiFi 20x 비용에 따라 달라지겠지만 Whole Genome기반의 개인유전체분석은 ilumina가 아닌 PacBio나 ONT가 이끌겠네요

물론 기본 분석 이후 annotation과 interpretation이 이라는 허들이 남아있긴 하지만...



출처: @ye._.vely618


수요일, 3월 13, 2024

Long-read 시대의 정렬 알고리즘

사실 아직 Long-read 시대라고 하기에는 전세계 적으로 생산되는 시퀀싱 데이터의 비율로 보면 꼬꼬마이긴 하나 그래도 비용이나 지금까지의 축적된 자료 활용이라는 몇몇 점들을 제외하면 짧은 애들시대는 조만간 저물지 않을까 합니다.

물론 짧은 애들 또한 계속 필요는 합니다. 그러나 Long read 이전과는 같지 않을 것이기에 Long read 시대를 준비해서 나쁘지는 않을겁니다.

그래서 "A survey of mapping algorithms in the long-reads era" 라는 논문 하나 준비해봤습니다.

DIO: 10.1186/s13059-023-02972-3

시대가 시대이고 영어 읽기 귀찮으니 구글에게 한번 맡겨보았습니다.


Q: 내 드라이브에서"s13059-023-02972-3.pdf" 파일을 읽고 자세히 한글로 요약해줘

서론:

DNA 염기서열 분석은 생명과학 분야의 핵심 기술이며, 롱리드 시퀀싱 기술의 발전은 이 분야에 큰 변화를 가져왔습니다. 롱리드 기술은 기존의 짧은 리드 시퀀싱 기술에 비해 훨씬 더 긴 염기서열 정보를 얻을 수 있지만, 이에 따라 데이터 분석 과정에서도 새로운 문제들이 발생했습니다. 그 중 하나가 롱리드 데이터를 참고 유전체에 매핑하는 과정입니다. 

본 논문에서는 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 조사 연구 결과를 제시합니다.


1. 롱리드 기술 개요:

롱리드 기술은 10kb 이상의 긴 염기서열 정보를 얻을 수 있는 기술입니다.

롱리드 기술의 장점은 다음과 같습니다.

  • 유전체 구조 변형 (SV) 분석에 유리
  • 단일 분자 haplotyping 가능
  • 염기서열 조립 (assembly) 과정 개선

롱리드 기술의 단점은 다음과 같습니다.

  • 높은 오류율
  • 높은 컴퓨팅 비용


2. 매핑 알고리즘 종류:

롱리드 매핑 알고리즘은 크게 씨앗-확장 (seed-and-extend) 프레임워크와 씨앗-체인 (seed-and-chain) 프레임워크로 나눌 수 있습니다.

씨앗-확장 프레임워크는 짧은 리드 매핑 알고리즘에서 사용되는 기본적인 방법입니다.

씨앗-체인 프레임워크는 롱리드 데이터의 특징을 고려하여 개발된 새로운 방법입니다.


3. 주요 매핑 알고리즘 비교 분석:

본 논문에서는 다음과 같은 주요 매핑 알고리즘을 비교 분석했습니다.

  • Minimap2
  • NGMLR
  • GraphMap
  • LSC
  • BWA-MEM
  • LAST
  • BLASR
  • RapMap
  • SMALT

비교 분석 기준은 다음과 같습니다.

  • 정확도
  • 속도
  • 메모리 사용량
  • 특징


4. 매핑 알고리즘 선택 가이드:

연구 목적에 따라 적절한 매핑 알고리즘을 선택해야 합니다.

정확도가 가장 중요한 경우 Minimap2 또는 NGMLR을 사용하는 것이 좋습니다.

속도가 가장 중요한 경우 LSC 또는 BWA-MEM을 사용하는 것이 좋습니다.

메모리 사용량이 가장 중요한 경우 GraphMap 또는 LAST를 사용하는 것이 좋습니다.


5. 향후 연구 방향:

  • 롱리드 기술 발전에 따라 새로운 매핑 알고리즘 개발
  • 멀티 샘플 데이터 분석을 위한 효율적인 알고리즘 개발
  • 염기서열 변형 (variant) 분석을 위한 정확한 알고리즘 개발


결론:

본 논문은 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 종합적인 개요를 제공합니다. 각 알고리즘의 특징, 장단점, 성능 비교 등을 분석하여 연구 목적에 맞는 최적의 알고리즘 선택에 도움을 줍니다.

오... 비약도 있고 생략도 많지만 (물론 클로드 3에 비해서는 아직 갈길이 멀듯합니다)그래도 pdf파일을 요약해줍니다. 근데.. 추가 정보에 롱리드 시퀀싱 기술의 url이..  신박한 링크를 넣어놨네요;; Orz


출처: @ye._.vely618

일요일, 11월 12, 2023

Long Read Sequencing을 전적으로 믿으셔야 합니다.

항상 느끼는것이지만 사람들은 익숙한것에 익숙하다는...
물론 이 글을 쓰는 본인도 별반 차이 없다는게 현실
그럼에도 불구하고 세상에는 익숙한것을 거부하고 한 걸음 나아가는 분들이 있어서 발전한다는...

오늘은 유전체분야에서 다들 익숙한 짧은길이의 시퀀싱 플랫폼 대신 Long read 시퀀싱 플랫폼을 왜 써야하는지 보여주는 논문이 있어 들고와봤습니다.

The blooming of long-read sequencing reforms biomedical research

DOI: 10.1186/s13059-022-02604-2


Long read 시퀀싱의 대표주자인 PacBio와 Nanopore가 나온지도 꽤 된것 같으나, 아직 주류 시퀀싱 플랫폼으로서는 자리매김을 하지 못한... 조명받지 못하고 있지만.. 그 진가를 하나둘씩 알게되고 안쓸수 없지 않을까 합니다.

물론 이 Long read 플랫폼을 안 쓸수 없지만 PacBio/Nanopore 플랫폼을 이용해서 진단 키트를 개발하여 돈을 벌 수 있게 된다는 것은 아닙니다. 오해 없으시기 바랍니다. Long read 플랫폼에서 기존 NGS 시스템에서 해온 것 같이 하려고 하면 개인적인 생각으로는 그냥 하지 마세요 라고 말하고 싶네요. 그런 생각이라면..


여튼 Long read 플랫폼은 genome assembly과 transcriptome 분야에서 활약을 하고 있다고 하는데 이는 기존 NGS의 짧은 read로 인한 한계를 극복하였기 때문에 가능한 당연한 결과였을 듯 합니다.

genome assembly를 설명하면서 이런 저런 설명을 하였는데 사실 T2T genome이 세상에 나왔는데 무슨 설명이 더 필요할지... 물론 다배체면서, repeat 서열이 엄청 긴 식물과 같은 다양한 생물의 유전체 연구에서는 아직 할일이 많이 남아있을듯 합니다.

그리고 더불어 transcriptome, 전사체에서도 두각을 나타내고 있다고 합니다. 이전에 PcaBio사에서 나온 Iso-Seq이라는 플랫폼이 있었는데 기존 숏리드 플랫폼으로는 할 수 없었던 full-length 유전자 서열을 확인하여, 다양한 gene의 isoform 을 확인 할 수 있었는데, 이제는 이는 당연한것이고, read count를 활용하여 정확한 발현 측정까지도.. 가능하다고 합니다. 또한 이 논문에서 처음 보았는데 exitron이라는 것도 확인하였다고 하네요.

더불어 당연히 암연구에서도 long-read 플랫폼이 중요한 역할을 하고 있는데, 시퀀싱을 위해 dna나 rna가닥을 증폭시키지 않은 특징 때문에 가능 응용법이긴하죠. 특히 nanopre 플랫폼을 사용하여 급성 골수성 백혈병 (AML) 환자의 RNA변이와 fusion gene 구조를 확인하기도 하였고, 대장암 세포주에서 5mC 위치와 양을 정량하여 각각 AML와 대장암 연구에 도움이 되고 있다고 합니다.

이렇듯 Long Read Seq 플랫폼은 이제 쓰지 않을 이유가 없는 플랫폼으로 우리 곁에 생각보다 가깝게 다가왔으나 생각에는 Long이든 Short든 정확하게 내 병의 이유를 빠르고 "싸게" 알아낼 수 있으면 모두 행복한 것 아니겠습니까?

그럴 수 있는 방법이 어딘가에 있겠죠, 없으면, 언제나 그러했듯이 우리는 또 해답을 찾아내겠죠. :)




출처: @ye._.vely618


일요일, 11월 07, 2021

HLA를 빠르고 정확하게 할 수 없을까

그래서 나노포어가 준비했습니다.

절대적으로 빠른 건지, 정확도의 수준은 정확히 모르겠으나 일단 샘플당 $80되겠습니다.
물론 이게 재료비값인지 소비자가인지는.....
아마 본인들이 했을때 가격인듯.... (일반 소비자가 이 가격에 가능할지는 모르겠네요)

Rapid, highly accurate and cost-effective open-source simultaneous complete HLA typing and phasing of class I and II alleles using nanopore sequencing

그럼 HLA(Human leukocyte antigen)검사는 무엇이냐? 쉽게 얘기하면 장기이식할때 장기이식할수 있는지 여부를 확인하는 검사되겠습니다. 이 HLA가 내거와 내거 아닌거를 구분하게 해주는 녀석되겠습니다. 

면역학 책 들춰보시면... 책을 덮습니다.

일반적으로 HLA는 A,B,C인 Class I, DRA1, DRB1/3/4/5, DQA1, DQB1, DPA1, DPB1인 Class II인데 우리나라는 A,B,C를 포함해서 일부만 본다고 합니다. 

여튼 나노포어는 긴 길이로 시퀀싱하는 장점과 빠른 시퀀싱속도를 바탕으로 시퀀싱 시간은 8시간내 (물론 라이브러리 제작시간은... 따로 좀 봐야할것 같습니다.) 분석은 샘플당 30분(근데 사용한 서버 수준이... 32core 256g 메모리 서버)소요 됐다고하는데...

1 샘플(aka 1검체)의 경우 나노포어 한개 사용해서 기존 일루미나나 써모 플랫폼보다 빠르고 싸게 결과를 도출할 수 있도록 해준다는데...

영어의 짧음인지...  가끔 나노포어가 더 안좋아 보이게 설명하는거 같기도합니다. 


결론은 나노포어가 더 길게 시퀀싱하기 떄문에 복잡한 HLA에서 더 정확하게 구별할 수 있고,
기존에 short 시퀀싱에 적합한 pcr primer말고 long range PCR에 적합하게 프라이머를 변경해서 진행하면 HLA의 복잡한 부분들을 더 잘 잡아낼 수 있을것이라고 털고있습니다.


여튼 개인적으로 기존 short 시퀀서 플랫폼 보다는 나노포어가 HLA에서는 좀더 나은 성능을 보여주지 않을까합니다. HLA의 복잡도 때문에 나노포어의 장점을 활용할 수 있는 PCR 프라이머로 재 디자인해서 진행하면 시퀀싱 시간/분석 시간/정확도에서 가장 적합하기 않을까하는 생각입니다.




@ye._.vely618


일요일, 5월 03, 2020

Long Read Assembler 설치 작업 로그

오랜만에 작업 로그용 글입니다. :)

Long Read(aka Nanopore)를 위한 assembler의 설치에 대한 로그로... 모 그렇게 자주 사용 될일이 없을것 같지만.. 그래도..

root권한 또는 sudo권한이 없는 상황을 가정하고 설치하는게...
나중에 편합니다. root권한 있으면 편하지만 나같은 쩌리한테 호기롭게 root권한이나 sudo를 부여할 이유가 있겠습니까? 그냥 없으면 없는대로 사는법도 알고 있어야... :)


canu (https://github.com/marbl/canu/releases)

$ wget https://github.com/marbl/canu/releases/download/v2.0/canu-2.0.Linux-amd64.tar.xz

$ tar -xvf canu-2.0.Linux-amd64.tar.xz

또는

$ git clone https://github.com/marbl/canu.git

$ cd canu/src

$ make -j <number of threads>


wtdbg2 (https://github.com/ruanjue/wtdbg2)

$ git clone https://github.com/ruanjue/wtdbg2

$ cd wtdbg2 && make


Raven (https://github.com/lbcb-sci/raven)

$ git clone --recursive https://github.com/lbcb-sci/raven.git raven

$ cd raven && mkdir build && cd build

$cmake -DCMAKE_BUILD_TYPE=Release .. && make

$ ./bin/raven

단, raven은 cmakr 3.9이상이 필요합니다. cmake 설치는 아래에 따로..


Racon (https://github.com/lbcb-sci/racon)

$ git clone --recursive https://github.com/lbcb-sci/racon.git racon

$ cd racon

$ mkdir build

$ cd build

$ cmake -DCMAKE_BUILD_TYPE=Release ..

$ make

racon의 경우 raven이 아닌 miniasm_and_minipolish.sh 작업시 racon을 찾아 해매서 racon 설치도 진행하였습니다.


flye (https://github.com/fenderglass/Flye)

$ git clone https://github.com/fenderglass/Flye

$ cd Flye

$ python setup.py install --prefix=/path/to/install/

또는

$ python setup.py install --user

※ --user 라는 옵션이 갱장히 편합니다. 대신 나만 됩니다.





cmake (https://cmake.org/)

$ wget https://cmake.org/files/v3.10/cmake-3.10.3.tar.gz

$ /bootstrap --prefix=/path/to/install/

$ make

$ make install

※ prefix를 설정하지 않으면 /usr/bin 모 이런데에 설치 되므로 설치가 제대로 되지 않기 떄문에 prefix를 설정하는것이 정신건강에 이롭습니다. :)



출처: @sana_twice.09