레이블이 Long-read인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Long-read인 게시물을 표시합니다. 모든 게시물 표시

월요일, 11월 03, 2025

All of Us 프로젝트에서 진행한 LRS 결과 요약

영국에 UK Biobank가 있다면 미국에는 All of Us가 있다.

니네가 본걸 우리라고 못볼쏘냐. 그래서 All of Us에서도 내놨습니다. All of Us에서 진행한 Long Read 시퀀싱 데이터로 확인한 것들.  Population-scale Long-read Sequencing in the All of Us Research Program라는 제목으로 정식 저널지는 아니고, medrxiv에 공개된 내용으로 All of Us 프로젝트를 통해 수집된 천여명의 흑인/아프리카 미국인들의 Long read 데이터 분석한 유전체 결과를 공유했습니다. 유전체 연구에서 아무래도 백인(코카서스)중심으로 되어 있었다 보니 그 외 유전체 서열에 대해서는 좀 소외되고 있었던게 현실있었죠. 그나마 북동아시아의 한중일 삼국은 나름 경쟁으로 서로 서로 몸집을 키우고 있는데 그 외 인종들은 소외 되어 다양성을 많이 놓치고 있었는데 이번에 All of Us를 통해 일부 해소 될 수 있을 것 같습니다. 

아... 근데 LRS가 ONT가 아니라 PacBio 플랫폼이었다니 실망이네요.
솔까말 PacBio는 MRS(Middle Read Sequencing)아닌가.. 


DOI: 10.1101/2025.10.02.25336942

(이번 논문의 파일 크기가 커서 그런지 perplexity.ai가 제대로 처리를 못했네요)


gemini

## 🧬 알면 알수록 유익한 유전자 정보: All of Us 연구 프로그램의 '장문 염기서열 분석' (LRS) 혁신

이 연구는 미국 국립보건원(NIH) 산하의 대규모 연구 프로그램인 **'All of Us'**에서 수행된 논문 **"Population-scale Long-read Sequencing in the All of Us Research Program"**의 핵심 내용을 일반 독자들이 쉽게 이해할 수 있도록 요약한 글입니다.

---

### 1. 연구 배경: 기존 유전자 분석의 한계 극복

[cite_start]미국은 'All of Us'라는 국가 단위 연구 프로그램을 통해 100만 명의 유전자 정보(게놈)와 방대한 의료 기록(EHRs)을 연결하는 거대 바이오뱅크를 구축하고 있습니다[cite: 5, 17].

그동안 유전자 연구의 주류는 **'단문 염기서열 분석(srWGS)'**이었습니다. [cite_start]이는 비용 효율적이지만, 우리 유전자 중 특히 **반복되는 영역(Repetitive Regions)**이나 **큰 규모의 구조적 변이(Structural Variants, SVs)**를 정확히 파악하는 데는 한계가 있었습니다[cite: 22, 24, 25]. [cite_start]이 '사각지대'에는 질병과 밀접하게 관련된 중요한 유전자 정보가 숨겨져 있으며, 특히 유전적 다양성이 높은 집단에서는 기존 분석으로 놓치는 변이가 많았습니다[cite: 25].

[cite_start]이 논문은 **'장문 염기서열 분석(LRS)'**이라는 새로운 기술을 대규모로 도입하여, 기존 방법으로는 볼 수 없었던 유전체 전체의 완전한 그림을 그려내고자 했습니다[cite: 6, 26].

### 2. 연구 목적: 구조적 변이(SV)와 질병의 연관성 규명

[cite_start]이 연구의 핵심 목표는 **LRS 기술**을 'All of Us'의 대규모 임상 데이터와 결합하여, **복잡한 구조적 변이(SVs)**가 인간의 건강과 질병에 어떻게 영향을 미치는지에 대한 혁신적인 통찰력을 제공하는 새로운 연구 체계를 구축하는 것입니다[cite: 6].

[cite_start]특히, 유전체 연구에서 **과소 대표(Underrepresented)** 되어 온 **"흑인 또는 아프리카계 미국인"**으로 스스로를 밝힌 참가자 집단을 대상으로 유전적 다양성을 포괄적으로 특성화하고, 이들이 가진 특정 질병 위험 변이를 발견하는 데 집중했습니다[cite: 34, 38, 39].

---

### 3. 연구 방법: LRS와 EHR 데이터의 통합 분석

1.  **참가자 선정 및 시퀀싱:**

    * [cite_start]스스로 **흑인 또는 아프리카계 미국인**이라고 밝힌 **1,027명**의 참가자를 선정했습니다[cite: 7, 37]. [cite_start]이들은 높은 유전적 다양성을 가지며, 특정 질병 관련 변이를 풍부하게 보유할 가능성이 있어 연구에 적합했습니다[cite: 41].

    * **PacBio HiFi 기술**을 사용하여 **장문 염기서열 분석(LRS)**을 수행했습니다. [cite_start]이 기술은 기존 분석보다 훨씬 길고 정확한 유전자 정보를 제공합니다 (평균적으로 기존 기술보다 115배 긴 염기서열)[cite: 7, 691].

2.  **구조적 변이(SV) 발굴:**

    * [cite_start]LRS 데이터에서 **새로운 컴퓨팅 도구와 파이프라인**을 개발하여 SV를 포함한 모든 종류의 유전자 변이를 포괄적으로 발굴했습니다[cite: 9, 34].

3.  **대규모 질병 연관성 연구 (PheWAS):**

    * [cite_start]LRS를 통해 발견된 **75만 개 이상의 SV** 정보를 기존의 **10,000명**의 흑인/아프리카계 미국인 참가자(단문 분석 데이터 보유)에게 **'예측(Impute)'**하는 확장 가능한 방법을 개발했습니다[cite: 9, 10].

    * [cite_start]이 예측된 SV 정보와 참가자의 **전자 건강 기록(EHRs)**에 있는 수백 가지 질병 정보(표현형)를 연결하여, 어떤 **SV가 특정 질병과 연관**되는지를 밝히는 대규모 연관성 연구(**PheWAS, Phenome-Wide Association Study**)를 수행했습니다[cite: 10].

---

### 4. 연구 결과: 놓쳤던 변이의 발견과 질병 연관성 입증

이 연구는 기존 단문 분석의 한계를 뛰어넘는 놀라운 결과를 제시했습니다.

1.  **구조적 변이(SV) 발견의 혁신:**

    * [cite_start]LRS를 통해 발견된 **구조적 변이(SVs)의 수는 기존 단문 분석 대비 60%에서 290%까지 대폭 증가**했습니다[cite: 746].

    * [cite_start]기존 기술로는 불가능했던, 유전적으로 복잡한 영역(예: **약물 대사 관련 CYP2D6 유전자, 면역 관련 HLA 유전자**)의 **임상적으로 중요한 변이와 연관 그룹(Haplotypes)**을 정확히 분석해 냈습니다[cite: 8, 160].

2.  **질병과의 강력한 연관성:**

    * [cite_start]총 **226가지 질환**에 걸쳐 **291건의 SV-질병 연관성**을 확인했습니다[cite: 10].

    * 이 연관성 중 **50.9%**는 기존 **단문 분석 데이터에는 전혀 존재하지 않았던 SV**였습니다. [cite_start]즉, LRS가 아니었다면 이 질병 연관성은 영원히 놓쳤을 수 있는 정보입니다[cite: 10].

    * [cite_start]**70.8%**의 질환에서, **SV가 근처의 작은 변이(SNVs)보다 해당 유전체 영역에서 가장 강력한 질병 연관성**을 보였습니다[cite: 11, 164]. 이는 질병 연구에서 작은 변이뿐만 아니라 큰 구조적 변이가 훨씬 더 중요한 역할을 할 수 있음을 시사합니다.

3.  **인종별 특이 변이 발견:**

    * [cite_start]아프리카계 조상과 유사한 유전적 배경을 가진 참가자들에게서만 발견되는 특정 연관성은 **더 큰 효과 크기(질병에 미치는 영향이 큼)**와 **더 낮은 대립유전자 빈도(희귀 변이)**를 보였습니다[cite: 12]. 이는 고위험의, 인종 특이적인 변이 발굴이 정밀 의학에 얼마나 중요한지를 보여줍니다.

4.  **구체적인 예시:**

    * [cite_start]**폐쇄성 폐렴(Atelectasis)**과 관련된 **CLCN7 유전자** 내 **200bp 삽입 변이**를 발견했는데, 이 변이는 단백질 기능을 손상시켜 질병을 유발한다는 메커니즘적 증거를 제시했습니다[cite: 132, 134].

---

### 5. 고찰 및 시사점: 왜 이 연구가 중요한가?

[cite_start]이 연구는 단순히 더 많은 유전자 변이를 발견한 것을 넘어, **대규모 인구 집단 연구에서 LRS 기술의 실질적인 가치를 입증**했습니다[cite: 13, 138].

이 연구가 중요한 세 가지 이유는 다음과 같습니다.

1.  **정밀 의학의 새로운 지평을 열다:**

    * [cite_start]LRS를 통해 발견한 수많은 **새로운 SV-질병 연관성**은 기존 연구 방식의 **한계**를 명확히 보여줍니다[cite: 10, 22]. [cite_start]구조적 변이는 유전적 다양성과 질병 원인에 결정적인 영향을 미치므로 [cite: 139][cite_start], 이 데이터를 활용하면 질병의 위험을 더 정확하게 예측하고, 개인에게 맞춤화된 약물 반응을 이해하는 **정밀 의학**에 혁명적인 영향을 줄 수 있습니다[cite: 13, 161].

2.  **소외되었던 집단을 위한 공평한 의학 연구:**

    * [cite_start]이 연구는 유전체 연구에서 오랫동안 소외되었고 건강 결과가 취약한 **흑인/아프리카계 미국인 코호트**에 초점을 맞춤으로써 [cite: 39, 140][cite_start], **생물학적으로 중요하고 임상적으로 활용 가능성**이 높은 유전자 변이를 밝혀냈습니다[cite: 169]. [cite_start]이는 모든 인구 집단에 걸쳐 유전체 의학의 혜택이 **공평하게(Equitable)** 돌아가도록 하는 **비판적인 토대**를 마련했다는 점에서 큰 의의가 있습니다[cite: 167, 168].

3.  **미래 바이오뱅크의 표준 제시:**

    * [cite_start]이 성공적인 '1단계 연구'는 **LRS가 국가 바이오뱅크 구축 노력에 필수적으로 통합**되어야 함을 증명했습니다[cite: 167, 170]. [cite_start]'All of Us' 프로그램은 이 분석을 향후 10,000명 이상의 참가자로 확대할 계획이며 [cite: 171][cite_start], 이는 유전체 변이의 거의 완전한 다양성을 포착하여 미래 의학 연구의 잠재력을 극대화할 것입니다[cite: 172].


chatGPT

좋습니다. 업로드하신 논문 **「Population-scale Long-read Sequencing in the All of Us Research Program」(2025)** 의 내용을 일반 성인 독자가 이해하기 쉽게, 블로그용 요약문 형식으로 정리드리겠습니다.

(A4 두 장 분량 수준으로 구성하며, 연구 배경–목적–방법–결과–고찰–의의 및 시사점을 포함합니다.)

---

## **모든 유전자의 이야기를 더 깊이 읽다: ‘All of Us’ 장기 염기서열 연구**

### 🧬 연구 배경

미국 국립보건원(NIH)이 주도하는 **All of Us Research Program**은 100만 명 규모의 대규모 생명정보(바이오뱅크) 프로젝트입니다. 참여자들의 유전체, 건강검진 데이터, 설문, 전자의무기록(EHR)을 통합해 ‘정밀의료(precision medicine)’의 기반을 만드는 것이 목표입니다.

지금까지는 **짧은 염기서열(Short-read sequencing)** 기술이 주로 사용되어 왔지만, 이 기술은 유전체의 복잡한 부분—특히 반복 구간이나 구조적 변이(Structural Variation, SV)—를 충분히 읽지 못하는 한계가 있었습니다.

이러한 ‘읽히지 않는 구역들’을 정확히 해석하기 위해 연구진은 **장기 염기서열(Long-read sequencing, LRS)** 기술을 도입했습니다.

---

### 🎯 연구 목적

이번 연구는 **All of Us 프로그램의 첫 번째 대규모 장기 염기서열 분석 결과**를 공개한 것입니다.

특히 유전 연구에서 상대적으로 소외되어 온 **흑인 및 아프리카계 미국인 참가자 1,027명**을 대상으로,

1. LRS가 얼마나 새로운 유전 변이를 찾아낼 수 있는지,

2. 기존 단기 서열 기술이 놓쳤던 질병 관련 정보를 얼마나 보완할 수 있는지를 검증했습니다.

---

### 🔬 연구 방법

* **참여자 선정**: 미국 전역에서 모집된 1,027명의 흑인/아프리카계 미국인 참가자를 대상으로 함.

* **분석 기술**:

  * PacBio의 **HiFi 장기 염기서열 기술(평균 17,500염기 길이)** 사용.

  * 일부는 **Oxford Nanopore** 기술로 교차 검증.

  * 기존 단기 서열 데이터(평균 150염기 길이)와 비교 분석.

* **변이 탐색**:

  * 인공지능 기반 DeepVariant로 작은 변이(SNV, indel) 탐색.

  * 여러 알고리즘을 조합해 **50bp 이상 구조적 변이(SV)** 탐지.

  * 이후 품질평가와 필터링을 거쳐 **약 120만 개의 SV 데이터 세트** 구축.

* **통합 분석**:

  * 기존 All of Us 및 Human Pangenome 데이터와 통합하여 **참조 패널(reference panel)** 생성.

  * 이 데이터를 바탕으로 다른 단기서열 샘플에도 변이를 ‘추론(imputation)’하는 시스템 구축.

---

### 📊 주요 결과

#### 1. 더 많은 변이 발견

PacBio LRS는 기존 단기서열보다 **60~290% 더 많은 구조적 변이**를 발견했습니다.

이 중 절반 이상은 기존 데이터베이스(1,000 Genomes, HGSVC, HPRC 등)에서 **한 번도 보고되지 않았던 변이**였습니다.

#### 2. 인종적 다양성과 고유 변이

아프리카계 유전 배경을 가진 참가자에서 **가장 많은 유전적 다양성**이 확인되었습니다.

특히 **8,249개의 구조적 변이(SV)**가 아프리카계에서만 주로 발견되었으며,

이 중 일부는 **유방암(BARD1), 심혈관질환(APOB, MYH7)** 등과 관련된 유전자에 위치했습니다.

#### 3. 질병 관련 유전자 영역의 새 해석

* **FMR1** (자폐 및 인지장애 유발 ‘취약 X 증후군’ 관련),

  **HTT** (헌팅턴병 관련) 등의 반복서열을 정밀 분석해, 기존 단기서열로는 확인이 어려웠던

  **잠재적 위험 대립유전자(premutation alleles)**를 발견했습니다.

* **CYP2D6 유전자**(약물 대사와 관련된 대표 유전자)에서는

  복잡한 복제, 결실, 하이브리드 구조까지 세밀하게 구분해

  기존보다 훨씬 정확한 **개인별 약물 반응 예측**이 가능함을 보여주었습니다.

#### 4. 새롭게 발견된 질병 연관 변이

* 고혈당 환자에서 **SLC2A12** 유전자에 52bp 삽입 변이(혈당 조절과 관련된 GLUT12 단백질) 발견

* 천식 환자에서 **TOX** 유전자 삽입 변이 발견

* 청각 손실 환자에서 **PSIP1** 유전자 삽입으로 인한 단백질 절단 변이 확인

  → 이러한 변이들은 모두 단기서열에서는 탐지되지 않았던 사례로,

  장기 염기서열이 질병 원인 규명에 새 가능성을 보여줍니다.

#### 5. 유전자 발현과의 연관(eQTL 분석)

* 총 **3,835개의 구조적 변이–유전자 발현 연관(SV-eQTL)** 확인.

* 이 중 2,500여 개는 의학적으로 중요한 유전자와 관련.

* 예: **BID 유전자 근처의 322bp 결실 변이** → 유전자 발현 감소 및 암·면역 조절 관련성 확인.

---

### 💡 고찰 및 의의

이번 연구는 **인종적 다양성과 유전체 복잡성을 함께 고려한 첫 대규모 LRS 연구**로,

유전 연구의 방향을 바꾸는 전환점이라 평가됩니다.

특히 흑인·아프리카계 참여자들의 데이터가 충분히 포함됨으로써,

그동안 백인 중심으로 구축되어 왔던 유전체 데이터베이스의 **불균형을 해소**하는 첫걸음이 되었습니다.

또한 LRS를 활용해 기존의 단기서열 분석으로는 보이지 않던 변이들을 찾아내고,

그 변이들이 실제 임상 데이터(EHR)와 어떻게 연결되는지 확인함으로써,

**‘유전체–질병–개인 맞춤 치료’의 선순환**을 가능하게 했습니다.

---

### 🌍 이 연구가 중요한 이유

1. **정밀의료의 현실화** – 개개인의 유전적 차이를 반영한 맞춤 치료 가능성 제시

2. **인종·집단 간 형평성 제고** – 유전 다양성이 풍부한 인구집단을 포함함으로써

   건강 불평등 해소에 기여

3. **새로운 유전자 지형 지도 제공** – 향후 수많은 질병 연구의 기반 데이터로 활용 가능

요약하자면, 이번 연구는 단순히 “유전 정보를 더 많이 읽은 것”을 넘어,

**“그동안 읽히지 않았던 사람들의 유전체를 처음으로 제대로 읽은 시도”**입니다.

이는 앞으로 전 세계 인구를 위한 **더 공정하고 더 정확한 유전 의학의 출발점**이 될 것입니다.


grok3

### 미국 'All of Us' 프로그램에서의 대규모 장-리드 시퀀싱 연구 요약

#### 연구 배경

미국 국립보건원(NIH)이 주도하는 'All of Us' (AoU) 프로그램은 100만 명의 미국인을 대상으로 유전체 데이터와 전자건강기록(EHR)을 연결해 건강 연구를 추진 중입니다. 기존 연구는 짧은 읽기(short-read sequencing, srWGS)를 주로 사용했지만, 이는 반복 서열이나 복잡한 구조 변이(structural variation, SV)를 제대로 탐지하지 못하는 한계가 있습니다. 이러한 '사각지대'는 특히 아프리카 계통 유전체에서 더 두드러지며, 질병 연구에서 소외된 그룹(예: 자칭 Black or African American)의 유전 다양성을 놓치게 합니다. 장-리드 시퀀싱(LRS)은 긴 DNA 서열을 읽어 이러한 문제를 해결할 수 있지만, 대규모 EHR 연계 연구는 아직 부족합니다.

#### 연구 목적

이 연구는 AoU 프로그램에서 처음으로 LRS를 대규모로 적용해, 자칭 Black or African American 참가자 1,027명의 유전 변이를 분석하고 EHR과 연계하는 것입니다. 특히 SV를 중심으로 새로운 변이 카탈로그를 만들고, 이를 srWGS 데이터에 적용해 질병 연관성을 밝히며, 정밀의학(precision medicine) 기반을 마련하는 데 초점을 맞췄습니다. 이는 아프리카 계통 유전체의 고위험 변이를 강조하며, 미래 바이오뱅크 연구의 틀을 제시합니다.

#### 연구 방법

AoU 버전 7 데이터에서 20세 이상 Black or African American 참가자 1,027명을 선정했습니다. Pacific Biosciences(PacBio) HiFi LRS로 평균 8x 커버리지로 시퀀싱했습니다(50명은 Oxford Nanopore Technologies(ONT)로 추가 검증). 변이 발견은 DeepVariant(단일 염기/인델 변이), PAV·Sniffles2·PBSV(SV) 등의 도구를 사용해 합쳤습니다. SV는 lenient(민감도 우선, 1,213,876개)과 strict(특이도 우선, 665,869개) 두 callset으로 분류했습니다. 이후 10,000명 srWGS 데이터에 SV를 imputation(추정)해 750,000개 이상 변이를 추가하고, 226개 EHR 기반 질병과 연관 분석(p<1×10⁻⁵)을 수행했습니다. 아프리카 참조 유전체와 유사한 ancestry 그룹을 세분화해 효과 크기(effect size)를 비교했습니다.

#### 연구 결과

LRS는 srWGS와 비슷한 단일 염기 변이(SNV)를 발견했으나, 인델은 적었고 SV는 60~290% 더 많았습니다(예: Alu·LINE-1·SVA 이동 요소 삽입). 291개 SV-질병 연관(226개 증상, 심혈관·근골격계 등)이 밝혀졌고, 이 중 50.9%는 srWGS에 없었습니다. 세밀 매핑(fine-mapping) 후 191개 SV-질병 쌍(160개 증상)에서 SV가 가장 강한 연관성을 보였습니다. 아프리카 ancestry 그룹은 더 큰 효과 크기와 낮은 빈도를 나타냈습니다(예: 고위험 ancestry-specific 변이). 데이터는 AoU 연구자 워크벤치에서 공개됐습니다.

#### 고찰

LRS는 srWGS의 한계를 보완해 반복 확장(FMR1·HTT), 약물 유전체(CYP2D6), HLA 유형 등 복잡한 변이를 정확히 탐지합니다. Black or African American 그룹의 높은 유전 다양성은 SV 발견력을 높였으나, ancestry admixture(혼혈)로 인해 해석이 복잡합니다. 중간 커버리지(8x) 접근은 비용 효과적이었으나, 반복 영역 불일치율(6.4%)이 남았습니다. 아프리카 ancestry 특화 변이는 인종별 건강 불평등을 설명할 수 있지만, 추가 검증이 필요합니다.

#### 의의와 시사점

이 연구는 LRS를 바이오뱅크에 통합해 정밀의학을 가속화합니다. ancestry-specific SV를 통해 Black or African American 그룹의 고위험 변이를 밝혀, 맞춤 치료(예: 약물 반응 예측)를 촉진합니다. 2단계(더 다양한 인종 확장)로 이어지며, 미래 연구에서 EHR-LRS 결합이 표준이 될 수 있습니다. 비용 절감(mid-pass sequencing)으로 대규모 적용 가능성을 보여줍니다.

이 연구가 중요한 이유는 기존 srWGS가 놓친 유전 변이를 드러내 소외된 인종의 건강 연구를 균형 있게 만들기 때문입니다. 이는 결국 모든 사람에게 공정한 정밀의학 시대를 열 수 있습니다.


NotebookLM

전문적인 배경 지식이 없는 일반 성인 독자들을 대상으로 업로드하신 논문의 내용을 이해하기 쉽도록 연구 배경, 목적, 방법, 결과, 고찰, 의의와 시사점을 포함하여 A4 용지 두 장 이내의 블로그 게시물 형식으로 요약해 드립니다.

***

## 정밀 의학의 새로운 지평: 'All of Us' 연구 프로그램의 장문 염기서열 분석 (LRS) 혁신

### 연구 배경: 유전체 연구의 숨겨진 영역을 찾아서

인간의 유전체 정보를 해독하는 기술은 빠르게 발전해 왔지만, 여전히 유전체 지도에는 **구조적 변이(Structural Variation, SV)**와 같이 해독하기 어려운 ‘암점(blind spots)’이 존재합니다. 특히, 게놈의 반복적인 영역이나 복잡한 배열은 기존의 **단문 염기서열 분석(Short-Read Whole-Genome Sequencing, srWGS)** 기술로는 정확히 파악하기 어려웠습니다. 이러한 SV들은 질병과 밀접하게 관련되어 있으며, 유전적 다양성이 높은 집단에서는 그 영향이 과소평가되거나 기존 변이 목록에 제대로 반영되지 못하는 경우가 많았습니다.

미국 국립보건원(NIH)이 후원하는 **All of Us Research Program (AoU)**은 100만 명의 참가자를 모집하여 유전체 데이터(srWGS 및 LRS)와 광범위한 전자 건강 기록(EHR)을 연결하는 대규모 바이오뱅크입니다. AoU는 특히 건강 결과가 제대로 연구되지 않은 집단에 중점을 두고 참가자를 모집하고 있습니다. 이 연구는 최신 기술인 **장문 염기서열 분석(Long-Read Sequencing, LRS)**을 대규모 인구 집단에 적용함으로써, srWGS가 놓쳤던 유전적 다양성을 포착하고 정밀 의학을 발전시키려는 노력의 일환으로 시작되었습니다. LRS 기술은 15,000 염기쌍 이상의 긴 서열을 해독할 수 있어, 복잡한 SV를 높은 정확도로 파악하고 유전적 변이를 거의 완전하게 확인할 수 있는 강력한 해결책을 제시합니다.

### 연구 목적: LRS를 통한 유전체 정보의 혁신적 발견

이 연구의 주요 목적은 AoU 프로그램 내에서 LRS를 대규모로 분석한 최초의 사례를 제시하고, 인간의 건강 및 질병과 관련된 복잡한 SV에 대한 통찰력을 얻기 위한 새로운 분석 프레임워크를 제공하는 것입니다. 구체적으로는, PacBio HiFi 기술을 사용하여 유전적으로 다양한 집단(스스로를 흑인 또는 아프리카계 미국인으로 밝힌 참가자)의 유전체 변이를 종합적으로 특성화하고자 했습니다.

### 연구 방법: 중저 심층 분석(Mid-Pass)과 대규모 데이터 통합

1.  **참가자 선정 및 시퀀싱:** 연구진은 AoU 참여자 중 **스스로를 흑인 또는 아프리카계 미국인으로 밝힌 1,027명**을 선정했습니다. 이 집단은 유전적 다양성이 가장 높으며 기존 유전체 연구에서 불균형적으로 적게 대표되어 왔기 때문에, 변이 발견 능력을 높이기 위해 중점적으로 분석되었습니다. 시퀀싱에는 PacBio HiFi 기술을 사용했으며, 비용 효율성을 고려하여 **평균 $\sim 8\text{x}$의 중저 심층(mid-pass) 범위**를 목표로 했습니다. LRS 데이터의 평균 길이는 srWGS보다 115~131배 더 길었습니다 (평균 $17.5\text{kbp}$).

2.  **구조적 변이(SV) 발견 및 통합:** 클라우드 기반 파이프라인과 앙상블 알고리즘을 사용하여 $\ge 50\text{bp}$ 크기의 SV를 검출했습니다. 특히, 거짓 양성(false positives)을 걸러내고 일관된 SV 목록을 구축하기 위해 맞춤형 조화(harmonization) 파이프라인을 개발했습니다.

3.  **참조 패널 구축 및 유전형 결정/추론:** LRS 데이터에서 발견된 SV들을 srWGS 데이터셋에 추론(imputation)하기 위한 확장 가능한 워크플로우를 개발했습니다. 이 워크플로우는 AoU LRS 데이터와 HPRC(Human Pangenome Reference Consortium) 데이터를 통합하여 SNV, 작은 삽입/결실, SV를 포함하는 **위상 결정된(haplotype-resolved) 참조 패널**을 구축했습니다 .

4.  **표현형-유전체 연관 분석 (PheWAS):** 이 LRS 기반 참조 패널을 사용하여, **10,000명의 흑인 또는 아프리카계 미국인 AoU 참가자**의 srWGS 데이터에 SV를 유전형 결정하고 추론했습니다. 이 결과를 해당 참가자들의 EHR 데이터와 결합하여 226개 조건에 대한 SV-질병 연관성을 탐색했습니다.

### 연구 결과: LRS의 우월성과 질병 연관성 발견

1.  **구조적 변이의 극적인 증가:** LRS를 통해 발견된 SV의 수는 동일한 참가자들의 srWGS 결과와 비교했을 때, 엄격한 기준으로도 **60%에서 290%까지** 크게 증가했습니다. 연구진은 민감도를 최대화한 포괄적인 SV 목록(120만 개)과 높은 특이도를 갖는 SV 목록(666,000개)을 공개했습니다.

2.  **임상적으로 중요한 유전자좌의 해상도 향상:**

    *   **반복 서열 질환:** LRS는 취약 X 증후군($FMR1$) 및 헌팅턴병($HTT$)과 같은 질병 관련 삼중 반복 서열(triplet repeat loci)을 고해상도로 특성화하여, 질병 발생 위험이 있는 **전돌연변이 크기의 대립유전자(premutation-sized alleles)**와 새로운 병원성 후보를 발견했습니다.

    *   **약물 유전체학 ($CYP2D6$):** 약물 대사에 중요한 역할을 하지만 srWGS로는 분석이 어려웠던 복잡한 $CYP2D6$ 유전자좌의 구조적 변이(복제, 결실, 하이브리드 구조)를 높은 정확도로 규명했습니다.

3.  **질병 연관성 발견의 혁신:**

    *   총 226가지 질병 조건에 걸쳐 **291개의 SV-질병 연관성($p < 1\times 10^{-5}$)을 확인**했습니다.

    *   가장 중요한 발견 중 하나는, 이 연관성 중 **50.9%**가 기존의 매칭된 srWGS 데이터셋에서는 **발견되지 않은 SV**와 관련되어 있다는 점입니다.

    *   세부 매핑(fine-mapping) 결과, 분석된 226개 형질 중 160개 형질(70.8%)에 해당하는 191개 SV-질병 쌍에서 **SV가 해당 유전자좌 내에서 가장 강력한 연관성**을 보였습니다. 이는 SV가 질병 위험에 있어 SNV보다 더 중요한 인과적 변이일 수 있음을 시사합니다 .

    *   아프리카 혈통과 유사한 조상을 가진 참가자들에게 특이적으로 나타나는 연관성은 더 큰 효과 크기(larger effect sizes, 중앙값 $5.85$)와 낮은 대립유전자 빈도(lower allele frequencies)를 보였는데, 이는 해당 집단에 풍부한 고위험 변이가 존재함을 나타냅니다.

    *   실제 EHR 데이터와의 통합을 통해, 당뇨병 및 고혈당증과 관련된 $SLC2A12$의 삽입, 만성 신장 질환과 관련된 $TARS2$의 결실 등 , **임상적 진단과 일치하는 고위험 SV** 사례들이 발견되었습니다 .

### 고찰 및 의의: 정밀 의학의 미래를 위한 교두보

이 연구는 LRS 기술을 국가적 바이오뱅크 노력에 통합할 때 얻을 수 있는 **심오한 이점**을 입증합니다 . AoU의 LRS 데이터는 대규모 자칭 흑인 또는 아프리카계 미국인 코호트에서 유전적 변이를 가장 포괄적으로 보여주며 , 이 집단의 유전적 다양성 수준이 높음을 재확인했습니다 .

특히, **LRS가 고전적인 방법으로는 접근할 수 없었던 유전체 변이(SV 및 반복 서열)를 해독하고 EHR과 연결하는 능력**은 정밀 의학에 혁명적인 통찰력을 제공할 수 있습니다. 개발된 LRS-기반 참조 패널 및 추론 프레임워크는 현재 LRS와 srWGS 간의 비용 및 처리량 격차를 해소하여 , LRS의 발견 사항을 기존의 대규모 srWGS 데이터셋에 소급 적용할 수 있게 합니다 .

LRS를 통해서만 발견된 SV들 중 상당수(50.9%)가 질병 연관성을 보였고 , 유전자 발현 조절(eQTL) 분석에서도 SV가 SNV보다 더 강력한 인과적 변이로 확인되었습니다 . 이는 SV가 유전자 기능 조절 및 질병 위험에 있어 **과소평가되었던 중요한 역할**을 하고 있음을 강력하게 시사합니다 .

### 이 연구가 중요한 이유

**이 연구는 정밀 의학의 공평성을 높이는 데 결정적인 역할을 합니다** .

유전체학 연구에서 소외되었던 집단(자칭 흑인 또는 아프리카계 미국인)을 대규모로 분석하고, 그들에게 특이적이거나 풍부하게 존재하는 고위험 변이들을 정확히 식별함으로써, 해당 집단이 겪는 건강 불평등을 해소할 수 있는 기반을 마련했습니다 . LRS는 단순히 새로운 변이를 찾는 것을 넘어, 복잡한 유전체 영역을 해독하여 **모든 인구 집단에게 맞춤화된 고품질 의료 서비스**를 제공하는 데 필수적인 포괄적인 변이 목록을 구축하는 데 중요합니다 .

AoU 프로그램은 앞으로 10,000명 이상의 참가자로 LRS 분석을 확대할 예정이며 , 이 연구는 유전체 의학의 잠재력을 극대화하는 데 필요한 방법론적, 분석적 토대를 제공합니다 .




출처: @ye._.vely618

토요일, 11월 16, 2024

희귀 질환 진단의 새로운 희망; HiFi

오늘은 최근에 medrxiv에 올라온 논문을 가져와봤습니다. 미래 진단은 결국 Long-read로 해야지 정확도든 찾고싶은거든 다 할 수 있을 것 이라는 믿음이 있는바 가져와봤습니다. :) 제목은 HiFi long-read genomes for difficult-to-detect clinically relevant variants 입니다.

DOI: 10.1101/2024.09.17.24313798

조만간 좋은 저널지로 둥지를 옮기기전에 잽싸게 LLM에 물어보았습니다. 


gemini

## 희귀 질환 진단의 혁신: Long-Read 시퀀싱 기술

안녕하세요, 저는 Long-Read 시퀀싱 분석 전문가입니다. 오늘은 희귀 질환 진단에 혁신을 가져올 수 있는 Long-Read 시퀀싱 기술에 대한 최신 연구 논문을 소개하고자 합니다. 특히, 이 논문에서는 "HiFi"라는 Long-Read 시퀀싱 방법을 사용하여 기존의 Short-Read 방식으로는 찾기 어려웠던 희귀 질환 관련 유전자 변이를 찾아내는 가능성을 평가했습니다.

### 희귀 질환 진단, 왜 어려울까요?

우리 몸의 유전 정보는 DNA라는 아주 긴 사슬에 담겨 있습니다. 희귀 질환은 이 DNA 사슬에서 아주 작은 부분이 변형되어 발생하는 경우가 많습니다. 이러한 변형을 '변이'라고 부르는데, 마치 방대한 책 속에서 오타를 찾는 것처럼 희귀 질환의 원인이 되는 변이를 찾아내는 것은 매우 어려운 일입니다.

기존에는 Short-Read라는 기술을 사용하여 DNA를 짧게 잘라서 읽어냈습니다. 이는 마치 책을 몇 글자 단위로 잘라서 읽는 것과 같아서, 문맥 파악이 어렵고 오타를 놓칠 가능성이 높았습니다. 특히, DNA의 복잡한 구조나 반복적인 부분에서는 더욱 그렇습니다.

### Long-Read 시퀀싱, 희귀 질환 진단의 새로운 희망

Long-Read 시퀀싱은 DNA를 훨씬 길게 읽어내는 기술입니다. 책을 문장이나 문단 단위로 읽는 것처럼 더 긴 맥락에서 유전 정보를 파악할 수 있기 때문에 Short-Read 방식보다 정확하게 변이를 찾아낼 수 있습니다.

이번 연구에서는 HiFi라는 Long-Read 시퀀싱 방법을 사용하여 희귀 질환 환자 100명의 유전 정보를 분석했습니다. 그 결과, 기존 Short-Read 방식으로는 찾기 어려웠던 145개의 변이 중 83%에 해당하는 120개를 HiFi 기술로 찾아내는 데 성공했습니다! 

### HiFi 기술, 얼마나 정확하고 실용적일까요?

HiFi 기술은 높은 정확도를 보여주었지만, 아직 몇 가지 해결해야 할 과제도 남아있습니다. 145개의 변이 중 7%는 여전히 HiFi 기술로도 찾아내기 어려웠습니다. 특히, DNA의 특정 반복 구조에서는 기술적인 어려움이 있었습니다.

하지만 희망적인 것은 HiFi 기술의 정확도가 매우 높다는 것입니다. 분석 결과, HiFi 기술로 찾아낸 변이 중 89%는 적은 양의 DNA 데이터만으로도 식별이 가능했습니다. 이는 검사 비용을 절감하고 더 많은 환자에게 검사 기회를 제공할 수 있다는 것을 의미합니다.

### Long-Read 시퀀싱, 희귀 질환 진단의 미래를 밝히다

Long-Read 시퀀싱 기술은 희귀 질환 진단에 혁신적인 변화를 가져올 잠재력이 있습니다. HiFi 기술은 아직 완벽하지는 않지만, 희귀 질환의 원인을 밝히고 환자들에게 더 나은 치료법을 제공하는 데 중요한 역할을 할 것으로 기대됩니다. 

앞으로 더 많은 연구와 기술 개발을 통해 Long-Read 시퀀싱 기술이 희귀 질환으로 고통받는 환자들에게 희망을 줄 수 있기를 바랍니다.



clova-x

안녕하세요, 여러분. 오늘은 희귀질환 진단에 있어서 새로운 분석 방법인 Long-read 기반의 HiFi 분석 방법에 대해 이야기해 보려고 합니다.

희귀질환은 매우 드물고 특별한 질병으로, 대부분의 경우 유전적인 요인에 의해 발생합니다. 이러한 질환을 진단하고 치료하기 위해서는 정확한 유전 정보가 필요한데, 지금까지는 이를 얻기 위해 복잡하고 비용이 많이 드는 검사가 필요했습니다. 하지만 최근에는 차세대 시퀀싱 기술인 NGS, 즉 게놈 시퀀싱이 등장하면서 보다 빠르고 정확한 진단이 가능해졌습니다.

그러나 NGS에도 한계가 있습니다. 짧은 리드 길이를 가진 시퀀싱 방법으로는 일부 변이를 검출하기 어렵다는 것입니다. 특히, 반복 서열이나 구조적 변이, 그리고 유사한 서열을 가진 유전자에서의 변이 등을 찾아내기가 쉽지 않았습니다.

이에 반해, Long-read 기반의 HiFi 분석 방법은 훨씬 더 긴 리드 길이를 사용하여 유전 정보를 읽어냅니다. 이 방법은 기존의 방법으로는 검출하기 어려웠던 변이들을 탐지하는 데 매우 효과적입니다. 실제로, 이번에 발표된 논문에 따르면, HiFi 분석 방법을 사용하여 83%의 변이를 자동으로 탐지할 수 있었고, 추가적인 시각적 검사를 통해 나머지 변이도 탐지할 수 있었다고 합니다.

특히, 이 방법은 구조적 변이와 짧은 반복 서열 확장을 포함한 복잡한 변이를 정확하게 탐지할 수 있다는 장점이 있습니다. 이러한 변이는 희귀질환의 진단에 있어서 매우 중요한 역할을 하는데, 기존의 방법으로는 이러한 변이를 정확하게 찾아내기 어려웠습니다. 하지만 HiFi 분석 방법을 사용하면 이러한 변이를 놓치지 않고 찾아낼 수 있습니다.

물론, 이 방법에도 몇 가지 어려움이 있습니다. 우선, Long-read 시퀀싱은 상대적으로 새로운 기술이기 때문에 아직은 실험실에서 널리 사용되고 있지 않습니다. 또한, 데이터를 분석하는 데 있어서도 전문적인 지식과 기술이 필요합니다.

하지만 이러한 어려움에도 불구하고, HiFi 분석 방법은 희귀질환의 진단에 있어서 매우 유용한 도구가 될 것으로 기대됩니다. 이미 많은 연구에서 그 가능성을 보여주고 있으며, 앞으로 기술이 더욱 발전하고 실험실에서의 사용이 보편화되면 더욱 정확하고 빠른 진단이 가능해질 것입니다.

또한, 이 방법은 단순히 진단에만 사용되는 것이 아니라, 치료에도 큰 도움을 줄 수 있습니다. 유전 정보를 더욱 정확하게 파악함으로써, 환자에게 맞는 맞춤형 치료를 제공할 수 있기 때문입니다.

마지막으로, 이 기술이 보편화되기 위해서는 여전히 많은 연구와 개발이 필요합니다. 우리 모두가 이 분야의 발전에 관심을 가지고 지원함으로써, 희귀질환으로 고통받는 환자들에게 희망을 줄 수 있을 것입니다. 감사합니다.



chatGPT

### 장기 시퀀싱을 통한 희귀 질환 진단: 왜 필요한가요?

최근 연구에서 장기 시퀀싱을 활용한 희귀 질환 진단의 가능성을 평가했습니다. 기존에 주로 사용되던 단일 염기서열 분석(short-read sequencing, SRS)은 DNA 조각을 짧게 잘라서 분석하는 방식입니다. 하지만 이 방식은 유전체 내 복잡한 변이(예: 구조적 변이, 반복적 서열)에 대한 탐지가 어려울 수 있습니다. 반면, HiFi라는 새로운 장기 시퀀싱(long-read sequencing, LRS) 방식은 DNA 조각을 길게 읽어 더 복잡한 변이까지 파악할 수 있습니다. 이번 연구는 이 HiFi 기술이 희귀 질환 진단에 얼마나 유용할지를 확인하기 위해 진행되었습니다.

### 왜 희귀 질환에 장기 시퀀싱이 필요한가요?

희귀 질환의 대부분은 유전적 변이에 의해 발생하며, 환자와 가족의 정확한 진단은 치료와 예후 관리에 중요합니다. 하지만 희귀 질환의 원인을 규명하려면 다양한 유전 변이를 탐지해야 하는데, SRS는 짧은 조각들만 제공하기 때문에 긴 구조적 변이, 특정 반복 서열 등의 검출이 제한됩니다. 이러한 구조적 변이나 특수한 유전자 영역에서 발생하는 변이는 SRS로는 식별하기 어려운 경우가 많으며, 그로 인해 일부 환자는 정확한 진단을 받지 못할 수 있습니다. HiFi와 같은 장기 시퀀싱 기술은 이러한 문제를 해결할 수 있는 대안으로 주목받고 있습니다.

### HiFi 장기 시퀀싱의 정확도는 얼마나 높은가요?

이번 연구는 100개의 샘플에서 임상적으로 중요한 145개의 변이를 대상으로 HiFi 장기 시퀀싱을 수행했으며, 그 결과 약 83%의 변이를 자동으로 탐지하는 데 성공했습니다. 또 다른 10%는 전문가가 데이터를 수동으로 확인함으로써 발견할 수 있었습니다. 이는 약 93%의 변이를 확인할 수 있었음을 의미하며, 기존의 단일 염기서열 분석 방식에 비해 높은 검출률을 보여줍니다. 특히, 장기 시퀀싱은 구조적 변이나 특정 반복 서열처럼 복잡한 변이를 더 잘 탐지하는 데 유리했습니다.

### 어려운 점은 무엇인가요?

장기 시퀀싱이 유망한 기술임에도 불구하고 몇 가지 도전 과제가 있습니다. 예를 들어, HiFi 장기 시퀀싱은 일부 반복 서열(예: GA 반복 서열)을 정확히 탐지하는 데 어려움을 겪었으며, 이러한 경우 변이 검출률이 떨어졌습니다. 또한, 일부 특정한 복잡한 구조적 변이는 여전히 검출이 어렵거나 오류가 발생할 수 있었습니다. 따라서 기술적 개선이 필요하며, 특히 반복 서열의 품질 문제를 해결하는 것이 장기 시퀀싱 기술 발전에 중요한 과제로 남아 있습니다.

### 실제로 사용 가능할까요?

이 연구는 장기 시퀀싱이 실제 임상에서 희귀 질환 진단을 위한 주요 도구로 활용될 가능성을 시사합니다. 자동화된 소프트웨어가 약 93%의 주요 변이를 탐지할 수 있었기 때문에, 높은 정확도를 유지하면서도 진단의 신뢰성을 확보할 수 있습니다. 또한, 시퀀싱 비용이 더 낮아지거나 더 많은 샘플을 분석할 수 있다면, 실제 진단 환경에서도 비용 대비 효과적인 선택지가 될 수 있습니다. 다만, 특정 변이에 대한 검출의 한계는 여전히 남아 있으므로, 장기 시퀀싱을 보완할 추가적인 분석 방식도 필요할 수 있습니다.

### 다른 문제점은 없을까요?

장기 시퀀싱은 비교적 새로운 기술이기 때문에 데이터 분석 소프트웨어와 기술적 지원이 아직 발전 중에 있습니다. 또한, 이 기술을 임상에서 본격적으로 활용하기 위해서는 추가 연구와 데이터가 필요하며, 다양한 환자 그룹에 대해 검증이 이루어져야 합니다. 예를 들어, 분석을 위해 필요한 데이터 양이 많기 때문에 장기 시퀀싱의 효율성을 높이기 위해서는 더 높은 처리 속도와 비용 절감이 필요합니다.

### 결론

이번 연구는 HiFi 장기 시퀀싱이 희귀 질환 진단의 새로운 표준이 될 가능성을 제시합니다. 기존의 진단 방법이 가지는 한계를 넘어 다양한 유전적 변이를 탐지할 수 있어 많은 희귀 질환 환자들에게 새로운 진단 기회를 제공할 수 있습니다. 물론 기술 발전과 추가 연구가 필요하지만, 장기 시퀀싱은 유전 질환 진단에서 큰 도약을 가져올 중요한 도구임이 확실해 보입니다.



NotebookLM

## 희귀 질환 진단의 새로운 희망, 롱리드 시퀀싱: HiFi 기술을 중심으로

  희귀 질환은 그 이름처럼 환자 수가 적어 진단이 어렵고, 진단까지 오랜 시간이 걸리는 경우가 많습니다. 하지만 유전자 분석 기술의 발전은 희귀 질환 진단에 새로운 가능성을 열어주고 있습니다. 특히 롱리드 시퀀싱이라는 기술은 기존의 숏리드 방식보다 더욱 정확하고 효율적인 진단을 가능하게 합니다.

### 숏리드 방식의 한계와 롱리드 시퀀싱의 등장

  우리의 유전 정보를 담고 있는 DNA는 아데닌(A), 구아닌(G), 사이토신(C), 티민(T)이라는 네 가지 염기의 조합으로 이루어져 있습니다. 유전자 분석은 이 염기 서열을 읽어내는 과정입니다. 기존에 널리 사용되던 숏리드 방식은 DNA를 짧게 잘라 분석하는 방식이었기 때문에 염기 서열이 복잡하게 반복되거나  길이가 긴 변이를 정확히 탐지하기 어려웠습니다. 

  반면에 **롱리드 시퀀싱은 DNA를 훨씬 길게 읽어낼 수 있어 숏리드 방식으로는 놓치기 쉬웠던 변이까지도 정확하게 파악할 수 있습니다.**  특히 HiFi라는 롱리드 시퀀싱 기술은 높은 정확도를 자랑하며 희귀 질환 진단에 획기적인 발전을 가져올 수 있습니다.

### HiFi 롱리드 시퀀싱, 희귀 질환 진단의 정확성을 높이다

  HiFi 기술을 이용한 롱리드 시퀀싱은 숏리드 방식으로는 탐지하기 어려웠던 다양한 유형의 변이를 식별할 수 있습니다.  연구 결과에 따르면 HiFi 롱리드 시퀀싱은 숏리드 방식으로 탐지하기 어려웠던 145개의 변이 중 83%에 해당하는 120개를 자동으로 찾아냈습니다. 여기에는 구조적 변이, 짧은 염기 서열의 반복적인 확장, 상동 서열의 변이 등이 포함됩니다.

  **HiFi 롱리드 시퀀싱은 희귀 질환 진단에 필요한 여러 검사들을 하나의 검사로 대체할 수 있는 가능성을 제시합니다.**  기존에는 염색체 분석, FISH, 마이크로어레이, 서던 블롯, MLPA, Sanger 시퀀싱 등 다양한 검사를 순차적으로 진행해야 했습니다.  하지만 HiFi 롱리드 시퀀싱은 **단 한 번의 검사로 다양한 유형의 변이를 정확하게 분석할 수 있어 진단 과정을 단축하고 비용을 절감할 수 있습니다.**

### HiFi 롱리드 시퀀싱, 극복해야 할 과제들

  HiFi 롱리드 시퀀싱은 희귀 질환 진단에 혁신적인 기술이지만, 아직 몇 가지 과제가 남아있습니다.  

*   첫째, HiFi 시퀀싱은 GA 염기 반복이 많은 특정 유전자 영역에서는 정확도가 떨어지는 문제가 있습니다.  GA 염기 반복이 많은 영역에서는 DNA 구조가 변형되어 시퀀싱 과정에 어려움을 겪기 때문입니다.  

*   둘째, 염기 서열이 복잡하게 반복되는 영역이나 매우 유사한 유전자들이 모여 있는 영역에서는 변이를 정확히 식별하기 어려울 수 있습니다.

### HiFi 롱리드 시퀀싱, 희귀 질환 진단의 미래를 밝히다

 HiFi 롱리드 시퀀싱은 희귀 질환 진단의 정확성과 효율성을 획기적으로 높일 수 있는 잠재력을 가진 기술입니다. 

*  HiFi 롱리드 시퀀싱은 기존의 숏리드 방식으로는 탐지하기 어려웠던 다양한 유형의 유전적 변이를 정확하게 식별할 수 있습니다.  

*  HiFi 롱리드 시퀀싱은 희귀 질환 진단에 필요한 여러 검사를 하나의 검사로 대체할 수 있어 진단 과정을 단축하고 비용을 절감할 수 있습니다.  

  물론 아직 극복해야 할 과제들이 남아있지만, **HiFi 롱리드 시퀀싱은 희귀 질환 환자들에게 더 빠르고 정확한 진단을 제공하여 희망을 줄 수 있을 것으로 기대됩니다.** 


HiFi Long-read라고 해도 PacBio라는 플랫폼 한계로 긴 길이(수십Kb 이상이 되는)의 구조 변이는 탐지하기 쉽지 않다고 얘기하네요. 그래도 기존에 short-read 방식으로 탐지하기 어려운 구조 변이는 더 확인 할 수 있다고 하고 있습니다. 최근에 일루미나에서 DRAGEN과 Pangenome Reference로 우리도 기다란 SV 탐지할 수 있다고 하고 있는데, 아직 갸우뚱... 

여튼 기존에 잘 알려진 혹은 잘 정의된 변이들 이외에도 rare하게 나오는 변이나 구조적 변이들은 Long-read로 잘 잡을 수 있다고 하니 미래는 밝은데.. 이게 상용화, 상품화가 되는 영역은 또 다른 문제이다보니, 많은 생각이 듭니다. :)


출처: @ye._.vely618


목요일, 3월 07, 2024

나노포어용 정렬 프로그램을 비교해보자

오늘은 최근에 논란의 중심에 서 있는 claude3를 사용해보았습니다.

Comparative analysis of alignment tools for application on Nanopore sequencing data

이 논문을 선택한 이유는 claude.ai에서 무료로 해주는 양의 논문이라서 선택하였습니다.

 

Q. 요약해줘

이 논문에서는 나노포어 시퀀싱 데이터에 대한 6가지 다양한 정렬 도구(BLASR, GraphMap, LAST, minimap2, NGMLR 및 BWA MEM)의 성능과 정렬 품질을 실험 데이터셋을 사용하여 비교 분석했습니다. 주요 내용은 다음과 같습니다:

3개의 서로 다른 실험 나노포어 시퀀싱 데이터셋(람다 파지 전장 유전체, 인간 MEFV 유전자 암플리콘, SARS-CoV-2 전장 유전체)을 사용하여 정렬 도구를 비교했습니다.

각 도구의 CPU 시간, 메모리 사용량, 일치율, 불일치율, 오류율 등의 성능 및 품질 지표를 측정하고 비교했습니다.

Minimap2가 모든 데이터셋에서 속도와 메모리 효율성 면에서 가장 우수한 성능을 보였습니다.

BLASR, GraphMap, NGMLR는 상대적으로 느린 속도를 보였고, NGMLR는 높은 메모리 사용량을 보였습니다.

일치율, 불일치율, 오류율 측면에서 LAST를 제외한 도구들이 대체로 유사한 수준의 높은 정렬 품질을 보였습니다.

데이터셋 특성과 알고리즘 접근법에 따라 도구 간 차이가 있었으며, 실험 설계와 추가 분석 과정을 고려하여 적절한 도구를 선택해야 합니다.


Q. 그럼, 나노포어 왜 전용 정렬 도구가 필요합니까?

논문에 따르면 나노포어 시퀀싱 기술의 가장 큰 단점은 다른 시퀀싱 기술에 비해 높은 에러율(error rate)이라고 설명하고 있습니다. 구체적인 문장은 다음과 같습니다:

"So far, the most important disadvantage of this technology is the increased error rate compared to other sequencing technologies."

이처럼 나노포어 시퀀싱 데이터는 기존 단분자 시퀀싱 데이터와는 다른 에러 프로파일을 가지고 있어, 이러한 높은 에러율을 보완하기 위해 전용의 정렬 도구가 필요하다고 설명하고 있습니다.


Q. 좀더 자세히 설명해줘

네, 더 자세히 설명드리겠습니다.

나노포어 시퀀싱은 전기화학적 신호를 읽어 DNA/RNA 서열을 분석하는 새로운 기술입니다. 이 기술의 장점은 긴 읽기(long reads)가 가능하고 빠르며 비용이 저렴하다는 점입니다. 하지만 단점으로 다른 기존 시퀀싱 기술에 비해 상대적으로 높은 에러율을 가지고 있습니다.

이런 높은 에러율은 나노포어 시퀀싱 데이터의 고유한 에러 프로파일에서 비롯됩니다. 삽입(insertion), 삭제(deletion), 치환(substitution) 등의 에러가 많이 발생합니다. 이러한 에러들을 효과적으로 다루지 않으면 후속 데이터 분석 단계에서 오류가 커질 수 있습니다.

따라서 나노포어 시퀀싱 데이터를 정확하게 분석하기 위해서는 이러한 높은 에러율과 특수한 에러 프로파일을 잘 보완할 수 있는 전용 정렬(alignment) 도구가 필요합니다. 기존의 단분자 시퀀싱 데이터 분석용 도구들은 나노포어 데이터의 특성을 제대로 반영하지 못해 정확성이 낮을 수 있기 때문입니다.

요약하면, 나노포어 시퀀싱의 높은 에러율과 특수한 에러 프로파일을 보완하여 정확한 데이터 분석이 가능하도록 최적화된 전용 정렬 도구가 필요한 것입니다.


음.. 일단 무료 요금에서 사용하는 양인 경우 일단 쓸만한데 대부분의 논문 양은 유료버전 사용하시라고 뜰껍니다. :)



출처: @ye._.vely618


일요일, 11월 12, 2023

Long Read Sequencing을 전적으로 믿으셔야 합니다.

항상 느끼는것이지만 사람들은 익숙한것에 익숙하다는...
물론 이 글을 쓰는 본인도 별반 차이 없다는게 현실
그럼에도 불구하고 세상에는 익숙한것을 거부하고 한 걸음 나아가는 분들이 있어서 발전한다는...

오늘은 유전체분야에서 다들 익숙한 짧은길이의 시퀀싱 플랫폼 대신 Long read 시퀀싱 플랫폼을 왜 써야하는지 보여주는 논문이 있어 들고와봤습니다.

The blooming of long-read sequencing reforms biomedical research

DOI: 10.1186/s13059-022-02604-2


Long read 시퀀싱의 대표주자인 PacBio와 Nanopore가 나온지도 꽤 된것 같으나, 아직 주류 시퀀싱 플랫폼으로서는 자리매김을 하지 못한... 조명받지 못하고 있지만.. 그 진가를 하나둘씩 알게되고 안쓸수 없지 않을까 합니다.

물론 이 Long read 플랫폼을 안 쓸수 없지만 PacBio/Nanopore 플랫폼을 이용해서 진단 키트를 개발하여 돈을 벌 수 있게 된다는 것은 아닙니다. 오해 없으시기 바랍니다. Long read 플랫폼에서 기존 NGS 시스템에서 해온 것 같이 하려고 하면 개인적인 생각으로는 그냥 하지 마세요 라고 말하고 싶네요. 그런 생각이라면..


여튼 Long read 플랫폼은 genome assembly과 transcriptome 분야에서 활약을 하고 있다고 하는데 이는 기존 NGS의 짧은 read로 인한 한계를 극복하였기 때문에 가능한 당연한 결과였을 듯 합니다.

genome assembly를 설명하면서 이런 저런 설명을 하였는데 사실 T2T genome이 세상에 나왔는데 무슨 설명이 더 필요할지... 물론 다배체면서, repeat 서열이 엄청 긴 식물과 같은 다양한 생물의 유전체 연구에서는 아직 할일이 많이 남아있을듯 합니다.

그리고 더불어 transcriptome, 전사체에서도 두각을 나타내고 있다고 합니다. 이전에 PcaBio사에서 나온 Iso-Seq이라는 플랫폼이 있었는데 기존 숏리드 플랫폼으로는 할 수 없었던 full-length 유전자 서열을 확인하여, 다양한 gene의 isoform 을 확인 할 수 있었는데, 이제는 이는 당연한것이고, read count를 활용하여 정확한 발현 측정까지도.. 가능하다고 합니다. 또한 이 논문에서 처음 보았는데 exitron이라는 것도 확인하였다고 하네요.

더불어 당연히 암연구에서도 long-read 플랫폼이 중요한 역할을 하고 있는데, 시퀀싱을 위해 dna나 rna가닥을 증폭시키지 않은 특징 때문에 가능 응용법이긴하죠. 특히 nanopre 플랫폼을 사용하여 급성 골수성 백혈병 (AML) 환자의 RNA변이와 fusion gene 구조를 확인하기도 하였고, 대장암 세포주에서 5mC 위치와 양을 정량하여 각각 AML와 대장암 연구에 도움이 되고 있다고 합니다.

이렇듯 Long Read Seq 플랫폼은 이제 쓰지 않을 이유가 없는 플랫폼으로 우리 곁에 생각보다 가깝게 다가왔으나 생각에는 Long이든 Short든 정확하게 내 병의 이유를 빠르고 "싸게" 알아낼 수 있으면 모두 행복한 것 아니겠습니까?

그럴 수 있는 방법이 어딘가에 있겠죠, 없으면, 언제나 그러했듯이 우리는 또 해답을 찾아내겠죠. :)




출처: @ye._.vely618