레이블이 PacBio인 게시물을 표시합니다. 모든 게시물 표시
레이블이 PacBio인 게시물을 표시합니다. 모든 게시물 표시

월요일, 11월 03, 2025

All of Us 프로젝트에서 진행한 LRS 결과 요약

영국에 UK Biobank가 있다면 미국에는 All of Us가 있다.

니네가 본걸 우리라고 못볼쏘냐. 그래서 All of Us에서도 내놨습니다. All of Us에서 진행한 Long Read 시퀀싱 데이터로 확인한 것들.  Population-scale Long-read Sequencing in the All of Us Research Program라는 제목으로 정식 저널지는 아니고, medrxiv에 공개된 내용으로 All of Us 프로젝트를 통해 수집된 천여명의 흑인/아프리카 미국인들의 Long read 데이터 분석한 유전체 결과를 공유했습니다. 유전체 연구에서 아무래도 백인(코카서스)중심으로 되어 있었다 보니 그 외 유전체 서열에 대해서는 좀 소외되고 있었던게 현실있었죠. 그나마 북동아시아의 한중일 삼국은 나름 경쟁으로 서로 서로 몸집을 키우고 있는데 그 외 인종들은 소외 되어 다양성을 많이 놓치고 있었는데 이번에 All of Us를 통해 일부 해소 될 수 있을 것 같습니다. 

아... 근데 LRS가 ONT가 아니라 PacBio 플랫폼이었다니 실망이네요.
솔까말 PacBio는 MRS(Middle Read Sequencing)아닌가.. 


DOI: 10.1101/2025.10.02.25336942

(이번 논문의 파일 크기가 커서 그런지 perplexity.ai가 제대로 처리를 못했네요)


gemini

## 🧬 알면 알수록 유익한 유전자 정보: All of Us 연구 프로그램의 '장문 염기서열 분석' (LRS) 혁신

이 연구는 미국 국립보건원(NIH) 산하의 대규모 연구 프로그램인 **'All of Us'**에서 수행된 논문 **"Population-scale Long-read Sequencing in the All of Us Research Program"**의 핵심 내용을 일반 독자들이 쉽게 이해할 수 있도록 요약한 글입니다.

---

### 1. 연구 배경: 기존 유전자 분석의 한계 극복

[cite_start]미국은 'All of Us'라는 국가 단위 연구 프로그램을 통해 100만 명의 유전자 정보(게놈)와 방대한 의료 기록(EHRs)을 연결하는 거대 바이오뱅크를 구축하고 있습니다[cite: 5, 17].

그동안 유전자 연구의 주류는 **'단문 염기서열 분석(srWGS)'**이었습니다. [cite_start]이는 비용 효율적이지만, 우리 유전자 중 특히 **반복되는 영역(Repetitive Regions)**이나 **큰 규모의 구조적 변이(Structural Variants, SVs)**를 정확히 파악하는 데는 한계가 있었습니다[cite: 22, 24, 25]. [cite_start]이 '사각지대'에는 질병과 밀접하게 관련된 중요한 유전자 정보가 숨겨져 있으며, 특히 유전적 다양성이 높은 집단에서는 기존 분석으로 놓치는 변이가 많았습니다[cite: 25].

[cite_start]이 논문은 **'장문 염기서열 분석(LRS)'**이라는 새로운 기술을 대규모로 도입하여, 기존 방법으로는 볼 수 없었던 유전체 전체의 완전한 그림을 그려내고자 했습니다[cite: 6, 26].

### 2. 연구 목적: 구조적 변이(SV)와 질병의 연관성 규명

[cite_start]이 연구의 핵심 목표는 **LRS 기술**을 'All of Us'의 대규모 임상 데이터와 결합하여, **복잡한 구조적 변이(SVs)**가 인간의 건강과 질병에 어떻게 영향을 미치는지에 대한 혁신적인 통찰력을 제공하는 새로운 연구 체계를 구축하는 것입니다[cite: 6].

[cite_start]특히, 유전체 연구에서 **과소 대표(Underrepresented)** 되어 온 **"흑인 또는 아프리카계 미국인"**으로 스스로를 밝힌 참가자 집단을 대상으로 유전적 다양성을 포괄적으로 특성화하고, 이들이 가진 특정 질병 위험 변이를 발견하는 데 집중했습니다[cite: 34, 38, 39].

---

### 3. 연구 방법: LRS와 EHR 데이터의 통합 분석

1.  **참가자 선정 및 시퀀싱:**

    * [cite_start]스스로 **흑인 또는 아프리카계 미국인**이라고 밝힌 **1,027명**의 참가자를 선정했습니다[cite: 7, 37]. [cite_start]이들은 높은 유전적 다양성을 가지며, 특정 질병 관련 변이를 풍부하게 보유할 가능성이 있어 연구에 적합했습니다[cite: 41].

    * **PacBio HiFi 기술**을 사용하여 **장문 염기서열 분석(LRS)**을 수행했습니다. [cite_start]이 기술은 기존 분석보다 훨씬 길고 정확한 유전자 정보를 제공합니다 (평균적으로 기존 기술보다 115배 긴 염기서열)[cite: 7, 691].

2.  **구조적 변이(SV) 발굴:**

    * [cite_start]LRS 데이터에서 **새로운 컴퓨팅 도구와 파이프라인**을 개발하여 SV를 포함한 모든 종류의 유전자 변이를 포괄적으로 발굴했습니다[cite: 9, 34].

3.  **대규모 질병 연관성 연구 (PheWAS):**

    * [cite_start]LRS를 통해 발견된 **75만 개 이상의 SV** 정보를 기존의 **10,000명**의 흑인/아프리카계 미국인 참가자(단문 분석 데이터 보유)에게 **'예측(Impute)'**하는 확장 가능한 방법을 개발했습니다[cite: 9, 10].

    * [cite_start]이 예측된 SV 정보와 참가자의 **전자 건강 기록(EHRs)**에 있는 수백 가지 질병 정보(표현형)를 연결하여, 어떤 **SV가 특정 질병과 연관**되는지를 밝히는 대규모 연관성 연구(**PheWAS, Phenome-Wide Association Study**)를 수행했습니다[cite: 10].

---

### 4. 연구 결과: 놓쳤던 변이의 발견과 질병 연관성 입증

이 연구는 기존 단문 분석의 한계를 뛰어넘는 놀라운 결과를 제시했습니다.

1.  **구조적 변이(SV) 발견의 혁신:**

    * [cite_start]LRS를 통해 발견된 **구조적 변이(SVs)의 수는 기존 단문 분석 대비 60%에서 290%까지 대폭 증가**했습니다[cite: 746].

    * [cite_start]기존 기술로는 불가능했던, 유전적으로 복잡한 영역(예: **약물 대사 관련 CYP2D6 유전자, 면역 관련 HLA 유전자**)의 **임상적으로 중요한 변이와 연관 그룹(Haplotypes)**을 정확히 분석해 냈습니다[cite: 8, 160].

2.  **질병과의 강력한 연관성:**

    * [cite_start]총 **226가지 질환**에 걸쳐 **291건의 SV-질병 연관성**을 확인했습니다[cite: 10].

    * 이 연관성 중 **50.9%**는 기존 **단문 분석 데이터에는 전혀 존재하지 않았던 SV**였습니다. [cite_start]즉, LRS가 아니었다면 이 질병 연관성은 영원히 놓쳤을 수 있는 정보입니다[cite: 10].

    * [cite_start]**70.8%**의 질환에서, **SV가 근처의 작은 변이(SNVs)보다 해당 유전체 영역에서 가장 강력한 질병 연관성**을 보였습니다[cite: 11, 164]. 이는 질병 연구에서 작은 변이뿐만 아니라 큰 구조적 변이가 훨씬 더 중요한 역할을 할 수 있음을 시사합니다.

3.  **인종별 특이 변이 발견:**

    * [cite_start]아프리카계 조상과 유사한 유전적 배경을 가진 참가자들에게서만 발견되는 특정 연관성은 **더 큰 효과 크기(질병에 미치는 영향이 큼)**와 **더 낮은 대립유전자 빈도(희귀 변이)**를 보였습니다[cite: 12]. 이는 고위험의, 인종 특이적인 변이 발굴이 정밀 의학에 얼마나 중요한지를 보여줍니다.

4.  **구체적인 예시:**

    * [cite_start]**폐쇄성 폐렴(Atelectasis)**과 관련된 **CLCN7 유전자** 내 **200bp 삽입 변이**를 발견했는데, 이 변이는 단백질 기능을 손상시켜 질병을 유발한다는 메커니즘적 증거를 제시했습니다[cite: 132, 134].

---

### 5. 고찰 및 시사점: 왜 이 연구가 중요한가?

[cite_start]이 연구는 단순히 더 많은 유전자 변이를 발견한 것을 넘어, **대규모 인구 집단 연구에서 LRS 기술의 실질적인 가치를 입증**했습니다[cite: 13, 138].

이 연구가 중요한 세 가지 이유는 다음과 같습니다.

1.  **정밀 의학의 새로운 지평을 열다:**

    * [cite_start]LRS를 통해 발견한 수많은 **새로운 SV-질병 연관성**은 기존 연구 방식의 **한계**를 명확히 보여줍니다[cite: 10, 22]. [cite_start]구조적 변이는 유전적 다양성과 질병 원인에 결정적인 영향을 미치므로 [cite: 139][cite_start], 이 데이터를 활용하면 질병의 위험을 더 정확하게 예측하고, 개인에게 맞춤화된 약물 반응을 이해하는 **정밀 의학**에 혁명적인 영향을 줄 수 있습니다[cite: 13, 161].

2.  **소외되었던 집단을 위한 공평한 의학 연구:**

    * [cite_start]이 연구는 유전체 연구에서 오랫동안 소외되었고 건강 결과가 취약한 **흑인/아프리카계 미국인 코호트**에 초점을 맞춤으로써 [cite: 39, 140][cite_start], **생물학적으로 중요하고 임상적으로 활용 가능성**이 높은 유전자 변이를 밝혀냈습니다[cite: 169]. [cite_start]이는 모든 인구 집단에 걸쳐 유전체 의학의 혜택이 **공평하게(Equitable)** 돌아가도록 하는 **비판적인 토대**를 마련했다는 점에서 큰 의의가 있습니다[cite: 167, 168].

3.  **미래 바이오뱅크의 표준 제시:**

    * [cite_start]이 성공적인 '1단계 연구'는 **LRS가 국가 바이오뱅크 구축 노력에 필수적으로 통합**되어야 함을 증명했습니다[cite: 167, 170]. [cite_start]'All of Us' 프로그램은 이 분석을 향후 10,000명 이상의 참가자로 확대할 계획이며 [cite: 171][cite_start], 이는 유전체 변이의 거의 완전한 다양성을 포착하여 미래 의학 연구의 잠재력을 극대화할 것입니다[cite: 172].


chatGPT

좋습니다. 업로드하신 논문 **「Population-scale Long-read Sequencing in the All of Us Research Program」(2025)** 의 내용을 일반 성인 독자가 이해하기 쉽게, 블로그용 요약문 형식으로 정리드리겠습니다.

(A4 두 장 분량 수준으로 구성하며, 연구 배경–목적–방법–결과–고찰–의의 및 시사점을 포함합니다.)

---

## **모든 유전자의 이야기를 더 깊이 읽다: ‘All of Us’ 장기 염기서열 연구**

### 🧬 연구 배경

미국 국립보건원(NIH)이 주도하는 **All of Us Research Program**은 100만 명 규모의 대규모 생명정보(바이오뱅크) 프로젝트입니다. 참여자들의 유전체, 건강검진 데이터, 설문, 전자의무기록(EHR)을 통합해 ‘정밀의료(precision medicine)’의 기반을 만드는 것이 목표입니다.

지금까지는 **짧은 염기서열(Short-read sequencing)** 기술이 주로 사용되어 왔지만, 이 기술은 유전체의 복잡한 부분—특히 반복 구간이나 구조적 변이(Structural Variation, SV)—를 충분히 읽지 못하는 한계가 있었습니다.

이러한 ‘읽히지 않는 구역들’을 정확히 해석하기 위해 연구진은 **장기 염기서열(Long-read sequencing, LRS)** 기술을 도입했습니다.

---

### 🎯 연구 목적

이번 연구는 **All of Us 프로그램의 첫 번째 대규모 장기 염기서열 분석 결과**를 공개한 것입니다.

특히 유전 연구에서 상대적으로 소외되어 온 **흑인 및 아프리카계 미국인 참가자 1,027명**을 대상으로,

1. LRS가 얼마나 새로운 유전 변이를 찾아낼 수 있는지,

2. 기존 단기 서열 기술이 놓쳤던 질병 관련 정보를 얼마나 보완할 수 있는지를 검증했습니다.

---

### 🔬 연구 방법

* **참여자 선정**: 미국 전역에서 모집된 1,027명의 흑인/아프리카계 미국인 참가자를 대상으로 함.

* **분석 기술**:

  * PacBio의 **HiFi 장기 염기서열 기술(평균 17,500염기 길이)** 사용.

  * 일부는 **Oxford Nanopore** 기술로 교차 검증.

  * 기존 단기 서열 데이터(평균 150염기 길이)와 비교 분석.

* **변이 탐색**:

  * 인공지능 기반 DeepVariant로 작은 변이(SNV, indel) 탐색.

  * 여러 알고리즘을 조합해 **50bp 이상 구조적 변이(SV)** 탐지.

  * 이후 품질평가와 필터링을 거쳐 **약 120만 개의 SV 데이터 세트** 구축.

* **통합 분석**:

  * 기존 All of Us 및 Human Pangenome 데이터와 통합하여 **참조 패널(reference panel)** 생성.

  * 이 데이터를 바탕으로 다른 단기서열 샘플에도 변이를 ‘추론(imputation)’하는 시스템 구축.

---

### 📊 주요 결과

#### 1. 더 많은 변이 발견

PacBio LRS는 기존 단기서열보다 **60~290% 더 많은 구조적 변이**를 발견했습니다.

이 중 절반 이상은 기존 데이터베이스(1,000 Genomes, HGSVC, HPRC 등)에서 **한 번도 보고되지 않았던 변이**였습니다.

#### 2. 인종적 다양성과 고유 변이

아프리카계 유전 배경을 가진 참가자에서 **가장 많은 유전적 다양성**이 확인되었습니다.

특히 **8,249개의 구조적 변이(SV)**가 아프리카계에서만 주로 발견되었으며,

이 중 일부는 **유방암(BARD1), 심혈관질환(APOB, MYH7)** 등과 관련된 유전자에 위치했습니다.

#### 3. 질병 관련 유전자 영역의 새 해석

* **FMR1** (자폐 및 인지장애 유발 ‘취약 X 증후군’ 관련),

  **HTT** (헌팅턴병 관련) 등의 반복서열을 정밀 분석해, 기존 단기서열로는 확인이 어려웠던

  **잠재적 위험 대립유전자(premutation alleles)**를 발견했습니다.

* **CYP2D6 유전자**(약물 대사와 관련된 대표 유전자)에서는

  복잡한 복제, 결실, 하이브리드 구조까지 세밀하게 구분해

  기존보다 훨씬 정확한 **개인별 약물 반응 예측**이 가능함을 보여주었습니다.

#### 4. 새롭게 발견된 질병 연관 변이

* 고혈당 환자에서 **SLC2A12** 유전자에 52bp 삽입 변이(혈당 조절과 관련된 GLUT12 단백질) 발견

* 천식 환자에서 **TOX** 유전자 삽입 변이 발견

* 청각 손실 환자에서 **PSIP1** 유전자 삽입으로 인한 단백질 절단 변이 확인

  → 이러한 변이들은 모두 단기서열에서는 탐지되지 않았던 사례로,

  장기 염기서열이 질병 원인 규명에 새 가능성을 보여줍니다.

#### 5. 유전자 발현과의 연관(eQTL 분석)

* 총 **3,835개의 구조적 변이–유전자 발현 연관(SV-eQTL)** 확인.

* 이 중 2,500여 개는 의학적으로 중요한 유전자와 관련.

* 예: **BID 유전자 근처의 322bp 결실 변이** → 유전자 발현 감소 및 암·면역 조절 관련성 확인.

---

### 💡 고찰 및 의의

이번 연구는 **인종적 다양성과 유전체 복잡성을 함께 고려한 첫 대규모 LRS 연구**로,

유전 연구의 방향을 바꾸는 전환점이라 평가됩니다.

특히 흑인·아프리카계 참여자들의 데이터가 충분히 포함됨으로써,

그동안 백인 중심으로 구축되어 왔던 유전체 데이터베이스의 **불균형을 해소**하는 첫걸음이 되었습니다.

또한 LRS를 활용해 기존의 단기서열 분석으로는 보이지 않던 변이들을 찾아내고,

그 변이들이 실제 임상 데이터(EHR)와 어떻게 연결되는지 확인함으로써,

**‘유전체–질병–개인 맞춤 치료’의 선순환**을 가능하게 했습니다.

---

### 🌍 이 연구가 중요한 이유

1. **정밀의료의 현실화** – 개개인의 유전적 차이를 반영한 맞춤 치료 가능성 제시

2. **인종·집단 간 형평성 제고** – 유전 다양성이 풍부한 인구집단을 포함함으로써

   건강 불평등 해소에 기여

3. **새로운 유전자 지형 지도 제공** – 향후 수많은 질병 연구의 기반 데이터로 활용 가능

요약하자면, 이번 연구는 단순히 “유전 정보를 더 많이 읽은 것”을 넘어,

**“그동안 읽히지 않았던 사람들의 유전체를 처음으로 제대로 읽은 시도”**입니다.

이는 앞으로 전 세계 인구를 위한 **더 공정하고 더 정확한 유전 의학의 출발점**이 될 것입니다.


grok3

### 미국 'All of Us' 프로그램에서의 대규모 장-리드 시퀀싱 연구 요약

#### 연구 배경

미국 국립보건원(NIH)이 주도하는 'All of Us' (AoU) 프로그램은 100만 명의 미국인을 대상으로 유전체 데이터와 전자건강기록(EHR)을 연결해 건강 연구를 추진 중입니다. 기존 연구는 짧은 읽기(short-read sequencing, srWGS)를 주로 사용했지만, 이는 반복 서열이나 복잡한 구조 변이(structural variation, SV)를 제대로 탐지하지 못하는 한계가 있습니다. 이러한 '사각지대'는 특히 아프리카 계통 유전체에서 더 두드러지며, 질병 연구에서 소외된 그룹(예: 자칭 Black or African American)의 유전 다양성을 놓치게 합니다. 장-리드 시퀀싱(LRS)은 긴 DNA 서열을 읽어 이러한 문제를 해결할 수 있지만, 대규모 EHR 연계 연구는 아직 부족합니다.

#### 연구 목적

이 연구는 AoU 프로그램에서 처음으로 LRS를 대규모로 적용해, 자칭 Black or African American 참가자 1,027명의 유전 변이를 분석하고 EHR과 연계하는 것입니다. 특히 SV를 중심으로 새로운 변이 카탈로그를 만들고, 이를 srWGS 데이터에 적용해 질병 연관성을 밝히며, 정밀의학(precision medicine) 기반을 마련하는 데 초점을 맞췄습니다. 이는 아프리카 계통 유전체의 고위험 변이를 강조하며, 미래 바이오뱅크 연구의 틀을 제시합니다.

#### 연구 방법

AoU 버전 7 데이터에서 20세 이상 Black or African American 참가자 1,027명을 선정했습니다. Pacific Biosciences(PacBio) HiFi LRS로 평균 8x 커버리지로 시퀀싱했습니다(50명은 Oxford Nanopore Technologies(ONT)로 추가 검증). 변이 발견은 DeepVariant(단일 염기/인델 변이), PAV·Sniffles2·PBSV(SV) 등의 도구를 사용해 합쳤습니다. SV는 lenient(민감도 우선, 1,213,876개)과 strict(특이도 우선, 665,869개) 두 callset으로 분류했습니다. 이후 10,000명 srWGS 데이터에 SV를 imputation(추정)해 750,000개 이상 변이를 추가하고, 226개 EHR 기반 질병과 연관 분석(p<1×10⁻⁵)을 수행했습니다. 아프리카 참조 유전체와 유사한 ancestry 그룹을 세분화해 효과 크기(effect size)를 비교했습니다.

#### 연구 결과

LRS는 srWGS와 비슷한 단일 염기 변이(SNV)를 발견했으나, 인델은 적었고 SV는 60~290% 더 많았습니다(예: Alu·LINE-1·SVA 이동 요소 삽입). 291개 SV-질병 연관(226개 증상, 심혈관·근골격계 등)이 밝혀졌고, 이 중 50.9%는 srWGS에 없었습니다. 세밀 매핑(fine-mapping) 후 191개 SV-질병 쌍(160개 증상)에서 SV가 가장 강한 연관성을 보였습니다. 아프리카 ancestry 그룹은 더 큰 효과 크기와 낮은 빈도를 나타냈습니다(예: 고위험 ancestry-specific 변이). 데이터는 AoU 연구자 워크벤치에서 공개됐습니다.

#### 고찰

LRS는 srWGS의 한계를 보완해 반복 확장(FMR1·HTT), 약물 유전체(CYP2D6), HLA 유형 등 복잡한 변이를 정확히 탐지합니다. Black or African American 그룹의 높은 유전 다양성은 SV 발견력을 높였으나, ancestry admixture(혼혈)로 인해 해석이 복잡합니다. 중간 커버리지(8x) 접근은 비용 효과적이었으나, 반복 영역 불일치율(6.4%)이 남았습니다. 아프리카 ancestry 특화 변이는 인종별 건강 불평등을 설명할 수 있지만, 추가 검증이 필요합니다.

#### 의의와 시사점

이 연구는 LRS를 바이오뱅크에 통합해 정밀의학을 가속화합니다. ancestry-specific SV를 통해 Black or African American 그룹의 고위험 변이를 밝혀, 맞춤 치료(예: 약물 반응 예측)를 촉진합니다. 2단계(더 다양한 인종 확장)로 이어지며, 미래 연구에서 EHR-LRS 결합이 표준이 될 수 있습니다. 비용 절감(mid-pass sequencing)으로 대규모 적용 가능성을 보여줍니다.

이 연구가 중요한 이유는 기존 srWGS가 놓친 유전 변이를 드러내 소외된 인종의 건강 연구를 균형 있게 만들기 때문입니다. 이는 결국 모든 사람에게 공정한 정밀의학 시대를 열 수 있습니다.


NotebookLM

전문적인 배경 지식이 없는 일반 성인 독자들을 대상으로 업로드하신 논문의 내용을 이해하기 쉽도록 연구 배경, 목적, 방법, 결과, 고찰, 의의와 시사점을 포함하여 A4 용지 두 장 이내의 블로그 게시물 형식으로 요약해 드립니다.

***

## 정밀 의학의 새로운 지평: 'All of Us' 연구 프로그램의 장문 염기서열 분석 (LRS) 혁신

### 연구 배경: 유전체 연구의 숨겨진 영역을 찾아서

인간의 유전체 정보를 해독하는 기술은 빠르게 발전해 왔지만, 여전히 유전체 지도에는 **구조적 변이(Structural Variation, SV)**와 같이 해독하기 어려운 ‘암점(blind spots)’이 존재합니다. 특히, 게놈의 반복적인 영역이나 복잡한 배열은 기존의 **단문 염기서열 분석(Short-Read Whole-Genome Sequencing, srWGS)** 기술로는 정확히 파악하기 어려웠습니다. 이러한 SV들은 질병과 밀접하게 관련되어 있으며, 유전적 다양성이 높은 집단에서는 그 영향이 과소평가되거나 기존 변이 목록에 제대로 반영되지 못하는 경우가 많았습니다.

미국 국립보건원(NIH)이 후원하는 **All of Us Research Program (AoU)**은 100만 명의 참가자를 모집하여 유전체 데이터(srWGS 및 LRS)와 광범위한 전자 건강 기록(EHR)을 연결하는 대규모 바이오뱅크입니다. AoU는 특히 건강 결과가 제대로 연구되지 않은 집단에 중점을 두고 참가자를 모집하고 있습니다. 이 연구는 최신 기술인 **장문 염기서열 분석(Long-Read Sequencing, LRS)**을 대규모 인구 집단에 적용함으로써, srWGS가 놓쳤던 유전적 다양성을 포착하고 정밀 의학을 발전시키려는 노력의 일환으로 시작되었습니다. LRS 기술은 15,000 염기쌍 이상의 긴 서열을 해독할 수 있어, 복잡한 SV를 높은 정확도로 파악하고 유전적 변이를 거의 완전하게 확인할 수 있는 강력한 해결책을 제시합니다.

### 연구 목적: LRS를 통한 유전체 정보의 혁신적 발견

이 연구의 주요 목적은 AoU 프로그램 내에서 LRS를 대규모로 분석한 최초의 사례를 제시하고, 인간의 건강 및 질병과 관련된 복잡한 SV에 대한 통찰력을 얻기 위한 새로운 분석 프레임워크를 제공하는 것입니다. 구체적으로는, PacBio HiFi 기술을 사용하여 유전적으로 다양한 집단(스스로를 흑인 또는 아프리카계 미국인으로 밝힌 참가자)의 유전체 변이를 종합적으로 특성화하고자 했습니다.

### 연구 방법: 중저 심층 분석(Mid-Pass)과 대규모 데이터 통합

1.  **참가자 선정 및 시퀀싱:** 연구진은 AoU 참여자 중 **스스로를 흑인 또는 아프리카계 미국인으로 밝힌 1,027명**을 선정했습니다. 이 집단은 유전적 다양성이 가장 높으며 기존 유전체 연구에서 불균형적으로 적게 대표되어 왔기 때문에, 변이 발견 능력을 높이기 위해 중점적으로 분석되었습니다. 시퀀싱에는 PacBio HiFi 기술을 사용했으며, 비용 효율성을 고려하여 **평균 $\sim 8\text{x}$의 중저 심층(mid-pass) 범위**를 목표로 했습니다. LRS 데이터의 평균 길이는 srWGS보다 115~131배 더 길었습니다 (평균 $17.5\text{kbp}$).

2.  **구조적 변이(SV) 발견 및 통합:** 클라우드 기반 파이프라인과 앙상블 알고리즘을 사용하여 $\ge 50\text{bp}$ 크기의 SV를 검출했습니다. 특히, 거짓 양성(false positives)을 걸러내고 일관된 SV 목록을 구축하기 위해 맞춤형 조화(harmonization) 파이프라인을 개발했습니다.

3.  **참조 패널 구축 및 유전형 결정/추론:** LRS 데이터에서 발견된 SV들을 srWGS 데이터셋에 추론(imputation)하기 위한 확장 가능한 워크플로우를 개발했습니다. 이 워크플로우는 AoU LRS 데이터와 HPRC(Human Pangenome Reference Consortium) 데이터를 통합하여 SNV, 작은 삽입/결실, SV를 포함하는 **위상 결정된(haplotype-resolved) 참조 패널**을 구축했습니다 .

4.  **표현형-유전체 연관 분석 (PheWAS):** 이 LRS 기반 참조 패널을 사용하여, **10,000명의 흑인 또는 아프리카계 미국인 AoU 참가자**의 srWGS 데이터에 SV를 유전형 결정하고 추론했습니다. 이 결과를 해당 참가자들의 EHR 데이터와 결합하여 226개 조건에 대한 SV-질병 연관성을 탐색했습니다.

### 연구 결과: LRS의 우월성과 질병 연관성 발견

1.  **구조적 변이의 극적인 증가:** LRS를 통해 발견된 SV의 수는 동일한 참가자들의 srWGS 결과와 비교했을 때, 엄격한 기준으로도 **60%에서 290%까지** 크게 증가했습니다. 연구진은 민감도를 최대화한 포괄적인 SV 목록(120만 개)과 높은 특이도를 갖는 SV 목록(666,000개)을 공개했습니다.

2.  **임상적으로 중요한 유전자좌의 해상도 향상:**

    *   **반복 서열 질환:** LRS는 취약 X 증후군($FMR1$) 및 헌팅턴병($HTT$)과 같은 질병 관련 삼중 반복 서열(triplet repeat loci)을 고해상도로 특성화하여, 질병 발생 위험이 있는 **전돌연변이 크기의 대립유전자(premutation-sized alleles)**와 새로운 병원성 후보를 발견했습니다.

    *   **약물 유전체학 ($CYP2D6$):** 약물 대사에 중요한 역할을 하지만 srWGS로는 분석이 어려웠던 복잡한 $CYP2D6$ 유전자좌의 구조적 변이(복제, 결실, 하이브리드 구조)를 높은 정확도로 규명했습니다.

3.  **질병 연관성 발견의 혁신:**

    *   총 226가지 질병 조건에 걸쳐 **291개의 SV-질병 연관성($p < 1\times 10^{-5}$)을 확인**했습니다.

    *   가장 중요한 발견 중 하나는, 이 연관성 중 **50.9%**가 기존의 매칭된 srWGS 데이터셋에서는 **발견되지 않은 SV**와 관련되어 있다는 점입니다.

    *   세부 매핑(fine-mapping) 결과, 분석된 226개 형질 중 160개 형질(70.8%)에 해당하는 191개 SV-질병 쌍에서 **SV가 해당 유전자좌 내에서 가장 강력한 연관성**을 보였습니다. 이는 SV가 질병 위험에 있어 SNV보다 더 중요한 인과적 변이일 수 있음을 시사합니다 .

    *   아프리카 혈통과 유사한 조상을 가진 참가자들에게 특이적으로 나타나는 연관성은 더 큰 효과 크기(larger effect sizes, 중앙값 $5.85$)와 낮은 대립유전자 빈도(lower allele frequencies)를 보였는데, 이는 해당 집단에 풍부한 고위험 변이가 존재함을 나타냅니다.

    *   실제 EHR 데이터와의 통합을 통해, 당뇨병 및 고혈당증과 관련된 $SLC2A12$의 삽입, 만성 신장 질환과 관련된 $TARS2$의 결실 등 , **임상적 진단과 일치하는 고위험 SV** 사례들이 발견되었습니다 .

### 고찰 및 의의: 정밀 의학의 미래를 위한 교두보

이 연구는 LRS 기술을 국가적 바이오뱅크 노력에 통합할 때 얻을 수 있는 **심오한 이점**을 입증합니다 . AoU의 LRS 데이터는 대규모 자칭 흑인 또는 아프리카계 미국인 코호트에서 유전적 변이를 가장 포괄적으로 보여주며 , 이 집단의 유전적 다양성 수준이 높음을 재확인했습니다 .

특히, **LRS가 고전적인 방법으로는 접근할 수 없었던 유전체 변이(SV 및 반복 서열)를 해독하고 EHR과 연결하는 능력**은 정밀 의학에 혁명적인 통찰력을 제공할 수 있습니다. 개발된 LRS-기반 참조 패널 및 추론 프레임워크는 현재 LRS와 srWGS 간의 비용 및 처리량 격차를 해소하여 , LRS의 발견 사항을 기존의 대규모 srWGS 데이터셋에 소급 적용할 수 있게 합니다 .

LRS를 통해서만 발견된 SV들 중 상당수(50.9%)가 질병 연관성을 보였고 , 유전자 발현 조절(eQTL) 분석에서도 SV가 SNV보다 더 강력한 인과적 변이로 확인되었습니다 . 이는 SV가 유전자 기능 조절 및 질병 위험에 있어 **과소평가되었던 중요한 역할**을 하고 있음을 강력하게 시사합니다 .

### 이 연구가 중요한 이유

**이 연구는 정밀 의학의 공평성을 높이는 데 결정적인 역할을 합니다** .

유전체학 연구에서 소외되었던 집단(자칭 흑인 또는 아프리카계 미국인)을 대규모로 분석하고, 그들에게 특이적이거나 풍부하게 존재하는 고위험 변이들을 정확히 식별함으로써, 해당 집단이 겪는 건강 불평등을 해소할 수 있는 기반을 마련했습니다 . LRS는 단순히 새로운 변이를 찾는 것을 넘어, 복잡한 유전체 영역을 해독하여 **모든 인구 집단에게 맞춤화된 고품질 의료 서비스**를 제공하는 데 필수적인 포괄적인 변이 목록을 구축하는 데 중요합니다 .

AoU 프로그램은 앞으로 10,000명 이상의 참가자로 LRS 분석을 확대할 예정이며 , 이 연구는 유전체 의학의 잠재력을 극대화하는 데 필요한 방법론적, 분석적 토대를 제공합니다 .




출처: @ye._.vely618

토요일, 11월 16, 2024

희귀 질환 진단의 새로운 희망; HiFi

오늘은 최근에 medrxiv에 올라온 논문을 가져와봤습니다. 미래 진단은 결국 Long-read로 해야지 정확도든 찾고싶은거든 다 할 수 있을 것 이라는 믿음이 있는바 가져와봤습니다. :) 제목은 HiFi long-read genomes for difficult-to-detect clinically relevant variants 입니다.

DOI: 10.1101/2024.09.17.24313798

조만간 좋은 저널지로 둥지를 옮기기전에 잽싸게 LLM에 물어보았습니다. 


gemini

## 희귀 질환 진단의 혁신: Long-Read 시퀀싱 기술

안녕하세요, 저는 Long-Read 시퀀싱 분석 전문가입니다. 오늘은 희귀 질환 진단에 혁신을 가져올 수 있는 Long-Read 시퀀싱 기술에 대한 최신 연구 논문을 소개하고자 합니다. 특히, 이 논문에서는 "HiFi"라는 Long-Read 시퀀싱 방법을 사용하여 기존의 Short-Read 방식으로는 찾기 어려웠던 희귀 질환 관련 유전자 변이를 찾아내는 가능성을 평가했습니다.

### 희귀 질환 진단, 왜 어려울까요?

우리 몸의 유전 정보는 DNA라는 아주 긴 사슬에 담겨 있습니다. 희귀 질환은 이 DNA 사슬에서 아주 작은 부분이 변형되어 발생하는 경우가 많습니다. 이러한 변형을 '변이'라고 부르는데, 마치 방대한 책 속에서 오타를 찾는 것처럼 희귀 질환의 원인이 되는 변이를 찾아내는 것은 매우 어려운 일입니다.

기존에는 Short-Read라는 기술을 사용하여 DNA를 짧게 잘라서 읽어냈습니다. 이는 마치 책을 몇 글자 단위로 잘라서 읽는 것과 같아서, 문맥 파악이 어렵고 오타를 놓칠 가능성이 높았습니다. 특히, DNA의 복잡한 구조나 반복적인 부분에서는 더욱 그렇습니다.

### Long-Read 시퀀싱, 희귀 질환 진단의 새로운 희망

Long-Read 시퀀싱은 DNA를 훨씬 길게 읽어내는 기술입니다. 책을 문장이나 문단 단위로 읽는 것처럼 더 긴 맥락에서 유전 정보를 파악할 수 있기 때문에 Short-Read 방식보다 정확하게 변이를 찾아낼 수 있습니다.

이번 연구에서는 HiFi라는 Long-Read 시퀀싱 방법을 사용하여 희귀 질환 환자 100명의 유전 정보를 분석했습니다. 그 결과, 기존 Short-Read 방식으로는 찾기 어려웠던 145개의 변이 중 83%에 해당하는 120개를 HiFi 기술로 찾아내는 데 성공했습니다! 

### HiFi 기술, 얼마나 정확하고 실용적일까요?

HiFi 기술은 높은 정확도를 보여주었지만, 아직 몇 가지 해결해야 할 과제도 남아있습니다. 145개의 변이 중 7%는 여전히 HiFi 기술로도 찾아내기 어려웠습니다. 특히, DNA의 특정 반복 구조에서는 기술적인 어려움이 있었습니다.

하지만 희망적인 것은 HiFi 기술의 정확도가 매우 높다는 것입니다. 분석 결과, HiFi 기술로 찾아낸 변이 중 89%는 적은 양의 DNA 데이터만으로도 식별이 가능했습니다. 이는 검사 비용을 절감하고 더 많은 환자에게 검사 기회를 제공할 수 있다는 것을 의미합니다.

### Long-Read 시퀀싱, 희귀 질환 진단의 미래를 밝히다

Long-Read 시퀀싱 기술은 희귀 질환 진단에 혁신적인 변화를 가져올 잠재력이 있습니다. HiFi 기술은 아직 완벽하지는 않지만, 희귀 질환의 원인을 밝히고 환자들에게 더 나은 치료법을 제공하는 데 중요한 역할을 할 것으로 기대됩니다. 

앞으로 더 많은 연구와 기술 개발을 통해 Long-Read 시퀀싱 기술이 희귀 질환으로 고통받는 환자들에게 희망을 줄 수 있기를 바랍니다.



clova-x

안녕하세요, 여러분. 오늘은 희귀질환 진단에 있어서 새로운 분석 방법인 Long-read 기반의 HiFi 분석 방법에 대해 이야기해 보려고 합니다.

희귀질환은 매우 드물고 특별한 질병으로, 대부분의 경우 유전적인 요인에 의해 발생합니다. 이러한 질환을 진단하고 치료하기 위해서는 정확한 유전 정보가 필요한데, 지금까지는 이를 얻기 위해 복잡하고 비용이 많이 드는 검사가 필요했습니다. 하지만 최근에는 차세대 시퀀싱 기술인 NGS, 즉 게놈 시퀀싱이 등장하면서 보다 빠르고 정확한 진단이 가능해졌습니다.

그러나 NGS에도 한계가 있습니다. 짧은 리드 길이를 가진 시퀀싱 방법으로는 일부 변이를 검출하기 어렵다는 것입니다. 특히, 반복 서열이나 구조적 변이, 그리고 유사한 서열을 가진 유전자에서의 변이 등을 찾아내기가 쉽지 않았습니다.

이에 반해, Long-read 기반의 HiFi 분석 방법은 훨씬 더 긴 리드 길이를 사용하여 유전 정보를 읽어냅니다. 이 방법은 기존의 방법으로는 검출하기 어려웠던 변이들을 탐지하는 데 매우 효과적입니다. 실제로, 이번에 발표된 논문에 따르면, HiFi 분석 방법을 사용하여 83%의 변이를 자동으로 탐지할 수 있었고, 추가적인 시각적 검사를 통해 나머지 변이도 탐지할 수 있었다고 합니다.

특히, 이 방법은 구조적 변이와 짧은 반복 서열 확장을 포함한 복잡한 변이를 정확하게 탐지할 수 있다는 장점이 있습니다. 이러한 변이는 희귀질환의 진단에 있어서 매우 중요한 역할을 하는데, 기존의 방법으로는 이러한 변이를 정확하게 찾아내기 어려웠습니다. 하지만 HiFi 분석 방법을 사용하면 이러한 변이를 놓치지 않고 찾아낼 수 있습니다.

물론, 이 방법에도 몇 가지 어려움이 있습니다. 우선, Long-read 시퀀싱은 상대적으로 새로운 기술이기 때문에 아직은 실험실에서 널리 사용되고 있지 않습니다. 또한, 데이터를 분석하는 데 있어서도 전문적인 지식과 기술이 필요합니다.

하지만 이러한 어려움에도 불구하고, HiFi 분석 방법은 희귀질환의 진단에 있어서 매우 유용한 도구가 될 것으로 기대됩니다. 이미 많은 연구에서 그 가능성을 보여주고 있으며, 앞으로 기술이 더욱 발전하고 실험실에서의 사용이 보편화되면 더욱 정확하고 빠른 진단이 가능해질 것입니다.

또한, 이 방법은 단순히 진단에만 사용되는 것이 아니라, 치료에도 큰 도움을 줄 수 있습니다. 유전 정보를 더욱 정확하게 파악함으로써, 환자에게 맞는 맞춤형 치료를 제공할 수 있기 때문입니다.

마지막으로, 이 기술이 보편화되기 위해서는 여전히 많은 연구와 개발이 필요합니다. 우리 모두가 이 분야의 발전에 관심을 가지고 지원함으로써, 희귀질환으로 고통받는 환자들에게 희망을 줄 수 있을 것입니다. 감사합니다.



chatGPT

### 장기 시퀀싱을 통한 희귀 질환 진단: 왜 필요한가요?

최근 연구에서 장기 시퀀싱을 활용한 희귀 질환 진단의 가능성을 평가했습니다. 기존에 주로 사용되던 단일 염기서열 분석(short-read sequencing, SRS)은 DNA 조각을 짧게 잘라서 분석하는 방식입니다. 하지만 이 방식은 유전체 내 복잡한 변이(예: 구조적 변이, 반복적 서열)에 대한 탐지가 어려울 수 있습니다. 반면, HiFi라는 새로운 장기 시퀀싱(long-read sequencing, LRS) 방식은 DNA 조각을 길게 읽어 더 복잡한 변이까지 파악할 수 있습니다. 이번 연구는 이 HiFi 기술이 희귀 질환 진단에 얼마나 유용할지를 확인하기 위해 진행되었습니다.

### 왜 희귀 질환에 장기 시퀀싱이 필요한가요?

희귀 질환의 대부분은 유전적 변이에 의해 발생하며, 환자와 가족의 정확한 진단은 치료와 예후 관리에 중요합니다. 하지만 희귀 질환의 원인을 규명하려면 다양한 유전 변이를 탐지해야 하는데, SRS는 짧은 조각들만 제공하기 때문에 긴 구조적 변이, 특정 반복 서열 등의 검출이 제한됩니다. 이러한 구조적 변이나 특수한 유전자 영역에서 발생하는 변이는 SRS로는 식별하기 어려운 경우가 많으며, 그로 인해 일부 환자는 정확한 진단을 받지 못할 수 있습니다. HiFi와 같은 장기 시퀀싱 기술은 이러한 문제를 해결할 수 있는 대안으로 주목받고 있습니다.

### HiFi 장기 시퀀싱의 정확도는 얼마나 높은가요?

이번 연구는 100개의 샘플에서 임상적으로 중요한 145개의 변이를 대상으로 HiFi 장기 시퀀싱을 수행했으며, 그 결과 약 83%의 변이를 자동으로 탐지하는 데 성공했습니다. 또 다른 10%는 전문가가 데이터를 수동으로 확인함으로써 발견할 수 있었습니다. 이는 약 93%의 변이를 확인할 수 있었음을 의미하며, 기존의 단일 염기서열 분석 방식에 비해 높은 검출률을 보여줍니다. 특히, 장기 시퀀싱은 구조적 변이나 특정 반복 서열처럼 복잡한 변이를 더 잘 탐지하는 데 유리했습니다.

### 어려운 점은 무엇인가요?

장기 시퀀싱이 유망한 기술임에도 불구하고 몇 가지 도전 과제가 있습니다. 예를 들어, HiFi 장기 시퀀싱은 일부 반복 서열(예: GA 반복 서열)을 정확히 탐지하는 데 어려움을 겪었으며, 이러한 경우 변이 검출률이 떨어졌습니다. 또한, 일부 특정한 복잡한 구조적 변이는 여전히 검출이 어렵거나 오류가 발생할 수 있었습니다. 따라서 기술적 개선이 필요하며, 특히 반복 서열의 품질 문제를 해결하는 것이 장기 시퀀싱 기술 발전에 중요한 과제로 남아 있습니다.

### 실제로 사용 가능할까요?

이 연구는 장기 시퀀싱이 실제 임상에서 희귀 질환 진단을 위한 주요 도구로 활용될 가능성을 시사합니다. 자동화된 소프트웨어가 약 93%의 주요 변이를 탐지할 수 있었기 때문에, 높은 정확도를 유지하면서도 진단의 신뢰성을 확보할 수 있습니다. 또한, 시퀀싱 비용이 더 낮아지거나 더 많은 샘플을 분석할 수 있다면, 실제 진단 환경에서도 비용 대비 효과적인 선택지가 될 수 있습니다. 다만, 특정 변이에 대한 검출의 한계는 여전히 남아 있으므로, 장기 시퀀싱을 보완할 추가적인 분석 방식도 필요할 수 있습니다.

### 다른 문제점은 없을까요?

장기 시퀀싱은 비교적 새로운 기술이기 때문에 데이터 분석 소프트웨어와 기술적 지원이 아직 발전 중에 있습니다. 또한, 이 기술을 임상에서 본격적으로 활용하기 위해서는 추가 연구와 데이터가 필요하며, 다양한 환자 그룹에 대해 검증이 이루어져야 합니다. 예를 들어, 분석을 위해 필요한 데이터 양이 많기 때문에 장기 시퀀싱의 효율성을 높이기 위해서는 더 높은 처리 속도와 비용 절감이 필요합니다.

### 결론

이번 연구는 HiFi 장기 시퀀싱이 희귀 질환 진단의 새로운 표준이 될 가능성을 제시합니다. 기존의 진단 방법이 가지는 한계를 넘어 다양한 유전적 변이를 탐지할 수 있어 많은 희귀 질환 환자들에게 새로운 진단 기회를 제공할 수 있습니다. 물론 기술 발전과 추가 연구가 필요하지만, 장기 시퀀싱은 유전 질환 진단에서 큰 도약을 가져올 중요한 도구임이 확실해 보입니다.



NotebookLM

## 희귀 질환 진단의 새로운 희망, 롱리드 시퀀싱: HiFi 기술을 중심으로

  희귀 질환은 그 이름처럼 환자 수가 적어 진단이 어렵고, 진단까지 오랜 시간이 걸리는 경우가 많습니다. 하지만 유전자 분석 기술의 발전은 희귀 질환 진단에 새로운 가능성을 열어주고 있습니다. 특히 롱리드 시퀀싱이라는 기술은 기존의 숏리드 방식보다 더욱 정확하고 효율적인 진단을 가능하게 합니다.

### 숏리드 방식의 한계와 롱리드 시퀀싱의 등장

  우리의 유전 정보를 담고 있는 DNA는 아데닌(A), 구아닌(G), 사이토신(C), 티민(T)이라는 네 가지 염기의 조합으로 이루어져 있습니다. 유전자 분석은 이 염기 서열을 읽어내는 과정입니다. 기존에 널리 사용되던 숏리드 방식은 DNA를 짧게 잘라 분석하는 방식이었기 때문에 염기 서열이 복잡하게 반복되거나  길이가 긴 변이를 정확히 탐지하기 어려웠습니다. 

  반면에 **롱리드 시퀀싱은 DNA를 훨씬 길게 읽어낼 수 있어 숏리드 방식으로는 놓치기 쉬웠던 변이까지도 정확하게 파악할 수 있습니다.**  특히 HiFi라는 롱리드 시퀀싱 기술은 높은 정확도를 자랑하며 희귀 질환 진단에 획기적인 발전을 가져올 수 있습니다.

### HiFi 롱리드 시퀀싱, 희귀 질환 진단의 정확성을 높이다

  HiFi 기술을 이용한 롱리드 시퀀싱은 숏리드 방식으로는 탐지하기 어려웠던 다양한 유형의 변이를 식별할 수 있습니다.  연구 결과에 따르면 HiFi 롱리드 시퀀싱은 숏리드 방식으로 탐지하기 어려웠던 145개의 변이 중 83%에 해당하는 120개를 자동으로 찾아냈습니다. 여기에는 구조적 변이, 짧은 염기 서열의 반복적인 확장, 상동 서열의 변이 등이 포함됩니다.

  **HiFi 롱리드 시퀀싱은 희귀 질환 진단에 필요한 여러 검사들을 하나의 검사로 대체할 수 있는 가능성을 제시합니다.**  기존에는 염색체 분석, FISH, 마이크로어레이, 서던 블롯, MLPA, Sanger 시퀀싱 등 다양한 검사를 순차적으로 진행해야 했습니다.  하지만 HiFi 롱리드 시퀀싱은 **단 한 번의 검사로 다양한 유형의 변이를 정확하게 분석할 수 있어 진단 과정을 단축하고 비용을 절감할 수 있습니다.**

### HiFi 롱리드 시퀀싱, 극복해야 할 과제들

  HiFi 롱리드 시퀀싱은 희귀 질환 진단에 혁신적인 기술이지만, 아직 몇 가지 과제가 남아있습니다.  

*   첫째, HiFi 시퀀싱은 GA 염기 반복이 많은 특정 유전자 영역에서는 정확도가 떨어지는 문제가 있습니다.  GA 염기 반복이 많은 영역에서는 DNA 구조가 변형되어 시퀀싱 과정에 어려움을 겪기 때문입니다.  

*   둘째, 염기 서열이 복잡하게 반복되는 영역이나 매우 유사한 유전자들이 모여 있는 영역에서는 변이를 정확히 식별하기 어려울 수 있습니다.

### HiFi 롱리드 시퀀싱, 희귀 질환 진단의 미래를 밝히다

 HiFi 롱리드 시퀀싱은 희귀 질환 진단의 정확성과 효율성을 획기적으로 높일 수 있는 잠재력을 가진 기술입니다. 

*  HiFi 롱리드 시퀀싱은 기존의 숏리드 방식으로는 탐지하기 어려웠던 다양한 유형의 유전적 변이를 정확하게 식별할 수 있습니다.  

*  HiFi 롱리드 시퀀싱은 희귀 질환 진단에 필요한 여러 검사를 하나의 검사로 대체할 수 있어 진단 과정을 단축하고 비용을 절감할 수 있습니다.  

  물론 아직 극복해야 할 과제들이 남아있지만, **HiFi 롱리드 시퀀싱은 희귀 질환 환자들에게 더 빠르고 정확한 진단을 제공하여 희망을 줄 수 있을 것으로 기대됩니다.** 


HiFi Long-read라고 해도 PacBio라는 플랫폼 한계로 긴 길이(수십Kb 이상이 되는)의 구조 변이는 탐지하기 쉽지 않다고 얘기하네요. 그래도 기존에 short-read 방식으로 탐지하기 어려운 구조 변이는 더 확인 할 수 있다고 하고 있습니다. 최근에 일루미나에서 DRAGEN과 Pangenome Reference로 우리도 기다란 SV 탐지할 수 있다고 하고 있는데, 아직 갸우뚱... 

여튼 기존에 잘 알려진 혹은 잘 정의된 변이들 이외에도 rare하게 나오는 변이나 구조적 변이들은 Long-read로 잘 잡을 수 있다고 하니 미래는 밝은데.. 이게 상용화, 상품화가 되는 영역은 또 다른 문제이다보니, 많은 생각이 듭니다. :)


출처: @ye._.vely618


화요일, 5월 14, 2024

롱리드냐 숏리드냐 그것이 문제로다! 그냥 둘 다 써!

23년에 효모를 사용해서 여러 플랫폼 데이터의 어셈블리 성능을 테스트한 논문이 있어서 한번 가져와봤습니다.

DOI는 10.26508/lsa.202201744 입니다.

조금 더 복잡한 genome을 사용했으면 좋았을 것 같지만, 그러면 genome에서 오는 복잡도로 결과를 명확하게 분석하기 어려운 면이 있어서 yeast를 선정한 것은 좋은 선택인 것 같았습니다. 어설프게 다배체 생물 건드리면 나는 어딘가? 여기는 누군가? 하고 있었을 수 도 있으니깐요 :)

논문 장수와 용량이 적절해서 clova-x, gemini와 더불어 claude에게 까지 물어보았습니다.

질문: 블로그에 이 연구 내용으로 글을 하나 작성해주세요. 읽는 대상은 차세대 시퀀싱은 알지 못하지만 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들 입니다.


clova-x

이 논문에서는 Debaryomyces hansenii KCTC27743 yeast species의 전체 유전체를 4개의 다른 시퀀싱 플랫폼을 사용하여 시퀀싱하고 조립하는 방법을 설명하고 있습니다. 이 방법은 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 것으로, 생물학 연구에서 중요한 역할을 합니다.

이 논문에서는 PacBio Sequel, ONT MinION, Illumina NovaSeq 6000, MGI DNBSEQ-T7 등 4개의 시퀀싱 플랫폼을 사용하여 유전체를 분석하였습니다. 각각의 플랫폼은 서로 다른 장단점을 가지고 있으며, 이를 고려하여 적절한 플랫폼을 선택해야 합니다.

조립 과정에서는 Flye, WTDBG2, Canu, MaSuRCA, WENGAN, SPAdes, ABySS 등 7개의 조립 프로그램을 사용하였습니다. 이 프로그램들은 각각의 특성과 장단점을 가지고 있으며, 이를 고려하여 적절한 프로그램을 선택해야 합니다.

이 논문에서는 유전체 분석 결과를 바탕으로 다양한 유전체 구조를 분석하였습니다. 유전체 구조는 생물학적 특성과 밀접한 관련이 있으며, 이를 분석함으로써 생물학적 연구에 유용한 정보를 얻을 수 있습니다.

이 논문에서는 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 방법과, 이를 위한 다양한 플랫폼과 프로그램을 소개하고 있습니다. 이는 생물학 연구에 관심이 있는 사람들에게 유용한 정보가 될 것입니다. 또한, 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들도 이 논문을 통해 차세대 시퀀싱 기술에 대한 이해를 높일 수 있을 것입니다.




claude

안녕하세요. 오늘은 차세대 시퀀싱 기술과 유전체 조립에 대한 재미있는 연구 결과를 소개하겠습니다.

여러분도 학교에서 DNA의 구조, 유전자, 염기서열 등을 배웠을 텐데요. 현대 생명과학에서는 생물체의 전체 유전정보인 게놈(genome)을 해독하는 것이 매우 중요합니다. 게놈을 알면 그 생물의 유전적 특성과 진화 과정을 이해할 수 있기 때문입니다.

게놈은 DNA가 긴 가닥으로 이어진 것인데, 이를 조각조각 읽어서 다시 맞춰 전체 구조를 복원하는 것이 바로 '유전체 조립(genome assembly)' 작업입니다. 마치 퍼즐을 맞추는 것과 비슷하죠.

과거에는 DNA를 직접 읽는 시퀀싱 기술의 한계로 유전체 조립이 쉽지 않았습니다. 하지만 최근 '차세대 시퀀싱(Next-Generation Sequencing)' 기술이 발달하면서 좀 더 정확하고 효율적인 유전체 조립이 가능해졌습니다.

이번에 소개할 연구는 여러 차세대 시퀀싱 플랫폼과 조립 프로그램을 활용해 효모 게놈 조립을 시도한 결과입니다. 연구팀은 PacBio, 옥스퍼드 나노포어, 일루미나, MGI 등 4가지 플랫폼으로 효모를 시퀀싱했습니다. 그리고 Flye, WTDBG2, Canu 등 7가지 조립 프로그램을 사용해 총 212개의 효모 유전체 조립체를 만들었습니다.

결과적으로 가장 완성도 높은 조립체는 옥스퍼드 나노포어 플랫폼의 긴 염기서열을 사용하고, Canu 프로그램으로 조립한 뒤 MGI 플랫폼의 데이터로 오류를 수정한 것이었습니다. 하지만 각 플랫폼과 프로그램마다 장단점이 있었는데요.

옥스퍼드 나노포어는 긴 염기서열을 얻을 수 있었지만 오류율이 높았고, 일루미나 플랫폼은 정확도가 높았지만 짧은 염기서열 때문에 반복 영역을 해결하기 어려웠습니다. 조립 프로그램 중에서는 Canu가 반복 영역 해결력이 좋았지만 느린 편이었고, WTDBG2는 빨랐지만 정확도가 낮았습니다.

이렇게 시퀀싱 플랫폼과 조립 프로그램의 특성을 고려하면 생물 종류나 상황에 맞춰 최적의 조합을 선택할 수 있습니다.

유전체 조립은 생명과학 분야에서 아주 기초적이지만 중요한 작업입니다. 앞으로 더 나은 기술이 개발되면 다양한 생물체의 게놈을 해독하고 분석할 수 있을 것입니다. 이를 통해 생명현상에 대한 이해를 넓힐 수 있을 거예요.

이상으로 생소한 주제였지만 재미있게 읽으셨나요? 다음에는 더 알기 쉽고 흥미로운 주제로 찾아오겠습니다.




gemini

차세대 시퀀싱 기술: 효모 게놈의 비밀을 밝히다!

안녕하세요, 생물 선생님들! 오늘은 여러분의 생물 수업을 더욱 풍성하게 만들어 줄 차세대 시퀀싱 기술에 대해 이야기 나누려고 합니다. 차세대 시퀀싱은 단순히 DNA를 읽는 기술을 넘어, 우리가 살아있는 세상에 대한 이해를 혁신하는 강력한 도구입니다.

차세대 시퀀싱이란 무엇일까요?
과거에는 DNA를 읽는 데 오랜 시간과 노력이 필요했지만, 차세대 시퀀싱 기술은 단 며칠 만에 수백억 개의 염기 서열을 읽을 수 있게 해줍니다. 이는 마치 거대한 책을 한 번에 읽는 것과 같습니다!

차세대 시퀀싱으로 무엇을 할 수 있을까요?
효모 게놈 비밀 탐구: 오늘 소개하는 연구는 차세대 시퀀싱 기술을 사용하여 효모 게놈의 완벽한 지도를 만들었습니다. 이는 효모가 어떻게 작동하고, 우리에게 어떤 영향을 미치는지 이해하는 데 큰 도움이 될 것입니다.
질병 진단: 차세대 시퀀싱 기술은 암, 유전 질환 및 감염성 질환 등 다양한 질병을 진단하는 데 사용될 수 있습니다. 이는 더 정확하고 개인 맞춤형 치료법 개발에 기여할 것입니다.
새로운 약물 개발: 차세대 시퀀싱 기술은 질병의 원인을 파악하고 새로운 약물 개발에 도움을 줄 수 있습니다. 이는 더 효과적이고 안전한 치료법 개발로 이어질 것입니다.
진화 연구: 차세대 시퀀싱 기술은 다양한 생물 종의 DNA를 비교 분석하여 진화 과정을 이해하는 데 도움을 줄 수 있습니다.

차세대 시퀀싱 기술이 생물 교육에 미치는 영향
차세대 시퀀싱 기술은 생물 교육에도 혁신을 가져올 수 있습니다.
실제 데이터 활용: 학생들은 실제 과학 연구에서 사용되는 DNA 데이터를 분석하고 해석하는 방법을 배울 수 있습니다.
개인 맞춤형 학습: 학생들의 DNA를 시퀀싱하여 개인의 유전적 특성에 맞는 학습 경험을 제공할 수 있습니다.
창의적인 과학 프로젝트: 학생들은 차세대 시퀀싱 기술을 사용하여 자신의 과학 프로젝트를 진행하고 새로운 생물학적 발견을 할 수 있습니다.

차세대 시퀀싱 기술은 생명 과학의 미래를 바꿀 잠재력을 지닌 강력한 도구입니다. 생물 선생님들은 이 기술을 활용하여 학생들에게 더욱 흥미롭고 의미 있는 학습 경험을 제공할 수 있습니다.


clova-x와 claude는 꽤 괜찮은 내용의 글을 작성해주었습니다. 반면에 gemini는 제목은 멋드러지게 뽑은 반면에 내용은... 무슨말을 하는지 알맹이가 없었습니다.

물론 질문이 모호하긴 했죠, 공립 중고등학교라니, 한국이냐 미국이냐에 따라 대도심 지역이나 지방소도시간의 차이도 있을 텐데... 그런것은 그냥 무시하고 글을 작성한 것 같기도 합니다. ㅎㅎ 



출처: @ye._.vely618


수요일, 3월 13, 2024

Long-read 시대의 정렬 알고리즘

사실 아직 Long-read 시대라고 하기에는 전세계 적으로 생산되는 시퀀싱 데이터의 비율로 보면 꼬꼬마이긴 하나 그래도 비용이나 지금까지의 축적된 자료 활용이라는 몇몇 점들을 제외하면 짧은 애들시대는 조만간 저물지 않을까 합니다.

물론 짧은 애들 또한 계속 필요는 합니다. 그러나 Long read 이전과는 같지 않을 것이기에 Long read 시대를 준비해서 나쁘지는 않을겁니다.

그래서 "A survey of mapping algorithms in the long-reads era" 라는 논문 하나 준비해봤습니다.

DIO: 10.1186/s13059-023-02972-3

시대가 시대이고 영어 읽기 귀찮으니 구글에게 한번 맡겨보았습니다.


Q: 내 드라이브에서"s13059-023-02972-3.pdf" 파일을 읽고 자세히 한글로 요약해줘

서론:

DNA 염기서열 분석은 생명과학 분야의 핵심 기술이며, 롱리드 시퀀싱 기술의 발전은 이 분야에 큰 변화를 가져왔습니다. 롱리드 기술은 기존의 짧은 리드 시퀀싱 기술에 비해 훨씬 더 긴 염기서열 정보를 얻을 수 있지만, 이에 따라 데이터 분석 과정에서도 새로운 문제들이 발생했습니다. 그 중 하나가 롱리드 데이터를 참고 유전체에 매핑하는 과정입니다. 

본 논문에서는 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 조사 연구 결과를 제시합니다.


1. 롱리드 기술 개요:

롱리드 기술은 10kb 이상의 긴 염기서열 정보를 얻을 수 있는 기술입니다.

롱리드 기술의 장점은 다음과 같습니다.

  • 유전체 구조 변형 (SV) 분석에 유리
  • 단일 분자 haplotyping 가능
  • 염기서열 조립 (assembly) 과정 개선

롱리드 기술의 단점은 다음과 같습니다.

  • 높은 오류율
  • 높은 컴퓨팅 비용


2. 매핑 알고리즘 종류:

롱리드 매핑 알고리즘은 크게 씨앗-확장 (seed-and-extend) 프레임워크와 씨앗-체인 (seed-and-chain) 프레임워크로 나눌 수 있습니다.

씨앗-확장 프레임워크는 짧은 리드 매핑 알고리즘에서 사용되는 기본적인 방법입니다.

씨앗-체인 프레임워크는 롱리드 데이터의 특징을 고려하여 개발된 새로운 방법입니다.


3. 주요 매핑 알고리즘 비교 분석:

본 논문에서는 다음과 같은 주요 매핑 알고리즘을 비교 분석했습니다.

  • Minimap2
  • NGMLR
  • GraphMap
  • LSC
  • BWA-MEM
  • LAST
  • BLASR
  • RapMap
  • SMALT

비교 분석 기준은 다음과 같습니다.

  • 정확도
  • 속도
  • 메모리 사용량
  • 특징


4. 매핑 알고리즘 선택 가이드:

연구 목적에 따라 적절한 매핑 알고리즘을 선택해야 합니다.

정확도가 가장 중요한 경우 Minimap2 또는 NGMLR을 사용하는 것이 좋습니다.

속도가 가장 중요한 경우 LSC 또는 BWA-MEM을 사용하는 것이 좋습니다.

메모리 사용량이 가장 중요한 경우 GraphMap 또는 LAST를 사용하는 것이 좋습니다.


5. 향후 연구 방향:

  • 롱리드 기술 발전에 따라 새로운 매핑 알고리즘 개발
  • 멀티 샘플 데이터 분석을 위한 효율적인 알고리즘 개발
  • 염기서열 변형 (variant) 분석을 위한 정확한 알고리즘 개발


결론:

본 논문은 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 종합적인 개요를 제공합니다. 각 알고리즘의 특징, 장단점, 성능 비교 등을 분석하여 연구 목적에 맞는 최적의 알고리즘 선택에 도움을 줍니다.

오... 비약도 있고 생략도 많지만 (물론 클로드 3에 비해서는 아직 갈길이 멀듯합니다)그래도 pdf파일을 요약해줍니다. 근데.. 추가 정보에 롱리드 시퀀싱 기술의 url이..  신박한 링크를 넣어놨네요;; Orz


출처: @ye._.vely618

일요일, 11월 12, 2023

Long Read Sequencing을 전적으로 믿으셔야 합니다.

항상 느끼는것이지만 사람들은 익숙한것에 익숙하다는...
물론 이 글을 쓰는 본인도 별반 차이 없다는게 현실
그럼에도 불구하고 세상에는 익숙한것을 거부하고 한 걸음 나아가는 분들이 있어서 발전한다는...

오늘은 유전체분야에서 다들 익숙한 짧은길이의 시퀀싱 플랫폼 대신 Long read 시퀀싱 플랫폼을 왜 써야하는지 보여주는 논문이 있어 들고와봤습니다.

The blooming of long-read sequencing reforms biomedical research

DOI: 10.1186/s13059-022-02604-2


Long read 시퀀싱의 대표주자인 PacBio와 Nanopore가 나온지도 꽤 된것 같으나, 아직 주류 시퀀싱 플랫폼으로서는 자리매김을 하지 못한... 조명받지 못하고 있지만.. 그 진가를 하나둘씩 알게되고 안쓸수 없지 않을까 합니다.

물론 이 Long read 플랫폼을 안 쓸수 없지만 PacBio/Nanopore 플랫폼을 이용해서 진단 키트를 개발하여 돈을 벌 수 있게 된다는 것은 아닙니다. 오해 없으시기 바랍니다. Long read 플랫폼에서 기존 NGS 시스템에서 해온 것 같이 하려고 하면 개인적인 생각으로는 그냥 하지 마세요 라고 말하고 싶네요. 그런 생각이라면..


여튼 Long read 플랫폼은 genome assembly과 transcriptome 분야에서 활약을 하고 있다고 하는데 이는 기존 NGS의 짧은 read로 인한 한계를 극복하였기 때문에 가능한 당연한 결과였을 듯 합니다.

genome assembly를 설명하면서 이런 저런 설명을 하였는데 사실 T2T genome이 세상에 나왔는데 무슨 설명이 더 필요할지... 물론 다배체면서, repeat 서열이 엄청 긴 식물과 같은 다양한 생물의 유전체 연구에서는 아직 할일이 많이 남아있을듯 합니다.

그리고 더불어 transcriptome, 전사체에서도 두각을 나타내고 있다고 합니다. 이전에 PcaBio사에서 나온 Iso-Seq이라는 플랫폼이 있었는데 기존 숏리드 플랫폼으로는 할 수 없었던 full-length 유전자 서열을 확인하여, 다양한 gene의 isoform 을 확인 할 수 있었는데, 이제는 이는 당연한것이고, read count를 활용하여 정확한 발현 측정까지도.. 가능하다고 합니다. 또한 이 논문에서 처음 보았는데 exitron이라는 것도 확인하였다고 하네요.

더불어 당연히 암연구에서도 long-read 플랫폼이 중요한 역할을 하고 있는데, 시퀀싱을 위해 dna나 rna가닥을 증폭시키지 않은 특징 때문에 가능 응용법이긴하죠. 특히 nanopre 플랫폼을 사용하여 급성 골수성 백혈병 (AML) 환자의 RNA변이와 fusion gene 구조를 확인하기도 하였고, 대장암 세포주에서 5mC 위치와 양을 정량하여 각각 AML와 대장암 연구에 도움이 되고 있다고 합니다.

이렇듯 Long Read Seq 플랫폼은 이제 쓰지 않을 이유가 없는 플랫폼으로 우리 곁에 생각보다 가깝게 다가왔으나 생각에는 Long이든 Short든 정확하게 내 병의 이유를 빠르고 "싸게" 알아낼 수 있으면 모두 행복한 것 아니겠습니까?

그럴 수 있는 방법이 어딘가에 있겠죠, 없으면, 언제나 그러했듯이 우리는 또 해답을 찾아내겠죠. :)




출처: @ye._.vely618


금요일, 10월 27, 2023

롱리드 시퀀싱을 쓰지 않을 이유가 있는가?

이번 논문은 제가 참여한 논문입니다.. 흠흠..

이름하여 Two long read-based genome assembly and annotation of polyploidy woody plants, Hibiscus syriacus L. using PacBio and Nanopore platforms

DOI: 10.1038/s41597-023-02631-z

Hibiscus syriacus, 쉽게말해 무궁화 genome을 assembly하는데 어떤 데이터를 어떤 assembly 도구로하면 그래도 가성비가 좋은지에 대해서 확인한 논문 되겠습니다.

무궁화는 full genome은 이미 몇해전에 나와있는 상태고요, 아마 무궁화가 2배체가 아니라 4,6배체로 기억됩니다. 그래서 숏리드가지고 assembly가 만만치 않았는데 그 데이터를 바탕으로 이전에는 short리드로 어렵싸리 했었는데 이번에는 롱리드 시퀀싱으로 하면 어떻게 되는지 확인 해보자 입니다.

이전 무궁화 genome project 논문에서 핸들링하는 데이터 양을 정확히는 모르겠으나 어마무시했던것으로 알고 있습니다. 거기다가 숏리드라서 양쪽 로우 퀄리티 좀 정리해주고, scaffold용 mate-paired 데이터 정리작업하는데도 아마 꽤나 시간이 걸릴겁니다.

나노포어 데이터(ONT)와 PacBio data가 있었는데, 솔까말 ONT 데이터로만 해도... 사실 갠춘합니다.

그런데 여기서 중요한것은 ONT가 중요하기도 하지만 ONT의 장점을 십분 발휘할 수 있게 해주는 DNA 뽑는게 ART되겠습니다. ONT가 길게 읽을 수 있는거지 template가 짧으면 ONT도 길게 읽고 싶어도 못읽습니다.

결국 실험자의 손이 중요합니다. 손 똥손이면 ONT도 해결 못해줍니다.

그 똥손도 가능하게 해주는게 commercial prep kit이긴한데 현재 기준으로 그런 kit이 있는지는 저는 모르겠습니다. 


여튼 그래서 ONT 데이터를 앞뒤없이 다 때려박고 assembly하지 않았습니다.

cell 하나, cell 2개, 결과가 어떻게 달라지는지 확인해고, assembly tool마다 결과는 어떻게 나오는지 확인하면서 테스트 하였고, 이거쓰세요는 하지 못했지만 그럭적럭 요정도 생산해서 이 tool쓰면 평타 칩니다 라고 가이드는 해드릴 수 있는 논문되겠습니다.

다음에는 테스트하는 code를 간지나게 git에 올려놓고 논문에 url하나 올려둘 수 있도록 해봐야겠습니다. :)


그럼 또 쓸만한 논문을 찾아 돌아오도록 하겠습니다.




일요일, 7월 25, 2021

Omniome 넌 누구냐

광고?뉴스?기사?글이 하나 포착되어 보는데

Pacific Biosciences signs a definitive agreement to acquire Omniome

Omniome이라는 처음보는 회사가 보여서 잠깐 검색 하는데 캐서린 우드의 ARK가 여기서 나오네.. ㄷㄷㄷ

여하튼 PacBio의 Long Read와 Omniome의 (길이는 언급하지 않겠다) 정확도가 만나 일루미나의 SBS(sequencing-by-synthesis)대항하여 SBB(sequencing-by-binding)라는 기술로 PacBio랑 잘 해보겠다? 정도인듯한데..

SBB가 무엇인지 한번 찾아보는것에 의의를 두도록 하겠습니다.

Omniome에서 SBB에 대한 논문과 특허는 이미 등록되었고 논문은 요기에 특허는 요기에 등록되어 있어보이고...


아.. 일단 갱장히 본인들을 잘 설명해놓았다고 생각하겠지만.. (아니면 본인들도 어떻게 설명해야 할지 잘 모르고 있다는것에 한표.. 이과놈들이란...)

여튼.. 한개 base를 읽기 위해 4개의 염기가 모두 필요하고..
올바른 base면 감지 가능한 신호(복합체)가 생기고...

이거... 복합체와 센서를 이온으로 변경하면 Ion Proton이랑 좀 비슷한듯....

여튼 SBB기술을 이해하려고 내가 알고있는 기술로 단순화하해서 접근해보니.. ion proton이랑 비슷한듯하네요..


처음에 미지의 서열에 A,C,G,T가 binding하고 이 서열이 올바른지 아닌지는 binding하여 만들어진 복합체의 양?에 따라 올바른 서열인지 아닌지 확인하는.. 모 그런 기술로 보여지는데..


추후에 더 이 기술에 알게 되면...
물론 나는 SBS, SBB같은 SRS(Short Read Sequencing이라고하는..)들은 별로 관심안가지지 않을까하는 생각이....


근데 ARK 실망..... 관심있어하는게 PacBio와 Omniome이라니.. 

옥스포드의 나노포어가 있는데....


출처: @ye._.vely618
출처: @ye._.vely618




토요일, 12월 26, 2020

Long read는 Long read alignment로....

간만에 글 투척합니다.

오늘은 Long read align관련된 내용 투척 하도록 하겠습니다.

시퀀싱 기술이 좋아져서 PacBio와 함께 nanopore가 (최근 covid도 있었고) 함께 많이 이용되고 있는데 질좋은 long read를 생산하셨다면 bwa/bowtie와 같은 short read alignment보다는 long read에 최적화된 long read alignment인 minimap2같은 tool를 사용하시는게 정신건강에 좋을 것 같습니다.

최근 제가 별생각없이 long read서열을 human genome에 aling할때 bwa mem의 -x ont2d옵션을 사용하여 진행했었는데...

통수를 후려 갈기는... (원래 통수는 후려 갈기는 맛이 좋다능)


bwa mem -x ont2d를 사용하는 경우 원래 생산된 read(raw read 개수)보다 더 많은 read 들이 aligned되는 것 처럼 보인다는... (?? 생산된게 100개 read인데 align된 read는 200개라고?)

근데 minimap2를 사용하였을 때에는 reference에 align된 read의 개수와 생산된 read 개수(raw 리드 개수)가 유사한(aka 생산된 read 개수보다 적은) read 개수를 확인 할 수 있었습니다.

개발자도 같고(Heng Li), 같은 align하는 tool인데 왜 이렇게 차이가 나느냐 

음... bwa와 minimap2를 자세히 까보지는 않았지만(못하지만) bwa의 경우 mem -x ont2d를 사용한다고 하더라도 태생부터가 short read를 위해서 만들어진 alginment이고 nanopore의 경우 마음먹고 시퀀싱이 된다면 수십 kb의 길이가 나오는 관계로 bwa mem에서 seed를 기준으로  align할때 mismatch나 error에 대해서 관대하게 조건을 잡으면서 확장을 한다로 하더라도 수십 kb까지 확장하지 못하는 경우가 발생 하고 그 경우 split이 되어 다른 reference에 align되는 경우가 발생하는것으로 보였습니다.

대신 minimap2의 경우 long read를 고려해서 만들다 보니 확장이 비상식적으로 read가 길더라도 확장을 하지 split하지 않아서 bwa의 경우와 같이 생산된 read보다 많은 read가 align된 것 처럼 보이는 이상한 문제는 발생하지 않는 것 처럼 보였습니다.

결론은 내 데이터에 맞는 mapper를 사용해서 분석하자 되겠습니다. ㅠ.ㅜ


추신: 2018년도 이런 글(Minimap2 and the future of BWA)도 있었군요;; 



출처: @ye._.vely618


수요일, 3월 08, 2017

PacBio Sequel System


Sequel에 대한 자세한 내용은 Here 를 보시면 더 자세히
알수 있을 것이고...

2017년 3월 8일 기준 어제인 3월 7일 K호텔에서 PacBio 워크샵이 있었는데
Sequel 출시 이후 다양한 업그레이들이 진행되고 있었네요..

그리고 국내에 Sequel이 3?대인지는 모르겠으나 3개의 site에는 들어와서
데이터가 생산되고 있다능..

여튼 기존에 150만개 hole에서 생산되던걸 1천만개 hole에서 생산해서
생산량이 좀 되서 multiplexing이 된다는게 엄청나진 않지만 나름 진일보..

RSII는 생산량이 적은 관계로 multiplexing의 필요와 이유도 없었는데
Sequel은 RSII 6-7Cell을 한번에 돌리는거니깐 multiplexing이 필요해진듯
근데 multiplexing에 이용되는 barcode가 384개라는게 (Barcode 관련 웹페이지) ㅋ
모 종류가 384개지 이걸 꼭 다 써야하는건 아니니... 혹시 몰라서 여분의 barcode를... (여분이 좀 많은게.. ㅎㅎ)

저는 휴알못인 관계로 Non にんげん 기준으로 Sequel 장점은 3가지정도..

- de novo Bacteria는 Sequel에 5개 pooling해서 시퀀싱해도 나름 괜찮은 결과가 나올듯  물론 RSII 1 Cell과 Sequel 1 Cell과 가격을 비교해봐야겠지만..

- 곰팡이는 1 Cell만 돌려도 de novo하기에 충분한 output이 나오게된 상황 (대신 라이브러리를 2-3개 만들어서 pooling해서 sequencing). 가격을 봐야겠지만 곰팡이 community는 충분한 매리트가 생긴듯...

- Iso-seq은 RSII는 최소 3개 cell 가지고 시퀀싱써야했는데 이제 multiplexing되니깐 3종류 만들어서 Sequel 1 Cell에 넣어버리면 OK 된듯.. 3반복하려면 단지 3개 셀!! (이라고 쓰고 라이브러리는 3개 아닙니다 고갱님 ㅋ)

여튼 NovaSeq과 MinION이 계속 PacBio의 똥꾸멍을 찔러대고
투자자는 돈 회수하고 있어도 기술적으로 봤을때는
아직까지는 쓸만한...

그리고 현 시점에서 대한민국에 국한되어있지만
PacBio 인기가 시들하다고 할 수 있을까...
PacBio 시퀀싱 의뢰하면 지금이 3월 8일인데 4월 중순이후에야 raw data를 받을 수 있는 현실!!!

대규모 과제에서 PacBio sequencing 요청이나
누군가 휴먼급 genome을 RSII Only로 de novo을 하거나...
아님 둘 모두...

아놔 좀 큰놈들은 Sequel 쓰라고 Sequel 만들었는데 왜 RSII 쓰냐고 ㅋ


목요일, 1월 19, 2017

HGAP parameter 비교 결과

우선 PacBio에서 사용되는 용어에 대해서
잘 정리된 문서가 있어 링크 합니다.
>PacBio Term<

작년 말에 PacBio SMRT portal 에서 HGAPv2와 HGAPv3비교를 해보려고 했는데 해보신분은 아시다싶이 HGAPv2의 **맞은 속도로인해 HGAPv2의 parameter 비교는 skip하고 HGAPv3를 기준으로 parameter마다 bacteria genome이 어떤 변화가 있는지 비교해보았습니다.

-그렇다고 제가 HGAPv3를 사용한다는것은 아니라는 점! ;)

HGAPv3은 기존의 다른 de novo assembly 프로그램과 유사하게 Filtering/ Assembly/ Mapping/ Consensus 단계를 거쳐 진행합니다.
대게 de novo assembly 메뉴얼 작업을 하신 분들의 경우 filtering/trimming하고 assembly 무한 반복? 하고 mapping해서 insert size대로 mapping이 되는지 확인을 해보셨을 겁니다. ㅎㅎ
근데 PacBio Portal에서 스스로 잘 해줍니다. @.@

다음은 step마다 있는 parameter와 값들을 한번 정리 해봤습니다.

StepProtocolParameterValue
FilteringPreAssemblerSFilter.1.xmlMin. Subread Length500
Min. Polymerase Read Quality0.8
Min. Polymerase Read Length100
Control FilteringKeepControlReads.1.xmlNoneNone
AssemblyAssembleUnitig.1.xmlGenome Size5000000
Target Coverage25
Overlapper Error Rate0.06
Overlapper Min Length40
Overlapper K-Mer14
PreAssemblerHGA.3.xmlMin. Seed Read Length6000
Num. of Seed Read Chunks6
Alignment Candidates Per Chunk10
Total Alignment Candidates24
BLASR Options-noSplitSubreads -minReadLength 200 -maxScore -1000 -maxLCPLength 16
Min Coverage For Correction6
MappingBLASR_Resequencing.1.xmlMax. Divergence30
Min. Anchor Size12
ConsensusAssemblyPolishing.1.xmlNoneNone



위의 옵션들 중에서 제가 직접 조정해본 parameter들은 Filtering단계인 Min Subread Length, Min Polymerase Read Quality,  Min Polymerase Read Length, Assembly단계중 AssebleUnitig단계인 Genome Size, Target Coverage, 그리고 같은 Assembly단계인 PreAssemblerHGA단계의 Min. Seed Read Length정도를 고려해봤습니다. 건드린 옵션 이름보시면 매뉴얼 de novo assembly해보신 분들이라면 예상 가능하시리라 봅니다.
-음.. 가끔 이런 거 보다 더 잘 정리해서 논문으로 출판되는 경우가 있긴하지만....

그리고 추가적으로 더 손대면 결과가 좋아질 수 있을만한 옵션들이 있겠지만 시간관계상 (제가 주구장창 이것만 돌릴 수 있는 처지는 아닌지라... 모 여러 조건의 샘플과 무한한 서버를 제공해주신다면 테스트는 해드릴 수 있습니다. ;) )

여튼 결과부터 말씀드리자면 조건 변경(aka 최적화)해서 결과 얻으면 좀더 좋아질거 같죠?
시간낭비하지 마셈 되겠습니다. >_<

너님 나랑 장난하냐? 너 이자식 지금 결과보여주기 귀찮아서(이건 부정 못하겠네요ㅋ) 주작질 하는거지? 하실 수도 있는데 제가 테스트한 기준이 보통 bacteria genome을 진행하는데 사용되는 1 Cell 이라서 그런 탓도 있겠지만 알고있던 정보와 실제 나온결과와 10%이상 차이 안 나면 옵션 암만 최적화 해봤자 그 나물의 그 밥입니다.

그리고 옵션마다 값을 조절하면 그에 따라 그 다음 스텝의 input이 바뀌어 영향을 받지만 한정된 데이터에서 옵션값 조절해서 데이터의 결과가 다이내믹하게 바뀐다면 그건 최적화를 잘한 것이 아니라 시퀀싱데이터가 이상할거라는 느낌적인 느낌이 드시죠?

Filtering단계에서 read길이 올리고, 줄이고, 조금 떨어지는 데이터를 확보한다는 계획으로 read quality를 낮추더라도 어차피 서로 계속 영향을 줘서 default parameter로  생성된 데이터와 큰 차이 안 납니다.

결론: 1 contig 안 나오고 circluar형성 안되는 애들은 parameter 최적화 해봤자 안됩니다. 스트레스 받지말고 추가 시퀀싱하세요. 

샘플 좋고 시퀀싱 잘되면 분석툴이 개 이상하지 않으면 reasonable한 결과 나옵니다. :) 
default 의외로 성능 괜찮습니다. 내가 연구하는 건 나처럼 변태스러운 녀석이야! 하지 않는 이상 default쓰시면 평타는 칩니다. 

ps. 믿거나 말거나 조건 변경하면서 20번정도 테스트 해봤습니다. PacBio에서 제시하는 것 중에 추천하는 Genome Size 옵션이 영향을 많이 줄 수 있습니다. Genome Size를 기준으로 데이터를 정리하기 때문에 그런 것 같습니다. 그리고 Target Coverage는 bacteria의 경우 1 cell만 해도 대중 100x가 나오는데 target coverage (15-30) 조절해봤자 의미 없는 것 같습니다. bacteria말고 다른 종들은 의미가 있을지도...

화요일, 12월 06, 2016

HGAP 버전 비교


PacBio에서 assembly를 담당하고 있는 HGAP과 Falcon을 주로 사용하고 있는것으로 알고 있는데 오늘 그 중에서 HGAP을 잠시 확인 하도록 하겠습니다.
왜 HGAP만 확인하느냐?
제가 HGAP을 많이 쓸 예정이거든요 ㅋ
Falcon궁금하시면 직접 하시면됩니다!! :)

우선 HGAP 버전을 한번 살펴보겠습니다.
























HGAP버전을 보시면 3개가 존재합니다. 그러나 HGAPv1의 경우 이미 이번 SMRT버전에서 퇴출당했습니다. 당시에는 long read로 어셈블리해서 획기적으로 계산량을 줄이긴 했으나 Celera Assembler 자체가 시간이 많이 걸리기 때문에  (CA자체라기 보다는 특정 모듈들이겠죠?) 자체 프로그램을 고안해서 HGAPv2외에 추가로 HGAPv3까지 내놓은 상황입니다.

근데 보통 New버전 나오면 예전거 갈아치우는데(한국이 그런 경향이 많긴하지만.. 모 특정 위치에 있는 분들은 상당히 잘 안바뀌긴하죠..) HGAPv2와 HGAPv3를 계속 사용하고 있습니다. 두개의 큰차이는 consensus 부분인데 이것에 따라 속도와 결과물 차이가 나기때문에 두개 결과중에 좋은거 사용해라하는 느낌이 있습니다.

그래서 현재 HGAPv2와 HGAPv3에 대해서 테스트를 계획중이고
각 단계별로 parameter를 바꿔주면 어떻게 바뀌는지 비교해볼 계획입니다.
PacBio를 사용하시는 업자분들께서는 어떤 버전을 최적화해서 사용하는지는 잘 모르겠으나 아마 각각의 장단점이 있을겁니다. 그래서 직접 테스트를 해보겠다능~ :)

그럼 HGAP 비교글은 내년에 좀 더 볼만한 내용을 찾아뵙도록 하겠습니다. :)

월요일, 12월 05, 2016

16S rRNA와 시퀀싱플랫폼

블로그에 쓰는 내용이 16S rRNA에 많이 집중되고 있긴하죠? ㅎㅎ
하는일이 이거다보니.. :)

여튼 오늘은 16S rRNA와 시퀀싱플랫폼에 대해서 잠시 이야기 하도록 하겠습니다.

최근 16S rRNA sequencing의 최강자 454가 서비스를 bye bye한 관계로
많은 연구자들이 MiSeq체제로 변환하고 있는데 (물론 Ion도 있고, PacBio도 있습니다.)
기존에 454를 사용했을 때와 다른 V region을 사용하고 다소 다른 결과들을 보이는 것들이
있을 것 입니다. 그래서 이리저리 검색하다가 걸린 논문 두 개를 가지고 잠시 얘기해보고자 합니다.

Nucl. Acids Res. (2010) 38 (22): e200.

PeerJ (2016) 4:e1869

논문을 찾아보기 시작한 이유는 454가 막을 내린 후 다른 시퀀싱 플랫폼에서는 왜 다른 region을 target하고 있고 왜 diversity에 차이를 보이는지... (내가 분석을 잘못했나.. ㅎㄷㄷㄷ)

우선 V region, 454는 V1-V2였는데 MiSeq은 V4 region을, Ion은 4개 region? 7개 region? 을 동시에target하고 있다는..

모 논문보면 아시겠지만
2010년 논문은 454 vs MiSeq을 비교했습니다. 두 플랫폼이 차이가 날까? 어떤것이 차이가 날까?

2010년도 논문을 한장 figure 요약하자면 이거죠



상단은 phylum abundance/ 하단은 genus abundance 그리고 좌측에 있는 V4는 이전 연구에서 사용되었던 기준이라고 생각되는 참고용 분포입니다. 실험 결과가 V4 region이 저 분포를 나타내면 실험이 잘됐다고 확인하는 용도로 사용됩니다.

사실 phylum은 크게 차이없죠, 차이가 있기도 쉽지않습니다.
관심사는 genus되겠습니다. 일루미나 데이터의 대부분은 unclassified입니다. 논문에서는 error때문에 이렇게 나왔으니 error좀 낮아지면 일루미나가 output이 많으니 sequence error 문제점을 개선된다면 미생물 분석에 적합한 킹왕짱 시퀀서가 될거라고 하는데 개인적인 생각으로는 sequence error(454가 일루미나가 한테 sequence error ㅋㅋ 좀 웃겼다능..
systematic error는 눈에 안뵈냐라고 한다면 눼눼, 하긴 이 논문이 2010년이란 것을 감안한다면 무리는 아니긴 합니다.)보다는 db선택이 unclassified문제는 보정할 수 있지 않을까 합니다.

그렇다면 이제 16s rRNA 입문한지 얼마안된 님께서 그렇게 느끼는 느낌적인 이유는
무엇인가?

바로 2016년 논문되겠습니다.

2016년 논문은 PacBio로 시퀀싱한 것을 db에 따라 분석 결과가 달라지는냐에 대한 내용으로
다음 한 장으로 요약 할 수 있겠습니다.




동일한 시료를 가지고 시퀀싱한 데이터를 16S rRNA db에 따라 classification되는 정도를 확인해본 그래프 입니다. 느낌 딹오시죠?
다만 나중에 뒤통수 맞았다는 느낌 안 받게 하나 말씀드리자면 RDP와 Silva의 경우 genus까지만 확인했고 gg는 genus와 genus+species 두가지로 확인한 것 입니다.

이제 PacBio의 Sequel에서 CCS로 생산된 16S rRNA 서열가지고 연구해도 나쁘지 않을 것 같다는..

아.. 이제 돈만 많으면 되는건가!!! 


월요일, 4월 04, 2016

Long-read sequence assembly of the gorilla genome

서부저지고릴라(Western Lowland Gorilla, Gorilla gorilla gorilla) 중 하나인 Susie의 genome이 PacBio를 이용해서 좀더 high resolution으로 만들어졌다는 아름다운 논문입니다.

Long-read sequence assembly of the gorilla genome

왼쪽 녹색은 Susie, 오른쪽 아이보리색은 gorGor3의 contig size
각각 전체 Genome에서 10% 서열을 나타내는데 사용되는 contig 개수를 보여주는 그림으로 PacBio로 시퀀싱하여 어셈블리한 Susie가 short read assembly로 하는것보다 월등함을 확인시켜주고 있다(300M를 보여주는데 susie는 contig개수가 10개 남짓이면 되는것에 비해 gorGor3는 세어보시길;;;).

그리고 첫장 Table1에서 기존에 short read assembly한 결과보다 이번 결과가 더 월등하다는것을 여실히 보여주고 있는데 스캣폴드 개수가 554개 무슨 곰팡이 contig 개수인줄..
contig 최대 길이 서열은 36M bp, scaffold 최대 길이 서열은 110M bp. orz

그밖에 논문에서
기존 genome에서보다 gap 더 줄였구요
기존에 짧게밖에 못봤던 mobile element들 거의 full length로 확인할수있었구요
수kb에 달하는 insertion 확인해서 유전자 없는것도 확인할수 있었습니다라는
다양한 잘난척을 시전해 주고 계시는데...


결국 사용한 SMRT cell이 236개라는...
이거 PacBio 시퀀싱가격만... ㄷㄷㄷㄷ

이 논문보시고 우리도 genome 향상시킬수있어!! 라고 핑크빛 바램을 가지고 있으시는분들..  여러분들도 원래부터 좋은 genome가지고 연구할수 있었습니다.
다만 연구비가 귀여워서 못한것 뿐이고 그리고 모든 동물에 대해서 이렇게
드라마틱하게 genome 품질이 향상되지는 않습니다.
척추동물정도면 이정도 연구비 때려부으면 가능하지만 그 이하에서는 아직
해결해야할 것들이 좀 있습니다.

다 아시는 분들께서 모르시는척 하시기는... :)

그리고 PacBio의 Sequel 출시로 기존에 RSII로 했을때 보다는 반값에 가능하지 않을까합니다.
일단 SMRT cell개수를 줄일수 있으니... ㅋㅋ
그거 노리고 일단 RSII기준으로 시퀀싱비용 비싼듯보이게하고 Sequel로 하면 싼것처럼 느끼게 하려는 고도의 노림수인가;;;

여튼... 잘 따져보시고 시퀀싱하시기 바랍니다.

너도나도 앞다투어 시퀀싱하면 거지꼴 못면합니다.

월요일, 3월 21, 2016

Widespread Polycistronic Transcripts in Fungi Revealed by Single-Molecule mRNA Sequencing


Widespread Polycistronic Transcripts in Fungi Revealed by Single-Molecule mRNA Sequencing

간만에 읽은 저널 한편...
어느 지구정복을 꿈꾸시는 과학자분께서 운영하시는 것에 비하면 그냥 트윗터 수준임을
미리 알려드립니다.

자세히 안파해칩니다.

필요한것만 읽습니다.(제목만 보고 대충 때려맞추겠다는 심본데? 정답!!)

곰팡이중 basidiomycete fungi를 Iso-Seq을 이용하여 transcriptome 분석을 수행하였고, 우리는 기존의 short read가지고 깨작대던 님들이 못찾는거 찾는 기승전시퀀싱자랑하는 논문되겠습니다.

일단 이 논문은 JGI와 Pac이 손잡고 만들었습니다.
이 말은 곧 SMRT 비용 신경안쓰고(는 아니고 다른 연구자들보다 적게 신경썪을..) 분석에 사용하기 좋은 고 퀄러티 read들을 넉넉히 생산했을 것이기에 이런거 하고 싶다고 그냥 무작정 논문에 나온 SMRT cell 만큼 시퀀싱하시면 거지꼴 못면합니다.
suppl보시면 아시겠지만 SMRT cell 두자릿수 입니다. 앞자리가 10이 아닌건 안비밀 Orz..

복잡하고 어려운거 직접 보시면되니깐 쉬운거 말씀드리고 끝내겠습니다.

기존에 분석한 basidiomycete fungi중 Plicaturopsis crispa를 집중으로 파해쳤는데 이전까지 알고 있는 isoform 비율 10%가 아닌 한 20%정도 된다. 그리고 곰팡이도 isoform 3개 이상짜리도 엄청 많이 있음. 우리 곰팡이 무시하지 마셈.

그리고 비교셋으로 일루미나 숏-리드도 시퀀싱해서 ToFU (Transcript isOforms: Full-length and Unassemble,의 약자로 iso-seq을 분석하는 파이프라인? 시퀀싱 전략? iso-seq 결과물? 논문 보시면 아시겠지만 다양하게 사용되는것을 알수 있음)와 비교해봤는데
기승전 풉 짧은 것들은 안됨.
(하..... 지금까지 짧은것가지고 한것도 서러운데.....  ㅠ.ㅜㅋ)

여튼.. 모 검증은 해봐야하는거고 이 논문에는 RT-PCR해서 polycistronic 검증을 하긴했는데 좀더 확인해봐야 할것 같고..
새로운것 찾았다고 하고싶은 분들은 Iso-Seq 관심가지고 해보시는것도 나쁘지 않을것 같습니다.

근데 왜 너는 PacBio 관계자도 아니면서 PacBio로 실험한 논문 소개 하냐?

제 비록 제가 몸담고 있는 곳에는 PacBio가 주력이 아니지만
저는 언제나 연구자분들이 좀더 멋진 연구를 하실수 있도록 아낌없이
조언을 해드리고자 고심하는 연구자아니깐요 (캬~ 멋있다)

금요일, 9월 14, 2012

파일의 포맷을 변환하는데 필요한 것들

내가 아니란 말이닷!!! ㅋㅋ

python에서 Biopython을 이용하여
간단하게 convert하는 샘플 코드를 제공하고 있으니
여러분들도 쉽게 만들수 있어요~ :)
Biopython에서 제공하는 Tutorial 


오늘 문의가 들어온 파일은 sff파일
Roche의 454 GS FLX? sequencing 결과파일로....
ABI와 함께 illumina한테 밀려서 뒷방으로 들어앉은 파일 포맷입니다.
그러나 아직도 쓰는 이유는 read 길이가 길기때문 :)

그렇습니다. PacBio도 Nanopore다 디립다 길게 sequencing해준다는
애들이 있습니다. 그런데 왜 옛날꺼 쓰냐?? PacBio는 base quality가 안습이고,
Nanopore는.... 언제 출시일지 전 잘 모르겠습니다. 업자가 아닌관계로 ㅎㅎ

그래서 위의 길게 sequencing 해준다는 시퀀서를 제외하고는 Roche의 454가 read 길이가 가장 길다고 할 수 있겠습니다. NGS중에선 말이죠

그런데 sff파일을 보려고 하면 문제가 생깁니다.
권모씨께서 문의를 한것이 그것때문인지는 모르겠지만 걍 일반인이
sff파일을 걍 직접 볼수가 없습니다. 왜냐 binary파일이니깐요(sff파일이 binary라고
알고 있는데  직접 다뤄본적이 없어서... ㅎㅎ )

그래서 사람이 볼수 있게 파일을 변환시켜줘야 한다는 겁니다.

convertSff.py
#!/usr/bin/python

import os, sys
from Bio import SeqIO

try:
inputSFF = sys.argv[1]
outputPREFIX = sys.argv[2]

except:
print "Usage: python convertSFF <input.sff> <output_name>"
print ""
exit(1)


SeqIO.convert(inputSFF,"sff","%s.fasta"%(outputPREFIX), "fasta")
SeqIO.convert(inputSFF,"sff","%s.quality"%(outputPREFIX), "qual")
SeqIO.convert(inputSFF,"sff","%s.fastq"%(outputPREFIX), "fastq")


권모씨의 요청으로 급조한 날림 convert python 코드 ㅋㅋ
이 스크립트를 수행하면 세개의 파일이 나오게 될것으로 예상됩니다. ㅎㅎ
안나오면 어쩔수없고... ㅎㅎ


아.. 그리고 사족으로 LT사의 SOLiD의 경우 우리가 알고 있는 서열과 달리
첫 염기 서열만 서열이고 그 다음부터는 A/G/T/C 알파벳이 아닌 숫자로 되어있는데..
이걸 굳이 변환해서 reference geneome에 mapped 작업하지 말라고 합니다.
Re-sequencing하는 경우라면 변환해서 mapping하지 말고 원래 원본 파일 그대로를
input으로 하는 align 프로그램을 사용해서 mapped한 다음에 그 다음 작업을
일반적으로 사용하는 samtools나 GATK같은 프로그램을 사용하라고 합니다.
(다들 알고있는거 한번더 상기 시켜드렸습니다. 혹시 아나요 SOLiD 포맷을 분석하게 될지.. ㅎㅎ)

분석시 raw 파일을 사용해야 하는 이유는 SOLiD만의 월등한 quality 효과를 볼수 있어서
그러지 않겠나하는....  믿거나 말거나 저 혼자만의 생각입니다.. ㅎㅎ
다만, 타사 제품과 다르게 복잡하게 숫자로 표현한건 아니겠죠...
나름의 숨은 뜻이.... 쿨럭.. (설마... 간지용;;;;; )

Re-sequencing이 아닌 denovo일 경우 모 어쩔수 없이 fastq파일로 변환을 해야 하지 않을까 합니다. assembly 프로그램을 작동시키려면 아무래도 SOLiD format보다는 fastq 포맷이
수월하니깐요.. :)

그럼....