레이블이 DRAGEN인 게시물을 표시합니다. 모든 게시물 표시
레이블이 DRAGEN인 게시물을 표시합니다. 모든 게시물 표시

화요일, 11월 12, 2024

DRAGEN: 더 빠르고 정확한 유전체 분석 방법

오늘은 최근에 공개된 일루미나의 DRAGEN에 대한 논문이 있어서 가져와봤습니다. Comprehensive genome analysis and variant detection at scale using DRAGEN 입니다.

DOI: 10.1038/s41587-024-02382-1


gemini

## 유전체 분석의 혁신, DRAGEN: 더 빠르고 정확하게!

DRAGEN이 어떻게 기존 유전체 분석 방법보다 더 빠르고 정확하게 변이를 검출하는지, 그리고 최근 도입된 pangenome을 이용한 mapping 방법이 어떻게 더 정확한 변이 검출을 가능하게 하는지 알려드리겠습니다.

### 왜 유전체 분석이 중요할까요?

우리 몸의 설계도라고 할 수 있는 DNA에는 수많은 유전 정보가 담겨 있습니다. 이 정보는 '염기'라는 부품들이 특정 순서로 배열되어 만들어지는데, 이 배열 순서에 변화가 생기는 것을 '변이'라고 합니다. 변이는 질병 발생, 개인의 특징, 약물 반응 등에 영향을 미칠 수 있습니다. 유전체 분석은 이러한 변이를 찾아내고 분석하여 질병 예측, 진단, 치료 등에 활용하는 기술입니다.

### DRAGEN은 무엇일까요?

DRAGEN은 일루미나에서 개발한 최첨단 유전체 분석 플랫폼입니다. 기존 분석 방법보다 훨씬 빠르고 정확하게 유전체 데이터를 분석할 수 있는 혁신적인 기술이죠. 

**DRAGEN의 장점:**

* **압도적인 속도:** FPGA라는 특수 하드웨어를 사용하여 기존 방법보다 최대 50배 빠르게 분석합니다. 

* **뛰어난 정확도:**  다중 유전체 매핑과 pangenome 참조를 통해 반복적인 유전체 영역에서도 정확하게 변이를 식별합니다.

* **포괄적인 분석:** 단일 염기 변이(SNV), 삽입/결실(indel), 구조 변이(SV), 복제수 변이(CNV) 등 다양한 유형의 변이를 분석할 수 있습니다.

* **의학 유전체 분석에 특화:**  질병 관련 유전자 분석에 특화된 방법을 통합하여 질병 연구에 유용합니다.

* **확장성:**  대규모 데이터 및 코호트 분석에 적합합니다.

**DRAGEN의 단점:**

* **높은 초기 비용:** FPGA 하드웨어 구축 비용이 상대적으로 높습니다.

* **전문 지식 필요:** DRAGEN 플랫폼 운영 및 결과 해석에 전문 지식이 필요할 수 있습니다.

### Pangenome을 이용한 Mapping이란 무엇일까요?

Pangenome은 다양한 사람들의 유전체 정보를 종합하여 만든 '유전체 지도'입니다. 기존에는 한 사람의 유전체 정보만을 참조로 사용했기 때문에, 사람들 간의 유전적 차이를 제대로 반영하지 못했습니다. Pangenome을 이용하면 더욱 정확하게 변이를 검출하고, 질병과의 연관성을 밝힐 수 있습니다.

**DRAGEN은 pangenome을 이용하여 변이 검출의 정확성을 더욱 높였습니다.** 마치 여러 사람의 지도를 참고하여 더 정확한 길을 찾는 것과 같은 원리입니다.

## Pangenome을 이용한 Mapping에 대한 심층 설명

**Pangenome**은 한 종 내 개체들의 유전체 정보를 종합하여 만든 거대한 참조 유전체입니다. 기존의 단일 참조 유전체를 사용하는 방식과 달리, pangenome은 다양한 개체들의 유전적 변이를 모두 포함하고 있어 더욱 정확한 변이 분석이 가능합니다.

### 왜 Pangenome이 필요할까요?

* **유전적 다양성 반영:** 인간은 유전적으로 매우 다양합니다. 기존의 단일 참조 유전체는 주로 특정 인종이나 집단의 유전체 정보를 기반으로 만들어졌기 때문에, 다른 집단의 개체에 대한 분석에서는 정확도가 떨어질 수 있습니다.

* **복잡한 유전체 구조 반영:** 인간 유전체는 매우 복잡하고 개인 간에 차이가 큽니다. 특히, 구조 변이(SV)와 같은 복잡한 변이를 정확하게 분석하기 위해서는 pangenome이 필요합니다.

* **희귀 변이 발견:** 희귀 변이는 질병과의 연관성을 밝히는 데 중요한 역할을 합니다. pangenome을 이용하면 기존 방법으로는 찾기 어려웠던 희귀 변이를 더 많이 발견할 수 있습니다.

### Pangenome을 이용한 Mapping의 장점

* **정확도 향상:** pangenome은 다양한 개체의 유전적 변이를 포함하고 있기 때문에, 개인의 유전체를 더욱 정확하게 비교하고 변이를 찾아낼 수 있습니다.

* **새로운 변이 발견:** 기존 참조 유전체에는 없는 새로운 변이를 발견할 가능성이 높습니다.

* **복잡한 유전체 구조 분석:** 구조 변이와 같은 복잡한 유전체 구조를 더욱 정확하게 분석할 수 있습니다.

* **다양한 인종 및 집단에 대한 분석:** 다양한 인종과 집단의 유전체 데이터를 분석하는 데 유용합니다. 

### DRAGEN은 어떻게 활용될까요?

DRAGEN은 멘델 질환, 희귀 질환, 암 등 다양한 질병 연구에 활용될 수 있습니다. 또한, 개인 맞춤형 의료, 약물 유전체학, 집단 유전체학 등 다양한 분야에서 유용하게 사용될 수 있습니다.

### DRAGEN과 Pangenome의 시너지 효과

DRAGEN은 pangenome을 이용한 mapping을 효율적으로 수행할 수 있도록 설계되었습니다. DRAGEN의 빠른 처리 속도와 정확도는 pangenome의 장점을 극대화하여 더욱 정확하고 포괄적인 유전체 분석을 가능하게 합니다.

* **빠른 분석:** DRAGEN의 FPGA 하드웨어는 대규모 pangenome 데이터를 빠르게 처리하여 분석 시간을 단축합니다.

* **정확한 변이 호출:** pangenome을 기반으로 더욱 정확한 변이 호출을 수행합니다.

* **복잡한 변이 분석:** 구조 변이와 같은 복잡한 변이를 효율적으로 분석합니다. 

### 결론

DRAGEN은 유전체 분석의 속도와 정확성을 획기적으로 향상시킨 혁신적인 플랫폼입니다. Pangenome을 이용한 mapping 방법 도입으로 더욱 정확한 변이 검출이 가능해졌으며, 이는 질병 연구 및 의료 분야 발전에 크게 기여할 것으로 기대됩니다.



clova-x

DRAGEN은 Illumina에서 개발한 유전체 분석 플랫폼으로, 기존의 유전체 분석 방법보다 빠르고 정확하게 다양한 변이를 검출할 수 있는 몇 가지 혁신적인 기술을 사용합니다.

1. 다중 게놈 매핑과 팬게놈 참조:

   - DRAGEN은 다중 게놈 매핑과 팬게놈 참조를 사용하여 변이를 검출합니다. 이는 여러 게놈의 정보를 종합하여 참조 게놈을 구성하는 방법으로, 기존의 단일 참조 게놈을 사용하는 방법보다 더 많은 유전적 다양성을 고려할 수 있습니다.

   - 이를 통해 더욱 정확한 변이 검출이 가능하며, 특히 희귀한 변이를 발견하는 데 유용합니다.

2. 하드웨어 가속화와 머신 러닝:

   - DRAGEN은 하드웨어 가속화와 머신 러닝을 이용하여 빠르고 정확한 분석을 제공합니다. 이는 복잡한 계산을 빠르게 처리할 수 있도록 도와주며, 머신 러닝을 통해 변이 검출의 정확도를 향상시킵니다.

   - 기존의 분석 방법보다 훨씬 빠른 속도로 변이를 검출할 수 있으며, 대규모 데이터셋에 대해서도 효율적으로 분석할 수 있습니다.

3. 다양한 변이 유형 지원:

   - DRAGEN은 단일 염기 변이(SNV), 삽입/삭제(indel), 짧은 반복 서열(STR), 구조적 변이(SV), 복제 수 변이(CNV) 등 모든 주요한 변이 유형을 지원합니다.

   - 다양한 변이 유형을 하나의 명령어 라인에서 검출할 수 있어 사용이 간편하며, 의료적으로 관련된 유전자에 대한 특별한 방법도 포함하고 있습니다.

4. 신속한 워크플로우:

   - DRAGEN은 완전하고 자동화된 엔드 투 엔드 솔루션을 제공하여, 원시 시퀀싱 리드를 매핑하고 정렬하며, 변이를 VCF 파일로 출력합니다.

   - 이를 통해 사용자는 변이를 쉽게 해석하고 연구에 활용할 수 있습니다.

이러한 혁신적인 기술을 통해 DRAGEN은 기존의 유전체 분석 방법보다 빠르고 정확하게 변이를 검출할 수 있습니다. 그러나 여전히 일부 복잡한 구조적 변이의 검출이나 긴 STR 확장의 정확한 크기 결정에는 한계가 있을 수 있습니다. 그럼에도 불구하고, DRAGEN은 유전체 연구 분야에서 큰 발전을 이루고 있으며, 개인 맞춤형 의학 및 생물학 연구에 새로운 인사이트를 제공하고 있습니다.



chatGPT

**DRAGEN이란 무엇인가?**

DRAGEN은 Illumina에서 개발한 유전체 분석 플랫폼으로, 다양한 종류의 유전자 변이를 빠르고 정확하게 탐지할 수 있도록 설계된 도구입니다. 유전적 변이는 각 개인의 유전적 차이를 만들어내며, 이 중에는 질병과 관련된 유전적 변이가 포함될 수 있어 이를 정확하게 검출하는 것이 중요한데요. DRAGEN은 기존의 유전자 분석 방법보다 높은 정확도와 빠른 분석 속도를 제공합니다.

### DRAGEN의 주요 장점

1. **빠른 분석 속도**  

   DRAGEN은 하드웨어 가속을 통해 분석 시간을 대폭 단축합니다. 예를 들어, 전체 유전체 서열을 분석하는 데 약 30분이 걸리며, 이는 기존 방법에 비해 매우 빠른 속도입니다. 이러한 속도는 대량의 데이터를 다뤄야 하는 연구자나 의료 기관에 매우 유리하게 작용합니다.

2. **다양한 변이 검출 가능**  

   DRAGEN은 단일염기 변이(SNV)와 소규모 삽입/결실(indel)뿐만 아니라 구조 변이(SV), 복제 수 변이(CNV)와 같은 대규모 변이도 감지할 수 있습니다. 또한, 최근에는 짧은 반복 서열 변이(STR)와 같이 질병과 관련된 특정 유전자 영역의 변이를 검출할 수 있는 특화 도구도 추가되었습니다.

3. **높은 정확도**  

   DRAGEN은 다중 유전체 참조(pangenome reference)를 사용하여 다양한 유전자 변이를 보다 정확하게 감지합니다. 기존 분석 방법은 주로 한 가지 표준 유전체 참조를 사용해 유전체를 분석하지만, DRAGEN은 여러 개의 유전체 참조를 활용하여 개별의 유전적 다양성을 더 잘 반영합니다. 이를 통해 변이 감지의 정확성을 높일 수 있으며, 특히 구조 변이와 복제 수 변이 감지에 큰 강점을 가지고 있습니다.

4. **의료적으로 중요한 유전자 영역에 대한 특화 분석**  

   DRAGEN은 의료적으로 중요한 유전자(CYP2D6, HLA, SMN 등)에 대한 맞춤형 분석 도구를 제공합니다. 이를 통해 약물 대사나 면역 반응과 관련된 유전자 변이를 더욱 신뢰성 있게 검출할 수 있습니다.

### DRAGEN의 단점

1. **고가의 하드웨어 요구 사항**  

   DRAGEN은 하드웨어 가속을 사용하여 성능을 높이는 만큼 고가의 하드웨어 설치가 필요합니다. 이는 소규모 연구 기관이나 자금이 충분하지 않은 연구자에게는 큰 부담이 될 수 있습니다.

2. **복잡한 데이터 해석 필요**  

   DRAGEN은 다양한 유형의 변이를 동시에 검출하기 때문에 데이터 해석이 복잡할 수 있습니다. 예를 들어, 단일염기 변이와 구조 변이가 동시에 존재할 수 있으며, 이러한 변이 데이터를 효율적으로 해석하려면 추가적인 분석 툴과 전문 지식이 필요할 수 있습니다.

### 다중 유전체 참조(pangenome reference) 기반의 새로운 매핑 방식의 장점

최근 DRAGEN에 도입된 다중 유전체 참조 기반 매핑 방식은 다양한 인종 및 유전적 배경을 가진 사람들의 유전적 다양성을 더 잘 반영합니다. 기존의 단일 참조 유전체는 모든 사람을 대표하기 어려워 일부 변이가 누락되거나 잘못 분석될 가능성이 있었습니다. 반면, 다중 유전체 참조는 다양한 유전적 변이를 포함하고 있어 유전자 변이의 정확한 검출과 해석이 가능합니다. 이를 통해 의료적으로 중요한 질병과 관련된 새로운 변이 발견 가능성이 높아집니다.

### 결론

DRAGEN은 빠른 속도와 높은 정확성을 바탕으로, 기존 유전자 분석 방법의 한계를 뛰어넘는 유전체 분석 플랫폼입니다. 다중 유전체 참조 기반 매핑 방식과 의료 특화 유전자 분석 도구는 DRAGEN이 유전자 변이 감지에 있어 강력한 도구임을 입증합니다. 고가의 장비와 복잡한 해석이 필요하다는 단점이 있지만, 이 플랫폼은 의료 및 유전 연구에 있어 중요한 역할을 할 것으로 기대됩니다.



NotebookLM

## DRAGEN: 더 빠르고 정확한 유전체 분석 방법

안녕하세요. 저는 Illumina의 DRAGEN 전문가입니다. DRAGEN은 기존 유전체 분석 방법보다 효율적이면서 정확하게 다양한 변이를 검출하는 혁신적인 기술입니다. DRAGEN을 잘 모르는 일반인분들을 위해, 이 글에서는 DRAGEN이 어떻게 다른 유전체 분석 방법보다 빠르고 정확하게 변이를 검출할 수 있는지, 그리고 최근 개발된 pangenome을 이용한 mapping 방법이 어떻게 변이 검출의 정확성을 향상시키는지 자세히 설명해 드리겠습니다.

### DRAGEN의 작동 원리

DRAGEN은 크게 세 가지 핵심 기술을 통해 빠르고 정확한 변이 검출을 수행합니다.

1. **하드웨어 가속:** DRAGEN은 FPGA(Field-Programmable Gate Array) 기술을 사용하여 컴퓨팅 속도를 획기적으로 향상시킵니다. FPGA는 특정 작업에 맞게 하드웨어 회로를 구성할 수 있는 칩으로, 유전체 분석과 같이 복잡하고 반복적인 계산에 매우 효율적입니다. 덕분에 DRAGEN은 기존 소프트웨어 기반 분석 방법보다 훨씬 빠르게 분석을 완료할 수 있습니다.

2. **머신 러닝 기반 변이 탐지:** DRAGEN은 머신 러닝 알고리즘을 사용하여 변이 탐지의 정확성을 높입니다.  방대한 양의 유전체 데이터를 학습한 머신 러닝 모델은  데이터에서 노이즈와 오류를 효과적으로 구분하여 진짜 변이를 정확하게 식별합니다.

3. **Pangenome을 이용한 Multi-genome Mapping:** DRAGEN은  다양한 인구 집단의 유전체 정보를 포함하는 pangenome을 참조 유전체로 사용합니다. Pangenome은 단일 참조 유전체보다 인간 유전체의 다양성을 더 잘 반영하기 때문에,  DRAGEN은 개인 간의 유전적 차이를 더 정확하게 파악하고 분석할 수 있습니다. 

    * **기존의 single reference genome 기반 분석:**  단일 참조 유전체에 존재하지 않는 변이는 검출하기 어려웠습니다.

    * **DRAGEN의 pangenome 기반 분석:**  다양한 haplotype을 포함하는 pangenome을 사용하여 기존 방법에서 놓칠 수 있었던 변이까지 정확하게 검출합니다. 

### DRAGEN의 장점

DRAGEN은 기존 유전체 분석 방법과 비교하여 다음과 같은 다양한 장점을 제공합니다.

* **빠른 분석 속도:**  FPGA 하드웨어 가속과  효율적인 알고리즘 설계를 통해 전체 유전체 분석 시간을 **약 30분**으로 단축했습니다.

* **뛰어난 정확성:**  머신 러닝 기반 변이 탐지와 pangenome mapping 기술을 통해 **SNV에서 99.86%, indel에서 99.80%**에 이르는 높은 정확도를 달성했습니다.

* **포괄적인 변이 검출:** 단일 염기 변이(SNV), 삽입/삭제(indel), 구조적 변이(SV), 복제 수 변이(CNV), 짧은 탠덤 반복(STR) 등 **다양한 유형의 변이를  한 번에 분석**할 수 있습니다.

* **확장성:**  대규모 코호트 연구에 적합하도록 설계되어 **수천 개 이상의 샘플을 효율적으로 처리**할 수 있습니다.

* **사용자 편의성:**  **단순하고 직관적인 인터페이스**를 제공하여  전문 지식 없이도 쉽게 사용할 수 있습니다.

### DRAGEN의 단점

* **Pangenome reference의 지속적인 업데이트 필요:**  Pangenome reference는  새로운 유전체 정보가 발견됨에 따라 지속적으로 업데이트되어야 합니다.  

* **일부 복잡한 유전자 영역 분석의 어려움:**  HLA 유전자와 같이 매우 복잡한 유전자 영역의 경우, 아직까지는  long-read sequencing 방법이 더 정확한 분석 결과를 제공할 수 있습니다.

### 결론

DRAGEN은 빠른 분석 속도, 높은 정확성, 포괄적인 변이 검출 능력, 확장성 및 사용자 편의성을 모두 갖춘 차세대 유전체 분석 도구입니다. DRAGEN은  유전체 연구, 질병 진단, 신약 개발, 맞춤형 의료 등 다양한 분야에서 핵심적인 역할을 수행할 것으로 기대됩니다. 


DRAGEN이야 WGS 데이터를 다루기 위해서는 필수적인 요소임에는 불변할 듯 한데 거기다가 pangenome reference라는 방법론을 추가했네요. 지금 사용하는 Human Reference가 미국주도로 진행되고 있었고 여러 사람의 DNA를 pooling을 해서 reference를 제작했는데 소수의 사람(RP11)의 DNA가 reference로 사용하고 있었다라고 해서 pangenome reference가 나온거 같아 보이네요. pangenome reference를 사용하게 되면서 SNP와 small InDel에 대해서는 성능이 올라갈것 같아 보이는데 SV나 CNV와 같은 구조변이에 대해서도 성능이 좋아졌다라는... 100bp, 150bp Paired-end는 동일한데 reference가 변경되었다고 이게 좋아질 수 있는지는... 좀 더 공부를 해봐야 할 듯 하네요. 

여튼 DRAGEN이 일루미나로 넘어가면서 일루미나에서 활용 할 수 있는 도구가 하나 더 추가되었는데 그 도구가 현존하는 tool중에서 가장 막강한 녀석이라서 활용도가 무궁무진 할 듯 합니다.  :)



출처: @ye._.vely618


수요일, 8월 23, 2023

SpeedSeq은 어디에 쓰는거지?

오늘은 연식은 좀 되었으나 빠른 분석 tool하나 가져와봤습니다.


SpeedSeq: ultra-fast personal genome analysis and interpretation

doi : 10.1038/nmeth.3505

이름하여 SpeedSeq!! 그래서 제목에 ultra-fast, 초고속이 들어갑니다.
근데... 분석시간이 얼마나 걸렸었는지는.. 기억이 잘..

논문에서는 저렴한 서버에서 50x WGS데이터를 13시간만에 align을 했다고하는데...
(저렴한서버의 정의는 CPU 16core에 128GB RAM이 장착된 서버라고 하네요)

여튼 논문에서는 50x WGS 데이터를 저렴한 서버를 사용해서 분석을 진행할 때 정렬 작업을 시간단위에서 끝냈다.. 라는 소식을 솔직히 DRAGEN 제외하고서는 들어본적이 없어서 조금 갸우뚱 하긴 합니다.

여하튼 논문에서 13시간만에 정렬을 끝냈다고 했다니!! 그렇다고 믿는게 인지상정 아니겠습니까?

근데 정렬 속도가 빠른건 큰 장점이지만 단순히 속도만 빠르면... 그건 아무짝에도 쓸모없는거죠


그래서 SpeedSeq와 기라성같은 변이 탐지 툴들과도 비교 해봤습니다.

somatic/germline 분석 툴들을 가리지 않고 모두 비교해봤습니다. GATK의 Haplotype Caller, Mutect, VarScan2와 같은... 기존에 너님들이 많이 쓰던 툴들이랑 비교해서 결과 다르지 않아. 라고 얘기하고 있습니다.


그런데 사실 저는 SpeedSeq을 사용한 이유가 속도가 빠르면서 bwa와 같은 기존 정렬 프로그램 대비 결과가 정확해서 사용한것이 아닌 그냥 LUMPY tool을 사용하기 위해서 였다는게 함정

사실 이 정렬 tool이 nature에 출판되었는지도 몰랐다는..

LUMPY사용하려고 메뉴얼보니 SpeedSeq 결과 사용하세요 라고 적혀 있어서 단지 사용 했었을뿐... 그 후에 나도 몰라 하고 있었는데...


그냥 한번 들쳐봤는데 다시 검토해볼만한 tool일거 같긴한데..

"Reference Sample 백만번 돌려서 결과 동일해요" 하는것보다 임상 샘플 10개만 분석해봐도 그 진가를 알아볼수 있으니...

만약에 제가 사용하게 된다면 다음에 다시 글하나 올려보도록 하죠 :)




출처: @ye._.vely618