레이블이 Illumina인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Illumina인 게시물을 표시합니다. 모든 게시물 표시

수요일, 11월 20, 2024

비침습적 산전 검사(NIPT)에 대한 모든 것: VeriSeq 연구를 중심으로

간만에 비침습적 산전 검사, NIPT/NIPS 논문을 가져와봤습니다. 제목은 Performance of cell-free DNA sequencing-based non-invasive prenatal testing: experience on 36,456 singleton and multiple pregnancies 으로 21년도 최근에 나온 논문인데 NIPT/NIPS의 유용성이라기 보다는 일루미나의 VeriSeq을 홍보하기 위한 논문으로 보시면 되겠습니다. 

DOI: 10.1186/s12920-021-00941-y


gemini

## 비침습적 산전 검사(NIPT)에 대한 모든 것: VeriSeq 연구를 중심으로

### NIPT란 무엇일까요?

NIPT는 **임산부의 혈액**을 통해 태아의 염색체 이상 유무를 확인하는 검사입니다. 과거에는 태아에게 직접적인 영향을 줄 수 있는 침습적인 방법으로 검사했지만, NIPT는 **안전하고 정확하게** 태아의 건강을 확인할 수 있다는 장점이 있습니다.

### WGS 기반 NIPT는 어떻게 작동할까요?

**WGS**는 **전체 유전체 염기서열 분석**을 의미합니다. 즉, 태아의 DNA를 구성하는 모든 염기서열을 읽어서 분석하는 것이죠. NIPT는 산모 혈액 속에 떠다니는 아주 작은 조각의 태아 DNA를 분석하여 염색체 이상 유무를 판단합니다.

### VeriSeq NIPT는 어떤 검사일까요?

**VeriSeq**는 Illumina라는 회사에서 개발한 NIPT 분석 시스템입니다. 이 시스템은 **NextSeq 550**이라는 장비를 사용하여 태아의 DNA를 정밀하게 분석합니다.

### VeriSeq의 장점은 무엇일까요?

* **정확도**: 연구 결과, VeriSeq는 다운증후군, 에드워드 증후군, 파타우 증후군과 같은 주요 염색체 이상을 거의 100% 정확하게 찾아냈습니다.

* **안전성**: 산모의 혈액만을 사용하므로 태아에게 전혀 해를 끼치지 않습니다.

* **효율성**: 명확한 분석 과정을 통해 빠르고 정확하게 결과를 얻을 수 있습니다.

### VeriSeq의 단점은 무엇일까요?

* **비용**: 다른 산전 검사에 비해 비용이 다소 높을 수 있습니다.

* **제한적인 검사 항목**: 현재는 주요 염색체 이상에 대한 검사에 집중되어 있습니다.

### VeriSeq와 다른 NIPT 검사의 차이점은 무엇일까요?

기존의 NIPT 검사도 있지만, VeriSeq는 **표준화된 분석 과정**과 **정밀한 장비**를 통해 더욱 **정확하고 신뢰할 수 있는 결과**를 제공합니다.

### 연구 결과는 어떻게 해석해야 할까요?

이 연구는 VeriSeq이 **대규모 임산부를 대상으로 매우 높은 정확도**를 보였다는 것을 입증했습니다. 특히, **다태아 임신**에서도 우수한 성능을 보여 더욱 의미가 큽니다.

## 결론

VeriSeq NIPT는 **안전하고 정확하며 효율적인** 태아 염색체 이상 검사 방법입니다. 임산부는 VeriSeq을 통해 태아의 건강을 미리 확인하고 안심할 수 있습니다.

**주의:** NIPT는 **선별 검사**이며, 정확한 진단을 위해서는 추가적인 검사가 필요할 수 있습니다. 검사 결과에 대한 궁금한 점은 담당 의사와 상담해야 합니다.

**간단히 정리하면:**

* NIPT는 산모 혈액으로 태아의 염색체 이상을 확인하는 검사입니다.

* VeriSeq는 NIPT 분석 시스템 중 하나로 정확도가 높습니다.

* VeriSeq은 안전하고 효과적인 검사 방법입니다.

* 검사 결과에 대한 자세한 내용은 의사와 상담해야 합니다.



clova-x

비침습적 산전 검사(NIPT)는 산모의 혈액을 통해 태아의 염색체 이상을 진단하는 검사입니다. 그 중에서도 WGS 기반의 NIPT는 가장 정확하고 민감한 검사로 알려져 있습니다.

이번 연구에서는 VeriSeq이라는 WGS 기반의 NIPT를 사용하여 단태아와 쌍태아의 염색체 이상을 진단하였습니다. 이 검사는 산모의 혈액에서 추출한 세포 유리 DNA를 분석하여 태아의 염색체 이상을 감지합니다.

VeriSeq은 염색체 이상을 감지하기 위해 Likelihood Ratio(LLR) 점수를 계산합니다. 이 점수는 태아의 염색체 이상 여부를 판단하는 데 사용됩니다. 연구 결과, VeriSeq은 단태아와 쌍태아 모두에서 높은 정확도와 민감도를 보였습니다. 특히, 다운 증후군, 에드워드 증후군, 파타우 증후군 및 성염색체 이상을 감지하는 데 있어 높은 정확도를 나타냈습니다.

이 기술의 장점은 높은 정확도와 민감도를 가지고 있어 태아의 염색체 이상을 조기에 발견할 수 있다는 점입니다. 또한, 산모와 태아에게 안전한 비침습적 검사이기 때문에 불필요한 침습적 검사를 줄일 수 있습니다. 그러나 비용이 상대적으로 비싸고, 검사 결과가 나오기까지 시간이 걸린다는 단점이 있습니다.

기존의 WGS 기반 NIPT와 비교했을 때, VeriSeq은 더 높은 정확도와 민감도를 보입니다. 또한, 단태아뿐만 아니라 쌍태아에서도 높은 성능을 보여줍니다. 따라서, 태아의 염색체 이상을 진단하는 데 있어 매우 유용한 검사라고 할 수 있습니다.



chatGPT

### 이해하기 쉬운 비침습적 산전 검사(NIPT) 이야기: VeriSeq와 기존 WGS 기반 NIPT의 차이점과 성능 비교

최근 비침습적 산전 검사(NIPT)는 많은 임산부들이 선택하는 중요한 산전 검사로 자리 잡았습니다. 비침습적이라는 말처럼, 이 검사는 단순히 임산부의 혈액만으로도 태아의 건강 상태를 확인할 수 있어 안전하고 효과적인 검진 방식입니다. 이번 블로그에서는 특히 **VeriSeq**라는 최신 검사 방식과 기존의 **전장 유전체 시퀀싱(WGS) 기반 NIPT**의 차이점과 장단점을 살펴보도록 하겠습니다.

### WGS 기반 비침습적 산전 검사(NIPT)란?

먼저, WGS 기반 NIPT란 임산부의 혈액에서 태아의 DNA를 분석해 태아의 염색체 이상을 조기에 발견하는 검사입니다. 기존 WGS 기반 NIPT는 **21번, 18번, 13번 염색체**와 같은 특정 염색체 이상을 주로 검사합니다. 대표적인 예로 다운증후군(21번 삼염색체), 에드워즈증후군(18번 삼염색체), 파타우증후군(13번 삼염색체) 등이 있습니다. 

이 WGS 기반 NIPT는 태아의 DNA 정보를 전반적으로 분석해 중요한 염색체 이상 여부를 알려줍니다. 그러나 VeriSeq는 기존 WGS와 비교해 더 높은 성능과 신뢰성을 제공하는 것이 특징입니다.

### VeriSeq의 장점과 차별점

VeriSeq는 **Illumina**에서 개발한 고성능 WGS 기반 NIPT 솔루션으로, 기존 NIPT보다 개선된 성능을 자랑합니다. 아래는 VeriSeq의 주요 장점입니다.

1. **높은 정확도**  

   VeriSeq는 태아의 염색체 이상을 매우 정확하게 검출할 수 있는 기술입니다. 연구 결과에 따르면 다운증후군, 에드워즈증후군, 파타우증후군에 대한 민감도가 **100%**에 달하는 등 높은 신뢰성을 보여줍니다. 또한 VeriSeq는 성염색체 이상(SCA) 검출에서도 우수한 성능을 보입니다.

2. **다태 임신에서의 적용성**  

   기존 WGS 기반 NIPT는 단태 임신에 최적화되어 있어 다태 임신(쌍둥이, 삼태아 등)에서는 정확도가 떨어질 수 있습니다. 반면 VeriSeq는 다태 임신에서도 높은 신뢰도를 유지해 여러 태아의 염색체 이상 여부를 각각 분석하고 결과를 제공할 수 있습니다. 

3. **조기 발견 가능**  

   VeriSeq는 임신 9주차부터 사용할 수 있어, 태아의 상태를 조기에 확인하는 데 유용합니다. 특히 초기 단계에 태아의 건강 상태를 알 수 있어 임산부에게 큰 안도감을 줄 수 있습니다.

4. **낮은 재검사 비율**  

   VeriSeq는 검사의 신뢰성과 표준화된 품질 관리 절차를 통해 첫 검사 실패율이 낮습니다. 따라서 불필요한 재검사를 줄일 수 있어 검사의 효율성을 높입니다.

### VeriSeq의 한계

VeriSeq가 가진 장점에도 불구하고 일부 한계도 존재합니다.

- **비용**: WGS 기반의 검사는 데이터 분석이 복잡하고 기술적 요구사항이 높아 비용이 상대적으로 비쌉니다.

- **특정 유전자 변이 탐지의 제한**: VeriSeq는 주로 큰 염색체 이상에 대한 검출이 강점이므로, 세밀한 유전자 변이까지는 탐지하기 어렵습니다.

### 결론: VeriSeq는 안전하고 신뢰성 높은 선택

VeriSeq는 기존 WGS 기반 NIPT보다 더 높은 정확도와 안정성을 자랑하며, 특히 다태 임신에서도 신뢰할 수 있는 결과를 제공합니다. 임신 초기부터 태아의 건강 상태를 안전하게 확인할 수 있어, 임산부가 불필요한 침습적 검사 없이도 태아의 염색체 이상 여부를 안심하고 확인할 수 있습니다. 

이와 같은 이유로 VeriSeq는 비침습적 산전 검사(NIPT)를 고려하는 모든 임산부에게 효과적이고 신뢰성 있는 선택지가 될 수 있습니다.



NotebookLM

## 일반인도 이해하는 비침습적 산전 검사(NIPT): WGS 기반 VeriSeq NIPT

**비침습적 산전 검사(NIPT)**는 임산부 혈액에서 태아의 DNA를 분석하여 태아의 염색체 이상 여부를 확인하는 검사입니다. 과거에는 염색체 이상을 확인하기 위해 양수검사나 융모막 검사와 같은 침습적 검사를 시행했는데, 이러한 검사들은 유산의 위험을 동반했습니다. 하지만 NIPT는 임산부 혈액만을 채취하기 때문에 침습적 검사에 비해 안전하며 높은 정확도를 가지고 있어 최근 산전 검사 분야에서 혁신적인 기술로 주목받고 있습니다. 

본 논문에서는 WGS 기반의 NIPT 기술 중 하나인 VeriSeq NIPT Solution v1을 이용하여 태아의 21번, 18번, 13번 삼염색체증과 성염색체 이상을 검사한 결과를 보고하고 있습니다.

### 1. WGS 기반 NIPT란 무엇인가요?

**WGS(Whole Genome Sequencing)**는 유전체 전체의 DNA 염기서열을 분석하는 기술입니다. WGS 기반 NIPT는 임산부 혈액에서 추출한 cfDNA를 WGS 기술로 분석하여 태아의 염색체 이상을 검출합니다. 

기존의 NIPT 검사는 특정 염색체만을 분석하는 표적 염기서열 분석 (Targeted Sequencing) 방식을 사용했습니다. 반면, WGS 기반 NIPT는 전체 유전체를 분석하기 때문에 더 많은 정보를 얻을 수 있다는 장점이 있습니다.

### 2. VeriSeq NIPT의 장단점

#### 장점

* **높은 정확도:** VeriSeq NIPT는 21번, 18번, 13번 삼염색체증과 성염색체 이상을 검사하는 데 높은 정확도를 보여줍니다.

* **낮은 위양성률:** VeriSeq NIPT는 위양성률이 매우 낮아 불필요한 침습적 검사를 줄일 수 있습니다.

* **다태아 임신에도 적용 가능:** VeriSeq NIPT는 단태아뿐만 아니라 쌍둥이와 같은 다태아 임신에도 적용할 수 있습니다.

* **태아 DNA 비율 측정:** VeriSeq NIPT는 태아 DNA 비율을 정확하게 측정할 수 있어 검사의 정확도를 높입니다.

* **광범위한 염색체 이상 검출 가능성:** WGS 기반 NIPT는 표적 염기서열 분석 방식보다 더 많은 유전 정보를 분석하기 때문에 염색체 미세결실/중복 증후군과 같은 다른 염색체 이상을 검출할 수 있는 가능성을 제공합니다.

#### 단점

* **검사 비용:** WGS 기반 NIPT는 기존의 표적 염기서열 분석 방식보다 검사 비용이 높을 수 있습니다. (출처에서 언급되지 않음)

* **검사 결과 해석의 복잡성:** WGS 기반 NIPT는 방대한 유전 정보를 분석하기 때문에 결과 해석이 복잡할 수 있으며, 전문적인 지식을 요구합니다. (출처에서 언급되지 않음)

### 3. 기존 WGS 기반 NIPT와 VeriSeq의 차이점 및 성능 비교

기존 WGS 기반 NIPT와 VeriSeq의 차이점은 본 논문에서 명확하게 제시되지 않았습니다. 하지만 VeriSeq NIPT는 다음과 같은 특징을 가지고 있어 기존 WGS 기반 NIPT보다 향상된 성능을 보여줄 수 있습니다.

* **읽기 길이 및 적용 범위 프로필 기반 태아 DNA 비율 추정 기능:** VeriSeq NIPT는 읽기 길이와 적용 범위 프로필을 기반으로 태아 DNA 비율을 정확하게 추정할 수 있습니다.

* **비표적 염색체의 이수성 영향 고려:** VeriSeq NIPT는 비표적 염색체의 이수성이 이수성 점수에 미치는 영향을 고려하여 분석합니다.

* **이수성 점수와 태아 DNA 비율 추정치 비교 기능:** VeriSeq NIPT는 이수성 점수와 태아 DNA 비율 추정치를 비교하여 분석의 정확도를 높입니다.

### 4. VeriSeq NIPT 연구 결과

* **높은 검출률:** 본 연구에서 VeriSeq NIPT는 36,456명의 임산부를 대상으로 검사를 시행한 결과 21번, 18번, 13번 삼염색체증과 성염색체 이상에 대해 높은 검출률을 보였습니다.

* **낮은 위양성률:** VeriSeq NIPT는 위양성률이 매우 낮아 불필요한 침습적 검사를 최소화할 수 있었습니다.

* **다태아 임신에서도 우수한 성능:** VeriSeq NIPT는 쌍둥이 임신에서도 높은 정확도를 보였으며, 검사 실패율 또한 낮았습니다.

### 5. 결론

VeriSeq NIPT는 높은 정확도와 낮은 위양성률을 가진 WGS 기반 NIPT 기술로, 단태아 및 다태아 임신에서 태아의 염색체 이상을 효과적으로 검사할 수 있습니다. 이는 임산부들이 안전하고 정확하게 태아의 건강 상태를 확인할 수 있도록 돕는 중요한 기술입니다. 


음.. 전반적으로 LLM 엄지척 이긴한데, 어차피 VeriSeq이나 WGS(Shallow/Low-Pass)이랑 동일한것인데 이걸 비교해서 설명해달라고 하니 어거지로 비교를 하다보니 이상한 내용들이 좀 들어가 있는 듯합니다.

VeriSeq이 쌍태아에서도 확인한걸로 알고 있는데 검증 건수가 몇건인지는 잘 모르겠지만, 단태아 기준으로는 다국적으로 기존까지 있었던 검증 데이터 중에는 아마 King王짱일겁니다. 우리가 VreiSeq보다 더 오래 서비스했다라고 해도 지금까지 테스트한 데이터지 검증 데이터 개수로는.... "공식"적으로 표시할 수 있는 샘플 개수로는 아마 지금까지 없었고, 이후에는 할 필요가..... VeriSeq이 가격만 아름답게 매겨준다면...  (당연히 그러지 않겠지만 말입니다.)


여튼 NIPT/NIPS 검사를 키트화하여 판매하고 있는 VeriSeq를 이탈리아에서 수행한 검사 결과 논문 소개 였습니다. :)


출처: @ye._.vely618


화요일, 11월 12, 2024

DRAGEN: 더 빠르고 정확한 유전체 분석 방법

오늘은 최근에 공개된 일루미나의 DRAGEN에 대한 논문이 있어서 가져와봤습니다. Comprehensive genome analysis and variant detection at scale using DRAGEN 입니다.

DOI: 10.1038/s41587-024-02382-1


gemini

## 유전체 분석의 혁신, DRAGEN: 더 빠르고 정확하게!

DRAGEN이 어떻게 기존 유전체 분석 방법보다 더 빠르고 정확하게 변이를 검출하는지, 그리고 최근 도입된 pangenome을 이용한 mapping 방법이 어떻게 더 정확한 변이 검출을 가능하게 하는지 알려드리겠습니다.

### 왜 유전체 분석이 중요할까요?

우리 몸의 설계도라고 할 수 있는 DNA에는 수많은 유전 정보가 담겨 있습니다. 이 정보는 '염기'라는 부품들이 특정 순서로 배열되어 만들어지는데, 이 배열 순서에 변화가 생기는 것을 '변이'라고 합니다. 변이는 질병 발생, 개인의 특징, 약물 반응 등에 영향을 미칠 수 있습니다. 유전체 분석은 이러한 변이를 찾아내고 분석하여 질병 예측, 진단, 치료 등에 활용하는 기술입니다.

### DRAGEN은 무엇일까요?

DRAGEN은 일루미나에서 개발한 최첨단 유전체 분석 플랫폼입니다. 기존 분석 방법보다 훨씬 빠르고 정확하게 유전체 데이터를 분석할 수 있는 혁신적인 기술이죠. 

**DRAGEN의 장점:**

* **압도적인 속도:** FPGA라는 특수 하드웨어를 사용하여 기존 방법보다 최대 50배 빠르게 분석합니다. 

* **뛰어난 정확도:**  다중 유전체 매핑과 pangenome 참조를 통해 반복적인 유전체 영역에서도 정확하게 변이를 식별합니다.

* **포괄적인 분석:** 단일 염기 변이(SNV), 삽입/결실(indel), 구조 변이(SV), 복제수 변이(CNV) 등 다양한 유형의 변이를 분석할 수 있습니다.

* **의학 유전체 분석에 특화:**  질병 관련 유전자 분석에 특화된 방법을 통합하여 질병 연구에 유용합니다.

* **확장성:**  대규모 데이터 및 코호트 분석에 적합합니다.

**DRAGEN의 단점:**

* **높은 초기 비용:** FPGA 하드웨어 구축 비용이 상대적으로 높습니다.

* **전문 지식 필요:** DRAGEN 플랫폼 운영 및 결과 해석에 전문 지식이 필요할 수 있습니다.

### Pangenome을 이용한 Mapping이란 무엇일까요?

Pangenome은 다양한 사람들의 유전체 정보를 종합하여 만든 '유전체 지도'입니다. 기존에는 한 사람의 유전체 정보만을 참조로 사용했기 때문에, 사람들 간의 유전적 차이를 제대로 반영하지 못했습니다. Pangenome을 이용하면 더욱 정확하게 변이를 검출하고, 질병과의 연관성을 밝힐 수 있습니다.

**DRAGEN은 pangenome을 이용하여 변이 검출의 정확성을 더욱 높였습니다.** 마치 여러 사람의 지도를 참고하여 더 정확한 길을 찾는 것과 같은 원리입니다.

## Pangenome을 이용한 Mapping에 대한 심층 설명

**Pangenome**은 한 종 내 개체들의 유전체 정보를 종합하여 만든 거대한 참조 유전체입니다. 기존의 단일 참조 유전체를 사용하는 방식과 달리, pangenome은 다양한 개체들의 유전적 변이를 모두 포함하고 있어 더욱 정확한 변이 분석이 가능합니다.

### 왜 Pangenome이 필요할까요?

* **유전적 다양성 반영:** 인간은 유전적으로 매우 다양합니다. 기존의 단일 참조 유전체는 주로 특정 인종이나 집단의 유전체 정보를 기반으로 만들어졌기 때문에, 다른 집단의 개체에 대한 분석에서는 정확도가 떨어질 수 있습니다.

* **복잡한 유전체 구조 반영:** 인간 유전체는 매우 복잡하고 개인 간에 차이가 큽니다. 특히, 구조 변이(SV)와 같은 복잡한 변이를 정확하게 분석하기 위해서는 pangenome이 필요합니다.

* **희귀 변이 발견:** 희귀 변이는 질병과의 연관성을 밝히는 데 중요한 역할을 합니다. pangenome을 이용하면 기존 방법으로는 찾기 어려웠던 희귀 변이를 더 많이 발견할 수 있습니다.

### Pangenome을 이용한 Mapping의 장점

* **정확도 향상:** pangenome은 다양한 개체의 유전적 변이를 포함하고 있기 때문에, 개인의 유전체를 더욱 정확하게 비교하고 변이를 찾아낼 수 있습니다.

* **새로운 변이 발견:** 기존 참조 유전체에는 없는 새로운 변이를 발견할 가능성이 높습니다.

* **복잡한 유전체 구조 분석:** 구조 변이와 같은 복잡한 유전체 구조를 더욱 정확하게 분석할 수 있습니다.

* **다양한 인종 및 집단에 대한 분석:** 다양한 인종과 집단의 유전체 데이터를 분석하는 데 유용합니다. 

### DRAGEN은 어떻게 활용될까요?

DRAGEN은 멘델 질환, 희귀 질환, 암 등 다양한 질병 연구에 활용될 수 있습니다. 또한, 개인 맞춤형 의료, 약물 유전체학, 집단 유전체학 등 다양한 분야에서 유용하게 사용될 수 있습니다.

### DRAGEN과 Pangenome의 시너지 효과

DRAGEN은 pangenome을 이용한 mapping을 효율적으로 수행할 수 있도록 설계되었습니다. DRAGEN의 빠른 처리 속도와 정확도는 pangenome의 장점을 극대화하여 더욱 정확하고 포괄적인 유전체 분석을 가능하게 합니다.

* **빠른 분석:** DRAGEN의 FPGA 하드웨어는 대규모 pangenome 데이터를 빠르게 처리하여 분석 시간을 단축합니다.

* **정확한 변이 호출:** pangenome을 기반으로 더욱 정확한 변이 호출을 수행합니다.

* **복잡한 변이 분석:** 구조 변이와 같은 복잡한 변이를 효율적으로 분석합니다. 

### 결론

DRAGEN은 유전체 분석의 속도와 정확성을 획기적으로 향상시킨 혁신적인 플랫폼입니다. Pangenome을 이용한 mapping 방법 도입으로 더욱 정확한 변이 검출이 가능해졌으며, 이는 질병 연구 및 의료 분야 발전에 크게 기여할 것으로 기대됩니다.



clova-x

DRAGEN은 Illumina에서 개발한 유전체 분석 플랫폼으로, 기존의 유전체 분석 방법보다 빠르고 정확하게 다양한 변이를 검출할 수 있는 몇 가지 혁신적인 기술을 사용합니다.

1. 다중 게놈 매핑과 팬게놈 참조:

   - DRAGEN은 다중 게놈 매핑과 팬게놈 참조를 사용하여 변이를 검출합니다. 이는 여러 게놈의 정보를 종합하여 참조 게놈을 구성하는 방법으로, 기존의 단일 참조 게놈을 사용하는 방법보다 더 많은 유전적 다양성을 고려할 수 있습니다.

   - 이를 통해 더욱 정확한 변이 검출이 가능하며, 특히 희귀한 변이를 발견하는 데 유용합니다.

2. 하드웨어 가속화와 머신 러닝:

   - DRAGEN은 하드웨어 가속화와 머신 러닝을 이용하여 빠르고 정확한 분석을 제공합니다. 이는 복잡한 계산을 빠르게 처리할 수 있도록 도와주며, 머신 러닝을 통해 변이 검출의 정확도를 향상시킵니다.

   - 기존의 분석 방법보다 훨씬 빠른 속도로 변이를 검출할 수 있으며, 대규모 데이터셋에 대해서도 효율적으로 분석할 수 있습니다.

3. 다양한 변이 유형 지원:

   - DRAGEN은 단일 염기 변이(SNV), 삽입/삭제(indel), 짧은 반복 서열(STR), 구조적 변이(SV), 복제 수 변이(CNV) 등 모든 주요한 변이 유형을 지원합니다.

   - 다양한 변이 유형을 하나의 명령어 라인에서 검출할 수 있어 사용이 간편하며, 의료적으로 관련된 유전자에 대한 특별한 방법도 포함하고 있습니다.

4. 신속한 워크플로우:

   - DRAGEN은 완전하고 자동화된 엔드 투 엔드 솔루션을 제공하여, 원시 시퀀싱 리드를 매핑하고 정렬하며, 변이를 VCF 파일로 출력합니다.

   - 이를 통해 사용자는 변이를 쉽게 해석하고 연구에 활용할 수 있습니다.

이러한 혁신적인 기술을 통해 DRAGEN은 기존의 유전체 분석 방법보다 빠르고 정확하게 변이를 검출할 수 있습니다. 그러나 여전히 일부 복잡한 구조적 변이의 검출이나 긴 STR 확장의 정확한 크기 결정에는 한계가 있을 수 있습니다. 그럼에도 불구하고, DRAGEN은 유전체 연구 분야에서 큰 발전을 이루고 있으며, 개인 맞춤형 의학 및 생물학 연구에 새로운 인사이트를 제공하고 있습니다.



chatGPT

**DRAGEN이란 무엇인가?**

DRAGEN은 Illumina에서 개발한 유전체 분석 플랫폼으로, 다양한 종류의 유전자 변이를 빠르고 정확하게 탐지할 수 있도록 설계된 도구입니다. 유전적 변이는 각 개인의 유전적 차이를 만들어내며, 이 중에는 질병과 관련된 유전적 변이가 포함될 수 있어 이를 정확하게 검출하는 것이 중요한데요. DRAGEN은 기존의 유전자 분석 방법보다 높은 정확도와 빠른 분석 속도를 제공합니다.

### DRAGEN의 주요 장점

1. **빠른 분석 속도**  

   DRAGEN은 하드웨어 가속을 통해 분석 시간을 대폭 단축합니다. 예를 들어, 전체 유전체 서열을 분석하는 데 약 30분이 걸리며, 이는 기존 방법에 비해 매우 빠른 속도입니다. 이러한 속도는 대량의 데이터를 다뤄야 하는 연구자나 의료 기관에 매우 유리하게 작용합니다.

2. **다양한 변이 검출 가능**  

   DRAGEN은 단일염기 변이(SNV)와 소규모 삽입/결실(indel)뿐만 아니라 구조 변이(SV), 복제 수 변이(CNV)와 같은 대규모 변이도 감지할 수 있습니다. 또한, 최근에는 짧은 반복 서열 변이(STR)와 같이 질병과 관련된 특정 유전자 영역의 변이를 검출할 수 있는 특화 도구도 추가되었습니다.

3. **높은 정확도**  

   DRAGEN은 다중 유전체 참조(pangenome reference)를 사용하여 다양한 유전자 변이를 보다 정확하게 감지합니다. 기존 분석 방법은 주로 한 가지 표준 유전체 참조를 사용해 유전체를 분석하지만, DRAGEN은 여러 개의 유전체 참조를 활용하여 개별의 유전적 다양성을 더 잘 반영합니다. 이를 통해 변이 감지의 정확성을 높일 수 있으며, 특히 구조 변이와 복제 수 변이 감지에 큰 강점을 가지고 있습니다.

4. **의료적으로 중요한 유전자 영역에 대한 특화 분석**  

   DRAGEN은 의료적으로 중요한 유전자(CYP2D6, HLA, SMN 등)에 대한 맞춤형 분석 도구를 제공합니다. 이를 통해 약물 대사나 면역 반응과 관련된 유전자 변이를 더욱 신뢰성 있게 검출할 수 있습니다.

### DRAGEN의 단점

1. **고가의 하드웨어 요구 사항**  

   DRAGEN은 하드웨어 가속을 사용하여 성능을 높이는 만큼 고가의 하드웨어 설치가 필요합니다. 이는 소규모 연구 기관이나 자금이 충분하지 않은 연구자에게는 큰 부담이 될 수 있습니다.

2. **복잡한 데이터 해석 필요**  

   DRAGEN은 다양한 유형의 변이를 동시에 검출하기 때문에 데이터 해석이 복잡할 수 있습니다. 예를 들어, 단일염기 변이와 구조 변이가 동시에 존재할 수 있으며, 이러한 변이 데이터를 효율적으로 해석하려면 추가적인 분석 툴과 전문 지식이 필요할 수 있습니다.

### 다중 유전체 참조(pangenome reference) 기반의 새로운 매핑 방식의 장점

최근 DRAGEN에 도입된 다중 유전체 참조 기반 매핑 방식은 다양한 인종 및 유전적 배경을 가진 사람들의 유전적 다양성을 더 잘 반영합니다. 기존의 단일 참조 유전체는 모든 사람을 대표하기 어려워 일부 변이가 누락되거나 잘못 분석될 가능성이 있었습니다. 반면, 다중 유전체 참조는 다양한 유전적 변이를 포함하고 있어 유전자 변이의 정확한 검출과 해석이 가능합니다. 이를 통해 의료적으로 중요한 질병과 관련된 새로운 변이 발견 가능성이 높아집니다.

### 결론

DRAGEN은 빠른 속도와 높은 정확성을 바탕으로, 기존 유전자 분석 방법의 한계를 뛰어넘는 유전체 분석 플랫폼입니다. 다중 유전체 참조 기반 매핑 방식과 의료 특화 유전자 분석 도구는 DRAGEN이 유전자 변이 감지에 있어 강력한 도구임을 입증합니다. 고가의 장비와 복잡한 해석이 필요하다는 단점이 있지만, 이 플랫폼은 의료 및 유전 연구에 있어 중요한 역할을 할 것으로 기대됩니다.



NotebookLM

## DRAGEN: 더 빠르고 정확한 유전체 분석 방법

안녕하세요. 저는 Illumina의 DRAGEN 전문가입니다. DRAGEN은 기존 유전체 분석 방법보다 효율적이면서 정확하게 다양한 변이를 검출하는 혁신적인 기술입니다. DRAGEN을 잘 모르는 일반인분들을 위해, 이 글에서는 DRAGEN이 어떻게 다른 유전체 분석 방법보다 빠르고 정확하게 변이를 검출할 수 있는지, 그리고 최근 개발된 pangenome을 이용한 mapping 방법이 어떻게 변이 검출의 정확성을 향상시키는지 자세히 설명해 드리겠습니다.

### DRAGEN의 작동 원리

DRAGEN은 크게 세 가지 핵심 기술을 통해 빠르고 정확한 변이 검출을 수행합니다.

1. **하드웨어 가속:** DRAGEN은 FPGA(Field-Programmable Gate Array) 기술을 사용하여 컴퓨팅 속도를 획기적으로 향상시킵니다. FPGA는 특정 작업에 맞게 하드웨어 회로를 구성할 수 있는 칩으로, 유전체 분석과 같이 복잡하고 반복적인 계산에 매우 효율적입니다. 덕분에 DRAGEN은 기존 소프트웨어 기반 분석 방법보다 훨씬 빠르게 분석을 완료할 수 있습니다.

2. **머신 러닝 기반 변이 탐지:** DRAGEN은 머신 러닝 알고리즘을 사용하여 변이 탐지의 정확성을 높입니다.  방대한 양의 유전체 데이터를 학습한 머신 러닝 모델은  데이터에서 노이즈와 오류를 효과적으로 구분하여 진짜 변이를 정확하게 식별합니다.

3. **Pangenome을 이용한 Multi-genome Mapping:** DRAGEN은  다양한 인구 집단의 유전체 정보를 포함하는 pangenome을 참조 유전체로 사용합니다. Pangenome은 단일 참조 유전체보다 인간 유전체의 다양성을 더 잘 반영하기 때문에,  DRAGEN은 개인 간의 유전적 차이를 더 정확하게 파악하고 분석할 수 있습니다. 

    * **기존의 single reference genome 기반 분석:**  단일 참조 유전체에 존재하지 않는 변이는 검출하기 어려웠습니다.

    * **DRAGEN의 pangenome 기반 분석:**  다양한 haplotype을 포함하는 pangenome을 사용하여 기존 방법에서 놓칠 수 있었던 변이까지 정확하게 검출합니다. 

### DRAGEN의 장점

DRAGEN은 기존 유전체 분석 방법과 비교하여 다음과 같은 다양한 장점을 제공합니다.

* **빠른 분석 속도:**  FPGA 하드웨어 가속과  효율적인 알고리즘 설계를 통해 전체 유전체 분석 시간을 **약 30분**으로 단축했습니다.

* **뛰어난 정확성:**  머신 러닝 기반 변이 탐지와 pangenome mapping 기술을 통해 **SNV에서 99.86%, indel에서 99.80%**에 이르는 높은 정확도를 달성했습니다.

* **포괄적인 변이 검출:** 단일 염기 변이(SNV), 삽입/삭제(indel), 구조적 변이(SV), 복제 수 변이(CNV), 짧은 탠덤 반복(STR) 등 **다양한 유형의 변이를  한 번에 분석**할 수 있습니다.

* **확장성:**  대규모 코호트 연구에 적합하도록 설계되어 **수천 개 이상의 샘플을 효율적으로 처리**할 수 있습니다.

* **사용자 편의성:**  **단순하고 직관적인 인터페이스**를 제공하여  전문 지식 없이도 쉽게 사용할 수 있습니다.

### DRAGEN의 단점

* **Pangenome reference의 지속적인 업데이트 필요:**  Pangenome reference는  새로운 유전체 정보가 발견됨에 따라 지속적으로 업데이트되어야 합니다.  

* **일부 복잡한 유전자 영역 분석의 어려움:**  HLA 유전자와 같이 매우 복잡한 유전자 영역의 경우, 아직까지는  long-read sequencing 방법이 더 정확한 분석 결과를 제공할 수 있습니다.

### 결론

DRAGEN은 빠른 분석 속도, 높은 정확성, 포괄적인 변이 검출 능력, 확장성 및 사용자 편의성을 모두 갖춘 차세대 유전체 분석 도구입니다. DRAGEN은  유전체 연구, 질병 진단, 신약 개발, 맞춤형 의료 등 다양한 분야에서 핵심적인 역할을 수행할 것으로 기대됩니다. 


DRAGEN이야 WGS 데이터를 다루기 위해서는 필수적인 요소임에는 불변할 듯 한데 거기다가 pangenome reference라는 방법론을 추가했네요. 지금 사용하는 Human Reference가 미국주도로 진행되고 있었고 여러 사람의 DNA를 pooling을 해서 reference를 제작했는데 소수의 사람(RP11)의 DNA가 reference로 사용하고 있었다라고 해서 pangenome reference가 나온거 같아 보이네요. pangenome reference를 사용하게 되면서 SNP와 small InDel에 대해서는 성능이 올라갈것 같아 보이는데 SV나 CNV와 같은 구조변이에 대해서도 성능이 좋아졌다라는... 100bp, 150bp Paired-end는 동일한데 reference가 변경되었다고 이게 좋아질 수 있는지는... 좀 더 공부를 해봐야 할 듯 하네요. 

여튼 DRAGEN이 일루미나로 넘어가면서 일루미나에서 활용 할 수 있는 도구가 하나 더 추가되었는데 그 도구가 현존하는 tool중에서 가장 막강한 녀석이라서 활용도가 무궁무진 할 듯 합니다.  :)



출처: @ye._.vely618


일요일, 6월 09, 2024

DADA2 돌아보기

오늘은 microbiome작업에서 많이 사용되는 DADA2에 대해서 한번 돌아보도록 하겠습니다. 제가 micriobiome 작업을 했을때 qiime1을 가지고 가내수공업으로 만들 때여서 사실 당시 나왔었던 최신 tool은 잘 몰랐었습니다. 

많은 시간이 흘러 최근에 qiime2 작업을 코치 해주면서 DADA2가 qiime2에 기본 툴로 들어앉은것 같아서(?아니었나요? ) 한번 물어보았습니다.

논문 제목은 DADA2: High resolution sample inference from Illumina amplicon data 이고, 

>여기< 에서 무료로 논문을 보실 수 있습니다.

DOI: 10.1038/nmeth.3869


gemini

## DADA2: 미생물 군집 연구를 위한 강력한 도구

미생물 군집 연구는 미생물이 서로 어떻게 상호 작용하고 우리 건강에 어떤 영향을 미치는지를 이해하는 데 중요합니다. Illumina 앰플리콘 시퀀싱은 미생물 군집을 연구하는 데 가장 일반적으로 사용되는 방법 중 하나입니다. 하지만 Illumina 앰플리콘 데이터는 오류가 많아 분석하기 어려울 수 있습니다.

DADA2는 Illumina 앰플리콘 데이터의 오류를 모델링하고 수정하는 오픈 소스 R 패키지입니다. DADA2는 OTU(Operational Taxonomic Units)를 생성하지 않고 샘플 시퀀스를 정확하게 추론하며, 1개 뉴클레오티드만큼 작은 차이도 해결합니다. 

DADA2는 이전의 Illumina sequence amplicon 기반 microbiome 분석 패키지들과 다음과 같은 차이점이 있습니다.

**정확성**: DADA2는 OTU 기반 방법보다 더 정확하게 샘플 시퀀스를 추론합니다.

**고해상도**: DADA2는 1개 뉴클레오티드만큼 작은 차이도 해결할 수 있습니다.

**오류 감소**: DADA2는 다른 방법들보다 더 적은 오류 시퀀스를 출력합니다.

**오픈 소스**: DADA2는 오픈 소스 R 패키지입니다.

DADA2는 여러 모의 커뮤니티에서 다른 방법들보다 더 많은 실제 변형을 식별하고 더 적은 오류 시퀀스를 출력했습니다. DADA2는 임신 여성 집단의 질 샘플에 적용하여 이전에 감지되지 않았던 다양한 Lactobacillus crispatus 변형을 발견했습니다.

DADA2는 미생물 군집 연구를 위한 강력한 도구입니다. DADA2는 샘플 시퀀스를 더 정확하게 추론하고 OTU 기반 방법보다 더 많은 정보를 제공합니다. DADA2는 미생물 군집의 세부적인 변형을 연구하고자 하는 연구자들에게 유용한 도구입니다.

## DADA2 사용 방법

DADA2는 공식 웹사이트([유효하지 않은 URL 삭제됨] 다운로드할 수 있습니다. DADA2 사용 방법에 대한 자세한 내용은 DADA2 사용자 매뉴얼([유효하지 않은 URL 삭제됨] 참조하십시오.

## DADA2 활용 사례

DADA2는 다음과 같은 다양한 연구에 사용되었습니다.

* **인간 장 미생물 군집 분석**([https://pubmed.ncbi.nlm.nih.gov/35105664/])

* **질 미생물 군집 분석**([https://pubmed.ncbi.nlm.nih.gov/22911732/])

* **피부 미생물 군집 분석**([https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8498027/])

* **환경 미생물 군집 분석**([https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10971298/])

## DADA2에 대한 자세한 정보

DADA2에 대한 자세한 내용은 다음 리소스를 참조하십시오.

* **DADA2 공식 웹사이트**: [https://benjjneb.github.io/dada2/]

* **DADA2 사용자 매뉴얼**: [https://www.bioconductor.org/packages/devel/bioc/manuals/dada2/man/dada2.pdf]

* **DADA2 GitHub 리포지토리**: [https://github.com/benjjneb/dada2]

* **DADA2 논문**: [https://www.nature.com/articles/nmeth.3869]


clova-x

 DADA2는 Illumina-sequenced amplicon errors를 모델하고 교정하는 데에 사용되는 소프트웨어 패키지입니다. 이 패키지는 에러를 모델화하고 교정하는 기능을 제공하여 정확한 시퀀싱 결과를 얻을 수 있도록 도와줍니다.

DADA2는 이전의 illumina sequence amplicon 기반의 microbiome 분석 패키지들과는 몇 가지 차이점이 있습니다. 예를 들어, 이전의 패키지들은 sequence variants를 그룹화하여 분석하였으나, DADA2는 sequence variants를 개별적으로 분석합니다. 또한, 이전의 패키지들은 분석 결과를 도출하기 위해 일정한 dissimilarity threshold를 사용하였으나, DADA2는 이를 사용하지 않습니다.

DADA2는 이전의 패키지들보다 더 정확한 분석 결과를 제공합니다. 예를 들어, 이전의 패키지들은 sequence variants를 그룹화하여 분석하기 때문에, 개별적인 sequence variants를 정확하게 구분하지 못하는 경우가 있었습니다. 그러나 DADA2는 sequence variants를 개별적으로 분석하기 때문에, 더 정확한 분석 결과를 제공합니다.

DADA2는 microbiome 분석 분야에서 매우 유용한 도구 중 하나입니다. 이 도구를 사용하면 microbiome 분석의 정확도를 높일 수 있으며, 이를 통해 인간과 환경의 건강에 중요한 역할을 하는 미생물 군집의 특성을 더욱 잘 이해할 수 있습니다.


chatGPT

### DADA2: 정밀한 마이크로바이옴 분석을 위한 혁신적 도구

마이크로바이옴 분석은 다양한 환경에서 미생물 군집의 구성과 기능을 이해하는 데 중요한 역할을 합니다. 특히, Illumina 시퀀싱은 이러한 분석에 널리 사용되지만, 시퀀싱 과정에서 발생하는 오류는 정확한 결과를 도출하는 데 걸림돌이 될 수 있습니다. 이러한 문제를 해결하기 위해 개발된 DADA2는 기존의 분석 패키지들과는 다른 혁신적인 접근 방식을 제시합니다. 이번 글에서는 DADA2의 주요 특징과 기존 도구들과의 차이점을 살펴보겠습니다.

#### DADA2란 무엇인가?

DADA2(Divisive Amplicon Denoising Algorithm 2)는 Illumina 시퀀싱된 암플리콘 데이터의 오류를 모델링하고 수정하여 정확한 시퀀스를 추출하는 소프트웨어 패키지입니다. DADA2는 OTU(Operational Taxonomic Units) 대신 ASV(Amplicon Sequence Variants) 기반 접근 방식을 사용하여 시퀀스를 독립적으로 식별합니다. 이를 통해 최소한의 뉴클레오타이드 차이까지 구분하여 실제 생물학적 변이를 정확히 파악할 수 있습니다.

#### DADA2의 주요 기능

1. **오류 수정**: DADA2는 시퀀싱 과정에서 발생하는 오류를 명시적으로 모델링하고 수정하여 정확한 시퀀스를 추출합니다.

2. **미세 변이 구분**: 샘플 내의 실제 시퀀스를 정확히 추론하여 생물학적 변이를 세밀하게 식별합니다.

3. **전체 워크플로우 지원**: 필터링, 중복 제거, 키메라 식별, 페어드엔드 리드 병합 등 전체 암플리콘 분석 워크플로우를 통합하여 제공합니다.

4. **참조 없이 적용 가능**: 참조 시퀀스 없이 어떤 유전적 위치에도 적용할 수 있어 다양한 연구에 활용 가능합니다.

#### 기존 패키지들과의 차이점

1. **오류 모델링 및 수정**:

   - DADA2는 오류를 명시적으로 모델링하고 수정하여 시퀀스 정확도를 높입니다.

   - 기존 패키지들(예: UPARSE, QIIME, mothur)은 일반적으로 오류를 명시적으로 모델링하지 않거나, 오류 수정을 위한 간단한 필터링 단계만 포함합니다.

2. **미세 변이 구분**:

   - DADA2는 최소한의 뉴클레오타이드 차이까지 구분하여 실제 시퀀스 변이를 정확히 식별합니다.

   - 기존 패키지들은 일반적으로 일정한 유사성 기준(예: 97%)에 따라 시퀀스를 OTU로 클러스터링하여 미세 변이를 구분하지 못할 수 있습니다.

3. **OTU 기반 vs. ASV 기반**:

   - DADA2는 ASV 기반 접근 방식을 사용하여 각 시퀀스 변종을 독립적으로 식별합니다.

   - 기존 패키지들은 OTU 기반 접근 방식을 사용하여 시퀀스를 그룹으로 묶습니다.

4. **잘못된 시퀀스 출력 감소**:

   - DADA2는 잘못된 시퀀스의 출력을 최소화하여 정확한 결과를 도출합니다.

   - 기존 패키지들은 잘못된 시퀀스가 상대적으로 더 많이 포함될 수 있습니다.

#### DADA2의 실제 적용 사례

DADA2는 다양한 연구에서 높은 정확성을 입증하였습니다. 예를 들어, 임산부의 질 샘플에서 다양한 Lactobacillus crispatus 변종을 발견하였으며, 쥐의 대변 샘플에서도 다양한 변종을 식별하는 데 성공하였습니다. 이는 DADA2가 기존 도구들보다 높은 해상도로 시퀀스 변이를 재구성할 수 있음을 보여줍니다.

#### 결론

DADA2는 기존의 OTU 기반 방법보다 더 정밀하게 미세 변이를 식별할 수 있는 혁신적인 도구입니다. 이를 통해 연구자들은 마이크로바이옴 생태계를 더욱 정확하게 이해하고, 생물 다양성과 차이를 정밀하게 측정할 수 있습니다. 마이크로바이옴 연구의 새로운 장을 열어줄 DADA2, 지금 바로 활용해 보세요!


claude

여기 DADA2에 대한 블로그 글을 작성해봤습니다:

제목: DADA2 - Illumina Amplicon 데이터의 정확한 서열 변이체 탐지

안녕하세요, 미생물 연구자 여러분!

오늘은 Illumina amplicon 시퀀싱 데이터 분석을 위한 혁신적인 새 패키지 DADA2에 대해 소개하겠습니다. 

지금까지 대부분의 amplicon 분석 방법들은 유사한 서열들을 97% 이상의 유사도를 가진 OTU(Operational Taxonomic Unit)로 클러스터링해왔습니다. 하지만 이 접근법은 종종 실제 존재하는 미세한 수준의 서열 변이체들을 감지하지 못했습니다. 단일 뉴클레오타이드 차이만으로도 병원체와 정상균주를 구분할 수 있는 상황에서, 이러한 미세 변이체 정보의 상실은 큰 문제가 될 수 있습니다.

DADA2는 바로 이 문제를 해결하기 위해 개발된 소프트웨어 패키지입니다. DADA2는 OTU 클러스터링 없이 Illumina amplicon 시퀀싱 데이터에서 정확한 생물학적 서열 변이체를 직접 추론할 수 있습니다. 이를 위해 DADA2는 Illumina 시퀀싱 에러를 모델링하는 새로운 품질 인지 모델을 도입했습니다. 

DADA2의 주요 특징들:

1. OTU 클러스터링 없이 단일 뉴클레오타이드 수준까지 서열 변이체 해결 가능

2. Illumina 시퀀싱 에러 모델링 및 제거를 통한 정확한 서열 추론

3. 참조 서열 없이 새로운 변이체 탐지 가능한 참조 무관 방식

4. 필터링, 디복제, 키메라 식별, 페어드 엔드 병합 등 통합 amplicon 분석 파이프라인 제공

여러 모의 커뮤니티 데이터셋 벤치마킹에서 DADA2는 기존 방법들보다 실제 변이체를 더 많이 찾아내고 오류 서열은 적게 출력했습니다. 또한 임신부 질 샘플 분석에서 DADA2는 이전에 발견되지 않았던 Lactobacillus crispatus 변이체들의 다양성을 드러냈습니다.

DADA2를 사용하면 지금까지 OTU 클러스터링의 제약으로 인해 놓쳐왔던 미생물 군집의 미세 수준 변이 정보를 활용할 수 있게 됩니다. 이를 통해 병원성 균주 탐지, 시간에 따른 군집 동태 이해, 미생물 진화 및 계통 분석 등 다양한 연구에 새로운 해석이 가능해질 것입니다.

DADA2에 대해 더 자세히 알아보시려면 Nature Methods 저널에 실린 원문과 Benjjneb/dada2 Github, Bioconductor 3.3 릴리즈를 참고하세요. 여러분 연구에 DADA2가 많은 도움이 되기를 바랍니다!


gemini가 간만에 실력발휘를 했습니다. 논문을 정확히 이해했고, DADA2의 활용사례까지 보여주었습니다!!!! (근데 "질 미생물 군집 분석"은 다른 논문을 링크달았더라구요;;) 

그리고 chatGPT가 OTU vs ASV라는 것을 제시했는데 ASV(Amplicon sequence variant)는 사실 이 논문 이후에 정립된 용어 같은데 (이 논문에서는 ASV가 업급되지 않았습니다.) 요약 글 내용에서 ASV가.... 이게 hallucination인지... 이전에 학습한 내용 중 유사한 내용이 있어서 가지고 온것인지... 어찌됐든 chatGPT 내용보다가 깜놀했네요. 

claude는 언제나 자연스러운 내용을 하사해주고 있습니다.

오늘은 gemini가 제대로 답변을 해줬고, chatGPT가 제시하지 않은 개념도 알아서 가져다 썼다는것에 살짝...



출처: @ye._.vely618


화요일, 5월 14, 2024

롱리드냐 숏리드냐 그것이 문제로다! 그냥 둘 다 써!

23년에 효모를 사용해서 여러 플랫폼 데이터의 어셈블리 성능을 테스트한 논문이 있어서 한번 가져와봤습니다.

DOI는 10.26508/lsa.202201744 입니다.

조금 더 복잡한 genome을 사용했으면 좋았을 것 같지만, 그러면 genome에서 오는 복잡도로 결과를 명확하게 분석하기 어려운 면이 있어서 yeast를 선정한 것은 좋은 선택인 것 같았습니다. 어설프게 다배체 생물 건드리면 나는 어딘가? 여기는 누군가? 하고 있었을 수 도 있으니깐요 :)

논문 장수와 용량이 적절해서 clova-x, gemini와 더불어 claude에게 까지 물어보았습니다.

질문: 블로그에 이 연구 내용으로 글을 하나 작성해주세요. 읽는 대상은 차세대 시퀀싱은 알지 못하지만 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들 입니다.


clova-x

이 논문에서는 Debaryomyces hansenii KCTC27743 yeast species의 전체 유전체를 4개의 다른 시퀀싱 플랫폼을 사용하여 시퀀싱하고 조립하는 방법을 설명하고 있습니다. 이 방법은 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 것으로, 생물학 연구에서 중요한 역할을 합니다.

이 논문에서는 PacBio Sequel, ONT MinION, Illumina NovaSeq 6000, MGI DNBSEQ-T7 등 4개의 시퀀싱 플랫폼을 사용하여 유전체를 분석하였습니다. 각각의 플랫폼은 서로 다른 장단점을 가지고 있으며, 이를 고려하여 적절한 플랫폼을 선택해야 합니다.

조립 과정에서는 Flye, WTDBG2, Canu, MaSuRCA, WENGAN, SPAdes, ABySS 등 7개의 조립 프로그램을 사용하였습니다. 이 프로그램들은 각각의 특성과 장단점을 가지고 있으며, 이를 고려하여 적절한 프로그램을 선택해야 합니다.

이 논문에서는 유전체 분석 결과를 바탕으로 다양한 유전체 구조를 분석하였습니다. 유전체 구조는 생물학적 특성과 밀접한 관련이 있으며, 이를 분석함으로써 생물학적 연구에 유용한 정보를 얻을 수 있습니다.

이 논문에서는 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 방법과, 이를 위한 다양한 플랫폼과 프로그램을 소개하고 있습니다. 이는 생물학 연구에 관심이 있는 사람들에게 유용한 정보가 될 것입니다. 또한, 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들도 이 논문을 통해 차세대 시퀀싱 기술에 대한 이해를 높일 수 있을 것입니다.




claude

안녕하세요. 오늘은 차세대 시퀀싱 기술과 유전체 조립에 대한 재미있는 연구 결과를 소개하겠습니다.

여러분도 학교에서 DNA의 구조, 유전자, 염기서열 등을 배웠을 텐데요. 현대 생명과학에서는 생물체의 전체 유전정보인 게놈(genome)을 해독하는 것이 매우 중요합니다. 게놈을 알면 그 생물의 유전적 특성과 진화 과정을 이해할 수 있기 때문입니다.

게놈은 DNA가 긴 가닥으로 이어진 것인데, 이를 조각조각 읽어서 다시 맞춰 전체 구조를 복원하는 것이 바로 '유전체 조립(genome assembly)' 작업입니다. 마치 퍼즐을 맞추는 것과 비슷하죠.

과거에는 DNA를 직접 읽는 시퀀싱 기술의 한계로 유전체 조립이 쉽지 않았습니다. 하지만 최근 '차세대 시퀀싱(Next-Generation Sequencing)' 기술이 발달하면서 좀 더 정확하고 효율적인 유전체 조립이 가능해졌습니다.

이번에 소개할 연구는 여러 차세대 시퀀싱 플랫폼과 조립 프로그램을 활용해 효모 게놈 조립을 시도한 결과입니다. 연구팀은 PacBio, 옥스퍼드 나노포어, 일루미나, MGI 등 4가지 플랫폼으로 효모를 시퀀싱했습니다. 그리고 Flye, WTDBG2, Canu 등 7가지 조립 프로그램을 사용해 총 212개의 효모 유전체 조립체를 만들었습니다.

결과적으로 가장 완성도 높은 조립체는 옥스퍼드 나노포어 플랫폼의 긴 염기서열을 사용하고, Canu 프로그램으로 조립한 뒤 MGI 플랫폼의 데이터로 오류를 수정한 것이었습니다. 하지만 각 플랫폼과 프로그램마다 장단점이 있었는데요.

옥스퍼드 나노포어는 긴 염기서열을 얻을 수 있었지만 오류율이 높았고, 일루미나 플랫폼은 정확도가 높았지만 짧은 염기서열 때문에 반복 영역을 해결하기 어려웠습니다. 조립 프로그램 중에서는 Canu가 반복 영역 해결력이 좋았지만 느린 편이었고, WTDBG2는 빨랐지만 정확도가 낮았습니다.

이렇게 시퀀싱 플랫폼과 조립 프로그램의 특성을 고려하면 생물 종류나 상황에 맞춰 최적의 조합을 선택할 수 있습니다.

유전체 조립은 생명과학 분야에서 아주 기초적이지만 중요한 작업입니다. 앞으로 더 나은 기술이 개발되면 다양한 생물체의 게놈을 해독하고 분석할 수 있을 것입니다. 이를 통해 생명현상에 대한 이해를 넓힐 수 있을 거예요.

이상으로 생소한 주제였지만 재미있게 읽으셨나요? 다음에는 더 알기 쉽고 흥미로운 주제로 찾아오겠습니다.




gemini

차세대 시퀀싱 기술: 효모 게놈의 비밀을 밝히다!

안녕하세요, 생물 선생님들! 오늘은 여러분의 생물 수업을 더욱 풍성하게 만들어 줄 차세대 시퀀싱 기술에 대해 이야기 나누려고 합니다. 차세대 시퀀싱은 단순히 DNA를 읽는 기술을 넘어, 우리가 살아있는 세상에 대한 이해를 혁신하는 강력한 도구입니다.

차세대 시퀀싱이란 무엇일까요?
과거에는 DNA를 읽는 데 오랜 시간과 노력이 필요했지만, 차세대 시퀀싱 기술은 단 며칠 만에 수백억 개의 염기 서열을 읽을 수 있게 해줍니다. 이는 마치 거대한 책을 한 번에 읽는 것과 같습니다!

차세대 시퀀싱으로 무엇을 할 수 있을까요?
효모 게놈 비밀 탐구: 오늘 소개하는 연구는 차세대 시퀀싱 기술을 사용하여 효모 게놈의 완벽한 지도를 만들었습니다. 이는 효모가 어떻게 작동하고, 우리에게 어떤 영향을 미치는지 이해하는 데 큰 도움이 될 것입니다.
질병 진단: 차세대 시퀀싱 기술은 암, 유전 질환 및 감염성 질환 등 다양한 질병을 진단하는 데 사용될 수 있습니다. 이는 더 정확하고 개인 맞춤형 치료법 개발에 기여할 것입니다.
새로운 약물 개발: 차세대 시퀀싱 기술은 질병의 원인을 파악하고 새로운 약물 개발에 도움을 줄 수 있습니다. 이는 더 효과적이고 안전한 치료법 개발로 이어질 것입니다.
진화 연구: 차세대 시퀀싱 기술은 다양한 생물 종의 DNA를 비교 분석하여 진화 과정을 이해하는 데 도움을 줄 수 있습니다.

차세대 시퀀싱 기술이 생물 교육에 미치는 영향
차세대 시퀀싱 기술은 생물 교육에도 혁신을 가져올 수 있습니다.
실제 데이터 활용: 학생들은 실제 과학 연구에서 사용되는 DNA 데이터를 분석하고 해석하는 방법을 배울 수 있습니다.
개인 맞춤형 학습: 학생들의 DNA를 시퀀싱하여 개인의 유전적 특성에 맞는 학습 경험을 제공할 수 있습니다.
창의적인 과학 프로젝트: 학생들은 차세대 시퀀싱 기술을 사용하여 자신의 과학 프로젝트를 진행하고 새로운 생물학적 발견을 할 수 있습니다.

차세대 시퀀싱 기술은 생명 과학의 미래를 바꿀 잠재력을 지닌 강력한 도구입니다. 생물 선생님들은 이 기술을 활용하여 학생들에게 더욱 흥미롭고 의미 있는 학습 경험을 제공할 수 있습니다.


clova-x와 claude는 꽤 괜찮은 내용의 글을 작성해주었습니다. 반면에 gemini는 제목은 멋드러지게 뽑은 반면에 내용은... 무슨말을 하는지 알맹이가 없었습니다.

물론 질문이 모호하긴 했죠, 공립 중고등학교라니, 한국이냐 미국이냐에 따라 대도심 지역이나 지방소도시간의 차이도 있을 텐데... 그런것은 그냥 무시하고 글을 작성한 것 같기도 합니다. ㅎㅎ 



출처: @ye._.vely618


금요일, 1월 19, 2024

그렇다면 일루미나는 문제가 없을까?

이전 포스팅에서는 Ion torrent 데이터에 대해서 알아보았으니 이번에는 일루미나 데이터는 과연 괜찮은지 한번 알아보도록 하겠습니다.
그건 그렇고 이전 포스팅하고 꽤 오랜만에 하네요;;

Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform의 제목으로 amplicon 패널을 사용하여 일루미나 시퀀서의 편향과 에러에 대해서 한번 확인해봤다고 합니다.

DOI: https://doi.org/10.1093/nar/gku1341

이번에도 AI(Bing의 copilot입니다.)의 도움을 한번 받아보았습니다!!!


프롬프트
The following URL is a paper confirming the biases and errors of the Illumina MiSeq sequencer using the Amplicon panel, and the title is "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform."

https://doi.org/10.1093/nar/gku1341

I am planning to organize and post the contents of this paper on my blog. Please summarize the problems that may arise when using the Amplicon method using Illumina MiSeq. It is said that the data used in the paper was 16S rRNA data. If there was an error, please explain how you corrected the error and what method you used. Also, if there is an error in the data, please explain how to efficiently handle it. Please write the draft to be posted on the blog in Korean.



안녕하세요. 오늘은 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문을 소개하고자 합니다. 논문의 제목은 "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform"이고, 다음 URL에서 확인하실 수 있습니다.

https://doi.org/10.1093/nar/gku1341

이 논문에서는 16S rRNA 데이터를 사용하여 앰플리콘 방법을 이용한 시퀀싱의 문제점을 분석하였습니다. 앰플리콘 방법은 특정 DNA 영역을 증폭하여 시퀀싱하는 방법으로, 다양한 생물학적 응용에 사용됩니다. 그러나 이 방법에는 여러 가지 편향과 오류가 발생할 수 있습니다. 예를 들어, 증폭 과정에서 PCR 편향이나 증폭 돌연변이가 발생할 수 있고, 시퀀싱 과정에서는 인덱스 점프나 인덱스 오염, 품질 저하 등의 문제가 있을 수 있습니다.

이러한 편향과 오류는 시퀀싱 결과의 정확도와 신뢰도에 영향을 미칠 수 있으므로, 적절한 보정과 검증이 필요합니다. 이 논문에서는 일루미나 MiSeq 플랫폼을 사용하여 앰플리콘 시퀀싱을 수행한 데이터를 분석하고, 편향과 오류의 원인과 영향을 평가하였습니다. 또한, 편향과 오류를 줄이기 위한 몇 가지 방법을 제안하였습니다.

논문에서 사용한 데이터는 16S rRNA 데이터로, 박테리아의 다양성과 상대적 농도를 파악하기 위해 널리 사용되는 마커 유전자입니다. 16S rRNA 데이터는 앰플리콘 방법으로 쉽게 증폭할 수 있지만, 동시에 여러 가지 편향과 오류에 노출될 수 있습니다. 예를 들어, 16S rRNA 유전자는 다른 박테리아 간에 유사도가 높기 때문에, 인덱스 점프나 인덱스 오염이 발생하면 잘못된 분류가 될 수 있습니다. 또한, 16S rRNA 유전자는 GC 함량이 다양하기 때문에, PCR 편향이나 증폭 돌연변이가 발생하면 잘못된 상대적 농도가 산출될 수 있습니다.

논문에서는 이러한 편향과 오류를 검출하고 보정하기 위해 여러 가지 방법을 사용하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염을 줄이기 위해, 인덱스 디자인을 최적화하고, 인덱스 프라이머를 제거하는 단계를 추가하였습니다. 또한, PCR 편향이나 증폭 돌연변이를 줄이기 위해, PCR 사이클 수를 최소화하고, 증폭 조건을 표준화하였습니다. 그리고, 시퀀싱 품질을 향상시키기 위해, 품질 저하가 발생하는 시퀀싱 끝부분을 잘라내고, 품질 점수를 기준으로 필터링하였습니다.

이렇게 보정된 데이터를 사용하여, 박테리아의 다양성과 상대적 농도를 분석하였습니다. 그 결과, 보정 전과 후의 데이터에서는 박테리아의 종류와 비율에 차이가 있음을 확인하였습니다. 이는 앰플리콘 시퀀싱에 발생하는 편향과 오류가 데이터 해석에 영향을 미칠 수 있음을 보여줍니다. 따라서, 앰플리콘 시퀀싱을 수행할 때는 편향과 오류를 최소화하고, 보정하고, 검증하는 과정이 필수적임을 강조하고자 합니다.

이 논문에서는 편향과 오류를 줄이기 위한 방법 외에도, 발생한 편향과 오류를 해결하기 위한 방법도 제시하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염이 발생한 경우에는, 인덱스 정보를 이용하여 잘못된 분류를 수정하는 방법이 있습니다. 또한, PCR 편향이나 증폭 돌연변이가 발생한 경우에는, GC 보정이나 돌연변이 보정을 수행하는 방법이 있습니다. 이러한 방법들은 데이터의 정확도와 신뢰도를 더욱 높일 수 있습니다.

이상으로, 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문에 대해 소개하였습니다. 앰플리콘 시퀀싱은 매우 유용한 방법이지만, 동시에 주의가 필요한 방법이기도 합니다. 앰플리콘 시퀀싱을 수행하시는 분들께서는 이 논문을 참고하여, 데이터의 정확도와 신뢰도를 높이시기 바랍니다. 감사합니다.


라고 합니다.

좀 같은 말 늘려서 빙빙 돌려막는 느낌이 좀 들긴하지만....
그래도 짧지 않은 글을 작성해주니깐 좋은것 같습니다. :)








월요일, 2월 06, 2023

우리들의 Nanopore는 결핵균을 잘 시퀀싱하여 세계 공중 보건에 기여할 수 있을까?

Evaluation of Nanopore sequencing for Mycobacterium tuberculosis drug susceptibility testing and outbreak investigation: a genomic analysis

https://doi.org/10.1016/S2666-5247(22)00301-9 


그래서 한번 알아 보았습니다.

일루미나 일색인 시퀀싱 시장에 신성처럼 찾아온 (찾아왔지 떨어지지 않았습니다.) long-read sequencing의 이단아 ONT을 사용한 결핵균의 drug susceptibility testing (DST) 결과가 기존 일루미나 결과에 비해 부족하지 않고, 동등한 결과와 정보를 제공해 줄 수 있는지 확인해 보았습니다.


영국, 남아프리카등의 샘플을 MiSeq, HiSeq, NextSeq, MinION, GridION, PacBio 기기를 사용하여 시퀀싱 진행하였습니다. 물론 개별 시퀀서마다 동일한 샘플을 시퀀싱한 것은 아니고 영국샘플은 MiSeq, GridION에서, 남아프리카나 마다가스카르 샘플은 HiSeq, NextSeq, MinION에서 진행하였으나, 전체적으로 short와 long read 시퀀서간에 비교 할 수 있도록 디자인은 되었습니다.

일루미나는 UK에서 사용하는 COMPASS를 사용해서, Nanopore는 BCFtools를 사용하여 변이를 확인하였습니다.

그래서 일루미나와 Nanopore의 변이 결과를 확인해보니(본문의 figure1을 참고) 재현율이 다소 떨어지는 경향을 확인 할 수 있었습니다. 

Nanopore는 정밀도: 99.3%, 재현율: 90.2%

일루미나는 정밀도: 99.6%, 재현율: 91.9%

그리고 151개의 isolate(시퀀싱한 isolate는 208개이나 일루미나와 Nanopore를 동시에 비교 할 수 있는 데이터는 151개 였음)에서 66,537개의 저항성 변이가 call되었는데 일루미나와 Nanopore간에 4개의 차이밖에 보이지 않았다고 합니다. (이정도면 거의 동일한 수준 아닌가?)

그래서 결론은 우리 모두 예상하듯이 Nanopore 데이터로도 정밀한 변이 call이 가능함을 확인하였고, 그 결과 또한 일루미나와 동등한 수준이므로, 깨작 깨작 하지 말고 Nanopore를 이용해서 MTB 전체 서열을 한번에 분석해서 결과를 주면 좋지 않을까 기대하고 싶다. 되지 안하을까합니다.


본 저자는 ONT.L 주식을 (아직) 보유하고 있지 않습니다.










일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)


오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한  BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -


3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )




Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.


Sequencing Samples Bases(Gbp) Read(x106) Clean rare >Q20 >Q30 GC Mean coverage
BGISEQ500-WES 29.41 294.3 0.41% 96.72% 89.14% 49.75%  328.49X
MGISEQ2000-WES 16.34 163.55 0.25% 98.18% 92.08% 49.71%  129.40X
HiSeq4000-WES 41.93 283.7 4.46% 97.36% 93.01% 50.63%  395.17X
NovaSeq-WES 25.88 178.87 2.25% 95.33% 92.67% 49.73%  241.52X
BGISEQ500-WGS 126.86 1270.02 1.76% 93.73% 83.33% 41.76%  41.03X
MGISEQ2000-WGS 137.36 1374.87 0.21% 96.17% 88.19% 41.76%  45.13X
HiSeq4000-WGS 191 1276.1 8.25% 95.90% 90.11% 41.69%  58.00X
NovaSeq-WGS 98.3 657.45 1.28% 95.89% 93.86% 41.61%  28.96X
HiSeq Xten-WGS 134 894.58 7.29% 94.50% 87.63% 40.71%  38.93X
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ...  :)


출처: @sana_twice.09


토요일, 9월 07, 2019

Nextera DNA Flex는 모지?

이번글은 그냥 둘러보다가 알게된
일루미나에서 새로 나온듯한 Library Kit에 대해서 한번 알아보겠습니다.

모 나온지는 1-2년된듯한 라이브러리 Kit같습니다.

일루미나 라이브러리에 TruSeq이라는 라이브러리 킷외에 Nextera라는 라이브러리 킷이 하나더 있었다는건 나 좀 시퀀싱 읆어봤다 하시는 분이라면 다 알고 계실겁니다.

Nextera가 TruSeq과의 큰 차이점이라고 한다면 fragmentation과 tagging이 Transposome이라는 짜르고 붙이는 기능이 포함되어 있는 효소를 가지고 한다는 점일 겁니다.

지금까지 제가 알고 있었던 Transposome이 라는 녀석이 하단의 fig 2. 처럼 작동해서 fragmentation의 size가 broad하다는 것으로 알고 있었는데...

출처: Nextera DNA Library Prep Kits Data Sheet

그런데 최근 Nextera Library Kit에다가 재미있는 방법을 결합시켜서 이전보다 fragmentation과 tagging 작업을 더 효율적으로 바꾼것 같아보이네요

Bead-linked Transposome 바로 BLT 되겠습니다.


맛있겠다. 출처: 맥도널드 홈페이지


이게진짜 BLT 출처: 일루미나 홈페이지
Bead에 Transposome 를 붙여놓고 거기다가 DNA를 넣어서 슥하고 자르고
삭하고 PCR primer를 붙여버린다는...
물론 transposome의 단점은 그대로 가지고는 있다능
fragment size가 일정하지 않은데, 그리고 추가적으로 양쪽에 PCR primer가 각각 있어야되는데 그렇지 않은 애들은?
(그럼에도 불구하고 팔아먹고는 있네요.. ㅎㅎ )

그래도 이전 방법보다는 fragment size가 조금더 일정하게 나오지 않을까하는
그리고 사람 손은 한번은 덜 타니깐 조금은 나은 방법으로 발전하는게 아닌가 하고 생각은 드네요 ㅎㅎ







출처: @sana_twice.09




관련 자료

Nextera DNA Library Prep Kit Data Sheet

Nextera Infographic

Nextera DNA Flex

Bead-linked transposomes enable a normalization-free workflow for NGS library preparation (새로나온 라이브러리 킷의 일루미나논문입니다.)



수요일, 1월 15, 2014

NGS 물량공세 플랫폼 오픈



오늘 페북에 내 스팸 메일 제외하고
가장 핫한 이슈는 일루미나가 새로운 NGS기계를 내놓았고
그걸 마크로젠이 냉큼 구매했다는 이야기...

>Illumina Sequencing System Spec<

물량으로는 일루미나는 때려잡아도 못잡을듯..
결과가 TB단위가 나올줄이야... ㅋㅋ

그리고 HiSeq X Ten 이름에 있는 것과 같이
HiSeq X를 사려면 10대라는 최소 주문 수량을 만족해야 한다는...
"우리 일루미나 고객님들은 쪼잔하지 않아요"가 2014년도 일루미나 슬로건인가? ㅎㅎ

일년에 한두번씩 휴양지에서 세미나 개최해서 초정도 해주고 그런것 같다만...
이게 무슨 청첩장도 아니고 최소 주문 수량을...;;;; ㅎㅎ

여하튼...
일루미나 덕분에
Open the real hell gate... ㅋㅋ

목요일, 9월 27, 2012

그렇게 좋은 PacBio에 손이 안가는 이유...

"진정 우리꺼는 여러분들에게 좋으면 좋지
해를 안끼친다는.... "

- PacBio 본사 시니어 연구원느님의 발표


그렇게해도 PacBio는 정이 안간다는 ㅎㅎ

Illumima/ Life Tech.는 "우리거 좋아, 한번 써봐" (라는 우리꺼 안쓰면 니네 좀 후회할껄?)라는 느낌이라면,

PacBio는 "이번 논문에도 나왔듯이 우리꺼쓰면 울트라 캡숑 짱 따봉 좋아요 한번 써보세요" (라는 느낌?)

점심먹으면서 K군과 담소를 나누면서
Microorganism/ Meta genome 분야에서는 454에 비해 확실히 경쟁력이 있는데
(미국에서 1K Fungal genome project에서 PacBio를 사용하고 있다고 합니다.)
그외에는 과연 얼마나 경쟁력이 있는지... 잘 모르겠다는.... ㅎㅎㅎㅎ

그리고 제일 중요한건,

개인적으로 PacBio를 선듯 사용하지 못하는 이유는
비용문제에 대해서 확실한 해결책을 제시하지 못하고 있다는것도 큰 문제인듯..

PacBio를 가장 괴롭히는 것이 Error ratio문제인데
어차피 random error니깐 depth가 많으면 된다는 점~

다만, 다른 시퀀서의 QV를 맞추기위해 그 depth만큼
시퀀싱을 하면 비용 증가로 이어진다는것.

지구상에 재료비에 제한을 두지 않고 풍족하게 사용가능한 랩을 제외하고
사용 가능한 QV에 맞는 depth만큼 시퀀싱할 랩 아니면 ㅎㄷㄷㄷ

모 어차피 시퀀싱 업체에 맡기면 되니깐~  :)

ps. 약간의 글 수정이 있었습니다.
ㄴㅈㅊ에 다니는 지인의 염려가 있어 약간 수정을 하였습니다.
기술적인 부분이 아닌 현실적인 문제인 비용문제에 대해서 언급했으니
모 문제가 있겠냐마는.. ㅎㅎㅎㅎ

월요일, 9월 10, 2012

Illumina Adapter Sequence


Illumina Sequencing에서 사용되는
Adapter중 TruSeq (분석할때 받는 데이터들이 다 요녀석으로 되어 있어서...) DNA/RNA Adapter Sequence를 확인해서 확인해봤습니다. ㅎㅎ


Type
Sequence
TruSeq Universal Adapter
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT
TruSeq Adapter, Index 1
GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCACGATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 2
GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGATGTATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 3
GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTAGGCATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 4
GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGACCAATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 5
GATCGGAAGAGCACACGTCTGAACTCCAGTCACACAGTGATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 6
GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCCAATATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 7
GATCGGAAGAGCACACGTCTGAACTCCAGTCACCAGATCATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 8
GATCGGAAGAGCACACGTCTGAACTCCAGTCACACTTGAATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 9
GATCGGAAGAGCACACGTCTGAACTCCAGTCACGATCAGATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 10
GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAGCTTATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 11
GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGCTACATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 12
GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTTGTAATCTCGTATGCCGTCTTCTGCTTG


나중에 급할때 찾기 좀 애매해서...
요기다가 급 정리 ㅎㅎ

데이터 받았는데 TruSeq DNA/RNA Adapter인데 Index 12번보다 큰 경우
TruSeq Small RNA Index를 사용하는 것이라고 하네요
기본적인 Adapter sequence는 TruSeq DNA/RNA 인데 Index만 TruSeq Small RNA..
모 그렇다고 합니다. :)

좀더 자세한 Illumina Adapter Sequence에 대해서 알고 싶다면
다음 링크 참조 LINK