레이블이 Amplicon인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Amplicon인 게시물을 표시합니다. 모든 게시물 표시

일요일, 6월 09, 2024

DADA2 돌아보기

오늘은 microbiome작업에서 많이 사용되는 DADA2에 대해서 한번 돌아보도록 하겠습니다. 제가 micriobiome 작업을 했을때 qiime1을 가지고 가내수공업으로 만들 때여서 사실 당시 나왔었던 최신 tool은 잘 몰랐었습니다. 

많은 시간이 흘러 최근에 qiime2 작업을 코치 해주면서 DADA2가 qiime2에 기본 툴로 들어앉은것 같아서(?아니었나요? ) 한번 물어보았습니다.

논문 제목은 DADA2: High resolution sample inference from Illumina amplicon data 이고, 

>여기< 에서 무료로 논문을 보실 수 있습니다.

DOI: 10.1038/nmeth.3869


gemini

## DADA2: 미생물 군집 연구를 위한 강력한 도구

미생물 군집 연구는 미생물이 서로 어떻게 상호 작용하고 우리 건강에 어떤 영향을 미치는지를 이해하는 데 중요합니다. Illumina 앰플리콘 시퀀싱은 미생물 군집을 연구하는 데 가장 일반적으로 사용되는 방법 중 하나입니다. 하지만 Illumina 앰플리콘 데이터는 오류가 많아 분석하기 어려울 수 있습니다.

DADA2는 Illumina 앰플리콘 데이터의 오류를 모델링하고 수정하는 오픈 소스 R 패키지입니다. DADA2는 OTU(Operational Taxonomic Units)를 생성하지 않고 샘플 시퀀스를 정확하게 추론하며, 1개 뉴클레오티드만큼 작은 차이도 해결합니다. 

DADA2는 이전의 Illumina sequence amplicon 기반 microbiome 분석 패키지들과 다음과 같은 차이점이 있습니다.

**정확성**: DADA2는 OTU 기반 방법보다 더 정확하게 샘플 시퀀스를 추론합니다.

**고해상도**: DADA2는 1개 뉴클레오티드만큼 작은 차이도 해결할 수 있습니다.

**오류 감소**: DADA2는 다른 방법들보다 더 적은 오류 시퀀스를 출력합니다.

**오픈 소스**: DADA2는 오픈 소스 R 패키지입니다.

DADA2는 여러 모의 커뮤니티에서 다른 방법들보다 더 많은 실제 변형을 식별하고 더 적은 오류 시퀀스를 출력했습니다. DADA2는 임신 여성 집단의 질 샘플에 적용하여 이전에 감지되지 않았던 다양한 Lactobacillus crispatus 변형을 발견했습니다.

DADA2는 미생물 군집 연구를 위한 강력한 도구입니다. DADA2는 샘플 시퀀스를 더 정확하게 추론하고 OTU 기반 방법보다 더 많은 정보를 제공합니다. DADA2는 미생물 군집의 세부적인 변형을 연구하고자 하는 연구자들에게 유용한 도구입니다.

## DADA2 사용 방법

DADA2는 공식 웹사이트([유효하지 않은 URL 삭제됨] 다운로드할 수 있습니다. DADA2 사용 방법에 대한 자세한 내용은 DADA2 사용자 매뉴얼([유효하지 않은 URL 삭제됨] 참조하십시오.

## DADA2 활용 사례

DADA2는 다음과 같은 다양한 연구에 사용되었습니다.

* **인간 장 미생물 군집 분석**([https://pubmed.ncbi.nlm.nih.gov/35105664/])

* **질 미생물 군집 분석**([https://pubmed.ncbi.nlm.nih.gov/22911732/])

* **피부 미생물 군집 분석**([https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8498027/])

* **환경 미생물 군집 분석**([https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10971298/])

## DADA2에 대한 자세한 정보

DADA2에 대한 자세한 내용은 다음 리소스를 참조하십시오.

* **DADA2 공식 웹사이트**: [https://benjjneb.github.io/dada2/]

* **DADA2 사용자 매뉴얼**: [https://www.bioconductor.org/packages/devel/bioc/manuals/dada2/man/dada2.pdf]

* **DADA2 GitHub 리포지토리**: [https://github.com/benjjneb/dada2]

* **DADA2 논문**: [https://www.nature.com/articles/nmeth.3869]


clova-x

 DADA2는 Illumina-sequenced amplicon errors를 모델하고 교정하는 데에 사용되는 소프트웨어 패키지입니다. 이 패키지는 에러를 모델화하고 교정하는 기능을 제공하여 정확한 시퀀싱 결과를 얻을 수 있도록 도와줍니다.

DADA2는 이전의 illumina sequence amplicon 기반의 microbiome 분석 패키지들과는 몇 가지 차이점이 있습니다. 예를 들어, 이전의 패키지들은 sequence variants를 그룹화하여 분석하였으나, DADA2는 sequence variants를 개별적으로 분석합니다. 또한, 이전의 패키지들은 분석 결과를 도출하기 위해 일정한 dissimilarity threshold를 사용하였으나, DADA2는 이를 사용하지 않습니다.

DADA2는 이전의 패키지들보다 더 정확한 분석 결과를 제공합니다. 예를 들어, 이전의 패키지들은 sequence variants를 그룹화하여 분석하기 때문에, 개별적인 sequence variants를 정확하게 구분하지 못하는 경우가 있었습니다. 그러나 DADA2는 sequence variants를 개별적으로 분석하기 때문에, 더 정확한 분석 결과를 제공합니다.

DADA2는 microbiome 분석 분야에서 매우 유용한 도구 중 하나입니다. 이 도구를 사용하면 microbiome 분석의 정확도를 높일 수 있으며, 이를 통해 인간과 환경의 건강에 중요한 역할을 하는 미생물 군집의 특성을 더욱 잘 이해할 수 있습니다.


chatGPT

### DADA2: 정밀한 마이크로바이옴 분석을 위한 혁신적 도구

마이크로바이옴 분석은 다양한 환경에서 미생물 군집의 구성과 기능을 이해하는 데 중요한 역할을 합니다. 특히, Illumina 시퀀싱은 이러한 분석에 널리 사용되지만, 시퀀싱 과정에서 발생하는 오류는 정확한 결과를 도출하는 데 걸림돌이 될 수 있습니다. 이러한 문제를 해결하기 위해 개발된 DADA2는 기존의 분석 패키지들과는 다른 혁신적인 접근 방식을 제시합니다. 이번 글에서는 DADA2의 주요 특징과 기존 도구들과의 차이점을 살펴보겠습니다.

#### DADA2란 무엇인가?

DADA2(Divisive Amplicon Denoising Algorithm 2)는 Illumina 시퀀싱된 암플리콘 데이터의 오류를 모델링하고 수정하여 정확한 시퀀스를 추출하는 소프트웨어 패키지입니다. DADA2는 OTU(Operational Taxonomic Units) 대신 ASV(Amplicon Sequence Variants) 기반 접근 방식을 사용하여 시퀀스를 독립적으로 식별합니다. 이를 통해 최소한의 뉴클레오타이드 차이까지 구분하여 실제 생물학적 변이를 정확히 파악할 수 있습니다.

#### DADA2의 주요 기능

1. **오류 수정**: DADA2는 시퀀싱 과정에서 발생하는 오류를 명시적으로 모델링하고 수정하여 정확한 시퀀스를 추출합니다.

2. **미세 변이 구분**: 샘플 내의 실제 시퀀스를 정확히 추론하여 생물학적 변이를 세밀하게 식별합니다.

3. **전체 워크플로우 지원**: 필터링, 중복 제거, 키메라 식별, 페어드엔드 리드 병합 등 전체 암플리콘 분석 워크플로우를 통합하여 제공합니다.

4. **참조 없이 적용 가능**: 참조 시퀀스 없이 어떤 유전적 위치에도 적용할 수 있어 다양한 연구에 활용 가능합니다.

#### 기존 패키지들과의 차이점

1. **오류 모델링 및 수정**:

   - DADA2는 오류를 명시적으로 모델링하고 수정하여 시퀀스 정확도를 높입니다.

   - 기존 패키지들(예: UPARSE, QIIME, mothur)은 일반적으로 오류를 명시적으로 모델링하지 않거나, 오류 수정을 위한 간단한 필터링 단계만 포함합니다.

2. **미세 변이 구분**:

   - DADA2는 최소한의 뉴클레오타이드 차이까지 구분하여 실제 시퀀스 변이를 정확히 식별합니다.

   - 기존 패키지들은 일반적으로 일정한 유사성 기준(예: 97%)에 따라 시퀀스를 OTU로 클러스터링하여 미세 변이를 구분하지 못할 수 있습니다.

3. **OTU 기반 vs. ASV 기반**:

   - DADA2는 ASV 기반 접근 방식을 사용하여 각 시퀀스 변종을 독립적으로 식별합니다.

   - 기존 패키지들은 OTU 기반 접근 방식을 사용하여 시퀀스를 그룹으로 묶습니다.

4. **잘못된 시퀀스 출력 감소**:

   - DADA2는 잘못된 시퀀스의 출력을 최소화하여 정확한 결과를 도출합니다.

   - 기존 패키지들은 잘못된 시퀀스가 상대적으로 더 많이 포함될 수 있습니다.

#### DADA2의 실제 적용 사례

DADA2는 다양한 연구에서 높은 정확성을 입증하였습니다. 예를 들어, 임산부의 질 샘플에서 다양한 Lactobacillus crispatus 변종을 발견하였으며, 쥐의 대변 샘플에서도 다양한 변종을 식별하는 데 성공하였습니다. 이는 DADA2가 기존 도구들보다 높은 해상도로 시퀀스 변이를 재구성할 수 있음을 보여줍니다.

#### 결론

DADA2는 기존의 OTU 기반 방법보다 더 정밀하게 미세 변이를 식별할 수 있는 혁신적인 도구입니다. 이를 통해 연구자들은 마이크로바이옴 생태계를 더욱 정확하게 이해하고, 생물 다양성과 차이를 정밀하게 측정할 수 있습니다. 마이크로바이옴 연구의 새로운 장을 열어줄 DADA2, 지금 바로 활용해 보세요!


claude

여기 DADA2에 대한 블로그 글을 작성해봤습니다:

제목: DADA2 - Illumina Amplicon 데이터의 정확한 서열 변이체 탐지

안녕하세요, 미생물 연구자 여러분!

오늘은 Illumina amplicon 시퀀싱 데이터 분석을 위한 혁신적인 새 패키지 DADA2에 대해 소개하겠습니다. 

지금까지 대부분의 amplicon 분석 방법들은 유사한 서열들을 97% 이상의 유사도를 가진 OTU(Operational Taxonomic Unit)로 클러스터링해왔습니다. 하지만 이 접근법은 종종 실제 존재하는 미세한 수준의 서열 변이체들을 감지하지 못했습니다. 단일 뉴클레오타이드 차이만으로도 병원체와 정상균주를 구분할 수 있는 상황에서, 이러한 미세 변이체 정보의 상실은 큰 문제가 될 수 있습니다.

DADA2는 바로 이 문제를 해결하기 위해 개발된 소프트웨어 패키지입니다. DADA2는 OTU 클러스터링 없이 Illumina amplicon 시퀀싱 데이터에서 정확한 생물학적 서열 변이체를 직접 추론할 수 있습니다. 이를 위해 DADA2는 Illumina 시퀀싱 에러를 모델링하는 새로운 품질 인지 모델을 도입했습니다. 

DADA2의 주요 특징들:

1. OTU 클러스터링 없이 단일 뉴클레오타이드 수준까지 서열 변이체 해결 가능

2. Illumina 시퀀싱 에러 모델링 및 제거를 통한 정확한 서열 추론

3. 참조 서열 없이 새로운 변이체 탐지 가능한 참조 무관 방식

4. 필터링, 디복제, 키메라 식별, 페어드 엔드 병합 등 통합 amplicon 분석 파이프라인 제공

여러 모의 커뮤니티 데이터셋 벤치마킹에서 DADA2는 기존 방법들보다 실제 변이체를 더 많이 찾아내고 오류 서열은 적게 출력했습니다. 또한 임신부 질 샘플 분석에서 DADA2는 이전에 발견되지 않았던 Lactobacillus crispatus 변이체들의 다양성을 드러냈습니다.

DADA2를 사용하면 지금까지 OTU 클러스터링의 제약으로 인해 놓쳐왔던 미생물 군집의 미세 수준 변이 정보를 활용할 수 있게 됩니다. 이를 통해 병원성 균주 탐지, 시간에 따른 군집 동태 이해, 미생물 진화 및 계통 분석 등 다양한 연구에 새로운 해석이 가능해질 것입니다.

DADA2에 대해 더 자세히 알아보시려면 Nature Methods 저널에 실린 원문과 Benjjneb/dada2 Github, Bioconductor 3.3 릴리즈를 참고하세요. 여러분 연구에 DADA2가 많은 도움이 되기를 바랍니다!


gemini가 간만에 실력발휘를 했습니다. 논문을 정확히 이해했고, DADA2의 활용사례까지 보여주었습니다!!!! (근데 "질 미생물 군집 분석"은 다른 논문을 링크달았더라구요;;) 

그리고 chatGPT가 OTU vs ASV라는 것을 제시했는데 ASV(Amplicon sequence variant)는 사실 이 논문 이후에 정립된 용어 같은데 (이 논문에서는 ASV가 업급되지 않았습니다.) 요약 글 내용에서 ASV가.... 이게 hallucination인지... 이전에 학습한 내용 중 유사한 내용이 있어서 가지고 온것인지... 어찌됐든 chatGPT 내용보다가 깜놀했네요. 

claude는 언제나 자연스러운 내용을 하사해주고 있습니다.

오늘은 gemini가 제대로 답변을 해줬고, chatGPT가 제시하지 않은 개념도 알아서 가져다 썼다는것에 살짝...



출처: @ye._.vely618


화요일, 4월 02, 2024

누가 누가 BRCA를 잘 검사할까?

근데.. 그걸 논하기에는 2018년 논문이라서.. 의미가 있을지는 모르겠지만..

NGS를 이용한 BRCA1/2 Kit을 가지고 상호 벤치마킹 한 결과 되겠습니다.

논문 제목은 Benchmarking of Amplicon-Based Next-Generation Sequencing Panels Combined with Bioinformatics Solutions for Germline BRCA1 and BRCA2 Alteration Detection 이고,

doi는 10.1016/j.jmoldx.2018.06.003 입니다.


우선 gemini에게 논문 내용을 바탕으로 블로그에 올릴 글을 작성해달라고 했습니다.


## BRCA 검사란 무엇일까요?

BRCA 검사는 유방암과 난소암 발병 위험을 높일 수 있는 BRCA1 및 BRCA2 유전자의 돌연변이를 확인하는 검사입니다. BRCA 유전자는 DNA 손상을 복구하는 데 중요한 역할을 하는데, 이 유전자에 돌연변이가 발생하면 암 발생 위험이 크게 증가할 수 있습니다.


## BRCA 검사 방법에는 어떤 것들이 있을까요?

**1. 혈액 검사:**

가장 일반적인 BRCA 검사 방법입니다. 혈액 검사를 통해 BRCA1 및 BRCA2 유전자의 전체 또는 일부를 분석하여 돌연변이를 확인합니다.

**2. 조직 검사:**

암 진단 후 조직 검사를 통해 BRCA 유전자 돌연변이를 확인할 수 있습니다. 

**3. 가족력 기반 검사:**

가족 중에 유방암이나 난소암 환자가 있는 경우, 가족력 기반 검사를 통해 BRCA 유전자 돌연변이 위험을 평가할 수 있습니다.


## BRCA 검사는 누가 받아야 할까요?

다음과 같은 경우 BRCA 검사를 고려해 볼 수 있습니다.

* 유방암이나 난소암 진단을 받은 경우

* 가족 중에 유방암이나 난소암 환자가 있는 경우

* 유방암 또는 난소암 발병 위험이 높다고 판단되는 경우


## BRCA 검사를 받기 전에 주의해야 할 것들

* BRCA 검사 결과는 암 발병 여부를 확실하게 알려주는 것이 아닙니다.

* BRCA 검사 결과에 따라 심리적인 부담을 느낄 수 있습니다.

* BRCA 검사 결과는 유전 상담을 통해 해석하는 것이 중요합니다.


## BRCA 검사 후 주의해야 할 것들

* BRCA 유전자 돌연변이가 확인된 경우, 정기적인 검진 및 예방 조치를 취해야 합니다.

* BRCA 검사 결과는 가족들에게 공유하는 것이 중요합니다.


## BRCA 검사는 암 예방 및 조기 발견에 중요한 역할을 할 수 있습니다. 그러나 검사를 받기 전에 충분한 정보를 얻고, 유전 상담을 통해 검사 결과를 해석하는 것이 중요합니다.



다음은 clova-x에게 블로그에 올릴 글 하나 작성해달라고 하였습니다.


제목: BRCA 검사, 어떤 방법이 가장 정확할까?

유방암과 난소암은 여성들에게 매우 치명적인 질환입니다. 이러한 질환의 발생 위험을 미리 예측하고 예방하기 위해서는 유전자 검사가 필요합니다. 그 중에서도 BRCA1과 BRCA2 유전자 검사는 유방암과 난소암의 발생 위험을 예측하는 데 매우 중요한 역할을 합니다.

BRCA 검사는 BRCA1과 BRCA2 유전자의 변이를 확인하는 검사입니다. 이 유전자는 유방암과 난소암의 발생에 중요한 역할을 합니다. 만약 이 유전자에 변이가 있다면, 유방암과 난소암의 발생 위험이 높아집니다. 따라서, BRCA 검사를 통해 자신의 유전자 변이 여부를 확인하고, 이에 따라 적절한 예방과 치료를 받을 수 있습니다.

BRCA 검사에는 다양한 방법이 있습니다. 대표적인 방법으로는 다음과 같은 것들이 있습니다.

1.**PCR 기반 검사**: 가장 일반적인 방법으로, 유전자의 특정 부위를 증폭하여 변이 여부를 확인합니다. 검사 비용이 저렴하고, 검사 결과를 빠르게 얻을 수 있습니다. 하지만, 검사 정확도가 다소 떨어질 수 있습니다.

2.**NGS 기반 검사**: 유전자 전체를 시퀀싱하여 변이 여부를 확인합니다. 검사 정확도가 매우 높고, 다양한 종류의 변이를 검출할 수 있습니다. 하지만, 검사 비용이 비싸고, 검사 결과를 얻기까지 시간이 오래 걸립니다.

3.**액세스 배열 기반 검사**: 마이크로어레이 기술을 이용하여 유전자의 변이를 검출합니다. 검사 정확도가 높고, 검사 결과를 빠르게 얻을 수 있습니다. 하지만, 검사 비용이 비싸고, 검사 대상 유전자가 제한적입니다.

BRCA 검사는 유방암과 난소암의 예방과 치료에 매우 중요한 역할을 합니다. 하지만, 검사 결과를 해석하고, 이에 따라 적절한 예방과 치료를 받는 것은 쉽지 않습니다. 따라서, 검사를 받기 전에 전문가의 조언을 듣는 것이 중요합니다.

BRCA 검사는 개인의 유전 정보를 다루는 검사이기 때문에, 검사 결과가 유출될 경우 개인의 사생활 침해 문제가 발생할 수 있습니다. 따라서, 검사를 받을 때는 검사 기관의 보안 시스템을 확인하고, 검사 결과를 안전하게 보관하는 것이 중요합니다.

유방암과 난소암은 여성들에게 매우 치명적인 질병입니다. 하지만, BRCA 검사를 통해 자신의 유전자 변이 여부를 확인하고, 이에 따라 적절한 예방과 치료를 받으면, 이들 질병의 발생 위험을 줄일 수 있습니다. 따라서, 여성들은 BRCA 검사에 대해 적극적으로 관심을 가지고, 전문가의 조언을 듣는 것이 중요합니다.


gemini를 쓰면서 느끼는 것은 답변의 대부분을 개조식으로 요약만 하는 듯 한 느낌을 많이 받았습니다. 난 문장으로 작성해달라고 했는데.. 결국 개조식으로 답변을... 

그리고 이번 같은 경우 구글 드라이브에 논문 파일을 업로드해서 정리하라고 했는데... 논문 내용이 아닌 일반적인 내용을 냅다 읊조리는 듯한 건 저만 느끼는건 아니죠?

반면에 클로바X는 그럭저럭 사용자가 요구한것을 잘 맞추려고 노력한 모습이 역력합니다. 

다만 논문 내용과는 전혀 상관없는 PCR 검사 방법을 언급했는데.. 이건 아마 Ion AmpliSeq BRCA1/2의 AmpliSeq 떄문에 그런것 같아 보입니다. 그리고 추가적인 질문으로 벤치마킹한 패널들에 대해서 자세히 설명하라고 했었는데 이때 다른 BRCA HC와 함께 BRCA Tumor을 설명 할때 BRCA Tumor를 BRCA 조직에서 변이를 분석하는 방법이라고 적어놓는 해프닝도 있었습니다. 아직 도메인 지식이 부족하여 생긴 혼선이지 않았을까하네여, 

그래도 이번 프롬프트에서는 다국적 gemini보다는 사용자가 의도한 대로 결과물을 준 것은 클로바 X 같아 보였습니다. 프롬프터의 실력 향상이 더 필요해 보이긴 합니다. 



출처: @ye._.vely618

금요일, 1월 19, 2024

그렇다면 일루미나는 문제가 없을까?

이전 포스팅에서는 Ion torrent 데이터에 대해서 알아보았으니 이번에는 일루미나 데이터는 과연 괜찮은지 한번 알아보도록 하겠습니다.
그건 그렇고 이전 포스팅하고 꽤 오랜만에 하네요;;

Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform의 제목으로 amplicon 패널을 사용하여 일루미나 시퀀서의 편향과 에러에 대해서 한번 확인해봤다고 합니다.

DOI: https://doi.org/10.1093/nar/gku1341

이번에도 AI(Bing의 copilot입니다.)의 도움을 한번 받아보았습니다!!!


프롬프트
The following URL is a paper confirming the biases and errors of the Illumina MiSeq sequencer using the Amplicon panel, and the title is "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform."

https://doi.org/10.1093/nar/gku1341

I am planning to organize and post the contents of this paper on my blog. Please summarize the problems that may arise when using the Amplicon method using Illumina MiSeq. It is said that the data used in the paper was 16S rRNA data. If there was an error, please explain how you corrected the error and what method you used. Also, if there is an error in the data, please explain how to efficiently handle it. Please write the draft to be posted on the blog in Korean.



안녕하세요. 오늘은 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문을 소개하고자 합니다. 논문의 제목은 "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform"이고, 다음 URL에서 확인하실 수 있습니다.

https://doi.org/10.1093/nar/gku1341

이 논문에서는 16S rRNA 데이터를 사용하여 앰플리콘 방법을 이용한 시퀀싱의 문제점을 분석하였습니다. 앰플리콘 방법은 특정 DNA 영역을 증폭하여 시퀀싱하는 방법으로, 다양한 생물학적 응용에 사용됩니다. 그러나 이 방법에는 여러 가지 편향과 오류가 발생할 수 있습니다. 예를 들어, 증폭 과정에서 PCR 편향이나 증폭 돌연변이가 발생할 수 있고, 시퀀싱 과정에서는 인덱스 점프나 인덱스 오염, 품질 저하 등의 문제가 있을 수 있습니다.

이러한 편향과 오류는 시퀀싱 결과의 정확도와 신뢰도에 영향을 미칠 수 있으므로, 적절한 보정과 검증이 필요합니다. 이 논문에서는 일루미나 MiSeq 플랫폼을 사용하여 앰플리콘 시퀀싱을 수행한 데이터를 분석하고, 편향과 오류의 원인과 영향을 평가하였습니다. 또한, 편향과 오류를 줄이기 위한 몇 가지 방법을 제안하였습니다.

논문에서 사용한 데이터는 16S rRNA 데이터로, 박테리아의 다양성과 상대적 농도를 파악하기 위해 널리 사용되는 마커 유전자입니다. 16S rRNA 데이터는 앰플리콘 방법으로 쉽게 증폭할 수 있지만, 동시에 여러 가지 편향과 오류에 노출될 수 있습니다. 예를 들어, 16S rRNA 유전자는 다른 박테리아 간에 유사도가 높기 때문에, 인덱스 점프나 인덱스 오염이 발생하면 잘못된 분류가 될 수 있습니다. 또한, 16S rRNA 유전자는 GC 함량이 다양하기 때문에, PCR 편향이나 증폭 돌연변이가 발생하면 잘못된 상대적 농도가 산출될 수 있습니다.

논문에서는 이러한 편향과 오류를 검출하고 보정하기 위해 여러 가지 방법을 사용하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염을 줄이기 위해, 인덱스 디자인을 최적화하고, 인덱스 프라이머를 제거하는 단계를 추가하였습니다. 또한, PCR 편향이나 증폭 돌연변이를 줄이기 위해, PCR 사이클 수를 최소화하고, 증폭 조건을 표준화하였습니다. 그리고, 시퀀싱 품질을 향상시키기 위해, 품질 저하가 발생하는 시퀀싱 끝부분을 잘라내고, 품질 점수를 기준으로 필터링하였습니다.

이렇게 보정된 데이터를 사용하여, 박테리아의 다양성과 상대적 농도를 분석하였습니다. 그 결과, 보정 전과 후의 데이터에서는 박테리아의 종류와 비율에 차이가 있음을 확인하였습니다. 이는 앰플리콘 시퀀싱에 발생하는 편향과 오류가 데이터 해석에 영향을 미칠 수 있음을 보여줍니다. 따라서, 앰플리콘 시퀀싱을 수행할 때는 편향과 오류를 최소화하고, 보정하고, 검증하는 과정이 필수적임을 강조하고자 합니다.

이 논문에서는 편향과 오류를 줄이기 위한 방법 외에도, 발생한 편향과 오류를 해결하기 위한 방법도 제시하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염이 발생한 경우에는, 인덱스 정보를 이용하여 잘못된 분류를 수정하는 방법이 있습니다. 또한, PCR 편향이나 증폭 돌연변이가 발생한 경우에는, GC 보정이나 돌연변이 보정을 수행하는 방법이 있습니다. 이러한 방법들은 데이터의 정확도와 신뢰도를 더욱 높일 수 있습니다.

이상으로, 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문에 대해 소개하였습니다. 앰플리콘 시퀀싱은 매우 유용한 방법이지만, 동시에 주의가 필요한 방법이기도 합니다. 앰플리콘 시퀀싱을 수행하시는 분들께서는 이 논문을 참고하여, 데이터의 정확도와 신뢰도를 높이시기 바랍니다. 감사합니다.


라고 합니다.

좀 같은 말 늘려서 빙빙 돌려막는 느낌이 좀 들긴하지만....
그래도 짧지 않은 글을 작성해주니깐 좋은것 같습니다. :)








수요일, 10월 04, 2023

WES를 하는데 Capture가 좋을까 Amplicon이 좋을까?

Evaluation of Hybridization Capture Versus Amplicon-Based Methods for Whole-Exome Sequencing 라는 제목의 WES(Whole Exome Sequencing)를 하는데 Hybridization Capture가 좋은지 Amplicon이 좋은지 비교해본 논문이 있어 한번 들여다 보았습니다.

doi: 10.1002/humu.22825

사실 2023년 현재 WES를 하는데 Amplicon을 한다고 저는 말리지는 않겠지만, WES를 Amplicon으로? 라고 왜 Amplicon으로 하는지 궁금한 눈빛으로 바라보긴 할 것 같습니다.

이 논문은 당연히 2015년에 출판된 논문으로, 그 때 당시에는 한번 짚고 넘어가야 할 수 밖에 없는 내용이었고, 당시에 이런 벤치마킹 연구를 해주었기 때문에 현재 우리가 큰 의심없이 WES할 때는 Capture지를 외칠 수 있지 않나 합니다.

물론 가까운 시일내에 고성능의 간섭 없는 Amplicon 방법이 개발되면, 2025년에는 WES는 Amplicon이지! 할지 누가 또 알겠습니까 :)

여튼 논문에서는 2015년 당시 대표적으로 사용되던 Capture 방법 2가지(SureSelect, SeqCap)와 Amplicon 방법 2가지(HaloPlex, AmpliSeq) 를 상호 비교해보았습니다.

아직도 SeqCpa과 HaloPlex로 생성된 데이터를 한번도 만져보지를 못해서 얼마나 데이터가 깨끗한지, 쓸만한지는 모르겠습니다. 다만 SureSelect와 AmpliSeq은 지금도 사용하고 있으니 그 기술을 꼭 알아야 할까 하는 의문이 있습니다.

그리고 시료로는 변이들이 잘 정의된 것들을 사용하지 않았나 싶네요

BT-20, MCF-7, HCC-2218, HCC-2218BL 4개 셀라인을 사용한듯 싶습니다.

그리고 결과 비교 중에 SNP말고도 copy number를 확인하는데 copy number 확인을 위해  Affy사의 SNP Array 6.0도 함께 진행하여 HCC-2218, HCC-2218BL의 copy number를 확인 하였습니다. 굳이 NGS를 하는데 microarray도 해야돼? 라는 생각이 드셨다면, 이 논문이 발표된 시점이 2015년이란것을 잊지 않으셨으면 합니다. :)

그래서 이런저런 당시 일반적으로 사용되었던 정렬 툴과 각 Library에 적합한 정렬 툴을 사용하여 정렬하고, 다음에는 각각 SNV와 InDel, Copy Number 관련된 분석 툴을 사용하여 비교해보았고,

지금의 우리가 알고있는것과 동일하게 Capture방식이 Amplicon 방식보다 시쿼싱 복잡성(? 이건 어떤의미인지 잘 모르겠습니다.)과 균일성 (Uniformity)관련해서 더 좋은것을 확인했고, 위양성 변이가 탐지될 가능성도 적음을 확인했다고 합니다.

그러니 WES 할 때는 안심하고 Capture 방식 사용하세요 되겠습니다.



 출처: @ye._.vely618