레이블이 Trimming인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Trimming인 게시물을 표시합니다. 모든 게시물 표시

일요일, 5월 12, 2024

이번에는 누가누가 어답타 제거를 잘할까?

오늘도 Tool 벤치마킹하는 자료를 한번 가져와봤습니다.

제목은 Benchmarking software tools for trimming adapters and merging next-generation sequencing data for ancient DNA 이고,

DOI는 10.3389/fbinf.2023.1260486 입니다.

음... 비교하는 툴이긴 한데 그 목적이 고대의 DNA, 음... 쥬라기공원과 같은 공룡의 DNA를 복원하려는 분들도 있겠지만... 아마 여기서 얘기하는 고대의 DNA는 유적지들에서 발견되는 DNA들을 얘기하지 않을까 합니다.

여튼 어렵게 얻은 샘플로 시퀀싱을 했는데 분석의 전처리 격인 adpater와 같은 불필요한 데이터 처리를 잘못해서 잘못된 결과나 정작 우리가 필요로 했던 데이터가 유실되면 안되기 떄문에 기존에 알려져 있는 trimming이나 QC하는 tool 중에서 적합한 것을 찾아보려고 했던 것 같습니다.

그래서 7개 tool을 사용해서 정확하게 adpater를 제거하는지, 시퀀싱 오류도 잘 수정하는지 성능을 상호비교 해봤다고 합니다.

gemini

제목: 고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술

**역사 속 비밀을 밝히는 고대 DNA**

고대 유물에서 추출된 DNA, 즉 고대 DNA(aDNA)는 과거 생명체의 유전 정보를 담고 있어 진화, 역사, 그리고 인류의 기원을 이해하는 데 매우 중요한 역할을 합니다. 그러나 수천 년, 수만 년 전의 유물에서 추출된 aDNA는 짧고 손상된 상태로 인해 분석하기가 매우 어렵습니다.

**NGS 기술의 등장: 새로운 가능성**

NGS(Next-Generation Sequencing) 기술의 등장은 aDNA 분석에 새로운 가능성을 열었습니다. NGS는 이전 기술보다 빠르고 저렴하게 대량의 DNA 데이터를 분석할 수 있기 때문에, 과거에는 불가능했던 방대한 양의 aDNA 데이터를 분석하는 것이 가능해졌습니다.

**하지만 여전히 남아있는 과제: 데이터 정제의 중요성**

NGS 기술은 aDNA 분석에 획기적인 발전을 가져왔지만, 여전히 해결해야 할 과제가 있습니다. 바로 aDNA 데이터의 정제 문제입니다. aDNA는 짧고 손상된 상태로 인해 시퀀싱 오류가 많이 발생하며, 어댑터(NGS 분석 과정에서 사용되는 인공 DNA) 잔여물도 존재합니다. 이러한 오류와 잔여물은 분석 결과의 정확성을 크게 떨어뜨릴 수 있기 때문에 제거해야 합니다.

**NGS 데이터 트리밍 기술: 정확한 분석을 위한 필수 도구**

NGS 데이터 트리밍 기술은 시퀀싱 오류와 어댑터 잔여물을 제거하여 aDNA 데이터의 정확성을 높이는 데 사용됩니다. 다양한 NGS 데이터 트리밍 도구들이 개발되었으며, 각 도구마다 장단점이 존재합니다.

**최근 연구: NGS 데이터 트리밍 도구의 성능 비교**

최근 연구에서는 7가지 일반적으로 사용되는 NGS 데이터 트리밍 도구의 성능을 비교 분석했습니다. 연구 결과, 모든 도구가 템플릿 길이가 10bp보다 큰 경우 높은 정확도로 시퀀싱 오류를 수정했습니다. 하지만 일부 도구가 특정 조건에서 더 나은 성능을 보였습니다. 예를 들어, AdapterRemoval, fastp, leeHom은 다른 도구들보다 강력한 성능을 보였고, 다양한 품질 점수 계산 방법에서 가장 정확한 품질 점수를 계산했습니다.

**NGS 데이터 트리밍 기술의 중요성: 더욱 정확하고 신뢰할 수 있는 분석 결과**

NGS 데이터 트리밍 기술은 고대 DNA 분석의 정확성을 높이는 데 필수적인 역할을 합니다. 이 기술을 통해 과거 생명체에 대한 더욱 정확하고 신뢰할 수 있는 정보를 얻을 수 있게 됩니다. 앞으로 NGS 데이터 트리밍 기술의 발전은 고대 DNA 분석의 가능성을 더욱 확대하고, 과거의 비밀을 밝히는 데 더욱 큰 도움이 될 것으로 기대됩니다.

**참고:**

* 이 글은 NGS 데이터 트리밍 기술에 대한 기본적인 정보를 제공하는 데 목적이 있습니다. 더 자세한 내용은 관련 전문가나 연구 자료를 참조하시기 바랍니다.



제목도 "고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술" 라고 잘 뽑고.. 좋은듯 합니다. 알잘딱깔센으로 결론은 AdapterRemoval, fastp, leeHom 이 것 들중에서 알아서 잘 쓰세요. 라고 합니다. 논문에는 leeHom이 좋다고 한 거 같은데, 스스로 판단 했을 때 3가지 크게 차이가 없었다고 판단해서 그렇게 설명한것이지 않을까 하네요.

clova-x를 사용하지 않은 이유는 pdf를 업로드하는데 10M 미만의 파일만 업로드 할 수 있다고 안내문을 내놔서 이번에는 clova-x는 사용하지 않았습니다. 
물론 pdf파일은... 9.5M 였었는데... 계산하는 식을 1M가 1024K가 아닌 1M는 1000K라고 잘못 생각한게 아닐까 싶네요.


또 이런저런 내용으로 글을 올려보도록 하겠습니다.


출처: @ye._.vely618


토요일, 8월 05, 2023

microbiome 시퀀싱 데이터는 얼마나 잘라내야 결과가 좋을까? for DADA2

요즘 QIIME2를 뒤적이고 있는 차에 쓰임이 많아 보이는 논문이 하나 있어서 투적해봅니다. (물론 greengene2만큼일련지는...)

Trimming conditions for DADA2 analysis in QIIME2 platform

doi: https://doi.org/10.11620/IJOB.2021.46.3.146


사실 QIIME2를 사용할 때뿐만 아니라 metagenome 분석을 할 때 한번은 짚고 넘어가야 하는 내용을 다루고 있어서 거쳐야 하는 단계를 가볍게 넘어가게 할 수 있지 않을까 합니다.

바로 metagenome분석시 qiime2에서 DADA2를 이용한 최적의 read trimming 조건 찾기 입니다.


metagenome 연구를 할 때 일반적으로 일루미나 플랫폼의 V3/4 region을 target으로 시퀀싱을 진행하게 됩니다. 16S rRNA가 종 동정에 많이 사용되고 16S rRNA의 가변 영역인 V1~V9중 해상도가 괜찮은 부분인 V3/4라고 연구되어 있기 때문에 일반적으로 많이 사용하고 있죠

V3/4은 대략 440bp정도이므로 안타깝게도 일루미나의 한쪽 read만으로는 V3/4 영역을 커버할 수가 없습니다. 그래서 pair로 짝을 이뤄 중간에 overlap되게 하여 시퀀싱을 진행하고 overlap되는 서열을 활용하여 merged/stitch 하게 됩니다.

이때 Read1에서는 얼마나 잘라내고 Read2에서는 얼마나 잘라내야지 내 피 같은 연구비를 들여서 생산한 데이터를 최대로 활용하면서 좋은 데이터를 확보할 수 있을까? 가 중요하게 됩니다.

그래서 이 연구팀은 QIIME2의 DADA2를 사용하여 Read1과 Read2를 얼마나 trimming해야지 내 데이터에서 좋은 결과를 뽑아낼 수 있는지에 대한 다양한 실험을 통해 확인하였습니다.

QIIME2에는 DADA2말고 deblur도 있는데 delbur는 왜 안 했어? 라고 하신다면 안타깝게도 deblur는 single read에서 작동된다고 되어 있으니 deblur 결과가 궁금하신 분께서는 직접 해보시는 것도 좋은 선택지 같습니다. :)


여튼 Read1과 Read2의 여러 수치의 trimming 조건과 trimming후 read merge/stitch 이후 chimera 서열로 보이는 데이터의 양, 그리고 trimming에 따라 얻어진 데이터의 미생물의 풍부도(Alpha Diversity)까지, 세심하게 trimming에 따른 결과 영향까지 확인해서 논문에 실어주었네요

사실 빡빡 trimming해서 좋은 quality base들만 남겨 논들 read merge/stitch가 되지 않고, 죄다 chimera라고 나와버리면 무용지물이다 보지 trimming 이후에 trimming의 영향에 대해서도 함께 평가해서 적절한 trimming 지점을 제안해주고 있습니다. 

결과적으로 Read1은 1사분위의 read quality가 Q20가 되면 이제 그 위치부터는 헤어져야 하고, Read2는 Read1과 overlap되는 길이가 16bp이상만 되도록 조절(trimming)해주면 결과에 나쁜 영향을 미치지 않는 -개인적으로는 망하지는 않는 조건이지 않을까 합니다- trimming 조건이라고 얘기하고 있습니다.


그럼 다음에 또 재미있는 내용으로 찾아와 보도록 하겠습니다.


출처: @ye._.vely618