토요일, 8월 05, 2023

microbiome 시퀀싱 데이터는 얼마나 잘라내야 결과가 좋을까? for DADA2

요즘 QIIME2를 뒤적이고 있는 차에 쓰임이 많아 보이는 논문이 하나 있어서 투적해봅니다. (물론 greengene2만큼일련지는...)

Trimming conditions for DADA2 analysis in QIIME2 platform

doi: https://doi.org/10.11620/IJOB.2021.46.3.146


사실 QIIME2를 사용할 때뿐만 아니라 metagenome 분석을 할 때 한번은 짚고 넘어가야 하는 내용을 다루고 있어서 거쳐야 하는 단계를 가볍게 넘어가게 할 수 있지 않을까 합니다.

바로 metagenome분석시 qiime2에서 DADA2를 이용한 최적의 read trimming 조건 찾기 입니다.


metagenome 연구를 할 때 일반적으로 일루미나 플랫폼의 V3/4 region을 target으로 시퀀싱을 진행하게 됩니다. 16S rRNA가 종 동정에 많이 사용되고 16S rRNA의 가변 영역인 V1~V9중 해상도가 괜찮은 부분인 V3/4라고 연구되어 있기 때문에 일반적으로 많이 사용하고 있죠

V3/4은 대략 440bp정도이므로 안타깝게도 일루미나의 한쪽 read만으로는 V3/4 영역을 커버할 수가 없습니다. 그래서 pair로 짝을 이뤄 중간에 overlap되게 하여 시퀀싱을 진행하고 overlap되는 서열을 활용하여 merged/stitch 하게 됩니다.

이때 Read1에서는 얼마나 잘라내고 Read2에서는 얼마나 잘라내야지 내 피 같은 연구비를 들여서 생산한 데이터를 최대로 활용하면서 좋은 데이터를 확보할 수 있을까? 가 중요하게 됩니다.

그래서 이 연구팀은 QIIME2의 DADA2를 사용하여 Read1과 Read2를 얼마나 trimming해야지 내 데이터에서 좋은 결과를 뽑아낼 수 있는지에 대한 다양한 실험을 통해 확인하였습니다.

QIIME2에는 DADA2말고 deblur도 있는데 delbur는 왜 안 했어? 라고 하신다면 안타깝게도 deblur는 single read에서 작동된다고 되어 있으니 deblur 결과가 궁금하신 분께서는 직접 해보시는 것도 좋은 선택지 같습니다. :)


여튼 Read1과 Read2의 여러 수치의 trimming 조건과 trimming후 read merge/stitch 이후 chimera 서열로 보이는 데이터의 양, 그리고 trimming에 따라 얻어진 데이터의 미생물의 풍부도(Alpha Diversity)까지, 세심하게 trimming에 따른 결과 영향까지 확인해서 논문에 실어주었네요

사실 빡빡 trimming해서 좋은 quality base들만 남겨 논들 read merge/stitch가 되지 않고, 죄다 chimera라고 나와버리면 무용지물이다 보지 trimming 이후에 trimming의 영향에 대해서도 함께 평가해서 적절한 trimming 지점을 제안해주고 있습니다. 

결과적으로 Read1은 1사분위의 read quality가 Q20가 되면 이제 그 위치부터는 헤어져야 하고, Read2는 Read1과 overlap되는 길이가 16bp이상만 되도록 조절(trimming)해주면 결과에 나쁜 영향을 미치지 않는 -개인적으로는 망하지는 않는 조건이지 않을까 합니다- trimming 조건이라고 얘기하고 있습니다.


그럼 다음에 또 재미있는 내용으로 찾아와 보도록 하겠습니다.


출처: @ye._.vely618


댓글 없음: