레이블이 MiSeq인 게시물을 표시합니다. 모든 게시물 표시
레이블이 MiSeq인 게시물을 표시합니다. 모든 게시물 표시

토요일, 9월 09, 2023

누가누가 미생물 프로파일링을 잘할까?

NGS가 태동된지 20여년.... (너무 과했나?) 대중적으로 관심을 받아 쓰는지는 10여년이 훌쩍 지나가고 있는 시점에 예전에는 454나 Solexa 정도 만져보던 시절에서 지금은 다양한 시퀀서들이 나와서 연구자들의 다양한 궁금증을 일선에서 해결해 주고있습죠 :)

여튼 그래서 21년 기준에 보편적으로 또는 미래에 대세가될 시퀀서들을 대상으로
누구나 관심있어하는 장내 미생물 프로파일링을 어느어느 시퀀싱 플랫폼이 잘하나 비교해보는 논문이 있어서 가져와봤습니다.

제목은 Comparison of 16S rRNA Gene Based Microbial Profiling Using Five Next-Generation Sequencers and Various Primers 이고,

doi: 10.3389/fmicb.2021.715500 입니다.

(물론 저자중에 제가 아는 분이 있어서 그런것은 아니고요, 구글링 하다가 찾아진겁니다.)


그래서 비교해볼 시퀀서는

MiSeq, IonTorrent, MGIseq-2000, Sequel II 그리고 MinION 까지.. ..
짧은 read와 긴 read들을 생산하는 대표 시퀀서들을 5개를 가지고 테스트를 해봤습니다.

시퀀싱을 잘 했는지 못했는지 확인하려면 시료의 정답을 미리 알고 있어야 겠죠?

그래서 한국 식약처에 등재된 19종의 미생물 종중에 8종을 선별하여서 다양한 비율의 Mock community를 만들어서 테스트 했다고 합니다. 

그런데 Mock community내에 미생물들의 비율은 어떻게 확인했냐!!
digital PCR을 사용해서 Mock community내 미생물들을 정량해서 확인했다고 합니다. 물론 Sequins (스팽글?, aka Sequencing spike-ins)이라는 방법을 활용할 수 있다고 하는데 다양한 박테리아에 대해서 모두 Sequins를 만들기 어렵기 때문에.. 이방법을 사용했다고 합니다. 사실어떤 방법이 golden standard인지는 모르겠으나 연구 디자인에 적합하면 되지 않을까 합니다.

여튼 8개 Mock community를 제작하였고, 각각에 시료를 바탕으로 5개의 시퀀서로 시퀀싱을 진행하였습니다. 그리고 분석은 MOTHUR을 사용해서 진행하였다고 합니다.

그럼 결론은 몬데?
뭣이 중헌디?

음... 개인적으로는 16S rRNA 서열을 한번에 확인 할 수 있는 롱리드 플랫폼이 숏리드 플랫폼보다 편향이 적다라는 결과를 기대했으나.. 도리어 숏리드 플랫폼에 비해서 롱리드가 더 편향적(과대 또는 과소 표현)이었다는... 물론 이게 긴 길이의 리드를 시퀀싱하기 위해서 전처리로 PCR단계에서 비롯된거 같다는 의견이었습니다만, Sequel II같은 경우 숏리드 플랫폼과 유사한 양의 결과물을 확인하기 위해서는 더 많은 비용이 소요될텐데... 그럼 롱리드 플랫폼을 사용할 이유가 딱히 없다는게 문제가 될듯합니다.

Figure 3,4,5를 잘 뜯어보면 

Bifidobacterium breve의 경우 숏리드 플랫폼에서 상대적으로 과소 표현되고,
Limosilactobacillus fermentum의 경우 롱리드 플랫폼에서 과소표현되고, 반대로 Lactococcus lactis subsp. lactis의 경우 롱리드에서 과대표현 되고,
Lactobacillus acidophilus의 경우는 플랫폼 상관없이 과소표현 되기도하고..

함께 있는 종에 따라 영향을 받기도, 받지 않기도 하기 때문에 해석을 할 때 고려해야할게 한두가지가 아니라서 좀 어렵죠. ㅎㅎ 

그리고 숏리드의 경우 가장 큰 문제점이 한정된 영역(V3-V4)의 서열만 가지고 확인하다보니 서로 다른 균주로 분류되는 문제가 있었고 이는 보통 probiotic bacteria인 Lactobacillus casei group(LCG)에서 확인되어서 LCG, probiotic bacteria 분석에는 V3-V4는 좀 피해야할듯 합니다.

결론은 연구에 맞게 적절하게 잘 사용하고, 직접 실험하지 않는 저같은 게으름뱅이들에게는 이리저리 분석할때 표준 데이터로 사용할만한 좋은 데이터가 확보되었다는 것입니다. :)



출처: @ye._.vely618


수요일, 10월 16, 2019

메타지놈은 kaiju와 함께

코펜하겐에 계시는 이름좀 들어본 A. Krogh옹이 속한 팀(저자가 2명인건 비밀)에서 출판한 메타지놈 classification 분석 툴인 kaiju (1저자님이 퍼시픽림좀 보신듯.. 그럼 kaiju이후 analysis pipeline은 jager인건가)에 대해서 잠시 얘기해 보도록 하겠습니다.

웹서버 : http://kaiju.binf.ku.dk/
논문 : Fast and sensitive taxonomic classification for metagenomics with Kaiju
현재 kaiju버전 : https://github.com/bioinformatics-centre/kaiju/releases/tag/v1.7.1


모 이제 metagenome이야 쩔 핫해요라는거는 일주일에 한두번은
수십억 L. 로 시작하는 미생물들을 우리 입안에 털어넣고 있는이상 따로 말해야하는가?

그렇지만 아직도 연구할건 많다는건 비밀이라서
많은 연구자들이 다양한 연구를 하기위해 이것저것 시도를 할 때
사용할 도구들을 계속 만들고 있는데 이 kaiju 또한 그런 도구중 하나 되겠습니다.

모 아이디어는 기존에는 DNA read를 었어서 DNA랑 비교했는데
우리 그러지 말고 단백질 조각이랑 비교하면 어떻겠니? 하는 논문 되겠습니다.

걍 제일 중요한 Figure

결론: DNA-DNA 비교 하지말고 DNA-Protein비교가 더 좋지? 되겠습니다.


그리고 위의 그림으로만 믿지 못하는 (저같은) 닝겐들을 위해서
그럼 너님들을 위해서 real 샘플에서 결과를 보여주지 훗
기대하시라고!

됐냐?

추가적으로 전세계적으로 NGS는 일루미나느님이 잡고 있다보니 저자분들께서
HiSeq(Short)과 MiSeq(Long)에 대해서 kaiju와 kreken으로 비교해두었습니다.
HiSeq에서는 두 프로그램의 sensitivity나 precision은 별로 차이가 없었고 MiSeq결과에서는 그래도 (phylum 수준에서나마) kaiju(그냥도 아니고 greedy-5 모드)가 karken보다 조금더 높은 sensitivity와 precision을 보여준다고 합니다.

결론은 Microbiome은 MiSeq으로 대동단결(진정 MiSeq밖에 없는것인가.. Orz)




출처: @sana_twice.09

월요일, 12월 05, 2016

16S rRNA와 시퀀싱플랫폼

블로그에 쓰는 내용이 16S rRNA에 많이 집중되고 있긴하죠? ㅎㅎ
하는일이 이거다보니.. :)

여튼 오늘은 16S rRNA와 시퀀싱플랫폼에 대해서 잠시 이야기 하도록 하겠습니다.

최근 16S rRNA sequencing의 최강자 454가 서비스를 bye bye한 관계로
많은 연구자들이 MiSeq체제로 변환하고 있는데 (물론 Ion도 있고, PacBio도 있습니다.)
기존에 454를 사용했을 때와 다른 V region을 사용하고 다소 다른 결과들을 보이는 것들이
있을 것 입니다. 그래서 이리저리 검색하다가 걸린 논문 두 개를 가지고 잠시 얘기해보고자 합니다.

Nucl. Acids Res. (2010) 38 (22): e200.

PeerJ (2016) 4:e1869

논문을 찾아보기 시작한 이유는 454가 막을 내린 후 다른 시퀀싱 플랫폼에서는 왜 다른 region을 target하고 있고 왜 diversity에 차이를 보이는지... (내가 분석을 잘못했나.. ㅎㄷㄷㄷ)

우선 V region, 454는 V1-V2였는데 MiSeq은 V4 region을, Ion은 4개 region? 7개 region? 을 동시에target하고 있다는..

모 논문보면 아시겠지만
2010년 논문은 454 vs MiSeq을 비교했습니다. 두 플랫폼이 차이가 날까? 어떤것이 차이가 날까?

2010년도 논문을 한장 figure 요약하자면 이거죠



상단은 phylum abundance/ 하단은 genus abundance 그리고 좌측에 있는 V4는 이전 연구에서 사용되었던 기준이라고 생각되는 참고용 분포입니다. 실험 결과가 V4 region이 저 분포를 나타내면 실험이 잘됐다고 확인하는 용도로 사용됩니다.

사실 phylum은 크게 차이없죠, 차이가 있기도 쉽지않습니다.
관심사는 genus되겠습니다. 일루미나 데이터의 대부분은 unclassified입니다. 논문에서는 error때문에 이렇게 나왔으니 error좀 낮아지면 일루미나가 output이 많으니 sequence error 문제점을 개선된다면 미생물 분석에 적합한 킹왕짱 시퀀서가 될거라고 하는데 개인적인 생각으로는 sequence error(454가 일루미나가 한테 sequence error ㅋㅋ 좀 웃겼다능..
systematic error는 눈에 안뵈냐라고 한다면 눼눼, 하긴 이 논문이 2010년이란 것을 감안한다면 무리는 아니긴 합니다.)보다는 db선택이 unclassified문제는 보정할 수 있지 않을까 합니다.

그렇다면 이제 16s rRNA 입문한지 얼마안된 님께서 그렇게 느끼는 느낌적인 이유는
무엇인가?

바로 2016년 논문되겠습니다.

2016년 논문은 PacBio로 시퀀싱한 것을 db에 따라 분석 결과가 달라지는냐에 대한 내용으로
다음 한 장으로 요약 할 수 있겠습니다.




동일한 시료를 가지고 시퀀싱한 데이터를 16S rRNA db에 따라 classification되는 정도를 확인해본 그래프 입니다. 느낌 딹오시죠?
다만 나중에 뒤통수 맞았다는 느낌 안 받게 하나 말씀드리자면 RDP와 Silva의 경우 genus까지만 확인했고 gg는 genus와 genus+species 두가지로 확인한 것 입니다.

이제 PacBio의 Sequel에서 CCS로 생산된 16S rRNA 서열가지고 연구해도 나쁘지 않을 것 같다는..

아.. 이제 돈만 많으면 되는건가!!!