레이블이 classification인 게시물을 표시합니다. 모든 게시물 표시
레이블이 classification인 게시물을 표시합니다. 모든 게시물 표시

수요일, 10월 16, 2019

메타지놈은 kaiju와 함께

코펜하겐에 계시는 이름좀 들어본 A. Krogh옹이 속한 팀(저자가 2명인건 비밀)에서 출판한 메타지놈 classification 분석 툴인 kaiju (1저자님이 퍼시픽림좀 보신듯.. 그럼 kaiju이후 analysis pipeline은 jager인건가)에 대해서 잠시 얘기해 보도록 하겠습니다.

웹서버 : http://kaiju.binf.ku.dk/
논문 : Fast and sensitive taxonomic classification for metagenomics with Kaiju
현재 kaiju버전 : https://github.com/bioinformatics-centre/kaiju/releases/tag/v1.7.1


모 이제 metagenome이야 쩔 핫해요라는거는 일주일에 한두번은
수십억 L. 로 시작하는 미생물들을 우리 입안에 털어넣고 있는이상 따로 말해야하는가?

그렇지만 아직도 연구할건 많다는건 비밀이라서
많은 연구자들이 다양한 연구를 하기위해 이것저것 시도를 할 때
사용할 도구들을 계속 만들고 있는데 이 kaiju 또한 그런 도구중 하나 되겠습니다.

모 아이디어는 기존에는 DNA read를 었어서 DNA랑 비교했는데
우리 그러지 말고 단백질 조각이랑 비교하면 어떻겠니? 하는 논문 되겠습니다.

걍 제일 중요한 Figure

결론: DNA-DNA 비교 하지말고 DNA-Protein비교가 더 좋지? 되겠습니다.


그리고 위의 그림으로만 믿지 못하는 (저같은) 닝겐들을 위해서
그럼 너님들을 위해서 real 샘플에서 결과를 보여주지 훗
기대하시라고!

됐냐?

추가적으로 전세계적으로 NGS는 일루미나느님이 잡고 있다보니 저자분들께서
HiSeq(Short)과 MiSeq(Long)에 대해서 kaiju와 kreken으로 비교해두었습니다.
HiSeq에서는 두 프로그램의 sensitivity나 precision은 별로 차이가 없었고 MiSeq결과에서는 그래도 (phylum 수준에서나마) kaiju(그냥도 아니고 greedy-5 모드)가 karken보다 조금더 높은 sensitivity와 precision을 보여준다고 합니다.

결론은 Microbiome은 MiSeq으로 대동단결(진정 MiSeq밖에 없는것인가.. Orz)




출처: @sana_twice.09

월요일, 12월 05, 2016

16S rRNA와 시퀀싱플랫폼

블로그에 쓰는 내용이 16S rRNA에 많이 집중되고 있긴하죠? ㅎㅎ
하는일이 이거다보니.. :)

여튼 오늘은 16S rRNA와 시퀀싱플랫폼에 대해서 잠시 이야기 하도록 하겠습니다.

최근 16S rRNA sequencing의 최강자 454가 서비스를 bye bye한 관계로
많은 연구자들이 MiSeq체제로 변환하고 있는데 (물론 Ion도 있고, PacBio도 있습니다.)
기존에 454를 사용했을 때와 다른 V region을 사용하고 다소 다른 결과들을 보이는 것들이
있을 것 입니다. 그래서 이리저리 검색하다가 걸린 논문 두 개를 가지고 잠시 얘기해보고자 합니다.

Nucl. Acids Res. (2010) 38 (22): e200.

PeerJ (2016) 4:e1869

논문을 찾아보기 시작한 이유는 454가 막을 내린 후 다른 시퀀싱 플랫폼에서는 왜 다른 region을 target하고 있고 왜 diversity에 차이를 보이는지... (내가 분석을 잘못했나.. ㅎㄷㄷㄷ)

우선 V region, 454는 V1-V2였는데 MiSeq은 V4 region을, Ion은 4개 region? 7개 region? 을 동시에target하고 있다는..

모 논문보면 아시겠지만
2010년 논문은 454 vs MiSeq을 비교했습니다. 두 플랫폼이 차이가 날까? 어떤것이 차이가 날까?

2010년도 논문을 한장 figure 요약하자면 이거죠



상단은 phylum abundance/ 하단은 genus abundance 그리고 좌측에 있는 V4는 이전 연구에서 사용되었던 기준이라고 생각되는 참고용 분포입니다. 실험 결과가 V4 region이 저 분포를 나타내면 실험이 잘됐다고 확인하는 용도로 사용됩니다.

사실 phylum은 크게 차이없죠, 차이가 있기도 쉽지않습니다.
관심사는 genus되겠습니다. 일루미나 데이터의 대부분은 unclassified입니다. 논문에서는 error때문에 이렇게 나왔으니 error좀 낮아지면 일루미나가 output이 많으니 sequence error 문제점을 개선된다면 미생물 분석에 적합한 킹왕짱 시퀀서가 될거라고 하는데 개인적인 생각으로는 sequence error(454가 일루미나가 한테 sequence error ㅋㅋ 좀 웃겼다능..
systematic error는 눈에 안뵈냐라고 한다면 눼눼, 하긴 이 논문이 2010년이란 것을 감안한다면 무리는 아니긴 합니다.)보다는 db선택이 unclassified문제는 보정할 수 있지 않을까 합니다.

그렇다면 이제 16s rRNA 입문한지 얼마안된 님께서 그렇게 느끼는 느낌적인 이유는
무엇인가?

바로 2016년 논문되겠습니다.

2016년 논문은 PacBio로 시퀀싱한 것을 db에 따라 분석 결과가 달라지는냐에 대한 내용으로
다음 한 장으로 요약 할 수 있겠습니다.




동일한 시료를 가지고 시퀀싱한 데이터를 16S rRNA db에 따라 classification되는 정도를 확인해본 그래프 입니다. 느낌 딹오시죠?
다만 나중에 뒤통수 맞았다는 느낌 안 받게 하나 말씀드리자면 RDP와 Silva의 경우 genus까지만 확인했고 gg는 genus와 genus+species 두가지로 확인한 것 입니다.

이제 PacBio의 Sequel에서 CCS로 생산된 16S rRNA 서열가지고 연구해도 나쁘지 않을 것 같다는..

아.. 이제 돈만 많으면 되는건가!!!