레이블이 HiSeq인 게시물을 표시합니다. 모든 게시물 표시
레이블이 HiSeq인 게시물을 표시합니다. 모든 게시물 표시

일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)


오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한  BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -


3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )




Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.


Sequencing Samples Bases(Gbp) Read(x106) Clean rare >Q20 >Q30 GC Mean coverage
BGISEQ500-WES 29.41 294.3 0.41% 96.72% 89.14% 49.75%  328.49X
MGISEQ2000-WES 16.34 163.55 0.25% 98.18% 92.08% 49.71%  129.40X
HiSeq4000-WES 41.93 283.7 4.46% 97.36% 93.01% 50.63%  395.17X
NovaSeq-WES 25.88 178.87 2.25% 95.33% 92.67% 49.73%  241.52X
BGISEQ500-WGS 126.86 1270.02 1.76% 93.73% 83.33% 41.76%  41.03X
MGISEQ2000-WGS 137.36 1374.87 0.21% 96.17% 88.19% 41.76%  45.13X
HiSeq4000-WGS 191 1276.1 8.25% 95.90% 90.11% 41.69%  58.00X
NovaSeq-WGS 98.3 657.45 1.28% 95.89% 93.86% 41.61%  28.96X
HiSeq Xten-WGS 134 894.58 7.29% 94.50% 87.63% 40.71%  38.93X
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ...  :)


출처: @sana_twice.09


수요일, 10월 16, 2019

메타지놈은 kaiju와 함께

코펜하겐에 계시는 이름좀 들어본 A. Krogh옹이 속한 팀(저자가 2명인건 비밀)에서 출판한 메타지놈 classification 분석 툴인 kaiju (1저자님이 퍼시픽림좀 보신듯.. 그럼 kaiju이후 analysis pipeline은 jager인건가)에 대해서 잠시 얘기해 보도록 하겠습니다.

웹서버 : http://kaiju.binf.ku.dk/
논문 : Fast and sensitive taxonomic classification for metagenomics with Kaiju
현재 kaiju버전 : https://github.com/bioinformatics-centre/kaiju/releases/tag/v1.7.1


모 이제 metagenome이야 쩔 핫해요라는거는 일주일에 한두번은
수십억 L. 로 시작하는 미생물들을 우리 입안에 털어넣고 있는이상 따로 말해야하는가?

그렇지만 아직도 연구할건 많다는건 비밀이라서
많은 연구자들이 다양한 연구를 하기위해 이것저것 시도를 할 때
사용할 도구들을 계속 만들고 있는데 이 kaiju 또한 그런 도구중 하나 되겠습니다.

모 아이디어는 기존에는 DNA read를 었어서 DNA랑 비교했는데
우리 그러지 말고 단백질 조각이랑 비교하면 어떻겠니? 하는 논문 되겠습니다.

걍 제일 중요한 Figure

결론: DNA-DNA 비교 하지말고 DNA-Protein비교가 더 좋지? 되겠습니다.


그리고 위의 그림으로만 믿지 못하는 (저같은) 닝겐들을 위해서
그럼 너님들을 위해서 real 샘플에서 결과를 보여주지 훗
기대하시라고!

됐냐?

추가적으로 전세계적으로 NGS는 일루미나느님이 잡고 있다보니 저자분들께서
HiSeq(Short)과 MiSeq(Long)에 대해서 kaiju와 kreken으로 비교해두었습니다.
HiSeq에서는 두 프로그램의 sensitivity나 precision은 별로 차이가 없었고 MiSeq결과에서는 그래도 (phylum 수준에서나마) kaiju(그냥도 아니고 greedy-5 모드)가 karken보다 조금더 높은 sensitivity와 precision을 보여준다고 합니다.

결론은 Microbiome은 MiSeq으로 대동단결(진정 MiSeq밖에 없는것인가.. Orz)




출처: @sana_twice.09