일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)


오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한  BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -


3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )




Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.


Sequencing Samples Bases(Gbp) Read(x106) Clean rare >Q20 >Q30 GC Mean coverage
BGISEQ500-WES 29.41 294.3 0.41% 96.72% 89.14% 49.75%  328.49X
MGISEQ2000-WES 16.34 163.55 0.25% 98.18% 92.08% 49.71%  129.40X
HiSeq4000-WES 41.93 283.7 4.46% 97.36% 93.01% 50.63%  395.17X
NovaSeq-WES 25.88 178.87 2.25% 95.33% 92.67% 49.73%  241.52X
BGISEQ500-WGS 126.86 1270.02 1.76% 93.73% 83.33% 41.76%  41.03X
MGISEQ2000-WGS 137.36 1374.87 0.21% 96.17% 88.19% 41.76%  45.13X
HiSeq4000-WGS 191 1276.1 8.25% 95.90% 90.11% 41.69%  58.00X
NovaSeq-WGS 98.3 657.45 1.28% 95.89% 93.86% 41.61%  28.96X
HiSeq Xten-WGS 134 894.58 7.29% 94.50% 87.63% 40.71%  38.93X
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ...  :)


출처: @sana_twice.09


댓글 없음: