가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)
오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.
제목은
Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<
현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한 BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..
-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -
3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )
Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.
Sequencing
Samples |
Bases(Gbp) |
Read(x106) |
Clean rare |
>Q20 |
>Q30 |
GC |
Mean coverage |
BGISEQ500-WES |
29.41 |
294.3 |
0.41% |
96.72% |
89.14% |
49.75% |
328.49X |
MGISEQ2000-WES |
16.34 |
163.55 |
0.25% |
98.18% |
92.08% |
49.71% |
129.40X |
HiSeq4000-WES |
41.93 |
283.7 |
4.46% |
97.36% |
93.01% |
50.63% |
395.17X |
NovaSeq-WES |
25.88 |
178.87 |
2.25% |
95.33% |
92.67% |
49.73% |
241.52X |
BGISEQ500-WGS |
126.86 |
1270.02 |
1.76% |
93.73% |
83.33% |
41.76% |
41.03X |
MGISEQ2000-WGS |
137.36 |
1374.87 |
0.21% |
96.17% |
88.19% |
41.76% |
45.13X |
HiSeq4000-WGS |
191 |
1276.1 |
8.25% |
95.90% |
90.11% |
41.69% |
58.00X |
NovaSeq-WGS |
98.3 |
657.45 |
1.28% |
95.89% |
93.86% |
41.61% |
28.96X |
HiSeq Xten-WGS |
134 |
894.58 |
7.29% |
94.50% |
87.63% |
40.71% |
38.93X |
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요
Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)
그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)
그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~
종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.
이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ... :)
|
출처: @sana_twice.09 |