그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)
오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.
제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<
현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한 BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..
-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -
3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )
Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.
Sequencing Samples | Bases(Gbp) | Read(x106) | Clean rare | >Q20 | >Q30 | GC | Mean coverage |
BGISEQ500-WES | 29.41 | 294.3 | 0.41% | 96.72% | 89.14% | 49.75% | 328.49X |
MGISEQ2000-WES | 16.34 | 163.55 | 0.25% | 98.18% | 92.08% | 49.71% | 129.40X |
HiSeq4000-WES | 41.93 | 283.7 | 4.46% | 97.36% | 93.01% | 50.63% | 395.17X |
NovaSeq-WES | 25.88 | 178.87 | 2.25% | 95.33% | 92.67% | 49.73% | 241.52X |
BGISEQ500-WGS | 126.86 | 1270.02 | 1.76% | 93.73% | 83.33% | 41.76% | 41.03X |
MGISEQ2000-WGS | 137.36 | 1374.87 | 0.21% | 96.17% | 88.19% | 41.76% | 45.13X |
HiSeq4000-WGS | 191 | 1276.1 | 8.25% | 95.90% | 90.11% | 41.69% | 58.00X |
NovaSeq-WGS | 98.3 | 657.45 | 1.28% | 95.89% | 93.86% | 41.61% | 28.96X |
HiSeq Xten-WGS | 134 | 894.58 | 7.29% | 94.50% | 87.63% | 40.71% | 38.93X |
Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)
그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)
그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~
종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.
이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ... :)
출처: @sana_twice.09 |
댓글 없음:
댓글 쓰기