레이블이 Exome인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Exome인 게시물을 표시합니다. 모든 게시물 표시

일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)


오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한  BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -


3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )




Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.


Sequencing Samples Bases(Gbp) Read(x106) Clean rare >Q20 >Q30 GC Mean coverage
BGISEQ500-WES 29.41 294.3 0.41% 96.72% 89.14% 49.75%  328.49X
MGISEQ2000-WES 16.34 163.55 0.25% 98.18% 92.08% 49.71%  129.40X
HiSeq4000-WES 41.93 283.7 4.46% 97.36% 93.01% 50.63%  395.17X
NovaSeq-WES 25.88 178.87 2.25% 95.33% 92.67% 49.73%  241.52X
BGISEQ500-WGS 126.86 1270.02 1.76% 93.73% 83.33% 41.76%  41.03X
MGISEQ2000-WGS 137.36 1374.87 0.21% 96.17% 88.19% 41.76%  45.13X
HiSeq4000-WGS 191 1276.1 8.25% 95.90% 90.11% 41.69%  58.00X
NovaSeq-WGS 98.3 657.45 1.28% 95.89% 93.86% 41.61%  28.96X
HiSeq Xten-WGS 134 894.58 7.29% 94.50% 87.63% 40.71%  38.93X
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ...  :)


출처: @sana_twice.09