레이블이 Haplotype인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Haplotype인 게시물을 표시합니다. 모든 게시물 표시

수요일, 8월 23, 2023

SpeedSeq은 어디에 쓰는거지?

오늘은 연식은 좀 되었으나 빠른 분석 tool하나 가져와봤습니다.


SpeedSeq: ultra-fast personal genome analysis and interpretation

doi : 10.1038/nmeth.3505

이름하여 SpeedSeq!! 그래서 제목에 ultra-fast, 초고속이 들어갑니다.
근데... 분석시간이 얼마나 걸렸었는지는.. 기억이 잘..

논문에서는 저렴한 서버에서 50x WGS데이터를 13시간만에 align을 했다고하는데...
(저렴한서버의 정의는 CPU 16core에 128GB RAM이 장착된 서버라고 하네요)

여튼 논문에서는 50x WGS 데이터를 저렴한 서버를 사용해서 분석을 진행할 때 정렬 작업을 시간단위에서 끝냈다.. 라는 소식을 솔직히 DRAGEN 제외하고서는 들어본적이 없어서 조금 갸우뚱 하긴 합니다.

여하튼 논문에서 13시간만에 정렬을 끝냈다고 했다니!! 그렇다고 믿는게 인지상정 아니겠습니까?

근데 정렬 속도가 빠른건 큰 장점이지만 단순히 속도만 빠르면... 그건 아무짝에도 쓸모없는거죠


그래서 SpeedSeq와 기라성같은 변이 탐지 툴들과도 비교 해봤습니다.

somatic/germline 분석 툴들을 가리지 않고 모두 비교해봤습니다. GATK의 Haplotype Caller, Mutect, VarScan2와 같은... 기존에 너님들이 많이 쓰던 툴들이랑 비교해서 결과 다르지 않아. 라고 얘기하고 있습니다.


그런데 사실 저는 SpeedSeq을 사용한 이유가 속도가 빠르면서 bwa와 같은 기존 정렬 프로그램 대비 결과가 정확해서 사용한것이 아닌 그냥 LUMPY tool을 사용하기 위해서 였다는게 함정

사실 이 정렬 tool이 nature에 출판되었는지도 몰랐다는..

LUMPY사용하려고 메뉴얼보니 SpeedSeq 결과 사용하세요 라고 적혀 있어서 단지 사용 했었을뿐... 그 후에 나도 몰라 하고 있었는데...


그냥 한번 들쳐봤는데 다시 검토해볼만한 tool일거 같긴한데..

"Reference Sample 백만번 돌려서 결과 동일해요" 하는것보다 임상 샘플 10개만 분석해봐도 그 진가를 알아볼수 있으니...

만약에 제가 사용하게 된다면 다음에 다시 글하나 올려보도록 하죠 :)




출처: @ye._.vely618