레이블이 samtools인 게시물을 표시합니다. 모든 게시물 표시
레이블이 samtools인 게시물을 표시합니다. 모든 게시물 표시

화요일, 9월 22, 2020

8개의 variant caller 통합 도구

2018년 WGS이나 WES 혹은 Target Seq을 한 후 변이를 확인 할 때 으레 GATK를 사용하는 우리들에게 감사하게도 여러개(정확히는 8개)의 변이 caller 결과를 통합해서 확인 할 수 있는 논문이 발표되었습니다.

진짜 감사할지 이름만 appreci할지...

(구글 검색결과 글쎄요... 이유가 무엇인지는 모르겠지만 오늘이 2020년 9월 12일인데 인용 횟수가 4개네요..)

목적은 NGS를 임상에 사용하려면 유효한 variant를 call해야 하는데 분석 tool마다 어떤 variant는 call하고 어떤 variant는 call하지 못하는 경우가 발생해서 그럼 여기서 나온 결과와 저기서 나온 결과 합치자!!

근데 이 작업을 할 하는데?? 이게 그렇게 쉽다고?

그렇죠 이런저런 허들이 있고 동일한 위치에 A변이와 B변이가 있다고 나왔을 때 어떤 변이를 call했다고 인정할것인가?

모 변이를 call하고 변이들을 merge하고 필터링하는 파이프라인을 개발했다는 것이 이 논문의 결론이고 민감도는 0.93-1.0, PPV는 0.65-1.0사이, 8개의 도구를 combine하였는데 caller를 줄이면 appreci8의 성능은 떨어지니깐 그러지 마세요 라고 얘기하고 있습니다.

여기서 사용하는 8개 caller들은 다들 많이들 사용하고 있는 GATK, Platypus, VarScan, LoFreq, FreeBayes, SNVer, samtools, VarDict되겠습니다.

appreci8은 여기서 docker로 제공되고 있고 분석을 한 일루미나 데이터는 여기에 위치하고 있습니다.


출처: @ye._.vely618


수요일, 11월 21, 2012

bam파일에서 fastq로 파일을 뽑을 수 있을까?

당연히 뽑을 수 있으니
글을 쓰는 것이겠지요? ㅎㅎㅎㅎ

그러나 원하는 서열이 bam파일에 있는 전체  서열이 아닌 한
약간의 작업을 해줘야 한 다는 것

현재 사용하고 있는 bam2fastq에 발등을 찍힌 관계로
align작업 후 얻어진 bam파일에서 곧바로 bam2fastq를 사용하여
 fastq를 뽑지 않고 있습니다.

약간 귀찮지만 다음 단계들을 거쳐서 뽑으면
본인이 원하는 서열들을 정확히 bam파일에서 뽑아 낼 수 있다는 것!!

bam2fastq나 그런 류의 프로그램만 사용하면 된다는 구글링 결과는
거짓부렁;;; 제길...

현재 다운로드 가능한 bam2fastq는 1.1.0 이다.
좋은 결과 있으시길~ :)


samtools view -H align.bam > align.mapped.sam
samtools view -F4 align.bam >> align.mapped.sam
samtools view -bS align.mapped.sam > align.mapped.bam
bam2fastq --aligned -o align#.mapped.fq align.mapped.bam

명령어 주석
-H는 헤더파일을 뽑는 옵션
-F4는 저도 정확히 모르겠지만 bam파일에서 -F4는 paired-end read가
모두 align되는 flag인듯 합니다.
-f4를 해서 저장한 파일들을 보면 align되지 않은 것들이 저장되는 것은 확인하였고,
-F4의 경우 align 정보가 표시되는 것으로 보아 맞는것으로 보입니다. :)
-F는 해당 flag를 제외한 결과를 return하는 옵션이고, 
-f는 해당 flag를 포함한 결과를 return하는 옵션입니다.
그러므로 -f4를하면 unmapped된 결과만 저장되고, -F4를 하면 unmapped되지 않은 결과가 저장되게 됩니다. :)
생성한 sam파일을 다시 bam파일로 변환하여 bam2fastq를 사용하여
fastq를 얻으면 됩니다. 다만, 구글링 결과에서 --no-aligned와 --aligned가 같다고
하는 글들이 있었는데..
--aligned를 해야 align된 paired read들만 fastq로 저장됩니다.
--no-aligned의 경우 결과가 상이한 것으로 나타나서 --aligned를 권장
--aligned와 동일한 결과를 보여주는 옵션은 --no-unaligned...
믿거나 말거나~ ㅎㅎ