일요일, 9월 17, 2023

탐지한 varaint가 대체 왜 이러지?

이것저것 변이 call을 하다보면 가끔씩 여러개의 변이가 한번에 call되는 경우가 있습니다.

여러개의 변이가 한번에 call되는 경우는 대게 multi allelic 이거나 multi-nucleotide variant 정도일겁니다.

※ Multi Allelic

1번 염기서열 위치에 Reference는 TA였는데 변이 call결과에 T,TAA,TAAA 가 확인되었을 때 를 얘기하는 경우



※ Multi Nucleotide Variant

159030번 염기서열 위치에 Reference가 TAACCTTTC였는데, TGACCTTTT로 call되었다고 하는 경우, 일반적으로 이런 경우 159031번과 159038번만 reference와 다른데 왜 뭉뚱그려서 여기가 다 변이입니다 하는 경우 입니다.
TAACCTTTC
TGACCTTTT

그러나 다행히 우리에게는 VT라는 천하무적 tool이 있습니다.
이런 multi allelic나 multi nucleotide variant 가 있는 경우 이것을 뜯어서 분리하는 sub command를 가지고 있다고 하네요 :)

난 multi Allelic를 분리하고 싶어요! 라면 

vt decompose input.vcf -o decomposed.vcf 
이렇게

아니에요 나는 multi nucleotide variant를 분리하고 싶어요! 라면

$vt decompose_blocksub -p input.vcf -o decomposed.vcf 
이렇게 명령어를 실행시켜 주면 된다고 합니다.

multi allelic가 나오고 multi nucleotide variant가 당신을 괴롭히더라도 당신 곁에는 vt가 있다는 것을 잊지 마세요.

다시 또 유익한 정보를 가지고 돌아오도록 하겠습니다. :)




출처: @ye._.vely618


댓글 없음: