금요일, 12월 18, 2020

ClinVar XML파일을 Tab 구분자 파일로 변환해서 사용하기

Clinvar안에 있는 정보를 활용하기 위해서는 대부분 다음과 같이 ncbi ftp에 들어가서 clinvar의 xml파일을 사용하게 됩니다.

https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/clinvar_variation/ClinVarVariationRelease_00-latest.xml.gz


근데 이 xml 파일이...


솔찬히 번거롭고 귀찮쥬?

xml과 함께 json도 만만치 않쥬...

그래서 clinvar xml을 parsing해서 조금 더 핸들링하기 쉽게 tab으로 구분된 파일을 만들어 보겠습니다.

이 xml을 받을 때 처럼 ncbi의 ftp인

https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/에 접근합니다.

그리고 variant_summary.txt.gz을 찾으시면되겠습니다.


parsing script가 아닌 그냥 파일을 새로 받으면 되는것이었습니다. :)



출처: @ye._.vely618





댓글 없음: