레이블이 XML인 게시물을 표시합니다. 모든 게시물 표시
레이블이 XML인 게시물을 표시합니다. 모든 게시물 표시

목요일, 8월 01, 2024

XML형식으로 pubmed 자료는 어떻게 뜯어볼 수 있을까?

NCBI에서 pubmed라는 서지.. 논문을 볼 수 있게 해주는 서비스를 하고 있습니다.

원래는 학술지에 돈을 내고 봐야되는 건데 전부는 아니지만 일부를 볼 수 있게 해주고 있습니다. 그리고 거기다가 매년 지금까지 축적된 논문... 음..

전세계 논문은 아니고 NCBI, National Center for Biotechnology Information 라는 이름에 걸맞게 바이오쪽 논문의 제목과 초록등 간략한 정보들을 XML 형식으로 #무료# 로 제공해주고 있습니다.

바로 >이곳<을 통해서 말입니다.


근데 xml 파일들이 다들 작지는 않습니다. 거기다 개수도.. 무궁무진하고, 구조도 파악하기... 시간이 오래걸립니다. 

그래서 이 xml 파일을 어떻게 좀 쉽게 헤집어 볼 수 있지 않을까?

잠깐 구글링 하면 

https://github.com/titipata/pubmed_parser

이런 게 나옵니다.

그냥 python 라이브러리 설치하고 사용하시면 되겠습니다. :)




출처: @ye._.vely618


금요일, 12월 18, 2020

ClinVar XML파일을 Tab 구분자 파일로 변환해서 사용하기

Clinvar안에 있는 정보를 활용하기 위해서는 대부분 다음과 같이 ncbi ftp에 들어가서 clinvar의 xml파일을 사용하게 됩니다.

https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/clinvar_variation/ClinVarVariationRelease_00-latest.xml.gz


근데 이 xml 파일이...


솔찬히 번거롭고 귀찮쥬?

xml과 함께 json도 만만치 않쥬...

그래서 clinvar xml을 parsing해서 조금 더 핸들링하기 쉽게 tab으로 구분된 파일을 만들어 보겠습니다.

이 xml을 받을 때 처럼 ncbi의 ftp인

https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/에 접근합니다.

그리고 variant_summary.txt.gz을 찾으시면되겠습니다.


parsing script가 아닌 그냥 파일을 새로 받으면 되는것이었습니다. :)



출처: @ye._.vely618





월요일, 12월 02, 2013

Ubuntu에서 cummeRbund 설치시 주의 사항

Ubuntu에서 RNAseq 분석 후 비주얼라이제이션 관련해서
(저는 사용하고 있습니다. ㅋ) 사용하고 있으신
cummeRbund 패키지를 설치하실라 치면 XML 에러가 생기는 것을 확인 하실 수 있습니다.

XML관련 라이브러리가 Ubuntu에 없어서 그렇다고 하네요.. ㅎㅎ

Ubuntu 10대에서 사용하던 방법인데 13에서도 먹힘니다. :)

참고 사이트 R-help

또한 XML과 함께 RCurl설치시 에러가 생기는 경우도 비슷합니다. :)
다음과 같이 라이브러리를 설치하시면 아름다운 설치 결과를 보실  수 있으십니다. ㅎㅎ

> sudo apt-get install libxml2-dev

> sudo apt-get install libcurl4-openssl-dev

잠시 헤매고 있었는데...
구글에 검색하니.... 해결 방법이 뙁~!!!