목요일, 8월 01, 2024

XML형식으로 pubmed 자료는 어떻게 뜯어볼 수 있을까?

NCBI에서 pubmed라는 서지.. 논문을 볼 수 있게 해주는 서비스를 하고 있습니다.

원래는 학술지에 돈을 내고 봐야되는 건데 전부는 아니지만 일부를 볼 수 있게 해주고 있습니다. 그리고 거기다가 매년 지금까지 축적된 논문... 음..

전세계 논문은 아니고 NCBI, National Center for Biotechnology Information 라는 이름에 걸맞게 바이오쪽 논문의 제목과 초록등 간략한 정보들을 XML 형식으로 #무료# 로 제공해주고 있습니다.

바로 >이곳<을 통해서 말입니다.


근데 xml 파일들이 다들 작지는 않습니다. 거기다 개수도.. 무궁무진하고, 구조도 파악하기... 시간이 오래걸립니다. 

그래서 이 xml 파일을 어떻게 좀 쉽게 헤집어 볼 수 있지 않을까?

잠깐 구글링 하면 

https://github.com/titipata/pubmed_parser

이런 게 나옵니다.

그냥 python 라이브러리 설치하고 사용하시면 되겠습니다. :)




출처: @ye._.vely618


댓글 없음: