NCBI에서 pubmed라는 서지.. 논문을 볼 수 있게 해주는 서비스를 하고 있습니다.
원래는 학술지에 돈을 내고 봐야되는 건데 전부는 아니지만 일부를 볼 수 있게 해주고 있습니다. 그리고 거기다가 매년 지금까지 축적된 논문... 음..
전세계 논문은 아니고 NCBI, National Center for Biotechnology Information 라는 이름에 걸맞게 바이오쪽 논문의 제목과 초록등 간략한 정보들을 XML 형식으로 #무료# 로 제공해주고 있습니다.
바로 >이곳<을 통해서 말입니다.
근데 xml 파일들이 다들 작지는 않습니다. 거기다 개수도.. 무궁무진하고, 구조도 파악하기... 시간이 오래걸립니다.
그래서 이 xml 파일을 어떻게 좀 쉽게 헤집어 볼 수 있지 않을까?
잠깐 구글링 하면
https://github.com/titipata/pubmed_parser
이런 게 나옵니다.
그냥 python 라이브러리 설치하고 사용하시면 되겠습니다. :)
출처: @ye._.vely618 |