레이블이 PMC인 게시물을 표시합니다. 모든 게시물 표시
레이블이 PMC인 게시물을 표시합니다. 모든 게시물 표시

목요일, 8월 01, 2024

XML형식으로 pubmed 자료는 어떻게 뜯어볼 수 있을까?

NCBI에서 pubmed라는 서지.. 논문을 볼 수 있게 해주는 서비스를 하고 있습니다.

원래는 학술지에 돈을 내고 봐야되는 건데 전부는 아니지만 일부를 볼 수 있게 해주고 있습니다. 그리고 거기다가 매년 지금까지 축적된 논문... 음..

전세계 논문은 아니고 NCBI, National Center for Biotechnology Information 라는 이름에 걸맞게 바이오쪽 논문의 제목과 초록등 간략한 정보들을 XML 형식으로 #무료# 로 제공해주고 있습니다.

바로 >이곳<을 통해서 말입니다.


근데 xml 파일들이 다들 작지는 않습니다. 거기다 개수도.. 무궁무진하고, 구조도 파악하기... 시간이 오래걸립니다. 

그래서 이 xml 파일을 어떻게 좀 쉽게 헤집어 볼 수 있지 않을까?

잠깐 구글링 하면 

https://github.com/titipata/pubmed_parser

이런 게 나옵니다.

그냥 python 라이브러리 설치하고 사용하시면 되겠습니다. :)




출처: @ye._.vely618


금요일, 3월 17, 2023

논문을 내 의도에 맞게 쉽게 찾을 수 있을까

chatGPT나 Bing의 등장으로 저 같이 영어가 취약한(걍 저세상 수준) 닝겐들에게는 이제 논문 검색과 요약이 상대적으로 쉬워졌습니다.

물론 이미 구글 번역기만으로도 상당히 편했지만 이제는 더더더욱 좋아졌죠

그러나 이전에도 우리의 논문 검색을 도와주려는 시도는 있었습니다.

단지, 우리가 잘 몰랐을 뿐...


그래서 chatGPT의 시대가 찾아와서 조금 빛은 바랬으나
그래도 연구에 큰 도움이 누군가에게는되었을, 되고있을, 또 다른 연구주제의 시발점으로 활용 될 수 있을 논문 하나 투척 해봅니다.


이름하여 PubTator central automated concept annotation for biomedical full text articles, 이전 논문들 보니 이미 2013년도부터 작업은 하고 있었다고 합니다. (역시 제가 몰랐을 뿐)

URL: https://academic.oup.com/nar/article/47/W1/W587/5494727

DOI: doi.org/10.1093/nar/gkz389


간단히 얘기하면 PubMed의 초록정보와 PMC의 전문을 읽어서 gene, variant, disease 정보를 기준으로 tag를 달거나 annotation하여 내가 찾고자 하는 정보의 검색 결과 정확도를 향상시켜주는 검색 서비스라고 보시면 될듯합니다.

저자曰 pubtator은 문서 요약 서비스가 아니니 문서 요약을 원한다면 QuillBot Summarize라는 다른 툴을 사용하라고 안내하고 있네요. 친절도 하셔라 :)

그러나 2023년도를 사는 우리에게는 chatGPT, Bing이 있습니다.!! 


그럼 다음에는 또 다른 논문을 올려보기로 하겠습니다. :)


-Bing 요약 결과-

PubTator Central은 생물의학 전문 문서에 대한 자동 개념 주석을 제공하는 웹 서비스입니다. PubTator Central은 유전자/단백질, 유전 변이, 질병, 화학물질, 종 및 세포주와 같은 여러 중요한 생물 개념에 대한 최신 텍스트 마이닝 시스템의 주석을 제공하고 즉시 다운로드할 수 있습니다. PubTator Central은 PubMed(2천 9백만개 초록)과 PMC Text Mining subset(3백만개 전문 문서)을 주석 처리합니다. 새로운 PubTator Central 웹 인터페이스는 사용자가 전문 문서 컬렉션을 구축하고 각 문서에서 개념 주석을 시각화할 수 있게 해줍니다. 주석은 온라인 인터페이스, RESTful 웹 서비스 및 대량 FTP를 통해 여러 형식(XML, JSON 및 탭 구분)으로 다운로드할 수 있습니다. 개선된 개념 식별 시스템과 딥러닝 기반의 새로운 모호성 해소 모듈은 주석 정확도를 높이고 새로운 서버측 아키텍처는 속도를 크게 향상시킵니다. PubTator Central은 PubMed 및 PubMed Central과 동기화되며 매일 새로운 기사가 추가됩니다





출처: @ye._.vely618