레이블이 Crawling인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Crawling인 게시물을 표시합니다. 모든 게시물 표시

목요일, 6월 25, 2026

genomeweb 기사는 많이 유용합니다. :)

링크드인에 genomeweb 기사를 가끔씩 공유하는데 사실 genomeweb은 회원만 볼 수 있기에 엄밀히 저는 제목말고는 볼 수 없어야합니다.

그러나 꼼수가 있어서 슬쩍 슬쩍 보면서 아이디어를 얻고 있는데 맨날 수작업으로 하다가 귀찮아서 파이썬 스크립트로 만들어봤습니다. :)

이름하여 genomeweb crawling 입니다.

스크립트: genomeweb crawling

크롤링을 하는데 날짜를 확인해서 가져오는 것이 아닌 첫 화면에 있는 기사들만 훑어오는 것이라서 매일 할 필요없습니다. 어차피 첫 메인 화면에 뜨는 것들이 대체로 일주일 동안 계속 보입니다.

우선 그냥 매번 수작업이 귀찮아서 만든 스크립트라서 편의 기능은 그닥 없습니다.

1. 첫 화면에 있는 기사 링크를 확인

2. 기사 링크를 확인했으면 가져온다

3. (AI에 물어보기 위해서) html에서 txt로 전환한다

4. 기사를 txt로 전환하는데 오늘 기준 일주일 전 기사는 제외

그리고 스크립트 실행하면 갑자기 새로운 크롬창이 뜨는데 놀라지 않으셔도 됩니다.

당신의 PC는 해킹 당하기 시작한것 입니다가 아니라 이번 스크립트에서는 크롬 창이 띄어져야 하더라구요. 

음 혹시 영 거슬리다면 크롬창이 뜨지 않도록 코드 수정해서 알려주시면 감사드리겠습니다. :)



아래는 주의사항

※ 회사에서는 구독해서 사용하시기 바랍니다. 이렇게 사용하기 불편합니다. ㅋ

※ 그리고 크롤링하는 것이기에 문제가 발생한다면 발생한 문제와 법적 책임은 무분별하게 사용한 사용자의 몫입니다. 



출처: @ye._.vely618

금요일, 6월 12, 2026

GISAID에서 서열 다운로드 받아보자

지난번에 기존 github에 공개되어 있었던 gisaid 크롤링 스크립트들을 테스트 했었습니다. >여기<

지난번 글에서 밝혔었다싶이 현재 github에 올라와 있었던 코드들은 gisaid에 로그인해서 COVID19 서열을 다운로드 할 수가 없었습니다.


그래서 gisaid에서 다운로드 받을 수 있는 코드를 만들어 봤습니다. 

>여기<

음.. 생각은 한달전부터 했는데, 그간 안하고 있다가 만들기 시작하니 3시간걸렸네요 ㄷㄷ

(당연히 KiMi, chatGPT, gemini으로, 무료 버전으로 작성했습니다.ㅋ)

사용방법은 그렇게 어렵지 않고, 당연히 편리하지도 않습니다.

간단히 core 기능만 구현했고 fasta파일과 metadata를 다운로드가 정상적으로 작동하는 것을 확인했습니다. :)

로그인에 필요한 ID와 PASSWD만 잘 입력해주시면 됩니다. 

사용방법은 파이썬 코드 내 ID와 PASSWD 입력하고 저장 후 파이썬 파일을 실행시켜주시면됩니다. 다만 FASTA 파일과 Metadata 파일은 동시에 다운로드 받을 수 없고 각각 실행시켜서 다운로드 받아야합니다. 

FASTA를 다운로드 받으려면

download_current_page(download_type="fasta")

Metadata를 다운로드 받으려면

download_current_page(download_type="seqtech")

을 실행시켜주시면 됩니다.


그리고 COVID서열 검색 화면에보면 수집날짜나 등록날짜 이외에도 몇가지 필터가 있습니다.

체크박스로 Complete, High Coverage 와 같은 필터 옵션이 있는데 set_search_filters 함수에서 True, False로 설정해주시면됩니다. :)



※아.. "High Coverage"와 "Low coverage excluded"는 체크박스에서 함께 On(True)하시면 스크립트는 작동하겠지만... 실제로 사이트에서 정상적으로 작동될지 모르겠습니다. 실제 사이트에서는 "High Coverage"와 "Low coverage excluded"가 함께 체크 되지 않습니다. 참고하시기 바랍니다.






출처:  @ye._.vely618