지난번에 기존 github에 공개되어 있었던 gisaid 크롤링 스크립트들을 테스트 했었습니다. >여기<
지난번 글에서 밝혔었다싶이 현재 github에 올라와 있었던 코드들은 gisaid에 로그인해서 COVID19 서열을 다운로드 할 수가 없었습니다.
그래서 gisaid에서 다운로드 받을 수 있는 코드를 만들어 봤습니다.
>여기<
음.. 생각은 한달전부터 했는데, 그간 안하고 있다가 만들기 시작하니 3시간걸렸네요 ㄷㄷ
(당연히 KiMi, chatGPT, gemini으로, 무료 버전으로 작성했습니다.ㅋ)
사용방법은 그렇게 어렵지 않고, 당연히 편리하지도 않습니다.
간단히 core 기능만 구현했고 fasta파일과 metadata를 다운로드가 정상적으로 작동하는 것을 확인했습니다. :)
로그인에 필요한 ID와 PASSWD만 잘 입력해주시면 됩니다.
사용방법은 파이썬 코드 내 ID와 PASSWD 입력하고 저장 후 파이썬 파일을 실행시켜주시면됩니다. 다만 FASTA 파일과 Metadata 파일은 동시에 다운로드 받을 수 없고 각각 실행시켜서 다운로드 받아야합니다.
FASTA를 다운로드 받으려면
download_current_page(download_type="fasta")
Metadata를 다운로드 받으려면
download_current_page(download_type="seqtech")
을 실행시켜주시면 됩니다.
그리고 COVID서열 검색 화면에보면 수집날짜나 등록날짜 이외에도 몇가지 필터가 있습니다.
체크박스로 Complete, High Coverage 와 같은 필터 옵션이 있는데 set_search_filters 함수에서 True, False로 설정해주시면됩니다. :)
※아.. "High Coverage"와 "Low coverage excluded"는 체크박스에서 함께 On(True)하시면 스크립트는 작동하겠지만... 실제로 사이트에서 정상적으로 작동될지 모르겠습니다. 실제 사이트에서는 "High Coverage"와 "Low coverage excluded"가 함께 체크 되지 않습니다. 참고하시기 바랍니다.
![]() |
| 출처: @ye._.vely618 |
