Lee Gir-Won (Lee Gil-Won): Crawling

레이블이 Crawling인 게시물을 표시합니다. 모든 게시물 표시

목요일, 7월 16, 2026

genomeweb 크롤링 첫 업데이트

하.. 어제까지 잘 사용하고 있었는데 어제 갑자기 에러가 발생해서 잠깐 당황했지만 그래도 짬밥이 있어서 에러를 보고서 일단 대충 해결하고 코드를 수정해보았습니다.

당연히 gemini와 chatGPT의 도움을 받아서..

기존 작성했던 genomeweb crawling 코드에서 크롬 드라이버를 가져오는 함수가 있었습니다.

driver = uc.Chrome(options=options, version_main=148)

근데 이 버전이 계속 148이 아니더라구요... Orz

사실 크롬드라이버를 별도로 고정시켜 놓을 수는 있겠지만 굳이? 개인용 PC에서? 윈도우도 업데이트하고 크롬도 계속 업데이트 될텐데?

그래서 현재 설치되어 있는 버전을 찾는 함수를 추가하고 함수에서 확인한 버전을 입력해주도록 변겨했습니다. :)

get_chrome_major_version()이라는 함수를 추가해서 아래와 같이 행이 추가되었습니다.

major_version = get_chrome_major_version()
driver = uc.Chrome(options=options, version_main=major_version)

근데 동적으로 크롬버전을 확인 할 수 있도록 해달라니깐 알아서

윈도우, macOS, 리눅스별로 구분해서 코드를 작성하는 센스를 보여주었네요. :)

그리고 get_chrome_major_version함수에서 크롬 버전을 확인하지 못했을 경우 uc.Chrome에서 알아서 하도록 version_main 인자를 생략하는 센스가..

아니 이럴거면 처음부터 uc.Chrome 사용할 떄 version_main 인자를 사용안했으면 됐잖아;;

여하튼 github에 어제자로 genomeweb_crawling 코드가 업데이트 되었습니다.

>여기<

※ 계속 빈둥 빈둥 하면서 의미 있는 코드를 한번 짜보도록 하겠습니다. :)

출처: @ye._.vely618

목요일, 6월 25, 2026

genomeweb 기사는 많이 유용합니다. :)

링크드인에 genomeweb 기사를 가끔씩 공유하는데 사실 genomeweb은 회원만 볼 수 있기에 엄밀히 저는 제목말고는 볼 수 없어야합니다.

그러나 꼼수가 있어서 슬쩍 슬쩍 보면서 아이디어를 얻고 있는데 맨날 수작업으로 하다가 귀찮아서 파이썬 스크립트로 만들어봤습니다. :)

이름하여 genomeweb crawling 입니다.

스크립트: genomeweb crawling

크롤링을 하는데 날짜를 확인해서 가져오는 것이 아닌 첫 화면에 있는 기사들만 훑어오는 것이라서 매일 할 필요없습니다. 어차피 첫 메인 화면에 뜨는 것들이 대체로 일주일 동안 계속 보입니다.

우선 그냥 매번 수작업이 귀찮아서 만든 스크립트라서 편의 기능은 그닥 없습니다.

1. 첫 화면에 있는 기사 링크를 확인

2. 기사 링크를 확인했으면 가져온다

3. (AI에 물어보기 위해서) html에서 txt로 전환한다

4. 기사를 txt로 전환하는데 오늘 기준 일주일 전 기사는 제외

그리고 스크립트 실행하면 갑자기 새로운 크롬창이 뜨는데 놀라지 않으셔도 됩니다.

당신의 PC는 해킹 당하기 시작한것 입니다가 아니라 이번 스크립트에서는 크롬 창이 띄어져야 하더라구요.

음 혹시 영 거슬리다면 크롬창이 뜨지 않도록 코드 수정해서 알려주시면 감사드리겠습니다. :)

아래는 주의사항

※ 회사에서는 구독해서 사용하시기 바랍니다. 이렇게 사용하기 불편합니다. ㅋ

※ 그리고 크롤링하는 것이기에 문제가 발생한다면 발생한 문제와 법적 책임은 무분별하게 사용한 사용자의 몫입니다.

출처: @ye._.vely618

금요일, 6월 12, 2026

GISAID에서 서열 다운로드 받아보자

지난번에 기존 github에 공개되어 있었던 gisaid 크롤링 스크립트들을 테스트 했었습니다. >여기<

지난번 글에서 밝혔었다싶이 현재 github에 올라와 있었던 코드들은 gisaid에 로그인해서 COVID19 서열을 다운로드 할 수가 없었습니다.

그래서 gisaid에서 다운로드 받을 수 있는 코드를 만들어 봤습니다.

>여기<

음.. 생각은 한달전부터 했는데, 그간 안하고 있다가 만들기 시작하니 3시간걸렸네요 ㄷㄷ

(당연히 KiMi, chatGPT, gemini으로, 무료 버전으로 작성했습니다.ㅋ)

사용방법은 그렇게 어렵지 않고, 당연히 편리하지도 않습니다.

간단히 core 기능만 구현했고 fasta파일과 metadata를 다운로드가 정상적으로 작동하는 것을 확인했습니다. :)

로그인에 필요한 ID와 PASSWD만 잘 입력해주시면 됩니다.

사용방법은 파이썬 코드 내 ID와 PASSWD 입력하고 저장 후 파이썬 파일을 실행시켜주시면됩니다. 다만 FASTA 파일과 Metadata 파일은 동시에 다운로드 받을 수 없고 각각 실행시켜서 다운로드 받아야합니다.

FASTA를 다운로드 받으려면

download_current_page(download_type="fasta")

Metadata를 다운로드 받으려면

download_current_page(download_type="seqtech")

을 실행시켜주시면 됩니다.

그리고 COVID서열 검색 화면에보면 수집날짜나 등록날짜 이외에도 몇가지 필터가 있습니다.

체크박스로 Complete, High Coverage 와 같은 필터 옵션이 있는데 set_search_filters 함수에서 True, False로 설정해주시면됩니다. :)

※아.. "High Coverage"와 "Low coverage excluded"는 체크박스에서 함께 On(True)하시면 스크립트는 작동하겠지만... 실제로 사이트에서 정상적으로 작동될지 모르겠습니다. 실제 사이트에서는 "High Coverage"와 "Low coverage excluded"가 함께 체크 되지 않습니다. 참고하시기 바랍니다.

출처: @ye._.vely618

Pages

목요일, 7월 16, 2026

genomeweb 크롤링 첫 업데이트

목요일, 6월 25, 2026

genomeweb 기사는 많이 유용합니다. :)

금요일, 6월 12, 2026

GISAID에서 서열 다운로드 받아보자