링크드인에 genomeweb 기사를 가끔씩 공유하는데 사실 genomeweb은 회원만 볼 수 있기에 엄밀히 저는 제목말고는 볼 수 없어야합니다.
그러나 꼼수가 있어서 슬쩍 슬쩍 보면서 아이디어를 얻고 있는데 맨날 수작업으로 하다가 귀찮아서 파이썬 스크립트로 만들어봤습니다. :)
이름하여 genomeweb crawling 입니다.
스크립트: genomeweb crawling
크롤링을 하는데 날짜를 확인해서 가져오는 것이 아닌 첫 화면에 있는 기사들만 훑어오는 것이라서 매일 할 필요없습니다. 어차피 첫 메인 화면에 뜨는 것들이 대체로 일주일 동안 계속 보입니다.
우선 그냥 매번 수작업이 귀찮아서 만든 스크립트라서 편의 기능은 그닥 없습니다.
1. 첫 화면에 있는 기사 링크를 확인
2. 기사 링크를 확인했으면 가져온다
3. (AI에 물어보기 위해서) html에서 txt로 전환한다
4. 기사를 txt로 전환하는데 오늘 기준 일주일 전 기사는 제외
그리고 스크립트 실행하면 갑자기 새로운 크롬창이 뜨는데 놀라지 않으셔도 됩니다.
당신의 PC는 해킹 당하기 시작한것 입니다가 아니라 이번 스크립트에서는 크롬 창이 띄어져야 하더라구요.
음 혹시 영 거슬리다면 크롬창이 뜨지 않도록 코드 수정해서 알려주시면 감사드리겠습니다. :)
아래는 주의사항
※ 회사에서는 구독해서 사용하시기 바랍니다. 이렇게 사용하기 불편합니다. ㅋ
※ 그리고 크롤링하는 것이기에 문제가 발생한다면 발생한 문제와 법적 책임은 무분별하게 사용한 사용자의 몫입니다.
![]() |
| 출처: @ye._.vely618 |
