레이블이 fasta인 게시물을 표시합니다. 모든 게시물 표시
레이블이 fasta인 게시물을 표시합니다. 모든 게시물 표시

금요일, 6월 12, 2026

GISAID에서 서열 다운로드 받아보자

지난번에 기존 github에 공개되어 있었던 gisaid 크롤링 스크립트들을 테스트 했었습니다. >여기<

지난번 글에서 밝혔었다싶이 현재 github에 올라와 있었던 코드들은 gisaid에 로그인해서 COVID19 서열을 다운로드 할 수가 없었습니다.


그래서 gisaid에서 다운로드 받을 수 있는 코드를 만들어 봤습니다. 

>여기<

음.. 생각은 한달전부터 했는데, 그간 안하고 있다가 만들기 시작하니 3시간걸렸네요 ㄷㄷ

(당연히 KiMi, chatGPT, gemini으로, 무료 버전으로 작성했습니다.ㅋ)

사용방법은 그렇게 어렵지 않고, 당연히 편리하지도 않습니다.

간단히 core 기능만 구현했고 fasta파일과 metadata를 다운로드가 정상적으로 작동하는 것을 확인했습니다. :)

로그인에 필요한 ID와 PASSWD만 잘 입력해주시면 됩니다. 

사용방법은 파이썬 코드 내 ID와 PASSWD 입력하고 저장 후 파이썬 파일을 실행시켜주시면됩니다. 다만 FASTA 파일과 Metadata 파일은 동시에 다운로드 받을 수 없고 각각 실행시켜서 다운로드 받아야합니다. 

FASTA를 다운로드 받으려면

download_current_page(download_type="fasta")

Metadata를 다운로드 받으려면

download_current_page(download_type="seqtech")

을 실행시켜주시면 됩니다.


그리고 COVID서열 검색 화면에보면 수집날짜나 등록날짜 이외에도 몇가지 필터가 있습니다.

체크박스로 Complete, High Coverage 와 같은 필터 옵션이 있는데 set_search_filters 함수에서 True, False로 설정해주시면됩니다. :)



※아.. "High Coverage"와 "Low coverage excluded"는 체크박스에서 함께 On(True)하시면 스크립트는 작동하겠지만... 실제로 사이트에서 정상적으로 작동될지 모르겠습니다. 실제 사이트에서는 "High Coverage"와 "Low coverage excluded"가 함께 체크 되지 않습니다. 참고하시기 바랍니다.






출처:  @ye._.vely618

토요일, 5월 30, 2020

Entrez를 이용한 fasta 파일 다운받기

간만에 Biopython에 포함되어 있는 Entrez 함수를 이용하여 assceesion넘버로 fasta파일 다운받기를 해봤습니다.

git: https://github.com/gwlee/study/blob/master/entrez_access2fasta.py


python entrez_access2fasta.py accessionid 하면 {accessionid}.fasta파일이 생성됩니다.

참 쉽죠?

Biopython만 잘 사용하셔도 갱장한 것들을 하실 수 있으시고
그런 의미에서 다음번에는 좀더 재미진 내용으로 찾아오도록 하겠습니다. :)








출처: @sana_twice.09
출처: @sana_twice.09



수요일, 1월 30, 2013

FASTX Tool Kit에서 phred33 사용하기

FAST{A/Q} 파일을 조작(그 조작말고요 고갱님~ ㅎㅎ)을
보다 수월하게 하는 명령어들을 모아놓은 아주 좋은 패키지 입니다.
(사실 전 몇개 안쓰지만요;;; 잇힝~ )

그러나 지금은 이 툴보다 좋은 프로그램들이 많이나와 있는 상태인데..

그래도 끄적 끄적... ㅎㅎ
혹시 다른 페이지들이 폐쇄되는걸 대비해서
백업용으로.....

fasta tool에서 fastx_quality_stats를 사용할 때 quality score관련한 error 메세지를 볼 수 있는데 이것은 fasta tool kit이 phred기준 +64를 좋아해서 그런다는...

그래서 fastx_quality_stats -i input.fastq -N -Q 33 -o quality.txt

이렇게 하면 된다고 이곳에 나와 있었습니다.

출처: shengliblog