database에 들어갈 무엇이든 뭐든지 있어야 겠지요?
지구상에서 생명공학을 공부하면서 한번도 안들어 갈수 없는
한번 들어 가봤으면 다시는 안 갈 수 없는 바로 그곳! 거기!
근데 일단 거기는 들어갈 필요는 없구요
NCBI에서 데이터를 받아봅시다!
-아니 이양반아 거기에 안들어가고 무엇을 한단말인가?
그렇죠! 그래서 저희는 이곳을 이용할겁니다.
assembly_summary_refseq.txt 파일을 작업서버에 살포시 다운로드 받아보겠습니다.
$ wget ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/assembly_summary.txt
이제 다 받아졌다면 잘 받아졌는지 파일을 한번 볼까요?
앜 내눈!!! 글씨밖에 없죠? 정상적인 파일입니다. 다행히 잘 받아졌군요
이 파일에서 우리가 필요한 파일들을 받을 수 있는 주소들이 있습니다.
자 파일 라인 갯수가 #으로 처리된 헤더 2라인을 제외하면 124,529개 밖에 안됩니다. ;)
대략 20번째 컬럼에 있는 ftp 주소를 한개의 파일로 한땀 한땀 모으시면됩니다.
모 번뜩 생각나는 방법은 txt파일을 엑셀에서 불러들여서 20번째 컬럼에 있는 내용 복붙하셔도...
그러나 좀 편리하게 awk를 사용하는 방법이..
$ awk '{FS="\t"} !/^#/{print $20}' assembly_summary.txt > bacteria.list그럼 bacteria.list에 ftp주소가 모입니다.
그 다음에
for M in `cat bacteria.txt`
do
wget -P rna $M/*rna_from_genomic.fna.gz
done
이렇게 해주시면 rna폴더에 rna_from_genomic.fna.gz 파일들이 차곡 차곡 쌓입니다.
대신 12만개 다운 받아야하니.. screen 실행시킨 다음에 하시고요
그럼 다 받을때까지 요즘 날씨도 좋으니 놀다오는걸로 :)
#날씨도좋은데놀아보자 출처: YOUTUBE 캡쳐 |