레이블이 Bacteria인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Bacteria인 게시물을 표시합니다. 모든 게시물 표시

토요일, 9월 01, 2018

Microbiome Database를 만들어 볼까? -NCBI편-

Microbiome Database를 만들려면
database에 들어갈 무엇이든 뭐든지 있어야 겠지요?

지구상에서 생명공학을 공부하면서 한번도 안들어 갈수 없는
한번 들어 가봤으면 다시는 안 갈 수 없는 바로 그곳! 거기!

근데 일단 거기는 들어갈 필요는 없구요
NCBI에서 데이터를 받아봅시다!
-아니 이양반아 거기에 안들어가고 무엇을 한단말인가?

그렇죠! 그래서 저희는 이곳을 이용할겁니다.

assembly_summary_refseq.txt 파일을 작업서버에 살포시 다운로드 받아보겠습니다.


$ wget ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/assembly_summary.txt

이제 다 받아졌다면 잘 받아졌는지 파일을 한번 볼까요?

앜 내눈!!! 글씨밖에 없죠? 정상적인 파일입니다. 다행히 잘 받아졌군요

이 파일에서 우리가 필요한 파일들을 받을 수 있는 주소들이 있습니다.
자 파일 라인 갯수가 #으로 처리된 헤더 2라인을 제외하면 124,529개 밖에 안됩니다. ;)

대략 20번째 컬럼에 있는 ftp 주소를 한개의 파일로 한땀 한땀 모으시면됩니다.
모 번뜩 생각나는 방법은 txt파일을 엑셀에서 불러들여서 20번째 컬럼에 있는 내용 복붙하셔도...

그러나 좀 편리하게 awk를 사용하는 방법이..

$ awk '{FS="\t"} !/^#/{print $20}' assembly_summary.txt > bacteria.list
그럼 bacteria.list에 ftp주소가 모입니다.

그 다음에

for M in `cat bacteria.txt`
do
wget -P rna $M/*rna_from_genomic.fna.gz
done

이렇게 해주시면 rna폴더에 rna_from_genomic.fna.gz 파일들이 차곡 차곡  쌓입니다.

대신 12만개 다운 받아야하니.. screen 실행시킨 다음에 하시고요

그럼 다 받을때까지 요즘 날씨도 좋으니 놀다오는걸로 :)

#날씨도좋은데놀아보자 출처: YOUTUBE 캡쳐

화요일, 3월 28, 2017

Resolving the Complexity of Human Skin Metagenomes Using Single- Molecule Sequencing


Yu-Chih Tsai et al. mBio 2016; doi:10.1128/mBio.01948-15


동부(Bethesda)와 서부(Pacific Biosciences)의 콜라보 논문
그러나 이참에 Cell 한번 마음대로 써보자 하지 않았다는게 의외의 포인트 (제길.. 놀려줄게 없어 ㅠ.ㅜ)

사람의 피부조직 중 6군데에서 샘플을 채취하는데 보여줄때는 크게 팔 (3군데)과 발 (3군데)를 샘플링을
해서 SMRT와 HiSeq 시퀀싱

- 니네 반복없니? 반복은 너님들이나 신경쓰는 거 Orz

근데 팔쪽 SMRT가 폭망해서 Human 필터링 하니 20M정도 나왔다는거 제외하고는 HiSeq과 발 SMRT는 잘 나와줘서 하단의 멋진 Figure 시전. ㅠ.ㅜ



디스플레이 하나는 이쁘게 잘하네.. ㅠ.ㅜ
간단히 얘기해서 HiSeq으로는 못잡는거 있다(물론 그 반대도 있다는게 함정이지만..).
그래서 HiSeq이 위대하긴 했는데 SMRT로도 HiSeq하는거 확인 할 수 있고 어떤 부분에서는 더 정확하게 표현해 줄 수 있다라는 것을 여지없이 보여주고 있습니다(상단 그림에서 D 파트 되겠습니다).

그리고 이 논문에서 저자가 참고할만한 Figure는 바로 이것!


현재 iHMP의 Assembly SOP의 tools은 SOAPdenovo인데 음.. 이거 봐서는 SPAdes도 나쁘지 않다고 생각되네요..
Long read있다고 어설프게 Hybrid 한다고 깝치지 말고 HiSeq으로 SPAdes 도 나쁘지 않겠네라는 본인 생각 되겠습니다.
대신 속도는 확실히 SOAPdenovo가 빠릅니다.

논문 결론은 당신이 알고 내가 알고 있다 싶이 SMRT 자랑되겠습니다.
근데 문제는 효율이 좋아져서 그냥 자랑질이 아니라는게.. Orz
쓰고 싶은데 돈이 없어.. ㅠ.ㅜ

그래서 우리는 SMRT랑 HiSeq으로 박테리아 말고 바이러스랑 곰팡이도 같이 봤고 덤으로 Corynebacterium simulans라는 균은 closed genome서열도 확보도 할 수 있다능!
물론 TSLR이라는 일루미나라는 기술도 있지만 증폭해야되서 bias가 예상되는데 우리 SMRT는 증폭-Free라서 괜찮음(물론 이건 님들 의견, 물론 나한테는 반박 자료가 없다는게 현실 ㅠ.ㅜㅋ)