레이블이 TWICE인 게시물을 표시합니다. 모든 게시물 표시
레이블이 TWICE인 게시물을 표시합니다. 모든 게시물 표시

수요일, 10월 16, 2019

메타지놈은 kaiju와 함께

코펜하겐에 계시는 이름좀 들어본 A. Krogh옹이 속한 팀(저자가 2명인건 비밀)에서 출판한 메타지놈 classification 분석 툴인 kaiju (1저자님이 퍼시픽림좀 보신듯.. 그럼 kaiju이후 analysis pipeline은 jager인건가)에 대해서 잠시 얘기해 보도록 하겠습니다.

웹서버 : http://kaiju.binf.ku.dk/
논문 : Fast and sensitive taxonomic classification for metagenomics with Kaiju
현재 kaiju버전 : https://github.com/bioinformatics-centre/kaiju/releases/tag/v1.7.1


모 이제 metagenome이야 쩔 핫해요라는거는 일주일에 한두번은
수십억 L. 로 시작하는 미생물들을 우리 입안에 털어넣고 있는이상 따로 말해야하는가?

그렇지만 아직도 연구할건 많다는건 비밀이라서
많은 연구자들이 다양한 연구를 하기위해 이것저것 시도를 할 때
사용할 도구들을 계속 만들고 있는데 이 kaiju 또한 그런 도구중 하나 되겠습니다.

모 아이디어는 기존에는 DNA read를 었어서 DNA랑 비교했는데
우리 그러지 말고 단백질 조각이랑 비교하면 어떻겠니? 하는 논문 되겠습니다.

걍 제일 중요한 Figure

결론: DNA-DNA 비교 하지말고 DNA-Protein비교가 더 좋지? 되겠습니다.


그리고 위의 그림으로만 믿지 못하는 (저같은) 닝겐들을 위해서
그럼 너님들을 위해서 real 샘플에서 결과를 보여주지 훗
기대하시라고!

됐냐?

추가적으로 전세계적으로 NGS는 일루미나느님이 잡고 있다보니 저자분들께서
HiSeq(Short)과 MiSeq(Long)에 대해서 kaiju와 kreken으로 비교해두었습니다.
HiSeq에서는 두 프로그램의 sensitivity나 precision은 별로 차이가 없었고 MiSeq결과에서는 그래도 (phylum 수준에서나마) kaiju(그냥도 아니고 greedy-5 모드)가 karken보다 조금더 높은 sensitivity와 precision을 보여준다고 합니다.

결론은 Microbiome은 MiSeq으로 대동단결(진정 MiSeq밖에 없는것인가.. Orz)




출처: @sana_twice.09

토요일, 9월 07, 2019

Nextera DNA Flex는 모지?

이번글은 그냥 둘러보다가 알게된
일루미나에서 새로 나온듯한 Library Kit에 대해서 한번 알아보겠습니다.

모 나온지는 1-2년된듯한 라이브러리 Kit같습니다.

일루미나 라이브러리에 TruSeq이라는 라이브러리 킷외에 Nextera라는 라이브러리 킷이 하나더 있었다는건 나 좀 시퀀싱 읆어봤다 하시는 분이라면 다 알고 계실겁니다.

Nextera가 TruSeq과의 큰 차이점이라고 한다면 fragmentation과 tagging이 Transposome이라는 짜르고 붙이는 기능이 포함되어 있는 효소를 가지고 한다는 점일 겁니다.

지금까지 제가 알고 있었던 Transposome이 라는 녀석이 하단의 fig 2. 처럼 작동해서 fragmentation의 size가 broad하다는 것으로 알고 있었는데...

출처: Nextera DNA Library Prep Kits Data Sheet

그런데 최근 Nextera Library Kit에다가 재미있는 방법을 결합시켜서 이전보다 fragmentation과 tagging 작업을 더 효율적으로 바꾼것 같아보이네요

Bead-linked Transposome 바로 BLT 되겠습니다.


맛있겠다. 출처: 맥도널드 홈페이지


이게진짜 BLT 출처: 일루미나 홈페이지
Bead에 Transposome 를 붙여놓고 거기다가 DNA를 넣어서 슥하고 자르고
삭하고 PCR primer를 붙여버린다는...
물론 transposome의 단점은 그대로 가지고는 있다능
fragment size가 일정하지 않은데, 그리고 추가적으로 양쪽에 PCR primer가 각각 있어야되는데 그렇지 않은 애들은?
(그럼에도 불구하고 팔아먹고는 있네요.. ㅎㅎ )

그래도 이전 방법보다는 fragment size가 조금더 일정하게 나오지 않을까하는
그리고 사람 손은 한번은 덜 타니깐 조금은 나은 방법으로 발전하는게 아닌가 하고 생각은 드네요 ㅎㅎ







출처: @sana_twice.09




관련 자료

Nextera DNA Library Prep Kit Data Sheet

Nextera Infographic

Nextera DNA Flex

Bead-linked transposomes enable a normalization-free workflow for NGS library preparation (새로나온 라이브러리 킷의 일루미나논문입니다.)



화요일, 8월 27, 2019

유전체 3사 기업 재무재표 살펴보기

음... 사실 지금까지 제 블로그에서는
허구헌날 분석 관련 로그 기록 내용이 올라 왔었는데
(그나마 그것도 잘 안올라오죠?)

그래서 이번엔 그냥 유전체 기업들 재무재표를 한번 훑어보는 기회를 가져보고자 합니다.

지금 다니고 있는 업체를 비롯해서 다녔었던 업체들 등등 동종 업체의 재무재표를
한번 훑어 보려고 하는데 전문적인 내용은 기대하지 마세요

저도 잘 알고 있는건 아니고
걍 자본과 부채의 합이 자산이라는 것만 아는 중생이라 ㅋㅋ

마크로젠, 테라젠, 디엔에이링크 3사에 의 재무정보를 통일성있게
볼 수 있도록 엑셀로 한번 만들어 봤습니다.
모 재무정보는 공시정보에 모두 공개되어있으니 대단한 정보는 아니죠 ㅎㅎ

>재무정보<

음... 짧은 지식으로 비교 하자면
마크로젠과 테라젠의 유형자산이 생각보다 차이가 많이 안납니다 테라젠의 경우 우리가 알고 있는 테라젠-이텍스 바이오연구소만 있는게 아니라 제약이 있어서 공장이 있음에도 말이죠.. 마크로젠은 왜 유형자산이 높은건지... 말하지 않겠습니다. ㅎㅎ

마크로젠은 자산치고 무형자산이 다른 두 회사보다 생각보다 적습니다.
특허가 생각보다 없다고 생각하시면되겠습니다(아놔.. 이렇게 특허압박 들어오는건가.. ).

마크로젠과 테라젠의 경우 유동부채가 꽤 큰 금액이기는 하지만 전체 부채금액 대비해서 대략 60%, 그에 비해 디엔에이링크의 경우 전체 부채대비 유동부채가 90%에 육박하고 있다는게 좀 차이점이긴 하죠
그리고 유동부채가 자산대비 좀.....

그냥 한번 유전체 3사하면 그냥 (사적으로) 생각나는 회사들의
재무재표를 한번 훑어봤습니다.

출처: @sana_twice.09

일요일, 10월 14, 2018

Circos를 그까이꺼 한번 해보자 -설치편-

몇년 전부터 Genome을 그린다면 염색체 모양이 아닌
죄다 동그랗게 그리게 한 장본인!!
바로 그녀석! Circos (발음은 나도몰라 그냥 부르고 싶은데로!!)

공식 사이트: http://circos.ca/

사실 circos는 NY Times와 같은 미언론의 인포그래픽의 한 축을 담당했었는데
지금은 나도 모르겠다능.. 여튼 그래서 circos가 기능은 막강하지만
그만큼 사용하기 까다로워서 동그안 genome은 그려주지만 비슷한 기능을 하는
간단한 프로그램들도 많이 나왔다능....
(그래서 결론은 꼭 circos를 사용해야 그릴 수 있는건 아니라는걸 먼저 밝혀둡니다.)

현재 버전은 0.69-6 랍니다.
제가 마지막에 사용했던 circos버전은 0.67-4라는건 비밀...

그래서 일단 다운받아서 실행해 보았습니다. 업데이트 되면서 몬가 더 필요로 하고 있는지..

$ wget http://circos.ca/distribution/circos-0.69-6.tgz
$ tar zxf circos-0.69-6.tgz
$ cd circos-0.69-6/bin
$ ./circos
하면 (정상적으로 perl들이 설치되어 있어도)에러 납니다.
$ ./circos -modules
하면 설치가 안되어 있는 모듈들을 보여줍니다.
시스템 perl이나 circos가 사용하려는 perl에 circos가 필요로 하는 모듈들을 설치해 주면됩니다. :)
circos 설치 방법을 참고하셔서 설치하시면됩니다.


출처: JYP

화요일, 9월 18, 2018

Microbiome Database를 만들어 볼까? -RDP편-

RDP
이름에서 똭 느껴지지 않으십니까?
Ribosomal Database Project

일반 fasta/gb 자료가 있고
trainset 데이터가 있습니다.

Bacteria unalign seq (fa,gb)
Archaea unalign seq (fa,gb)

Train Set 은 여기서 받으시면됩니다.

근데 RDP 같은 경우 사실 그냥 별 이유 없이 받아보는 겁니다. ㅋ
-저도 이게 어떻게 쓰일지 잘 모르겠어요 :)

출처 JYP

목요일, 9월 13, 2018

Microbiome Database를 만들어 볼까? -Silva편-

SILVA는 de.NBI 가 뒷배인 DB로 지속적으로
업데이트되고 있는 DB중 하나입니다.

서열 개수도 아마 가장 많을 것으로 생각됩니다.
대신에 그만큼 정리가 가장 안되어 있기도 합니다. ㅋ
-사실 이정도 양의 서열에 저정도 수준을 갖춰놓은것도 용하긴합니다.

그리고 작년? 제작년쯤에 SILVAngs라는 서비스
MG-RAST의 대항마쯤으로 런칭을 했는데 사견으로는
그때 이미 MG-RAST는 심심하면 서비스 다운되서 MG-RAST는
이미 논외 대상이었을것 같다능...(다년간 쌓아놓은 데이터가 문제였지..)

여튼 silva에서 제가 사용하고자 하는 파일은
silva에서 제공하는 qiime용 파일입니다.
>다운로드링크<

직접 찾아가려는 경우 [Download] > [Archive]를 클릭하시면
페이지에 온갖 리스트들이 나오는데 그중에서 [qiime]를 클릭하시면
제가 사용하고자 하는 파일이 보이실 겁니다. ;)

ㅋㅋ 당분간은 계속 다운로드만 주구장창 받는 글들입니다. :)


출처: JYP

수요일, 9월 05, 2018

Microbiome Database를 만들어 볼까? -GG편-

Microbiome분석을 시작하면서 많이 보게되는 DB가 두개 있습니다.
GG와 Silva입니다.

오늘은 그중에 GG즉 greengene 자료를 받아 보겠습니다.

greengene 공식 사이트는 >여기<입니다.
(잘 안들어가지는 특징이 있습니다.)

공식 greengenes 사이트의 다운로드 페이지를 가면 2013년 5월자 자료가 마지막으로 나옵니다.

근데 롭훃님의 qiime 사이트를 돌아다니다보면
2013년 8월 자료를 득템 할 수 있습니다.
>그곳링크<

위의 2013년 5월 자료와 8월 자료가 얼마나 차이가 날지는
저도 잘 모르겠습니다.

무엇을 받던 도찐개찐 ;)

아니면 이번 기회에 한번 비교 해볼까요?
- 2013년 5월과 2013년 8월 자료는 rep_set 99_otus 기준으로 동일할 것으로 보입니다.
모 그냥 쓰고 싶은거 쓰시면됩니다. (2018년 9월 8일 업데이트)



출처 JYP

토요일, 9월 01, 2018

Microbiome Database를 만들어 볼까? -NCBI편-

Microbiome Database를 만들려면
database에 들어갈 무엇이든 뭐든지 있어야 겠지요?

지구상에서 생명공학을 공부하면서 한번도 안들어 갈수 없는
한번 들어 가봤으면 다시는 안 갈 수 없는 바로 그곳! 거기!

근데 일단 거기는 들어갈 필요는 없구요
NCBI에서 데이터를 받아봅시다!
-아니 이양반아 거기에 안들어가고 무엇을 한단말인가?

그렇죠! 그래서 저희는 이곳을 이용할겁니다.

assembly_summary_refseq.txt 파일을 작업서버에 살포시 다운로드 받아보겠습니다.


$ wget ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/assembly_summary.txt

이제 다 받아졌다면 잘 받아졌는지 파일을 한번 볼까요?

앜 내눈!!! 글씨밖에 없죠? 정상적인 파일입니다. 다행히 잘 받아졌군요

이 파일에서 우리가 필요한 파일들을 받을 수 있는 주소들이 있습니다.
자 파일 라인 갯수가 #으로 처리된 헤더 2라인을 제외하면 124,529개 밖에 안됩니다. ;)

대략 20번째 컬럼에 있는 ftp 주소를 한개의 파일로 한땀 한땀 모으시면됩니다.
모 번뜩 생각나는 방법은 txt파일을 엑셀에서 불러들여서 20번째 컬럼에 있는 내용 복붙하셔도...

그러나 좀 편리하게 awk를 사용하는 방법이..

$ awk '{FS="\t"} !/^#/{print $20}' assembly_summary.txt > bacteria.list
그럼 bacteria.list에 ftp주소가 모입니다.

그 다음에

for M in `cat bacteria.txt`
do
wget -P rna $M/*rna_from_genomic.fna.gz
done

이렇게 해주시면 rna폴더에 rna_from_genomic.fna.gz 파일들이 차곡 차곡  쌓입니다.

대신 12만개 다운 받아야하니.. screen 실행시킨 다음에 하시고요

그럼 다 받을때까지 요즘 날씨도 좋으니 놀다오는걸로 :)

#날씨도좋은데놀아보자 출처: YOUTUBE 캡쳐