레이블이 REDVELVET인 게시물을 표시합니다. 모든 게시물 표시
레이블이 REDVELVET인 게시물을 표시합니다. 모든 게시물 표시

금요일, 10월 25, 2019

간만에 denovo RNA-Seq 해보기 -유전자구조예측편-

denovo RNA-Seq를 사용해서 조립을 했다면
조립된 서열들은 어떤 유전자인지 궁금해 지겠쥬?

안 궁금하면 그냥 끝! 하고
서열을 NCBI에 fastq파일 디파짓하고 Bye さようなら하면
그냥 남 좋은일 하는 겁니다.
(나는 대인배다 나는 시퀀싱 비용이 아깝지 않다 하시는 분이라면
친하게 지내요!! 제발~ )

여튼 RNA-Seq을 했고, 생산된 RNA-Seq을 가지고 조립까지 했다면
조립된 서열들은 어떤 유전자들일까 궁금한게 인지사정!

그러면 그런 tool에서는 어떤 것들이 있을까?

바로 이런게 있습니다.
TransDecoder

TransDecoder Wiki

조립된 RNA-Seq서열 에서 coding 서열을 찾아주는 프로그램 입니다.
(현재 버전이 5.5.0이네요.. 다행히 어떤 업데이트도 일어나지 않았네요..)

풋 아마추어같이 RNA-Seq서열이니깐 ATG로 시작하는 것 찾으면 되지 무슨 프로그램이야 프로그램은 아마추어 같으니라고!!
라고 하신다면 당신은 느응력자!

다들 알고계시다 싶이 ATG로 시작하는 것들 major긴 하지만 RNA-Seq을 해서 조립하게되면 ATG로 시작하지 않은 partial로 어딘가가 짤려진 gene 서열들이 존재하기 때문에 그런것들도 잘 알아서(모 대략, 못찾는것도다는) 찾아주는 녀석이 바로 이녀석 되겠습니다.

-사실 이거 말고 다른것도 많이 있을겁니다. 제가 이것밖에 안써서 이거 소개합니다. ㅎㅎ


그냥 위에 파일 다운 받아서 압축 풀고 trinity로 조립한 fasta파일을 넣고 돌리면

$ ~/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t Trinity.fasta --gene_trans_map Trinity.fasta.gene_trans_map

(근데 저 --gene_trans_map이 무슨 옵션이었는지 까먹었네요...)

여튼 이렇게 돌리면 대략적인 결과 나오고 그 결과가지고 연구하면됩니다.
이거가지고 부족해!! 하시면 genome project 진행하시면되겠습니다!!

ps. 위의 글은 유전자 예측이 아닌 유전자 구조 예측이 맞는 표현입니다. Orz


출처: SM

월요일, 10월 29, 2018

Microbiome Database를 만들어볼까? -ChunLab편-

간만에 Microbiome DB 관련 글을 올립니다!
그래봤자 또 다운로드하자 되겠습니다. :)

오늘은 국내 microbiom 기업중 가장 기술력을 가지고 있는
업체인 chunlab의 DB 되겠습니다.

이 DB의 경우 당연히 fee를 내셔야합니다.

라이센스를 정확히 안읽어봤는데..
비영리면 무료였나? 정확하진 않지만
무엇인가 영리 서비스 하고자 EzBioCloud 16S database를 사용하려면
fee를 내야합니다.

다운로드는 다음 링크에 가셔서 다운로드 받으시면 됩니다.

>이곳<

천랩의 DB의 경우 제가 사용하겠다 말겠다할수 있는건 아니라서..
다운로드 받고싶으신 분들만 받아서 잘 사용하시면 되겠습니다.
qiime으로 분석하시는 분들께서는 별 무리없이 사용하시는 파이프라인에 붙여서 사용하실 수 있게 제작되었습니다. 사실 그냥 작동합니다. :)



출처: SM

일요일, 9월 09, 2018

Microbiome Database를 만들어볼까? -NCBI편 2-

지난 시간에 이곳에서 자료를 받아 봤습니다.

오늘은 또 다른 ncbi 자료를 받아 볼겁니다.

※지겹다고요? 제가 그랬잖아요? 당분간은 맨날 다운 받을 거라고 ㅋ
빨라야 추석 이후에야 무엇인가 하지 않을까 기대합니다.

지난번에는 ncbi에서 제공하는 모 그런걸 받았습니다.
-자세한 내용은 다음 글에... ㅎㅎ :)

그렇다면 이번에는 우리가 ncbi라고 하면
맨날 다운받았던 blast의 db를 만드는 source fasta파일인
nt.gz 을 받아보도록 하겠습니다.

자 웹브라우저에서 ftp://ftp.ncbi.nlm.nih.gov/blast/db/fasta/
들어가시면 nt.gz이 보입니다.

물론

$wget ftp://ftp.ncbi.nlm.nih.gov/blast/db/fasta/nr.gz 

하셔서 다운받아도 무방합니다.

그럼 대략 40G 정도의 gzip파일을 받아봅시다. :)



출처: SM Town

수요일, 8월 29, 2018

Microbiome Database를 만들어 볼까?

Microbiome분석을 위해서 여기저기 기웃거려봤다면
여러가지 16S rRNA 데이터베이스가 있다는것을 아실겁니다.

보통 microbiome분석에 입문해서 사용하는 것이라면
대게 처음 분석하는 tool에따라 결정되는데
우리 롭횽님의 qiime를 접한다면 greengene을, mothur을 접하게된다면 silva를 database로 만나게됩니다.

사실 대부분의 연구 결과들이 greengene과 silva로 나오기 떄문에 이 두 database를 사용하면 당연히 그 누구도 갠세이 놓지 않습니다.
-아니면 에디터나 리뷰어에게 외쳐보자. Drop the DB, yo!

근데 매번 분석하다보면 family수준 밑에만 내려가면 unknown은 왜이리 많을걸까..

그렇다면 그냥 우리가 손수 microbiome분석을 위한 db를 만들어보면 어떨까?

당근 이렇게 만들경우 실제 연구에 사용하기는 마뜩치 않다는걸 미리 말씀드립니다.

일단 tree를 만들기가;;; 녹녹치 않습니다. (물론 서열수를 줄이면 수십G 메모리를 가지는 워크스테이션이 있으면 가능합니다.)
그리고 제가 분류학자도 아니고 제가 서열보고도 얘가 몬지 알지도 못하고
서열에 taxonomy 붙여도 제대로 연결시킨건지 확인이 되지 않는다는 큰 문제가 있습죠
#물론_이사진을보면_누군지_압니다, 출처:SM Town

그럼에도 불구하고 왜하냐? 그냥 재미삼아, 경험삼아 만들어보는것입니다.

내가 사용하는 DB를 만드는데 얼마나 많은 고민이 녹아있고
얼마나 많은 생각들이 들어가 있는지 이해를 해보는것도 나쁘지 않을듯하고요 ㅎㅎ ;)

일단 이런걸 하겠다고 블로그에 띄워놨으니 언젠가는 후속글을 올리지 않을까요?
따라가능하도록 소스같은것은 각 글이나 github에 업로드하는 걸로 :)
jupyter notebook으로 올리면 더더욱 좋겠지만 제가 아직 notebook이 익숙치가 않아서..

우선 다음 글에서는 Custom Microbiome Database에 필요한 기초 자료 수집에 관련된 내용들을 올리도록 하겠습니다. :)