레이블이 reference인 게시물을 표시합니다. 모든 게시물 표시
레이블이 reference인 게시물을 표시합니다. 모든 게시물 표시

토요일, 7월 29, 2023

왕의 귀환, greengene2

어이쿠... 기억속에 잊혀져 있던 database가 우리 곁으로 다시 돌아왔네요

옛날에 metagenome 한번 해봤으면 썼었던 바로 그 db, greengene이 버전업 해서

greengene2으로 아래 논문으로 돌아왔습니다.


Greengenes2 unifies microbial data in a single reference tree


역시 우리 Rob훃아가 찬밥 신세로 있었던 greengeen을 멱살 잡고 끌고 온듯합니다.

단순히 greengene의 빈약했던 taxonomy정보만 벌크업 한것이 아닌 16S rRNA와 shotgun metagenome 결과를 비교할 수 있도록 개선했다고 합니다.

여튼 metagenome 하면서 다들 느낀 점은 시퀀싱 방법과 db가 바뀔 때 마다 결과가 왜 다르지 아니겠습니까? 이 문제를 (어느정도)해결하지 않나 싶습니다.

꼼꼼하게 보지는 않았지만 현존하는 종 db들을 싹싹 털었던듯 싶네요

WoL(Web of Life), LTP(Living Tree Project)등의 db에서 확보가능한 full length 16S rRNA 서열을 긁어모았고 쿵짝 쿵짝 하고 taxonomy는 통일을 하기 위해 NCBI체계를 따르는 LTP 정보를 GTDB(Genome Taxonomy DataBase)에 통합하였다고 합니다.  curation차이로 인해서 LTP와 GTDB간의 차이가 발생하고 종의 종보들이 누락되어 있는 것들이 있다보니 데이터가 더 풍부한 GTDB에 LTP 정보들을 통합하였다고 하네요.
(개인적으로 NCBI taxonomy 체계를 사용하고 있는데...)

여튼.. 거의 10년만의 greengene의 귀환 논문이고 (단순히) 데이터만 많았던 siliva가 긴장좀 하겠네요 ㅎㅎ 


더 자세하게 읽어 봐야하는데...

기쁜 마음에 포스트 먼저 훗..




출처: @ye._.vely618



토요일, 6월 18, 2022

mummer4, 미처 알아보지 못했다

mummer는 서열 정열프로그램으로 꽤나 오래부터 사용되었던...
NGS시대에 접어들면서 일반적으로 사용되지는 않고...
Reference 제작할때 종종 쓰이는...

MUMmer이라고 보통 쓰는데... MUM의 의미가 "Maximal Unique Matches"라고.. 여기에 나와있었네요..

그리고 이번에 알았는데.. MUMmer는 당연히 target와 query는 fasta형식만 입력될줄 알았는데 input으로 fastq도 사용할 수 있다는..
당연히 fasta 형식으로 변경해서 사용하려고 했는데... 작동해서 잠깐 화장실좀 다녀왔다능..

input으로 fastq형식을 받을 수 있는 버전의 tools이 2018년도에 논문으로 출판되어 한번 들추어 보았습니다.

이름하여 MUMmer4: A fast and versatile genome alignment system

이전 MUMmer3 이후 데이터구조를 32bit에서 48bit로 증가시켜 이론적으로 비교가능한 크기가 141Tbp (다시 한번 화장실을 다녀오게 만드는.....)로 늘렸다는.. 근데 이거 141Tbp이 입력 파일이면 입력 파일 로딩하는데만 한세월 아닌가...

여튼..

MUMmer4 논문 작성 할때 언급해준 정렬 프로그램으로
그냥 생명정보학 분석한다고 할때 기본 옵션인 BWA/Bowtie,
PacBio 데이터 할때 사용하는 BLASR 들을 언급해 주셨는데
이제 fastq형식의 파일을 지원해서
reference vs reference 비교 프로그램이 NGS용 정렬 프로그램들에게 어깨를 나란히 할 수 있는 기회를...

mummer라고 하면 갱장한 legacy 프로그램이라고 생각할 수 있지만...
다방면으로 개선 시킨 mummer4를 하나하나 뜯어보면 갱장히 힙해졌다고 볼 수 있습니다.

NGS 시대에 다양하게 쏟아져 나오는 reference크기에 대응할 수 있도록 비교 사이즈의 증가(141Tb)되었고, 또한 긴 서열 작업시 메모리 문제가 발생할 것을 대비해서 긴 서열들을 자동으로 분할해서 작업해주는 --batch라는 옵션기능까지...

mummer4의 새로운 기능들이 갱장히 많아졌습니다.

reference 서열을 제작하는 de-novo assembly하시는 분들 외에도 다양한 작업시 사용할 수 있을것으로 생각되니 한번 기능들 구경해보시고 활용해보시기 바랍니다.


그런데... 사실 NGS 서열 정렬은 역시 여기가 맛집이긴 합니다.


ps. BLAST에서도 query파일을 fastq 형식을 받을 수 있다고 합니다. 이름하여 Magic-BLAST를 사용하시면되겠습니다. 속도는 잘 모르겠습니다. ㅎㅎ 


@ye._.vely618



 

금요일, 3월 01, 2019

간만에 RNAseq 분석 해보기 -Reference편-

Alignment를 수행하기 위해서는 reference가 필요합니다.
모 어떤 alignment 툴에서는 그냥 genome 서열만 있어도 되지만
하이 쓰루풋 시퀀싱 데이터를 다룰 때는 대부분 genome 서열을
나름의 index를 새로 생성하게 됩니다.

앞에서 설치했던 aligner들의 index를 만드는 작업의 로그를 남겨보도록 하겠습니다.

BWA
$ ~/bwa/bwa index -p index_name genome.fa

hisat2
$ ~/hisat2/hisat2_extract_exons.py genome.gtf > genome.exon
$ ~/hisat2/hisat2_extract_splice_sites.py genome.gtf > genome.ss
$ ~/hisat2/hisat2-build -f genome.fa --ss genome.ss --exon genome.exon genome_index_base
STAR
$ ~/STAR/STAR --runThreadN 16 --runMode genomeGenerate --genomeDir genomeOutFolder --genomeFastaFiles genome.fa --genomeSAindexNbases index_base --sjdbGTFfile genome.gtf --sjdbOverhang 99

Kallisto
$ ~/tophat/gtf_to_fasta genome.gtf genome.fa genome.gtf2fa.fa
$ ~/kallisto/kallisto index --index=index_name genome.gtf2fa.fa

Salmon
$ ~/salmon/bin/salmon index -t genome.gtf2fa.fa -i genome_idx --type quasi -k 31



이렇게 하면 각 align tool을 사용하기 위한 reference는 준비되었습니다.


출처: SM