레이블이 greengene인 게시물을 표시합니다. 모든 게시물 표시
레이블이 greengene인 게시물을 표시합니다. 모든 게시물 표시

토요일, 7월 29, 2023

왕의 귀환, greengene2

어이쿠... 기억속에 잊혀져 있던 database가 우리 곁으로 다시 돌아왔네요

옛날에 metagenome 한번 해봤으면 썼었던 바로 그 db, greengene이 버전업 해서

greengene2으로 아래 논문으로 돌아왔습니다.


Greengenes2 unifies microbial data in a single reference tree


역시 우리 Rob훃아가 찬밥 신세로 있었던 greengeen을 멱살 잡고 끌고 온듯합니다.

단순히 greengene의 빈약했던 taxonomy정보만 벌크업 한것이 아닌 16S rRNA와 shotgun metagenome 결과를 비교할 수 있도록 개선했다고 합니다.

여튼 metagenome 하면서 다들 느낀 점은 시퀀싱 방법과 db가 바뀔 때 마다 결과가 왜 다르지 아니겠습니까? 이 문제를 (어느정도)해결하지 않나 싶습니다.

꼼꼼하게 보지는 않았지만 현존하는 종 db들을 싹싹 털었던듯 싶네요

WoL(Web of Life), LTP(Living Tree Project)등의 db에서 확보가능한 full length 16S rRNA 서열을 긁어모았고 쿵짝 쿵짝 하고 taxonomy는 통일을 하기 위해 NCBI체계를 따르는 LTP 정보를 GTDB(Genome Taxonomy DataBase)에 통합하였다고 합니다.  curation차이로 인해서 LTP와 GTDB간의 차이가 발생하고 종의 종보들이 누락되어 있는 것들이 있다보니 데이터가 더 풍부한 GTDB에 LTP 정보들을 통합하였다고 하네요.
(개인적으로 NCBI taxonomy 체계를 사용하고 있는데...)

여튼.. 거의 10년만의 greengene의 귀환 논문이고 (단순히) 데이터만 많았던 siliva가 긴장좀 하겠네요 ㅎㅎ 


더 자세하게 읽어 봐야하는데...

기쁜 마음에 포스트 먼저 훗..




출처: @ye._.vely618



수요일, 9월 05, 2018

Microbiome Database를 만들어 볼까? -GG편-

Microbiome분석을 시작하면서 많이 보게되는 DB가 두개 있습니다.
GG와 Silva입니다.

오늘은 그중에 GG즉 greengene 자료를 받아 보겠습니다.

greengene 공식 사이트는 >여기<입니다.
(잘 안들어가지는 특징이 있습니다.)

공식 greengenes 사이트의 다운로드 페이지를 가면 2013년 5월자 자료가 마지막으로 나옵니다.

근데 롭훃님의 qiime 사이트를 돌아다니다보면
2013년 8월 자료를 득템 할 수 있습니다.
>그곳링크<

위의 2013년 5월 자료와 8월 자료가 얼마나 차이가 날지는
저도 잘 모르겠습니다.

무엇을 받던 도찐개찐 ;)

아니면 이번 기회에 한번 비교 해볼까요?
- 2013년 5월과 2013년 8월 자료는 rep_set 99_otus 기준으로 동일할 것으로 보입니다.
모 그냥 쓰고 싶은거 쓰시면됩니다. (2018년 9월 8일 업데이트)



출처 JYP

월요일, 12월 05, 2016

16S rRNA와 시퀀싱플랫폼

블로그에 쓰는 내용이 16S rRNA에 많이 집중되고 있긴하죠? ㅎㅎ
하는일이 이거다보니.. :)

여튼 오늘은 16S rRNA와 시퀀싱플랫폼에 대해서 잠시 이야기 하도록 하겠습니다.

최근 16S rRNA sequencing의 최강자 454가 서비스를 bye bye한 관계로
많은 연구자들이 MiSeq체제로 변환하고 있는데 (물론 Ion도 있고, PacBio도 있습니다.)
기존에 454를 사용했을 때와 다른 V region을 사용하고 다소 다른 결과들을 보이는 것들이
있을 것 입니다. 그래서 이리저리 검색하다가 걸린 논문 두 개를 가지고 잠시 얘기해보고자 합니다.

Nucl. Acids Res. (2010) 38 (22): e200.

PeerJ (2016) 4:e1869

논문을 찾아보기 시작한 이유는 454가 막을 내린 후 다른 시퀀싱 플랫폼에서는 왜 다른 region을 target하고 있고 왜 diversity에 차이를 보이는지... (내가 분석을 잘못했나.. ㅎㄷㄷㄷ)

우선 V region, 454는 V1-V2였는데 MiSeq은 V4 region을, Ion은 4개 region? 7개 region? 을 동시에target하고 있다는..

모 논문보면 아시겠지만
2010년 논문은 454 vs MiSeq을 비교했습니다. 두 플랫폼이 차이가 날까? 어떤것이 차이가 날까?

2010년도 논문을 한장 figure 요약하자면 이거죠



상단은 phylum abundance/ 하단은 genus abundance 그리고 좌측에 있는 V4는 이전 연구에서 사용되었던 기준이라고 생각되는 참고용 분포입니다. 실험 결과가 V4 region이 저 분포를 나타내면 실험이 잘됐다고 확인하는 용도로 사용됩니다.

사실 phylum은 크게 차이없죠, 차이가 있기도 쉽지않습니다.
관심사는 genus되겠습니다. 일루미나 데이터의 대부분은 unclassified입니다. 논문에서는 error때문에 이렇게 나왔으니 error좀 낮아지면 일루미나가 output이 많으니 sequence error 문제점을 개선된다면 미생물 분석에 적합한 킹왕짱 시퀀서가 될거라고 하는데 개인적인 생각으로는 sequence error(454가 일루미나가 한테 sequence error ㅋㅋ 좀 웃겼다능..
systematic error는 눈에 안뵈냐라고 한다면 눼눼, 하긴 이 논문이 2010년이란 것을 감안한다면 무리는 아니긴 합니다.)보다는 db선택이 unclassified문제는 보정할 수 있지 않을까 합니다.

그렇다면 이제 16s rRNA 입문한지 얼마안된 님께서 그렇게 느끼는 느낌적인 이유는
무엇인가?

바로 2016년 논문되겠습니다.

2016년 논문은 PacBio로 시퀀싱한 것을 db에 따라 분석 결과가 달라지는냐에 대한 내용으로
다음 한 장으로 요약 할 수 있겠습니다.




동일한 시료를 가지고 시퀀싱한 데이터를 16S rRNA db에 따라 classification되는 정도를 확인해본 그래프 입니다. 느낌 딹오시죠?
다만 나중에 뒤통수 맞았다는 느낌 안 받게 하나 말씀드리자면 RDP와 Silva의 경우 genus까지만 확인했고 gg는 genus와 genus+species 두가지로 확인한 것 입니다.

이제 PacBio의 Sequel에서 CCS로 생산된 16S rRNA 서열가지고 연구해도 나쁘지 않을 것 같다는..

아.. 이제 돈만 많으면 되는건가!!! 


금요일, 10월 07, 2016

rRNA database 간단 비교

근래 microbiome데이터를 다루면서
16s rRNA db 사용에 대해서 확인을 하고자
데이터가 꽤나 많은 그리고 non-academic의 경우 fee도 지불하는 silva를 qiime의 default db인 greengene과 한번 비교를 해봤습니다.

rdp말고 왜 silva를 비교했느냐?
rdp는 qiime에서 사용가능한 format으로 데이터를 제공안해서
그냥 테스트로 하는건데 format 변환하는거마저 신경을 쓰기에는
좀 귀찮아서 qiime용 format을 제공하는 silva를 사용하였습니다.

모 별거 없습니다. ㅋ

GreenGeneSilva 119Silva 123
Kindom
2
3
3
Phylum
90
95
113
Class
249
480
602
Order
405
1,468
1,686
Family
514
3,123
3,670
Genus
1,816
8,056
9,835
Species
1,651
31,337
42,974
Sum
99,322
173,838
251,764

위의 GreenGene는 qiime 설치시 함께 따라오는 기본 파일을 사용했고, silva는 silva측에서 qiime format으로 제공하는 데이터중 SSU 파일입니다.
리눅스에서 cut 명령어로 -d, -f 옵션을 사용해서 unique한것을 세어본것입니다.

GreenGene과 silva의 차이점은 GG는 archaea, bacteria만 있고, silva는 Eukaryota가 함께 있다는.. silva는 엄연히 따지자면 16s/18s를 모아놓은 것으로 생각하시면되겠습니다. :)

그리고 마지막에 Sum의 의미는 이 rRNA db를 이루는 classified/unclassified 되는 species(?)의 unique 개수입니다.
이 unique 개수가 많으면 좋을 것 같은 느낌이 본능적으로 딱 오죠?

근데 말입니다.

숫자가 크다고 다 좋은것일까요?

GG와 silva에서 큰 차이점이 GG의 경우 unclassified로 분류되는 항목은 딱 하나씩 포함되어 있습니다. (그 이유는 숙제~!!)
대신 silva에는 unclassified와 같은 부류인 아직 의미가 없는 즉 정보가 없는 항목들이 다수 포함되어 있다는것입니다. unclassified, uncultured, unknow....

무엇이 우월하다 좋다 말하기는 어렵습니다.
분석 툴에 따라 궁합이 맞는 db가 존재하기 마련이고 또 목적에 따라 db는 변화해야하기에
GG는 더 curation을 했으니 좋은것이다 혹은 silva가 더 seq정보가 많으니 좋은거다라는
것은 지양하고 결국 각자가 알아서 잘 사용하면 된다능.. :)