여러가지 16S rRNA 데이터베이스가 있다는것을 아실겁니다.
보통 microbiome분석에 입문해서 사용하는 것이라면
대게 처음 분석하는 tool에따라 결정되는데
우리 롭횽님의 qiime를 접한다면 greengene을, mothur을 접하게된다면 silva를 database로 만나게됩니다.
사실 대부분의 연구 결과들이 greengene과 silva로 나오기 떄문에 이 두 database를 사용하면 당연히 그 누구도 갠세이 놓지 않습니다.
-아니면 에디터나 리뷰어에게 외쳐보자. Drop the DB, yo!
근데 매번 분석하다보면 family수준 밑에만 내려가면 unknown은 왜이리 많을걸까..
그렇다면 그냥 우리가 손수 microbiome분석을 위한 db를 만들어보면 어떨까?
당근 이렇게 만들경우 실제 연구에 사용하기는 마뜩치 않다는걸 미리 말씀드립니다.
일단 tree를 만들기가;;; 녹녹치 않습니다. (물론 서열수를 줄이면 수십G 메모리를 가지는 워크스테이션이 있으면 가능합니다.)
그리고 제가 분류학자도 아니고 제가 서열보고도 얘가 몬지 알지도 못하고
서열에 taxonomy 붙여도 제대로 연결시킨건지 확인이 되지 않는다는 큰 문제가 있습죠
#물론_이사진을보면_누군지_압니다, 출처:SM Town |
그럼에도 불구하고 왜하냐? 그냥 재미삼아, 경험삼아 만들어보는것입니다.
내가 사용하는 DB를 만드는데 얼마나 많은 고민이 녹아있고
얼마나 많은 생각들이 들어가 있는지 이해를 해보는것도 나쁘지 않을듯하고요 ㅎㅎ ;)
일단 이런걸 하겠다고 블로그에 띄워놨으니 언젠가는 후속글을 올리지 않을까요?
따라가능하도록 소스같은것은 각 글이나 github에 업로드하는 걸로 :)
jupyter notebook으로 올리면 더더욱 좋겠지만 제가 아직 notebook이 익숙치가 않아서..
우선 다음 글에서는 Custom Microbiome Database에 필요한 기초 자료 수집에 관련된 내용들을 올리도록 하겠습니다. :)