레이블이 16s rRNA인 게시물을 표시합니다. 모든 게시물 표시
레이블이 16s rRNA인 게시물을 표시합니다. 모든 게시물 표시

화요일, 7월 30, 2024

미생물의 기능을 어디까지 알아낼 수 있을까?

오늘은 23년도 3월에 출판된 딥러닝 방법을 이용한 미생물 기능에 대한 논문 인  Comprehensive Functional Annotation of Metagenomes and Microbial Genomes Using a Deep Learning-Based Method 을 가져와 봤습니다.

DOI: 10.1128/msystems.01178-22


gemini

## 미생물 유전체 기능, 딥러닝으로 99%까지 밝혀내다!

인간 장 미생물은 우리 건강에 중요한 역할을 하지만, 그 기능은 아직까지 대부분 밝혀지지 않았습니다. 이번 연구에서는 딥러닝 기반 모델 DeepFRI를 사용하여 미생물 유전체의 기능을 99%까지 설명하는 놀라운 성과를 달성했습니다. 이는 기존 방법보다 훨씬 높은 비율이며, 미생물학 연구에 새로운 지평을 열 것입니다.

**딥러닝의 위력, 미생물 유전체 기능 밝히다**

딥러닝은 인공지능의 한 분야로, 방대한 양의 데이터를 학습하여 예측을 수행하는 기술입니다. DeepFRI는 이러한 딥러닝 기술을 활용하여 미생물 유전체의 기능을 설명하는 모델입니다.

연구에서는 DeepFRI를 사용하여 190만 개의 미생물 유전자를 분석했습니다. 그 결과, DeepFRI는 99%의 유전자에 대해 기능을 예측하는 데 성공했습니다. 이는 기존의 방법으로는 불가능했던 놀라운 결과입니다.

**기존 방법보다 더 나은 DeepFRI, 그 이유는?**

DeepFRI가 기존 방법보다 더 우수한 성능을 보여준 이유는 다음과 같습니다.

* **높은 정확도:** DeepFRI는 딥러닝 기술의 강력한 학습 능력을 통해 높은 정확도로 유전자의 기능을 예측합니다.

* **대규모 데이터 처리:** DeepFRI는 방대한 양의 데이터를 효율적으로 처리할 수 있어, 수많은 미생물 유전체를 분석하는 데 유용합니다.

* **신규 기능 발견:** DeepFRI는 기존 방법으로는 발견되지 않은 새로운 기능을 발견할 수 있습니다.

**딥러닝, 미생물학 연구의 새로운 지평을 열다**

이번 연구는 딥러닝 기술이 미생물학 연구에 얼마나 유용한 도구인지를 보여주는 좋은 예시입니다. DeepFRI와 같은 딥러닝 기반 모델은 앞으로 더욱 발전하여, 미생물 유전체의 기능을 더욱 정확하게 이해하고, 질병의 원인을 찾는 데 도움이 될 것으로 기대됩니다.


clova-x

DeepFRI는 딥러닝 기반의 기능적 주석 방법으로, 장내 미생물 단백질의 기능을 효과적으로 주석할 수 있다. 이 방법은 기존의 방법보다 더 많은 유전자를 인식하고, 그들의 기능을 추론할 수 있다. 또한, 이 방법은 자동화되고 확장 가능한 방법으로, 대규모의 데이터를 처리할 수 있다.

DeepFRI는 유전자 온톨로지 주석과 높은 일치율을 보이며, 이전 연구와 비교하여 주석 범위를 개선했다. 이 방법은 metagenomic microbiome studies에서 관찰된 새로운 기능을 발견하는 데 도움이 될 수 있다.

하지만, DeepFRI가 설명한 유전자의 기능을 평가하기 위해서는 추가적인 검증이 필요하다. 이를 위해서는 실험적인 데이터나 생물학적 지식을 활용하여 DeepFRI가 설명한 기능을 검증할 수 있다. 또한, 다른 유전자 분석 도구와 비교하여 DeepFRI의 결과를 검증하는 것도 좋은 방법이다.

DeepFRI는 학습 데이터와 추론 방법에 따라 결과가 달라질 수 있다. 따라서, DeepFRI를 사용할 때는 학습 데이터와 추론 방법을 충분히 이해하고, 결과를 신중하게 해석해야 한다.

DeepFRI는 장내 미생물 단백질의 기능을 이해하고, 질병의 원인이 되는 기능적 변화를 파악하는 데 중요한 역할을 할 수 있다. 또한, 이 방법은 항생제 내성 유전자와 치료 전략을 식별하는 데도 유용하다.

딥러닝은 생물학 분야에서 점점 더 중요한 역할을 하고 있으며, DeepFRI와 같은 딥러닝 기반의 기능적 주석 방법은 장내 미생물 연구뿐만 아니라 다양한 생물학 분야에서 활용될 수 있다.


chatGPT

### 딥러닝을 활용한 메타게놈 데이터 분석: DeepFRI와 기존 방법의 비교

메타게놈 데이터 분석에서 유전자 기능을 주석하는 것은 매우 중요한 작업입니다. 그러나 많은 메타게놈 데이터는 기능적 주석이 부족하여 그 활용도가 제한됩니다. 최근 연구에서는 딥러닝을 활용한 새로운 메타게놈 분석 방법이 제시되었고, 이는 기존 방법보다 훨씬 더 높은 커버리지와 정확성을 제공합니다. 이번 글에서는 딥러닝 기반 방법인 DeepFRI와 기존의 유사성 기반 방법인 eggNOG를 비교하고, 딥러닝을 활용한 이유와 그 장점을 살펴보겠습니다.

#### 딥러닝을 활용한 이유

1. **높은 기능적 주석 커버리지**: 

    - 기존의 유사성 기반 방법은 알려진 단백질 서열과의 유사성을 바탕으로 기능을 예측합니다. 이 방법은 새로운 단백질 서열에 대해서는 낮은 커버리지를 가지는 단점이 있습니다.

    - 반면, 딥러닝 모델은 대규모 데이터셋에서 학습하여 패턴을 인식하고 예측할 수 있어, 새로운 단백질 서열에 대해서도 높은 커버리지를 제공합니다.

2. **대규모 데이터 처리 능력**: 

    - 유사성 기반 방법은 데이터베이스 검색과 매칭을 필요로 하며, 대규모 데이터 처리에 시간이 많이 소요됩니다.

    - 딥러닝은 병렬 처리와 GPU 가속을 통해 대규모 데이터를 효율적으로 처리할 수 있습니다.

3. **새로운 기능 발견 가능성**: 

    - 기존 방법은 데이터베이스에 이미 존재하는 기능 정보에 의존하기 때문에 새로운 기능을 발견하는 데 한계가 있습니다.

    - 딥러닝 모델은 서열과 기능 간의 복잡한 패턴을 학습하여 새로운 기능을 예측할 수 있는 가능성이 높습니다.

#### DeepFRI와 eggNOG의 비교

최근 연구에서는 DeepFRI를 사용하여 DIABIMMUNE 코호트의 유아 메타게놈 데이터를 분석했습니다. 그 결과, DeepFRI는 총 190만 개의 중복되지 않는 미생물 유전자를 포함하는 서열 카탈로그를 생성했으며, 99%의 유전자에 대해 Gene Ontology 분자 기능 주석을 제공했습니다. 반면, 기존의 유사성 기반 방법인 eggNOG는 12%의 커버리지를 제공하는 데 그쳤습니다.

#### 예측의 신뢰성 검증 방법

딥러닝 기반 방법이 더 많은 유전자의 기능을 설명하는 것은 좋은 일이지만, 예측된 기능이 올바른지 확인하는 것도 중요합니다. 이를 위해 다양한 검증 방법이 사용됩니다.

1. **교차 검증 (Cross-validation)**: 데이터를 여러 부분으로 나누어 모델을 학습하고 검증하여 모델의 예측 성능을 평가합니다.

2. **독립적인 검증 데이터셋 사용**: 모델이 학습에 사용되지 않은 데이터로 모델의 예측 성능을 테스트합니다.

3. **실험적 검증**: 예측된 기능을 실제 실험을 통해 확인합니다.

4. **기존 데이터와의 비교**: 모델이 예측한 기능이 기존 데이터와 얼마나 일치하는지 비교합니다.

5. **기능적 유사성 네트워크 분석**: 예측된 유전자 기능들이 서로 얼마나 관련이 있는지를 분석합니다.

#### 결론

딥러닝 기반 방법인 DeepFRI는 기존의 유사성 기반 방법보다 높은 커버리지와 정확성을 제공합니다. 이를 통해 메타게놈 데이터의 해석 가능성을 크게 높일 수 있으며, 새로운 기능을 발견할 가능성도 높습니다. 하지만 예측된 기능의 신뢰성을 검증하는 것이 중요하며, 다양한 검증 방법을 통해 이를 확인할 수 있습니다. 딥러닝을 활용한 메타게놈 데이터 분석은 앞으로 인간 장내 미생물 군집의 기능적 특징을 이해하는 데 큰 기여를 할 것입니다.

---

이 글이 여러분에게 딥러닝을 활용한 메타게놈 데이터 분석의 중요성과 그 장점에 대해 이해하는 데 도움이 되었기를 바랍니다. 앞으로도 최신 연구 동향과 기술을 소개하는 유익한 글을 지속적으로 제공하겠습니다.


보통 microbiome이나 metagenome분석은 미생물들의 종 assign까지가 대부분이고, 이를 통해 질병이나 건강 상태에 따라 미생물 조성이 어떻게 변화하는지 알아봅니다. 하지만 종 수준의 분석만으로는 미생물의 역할이나 기능을 완전히 이해하기 어려운 경우가 많습니다.

이 연구에서는 단순히 종을 분류하는 것을 넘어 genome을 재구성하여 유전자의 기능을 예측/분석하여 미생물의 역할을 좀 더 정확히 파악하고자 했는데, 미생물과 숙주간의 상호작용을 더욱 심층적으로 이해하는데 큰 도움이 되지 않을까 합니다. 

아마도 (논문을 당연히 안봤으므로) 시퀀싱 방법은 16S rRNA가 아닌 Meta WGS일 것 같은데, 나중에 이런 데이터를 확보해서 작업해보면 재미있을 것 같네요. 


다음에 또 흥미로운 것이 있으면 가져오도로 하겠습니다. :)



출처: @ye._.vely618


수요일, 11월 08, 2023

이제는 전체 16S rRNA 서열을 봐야하지 하지 않을까? 하는 얘기

마이크로바이옴 분석을 할 때 매번 나오는 얘기로 16S rRNA에서 V3-V4  영역만으로 괜찮겠냐, full 16S rRNA봐야하는거 아니냐? whole sequencing해야하는거 아니냐 라는 내용의 논문이 있엇 한번 가져와봤씁니다.

2019년에 출판된 "Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis" 종/strain 수준의 16s RNA 서열 평가에 대한 내용 되겠습니다.

DOI: doi.org/10.1038/s41467-019-13036-1


16S rRNA는 박테리아 분석, microbiome 분석 시 주로 사용해오고 있고, 지금도 활발히 사용되고 있는 분석 방법 이지만, 지금까지는 V3-V4 영역만을 대상으로하는 방법이었고, 이제는 전체 16S rRNA를 확인하는 것에 대해서 얘기해봐야 하는 시점이 되었죠.

이전까지 16S의 V3-V4 영역으로 구분이 안되는 종들이 있었고, 지금까지 하던 분변 마이크로바이옴은 모르겠다만, 다른 환경의 마이크로바이옴을 할때는 V4-V5가 더 좋아보이는데 너님들의 생각은 어때? 라는 논문이 꾸준히 나오는거 봐선 이제 전장 16S rRNA 방법이 두각을 나타날때가 되긴했죠 :)


바드에 물어보니 다음과 같이 요약해 주었습니다.

  • 16S rRNA 유전자 시퀀싱은 미생물군집 내의 다양한 종과 균주를 식별하고 그들의 풍부도를 정량화하는 데 사용할 수 있습니다.
  • 또한 미생물군집의 구성 변화를 추적하는 데 사용할 수 있습니다.
  • 그러나 16S rRNA 유전자 시퀀싱은 균주 수준에서 정확도가 떨어질 수 있으며, 유사한 종을 구분하기 어려울 수 있습니다.
  • 16S rRNA 유전자 시퀀싱의 정확도는 향상되고 있으며, 미생물군집을 연구하는 연구자들에게 유용한 도구입니다.
다른 미생물군집 분석 방법으로는 샷건 메타지놈 분석과 whole-genome 시퀀싱이 있지만 이 방법들은 16S rRNA 분석 방법보다 돈도 많이 들고, 시간도 더 많이 소요되니 너님이 궁금해하는게 무엇인지에 따라 선택해야하지 않겠니?

정도로 잘 요약해 줬습니다.V3-V4 수준이 아닌 고품질의 full 16S rRNA 데이터를 확보할 수 있으니 이제 V3-V4, V4-V5와 같은 좁은 영역이 아닌 full 16S rRNA로 microbiome 분석을 진행하는것이 좋아보이고, 이제 충분히 품질이나 비용이 만족할 수준까지 왔으니 더 나은 결과를 위해서 나와 함께 해보지 않겠는가? 라는 내용 되겠습니다.




출처: @ye._.vely618


수요일, 9월 13, 2023

무균체액에는 얼마나 다양한 박테리아가 있을까? 그 10년의 기록

10년에 걸쳐 뇌척수액, 심낭액, 복막 및 흉막액 같은 체액(NSBF)에 어떤 박테리아들이 서식하는지 확인한 논문이 있어 한번 가져와봤습니다. 

제목은 Comparison of 16S Ribosomal RNA Targeted Sequencing and Culture for Bacterial Identification in Normally Sterile Body Fluid Samples: Report of a 10-Year Clinical Laboratory Review 이고, doi는 10.3343/alm.2020.40.1.63 입니다.

테스트한 샘플은 312개의 NSBF이고, 16S rRNA 분석과 배양 실험을 동시에 진행하여 비교해보았다고 합니다.

metagenome을 사용하는 이유가 시간도 오래 걸리고 번거로운 배양실험을 대체하기 위한 목적이 크다보니 비교실험을 통해 사용에 당위성을 확보하기도 합니다.

여튼 10년동안 모든 음성 샘플 277개와 양성 샘플 35개 중 277개의 음성 샘플을 정확히 구분해 냈으나 35개 샘플중 시퀀싱과 배양 방법을 통해서 확인된 양성 샘플은 10개 였습니다.

전체 312개 중 92%의 정확도? 라고 할 수 있으나, 이 10개 샘플은 16S rRNA와 배양 방법으로 모두 양성이라고 확인한 결과이고, 16S rRNA 방법으로, 배양 방법으로 확인한 결과는 35개 모두 다 잘 진단 하였습니다. 

그래서 논문에서도 기존의 배양방법으로만 하는 것보다 16S rRNA 시퀀싱 방법을 배양 방법과 함께 사용하면 체액 샘플에서 박테리아를 더 정확하게 식별할 수 있고, 항상제를 이미 처방받은 환자나 혐기성 감염이 의심되는 경우 배양 방법만으로는 한계가 존재하기 때문에 함께 사용하는것이 좋은것 같다는 의견이었습니다.

개인적으로는 16S rRNA 단독으로 사용하였을 때 앞도적인 차이로 더 잘 진단 할 줄 알았는데 꼭 제 마음같지는 않은듯 합니다. :)

음... 근데 안타깝게도 시퀀싱 데이터가 공개되어 있지 않은듯 한데.. 좀 더 자세히 뜯어보도록 하겠습니다. SRA 번호를 찾게되면 한번 분석 해보는 것으로 :)

그럼 다음에 또 흥미로운 논문으로 찾아뵙도록 하겠습니다.



출처: @ye._.vely618

토요일, 9월 09, 2023

누가누가 미생물 프로파일링을 잘할까?

NGS가 태동된지 20여년.... (너무 과했나?) 대중적으로 관심을 받아 쓰는지는 10여년이 훌쩍 지나가고 있는 시점에 예전에는 454나 Solexa 정도 만져보던 시절에서 지금은 다양한 시퀀서들이 나와서 연구자들의 다양한 궁금증을 일선에서 해결해 주고있습죠 :)

여튼 그래서 21년 기준에 보편적으로 또는 미래에 대세가될 시퀀서들을 대상으로
누구나 관심있어하는 장내 미생물 프로파일링을 어느어느 시퀀싱 플랫폼이 잘하나 비교해보는 논문이 있어서 가져와봤습니다.

제목은 Comparison of 16S rRNA Gene Based Microbial Profiling Using Five Next-Generation Sequencers and Various Primers 이고,

doi: 10.3389/fmicb.2021.715500 입니다.

(물론 저자중에 제가 아는 분이 있어서 그런것은 아니고요, 구글링 하다가 찾아진겁니다.)


그래서 비교해볼 시퀀서는

MiSeq, IonTorrent, MGIseq-2000, Sequel II 그리고 MinION 까지.. ..
짧은 read와 긴 read들을 생산하는 대표 시퀀서들을 5개를 가지고 테스트를 해봤습니다.

시퀀싱을 잘 했는지 못했는지 확인하려면 시료의 정답을 미리 알고 있어야 겠죠?

그래서 한국 식약처에 등재된 19종의 미생물 종중에 8종을 선별하여서 다양한 비율의 Mock community를 만들어서 테스트 했다고 합니다. 

그런데 Mock community내에 미생물들의 비율은 어떻게 확인했냐!!
digital PCR을 사용해서 Mock community내 미생물들을 정량해서 확인했다고 합니다. 물론 Sequins (스팽글?, aka Sequencing spike-ins)이라는 방법을 활용할 수 있다고 하는데 다양한 박테리아에 대해서 모두 Sequins를 만들기 어렵기 때문에.. 이방법을 사용했다고 합니다. 사실어떤 방법이 golden standard인지는 모르겠으나 연구 디자인에 적합하면 되지 않을까 합니다.

여튼 8개 Mock community를 제작하였고, 각각에 시료를 바탕으로 5개의 시퀀서로 시퀀싱을 진행하였습니다. 그리고 분석은 MOTHUR을 사용해서 진행하였다고 합니다.

그럼 결론은 몬데?
뭣이 중헌디?

음... 개인적으로는 16S rRNA 서열을 한번에 확인 할 수 있는 롱리드 플랫폼이 숏리드 플랫폼보다 편향이 적다라는 결과를 기대했으나.. 도리어 숏리드 플랫폼에 비해서 롱리드가 더 편향적(과대 또는 과소 표현)이었다는... 물론 이게 긴 길이의 리드를 시퀀싱하기 위해서 전처리로 PCR단계에서 비롯된거 같다는 의견이었습니다만, Sequel II같은 경우 숏리드 플랫폼과 유사한 양의 결과물을 확인하기 위해서는 더 많은 비용이 소요될텐데... 그럼 롱리드 플랫폼을 사용할 이유가 딱히 없다는게 문제가 될듯합니다.

Figure 3,4,5를 잘 뜯어보면 

Bifidobacterium breve의 경우 숏리드 플랫폼에서 상대적으로 과소 표현되고,
Limosilactobacillus fermentum의 경우 롱리드 플랫폼에서 과소표현되고, 반대로 Lactococcus lactis subsp. lactis의 경우 롱리드에서 과대표현 되고,
Lactobacillus acidophilus의 경우는 플랫폼 상관없이 과소표현 되기도하고..

함께 있는 종에 따라 영향을 받기도, 받지 않기도 하기 때문에 해석을 할 때 고려해야할게 한두가지가 아니라서 좀 어렵죠. ㅎㅎ 

그리고 숏리드의 경우 가장 큰 문제점이 한정된 영역(V3-V4)의 서열만 가지고 확인하다보니 서로 다른 균주로 분류되는 문제가 있었고 이는 보통 probiotic bacteria인 Lactobacillus casei group(LCG)에서 확인되어서 LCG, probiotic bacteria 분석에는 V3-V4는 좀 피해야할듯 합니다.

결론은 연구에 맞게 적절하게 잘 사용하고, 직접 실험하지 않는 저같은 게으름뱅이들에게는 이리저리 분석할때 표준 데이터로 사용할만한 좋은 데이터가 확보되었다는 것입니다. :)



출처: @ye._.vely618


금요일, 8월 11, 2023

16S rRNA에서 V3/4와 V4/5는 대체 얼마나 다르지?

정확히 얘기하자면 북극해의 해양 생태계의 미생물 군집을 연구할 때는 16S rRNA의 어느 variable region을 사용하는게 좋을까? 되겠습니다.

Comparison of Two 16S rRNA Primers (V3–V4 and V4–V5) for Studies of Arctic Microbial Communities

doi: 10.3389/fmicb.2021.637526

예전부터 microbiome, metagenome연구할 때 항상 언급되는 내용이긴 합니다.
엄밀히 얘기하면

1. 박테리아 genome full sequence가 제일 좋아요
2. 안되면 full lenght 16S rRNA가 좋아요
3. 안되면 그냥 본인이 이거다 싶은거 쓰세요. 다른사람이 무엇을 쓰든지

여튼 이 논문은 빠른 온난화로인해 북극해의 해양 생태계가 어떻게 변화하는지 확인해보고자 1년여동안 모니터링한/샘플링한 데이터를 분석해봤는데, 지금까지 우리가 대중적으로 사용하고 있었던 16S rRNA의 V34가 진짜 golden standard인가? 우리 한번 생각해봐야하지 않겠나? 아니면 적어도 북극해의 미생물 분석 할 때는 (우리가 해봤을때는) 16S rRNA의 V34보다는 V45가 더 적합한것 같아요를 얘기하고 있는 논문되겠습니다.

여기서 얘기하고 있는 16S rRNA의 V34는 어디고 V45는 어디냐?

16S rRNA는 >여기< 참고하시면 잘 나와있습니다. 그리고 그중 V34와 V45는 어디냐?

V34는 341(F)에서 785(R)까지, V45는 515(F-Y)에서 926(R)까지라고 하네요

사실 범용적으로 사용하는 primer 위치들이 연구팀들마다 100% 동일하지는 않습니다. 살짝씩 다를 수 있으니 이 부분도 잘 확인하시면 좋을 것 같습니다.

그 이유는 이 논문에서도 언급되었듯이 지금까지 지금까지 연구가 잘 되어오지 않았던 곳(여기서는 북극해)에서는 어떤 variable region이 종들을 더 잘 구분하는지, 어떤 범용 primer set이 더 잘 작동하는지 정확히 모르기 때문에 그렇습니다. 반대로 사람의 대변, 구강과 같이 이미 수년동안 연구를 통해 실험 방법이 정립된 경우에는 그냥 기존 방법대로 하시면 되겠습니다.

그래서 이 논문의 결론은 북극해와 같이 아직 생태계가 연구되지 않은 환경에 대해서 미생물 군집 연구를 위해서는 V45 primer set을 사용하는 것이 좋다고 하였습니다.


근데 진짜 그럴까요?

논문에서도 나오지만 결론에서 북극해의 미생물 군집 연구를 위해서는 V45가 좋은데, 그 이유가 다른 미생물 군집 검출에 영향을 끼치지 않기 때문이고, archaea도 검출 가능하기 때문인데, V45와 함께 V34를 혼용해서 사용하면 더 좋지 않을까하는 생각이네요


그리고 사족으로 일부 샘플에서 현미경으로 셀 카운팅을 했는데 그 결과가 NSG와 차이가 있었고, 그 이유가 현미경 정량의 한계라고 얘기를 하였지만 꼭 그럴까하는 생각도, NGS의 한계일 수 도 있다는 생각은 >여기<를 보시면 알게 된다는..

그럼 다시 또 재미있는 이야기거리를 가져와 보도록 하겠습니다.



출처: @ye._.vely618


토요일, 7월 29, 2023

왕의 귀환, greengene2

어이쿠... 기억속에 잊혀져 있던 database가 우리 곁으로 다시 돌아왔네요

옛날에 metagenome 한번 해봤으면 썼었던 바로 그 db, greengene이 버전업 해서

greengene2으로 아래 논문으로 돌아왔습니다.


Greengenes2 unifies microbial data in a single reference tree


역시 우리 Rob훃아가 찬밥 신세로 있었던 greengeen을 멱살 잡고 끌고 온듯합니다.

단순히 greengene의 빈약했던 taxonomy정보만 벌크업 한것이 아닌 16S rRNA와 shotgun metagenome 결과를 비교할 수 있도록 개선했다고 합니다.

여튼 metagenome 하면서 다들 느낀 점은 시퀀싱 방법과 db가 바뀔 때 마다 결과가 왜 다르지 아니겠습니까? 이 문제를 (어느정도)해결하지 않나 싶습니다.

꼼꼼하게 보지는 않았지만 현존하는 종 db들을 싹싹 털었던듯 싶네요

WoL(Web of Life), LTP(Living Tree Project)등의 db에서 확보가능한 full length 16S rRNA 서열을 긁어모았고 쿵짝 쿵짝 하고 taxonomy는 통일을 하기 위해 NCBI체계를 따르는 LTP 정보를 GTDB(Genome Taxonomy DataBase)에 통합하였다고 합니다.  curation차이로 인해서 LTP와 GTDB간의 차이가 발생하고 종의 종보들이 누락되어 있는 것들이 있다보니 데이터가 더 풍부한 GTDB에 LTP 정보들을 통합하였다고 하네요.
(개인적으로 NCBI taxonomy 체계를 사용하고 있는데...)

여튼.. 거의 10년만의 greengene의 귀환 논문이고 (단순히) 데이터만 많았던 siliva가 긴장좀 하겠네요 ㅎㅎ 


더 자세하게 읽어 봐야하는데...

기쁜 마음에 포스트 먼저 훗..




출처: @ye._.vely618



일요일, 9월 23, 2018

Microbiome Database를 만들어볼까? -NCBI편 4-

지난번 글에서 받기시작했던 nt.gz파일은 잘 받아졌나요?

그럼 이제 이 파일에서 무엇인가 뽑아내야 겠죠?

무엇을 뽑아내느냐?
16S rRNA를 뽑아낼겁니다.
어떻게?
다음 스크립트를 작성해 봅시다.

$vi parser_nt.py

import glob,sys,re,gzip
from Bio import SeqIO

try:
        input_fa = sys.argv[1]
except:
        print "fasta_split.py <in.fa.gz>"
        exit(1)
for rec in SeqIO.parse(gzip.open(input_fa),format='fasta'):
        desc = rec.description
        seq = str(rec.seq)
        name = desc.strip().split('\x01')[0]
        if name.upper().find(' 16S RIBOSOMAL RNA ') != -1 or name.find(' 16S RIBOSOMAL RNA,') != -1:
                if name.upper().find('MITOCHONDRIA')!= -1:
                        pass
                elif name.upper().find('CHLOROPLAST')!= -1:
                        pass
                elif name.upper().find(' 23S ') != -1:
                        pass
                else:
                        if name.upper().find(' SIMILAR ') != -1:
                                pass
                        elif name.upper().find(' INTRON') != -1:
                                pass
                        elif name.upper().find(' PLASTID') != -1:
                                pass
                        else:
                                print '>%s\n%s\n'%(desc,seq)


※ 위의  스크립트를 수정해서 입맛에 맞게 교정하시고 사용하시면되겠습니다.

$python parser_nt.py nt.gz > nt.fasta
위에 스크립트 실행시키면 떡 하니 수 gb 짜리 파일이 하나 나올겁니다.

이 파일안에는 nt서열 중에서 16S rRNA 서열 (대신 mitochondria와 chloroplast의 16S rRNA는 제외하고 이것도 16S rRNA지만 저한테는 일단 필요없어서 뺐습니다. 사용하고 싶으시면 사용하셔도 됩니다. :) )이 500만개 정도 들어 있습니다.

이 파일에는 온갖 종의 16S rRNA 서열이 있지만 문제가 있다는 점!

16S rRNA 서열이 품질이...
어떤 녀석은 full 서열이 있지만 어떤녀석은 서열의 일부만 가지고 있는 경우가 있습니다.

그래서 그런 녀석들을 잘 확인해서 제거를 하던지 merge를 하던지... 

그건 개인 취향으로 남겨 놓도록 하겠습니다. :)
aka 필터링을 하던 안하던 문제 생기면 그 문제의 책임은 오롯이 당신의 것!!

그리고 즐거운 추석보내시기 바랍니다. :)

출처 SM


수요일, 9월 19, 2018

Microbiome Database를 만들어볼까? -NCBI편 3-

지난 시간에 이곳에서 귀한 자료를 받아 봤을 겁니다.
그게 무엇이냐!!!

지금까지 공개된 bacteria의 서열들이죠 정확하게 말하면
현재까지 수많은 연구자들이 자발적(자의타의)으로
공개해준 것을 NCBI가 아름답게 정리한 RNA서열들만 다운받았습니다.

근데 우리는 RNA 서열이 아니라 rRNA 서열이 필요하죠

이전 글에서 우리는 rna라는 폴더 안에 12만개에 달하는 파일들을 다운받았습니다.
아마 그냥 ls하시면 어쩌구 저쩌구 long 할겁니다.
ls로 불러오기에 item이 너무 많다 이거죠
그럼 어쩌지?? @.@

우리에겐 귀도 훃님의 파이썬이 있지 않겠습니꽈

간단하게 다음과 같은 스크립트를 뚝딱 뚝딱 만들어보죠

import os,glob
from Bio import SeqIO
for files in glob.glob('rna/*gz`):
    for rec in SeqIO.parse(gzip.open(files), format='fasta'):
        name =rec.description
        seq = rec.seq
        if name.find('[product=16S ribosomal RNA]') != -1:
            print '>%s\n%s\n'.format(name,seq)

(python2.7에 Biopython이 설치되어 있어야 하고 *_rna_form_genomic.fna.gz 파일이 rna폴더 밑에 위치하고 있어야 합니다.)

$python script.py > ncbi.fa

라고 해주면 헤더에 "[product=16S ribosomal RNA]"가 포함된 aka 우리가 원하는 바로 그것! 16S rRNA 서열을 각 종에서 샤샤샥 ncbi.fa라는 파일에 저장할 수가 있습니다.

-12만개 파일 읽어 오는거라 순차적으로 하면 3-4시간 걸릴것이고
subprocess로 잘 해주시면 적어도 십수분? 30분이내면 충분히 끝날각 되겠습니다.

출처: SM Town

월요일, 12월 05, 2016

16S rRNA와 시퀀싱플랫폼

블로그에 쓰는 내용이 16S rRNA에 많이 집중되고 있긴하죠? ㅎㅎ
하는일이 이거다보니.. :)

여튼 오늘은 16S rRNA와 시퀀싱플랫폼에 대해서 잠시 이야기 하도록 하겠습니다.

최근 16S rRNA sequencing의 최강자 454가 서비스를 bye bye한 관계로
많은 연구자들이 MiSeq체제로 변환하고 있는데 (물론 Ion도 있고, PacBio도 있습니다.)
기존에 454를 사용했을 때와 다른 V region을 사용하고 다소 다른 결과들을 보이는 것들이
있을 것 입니다. 그래서 이리저리 검색하다가 걸린 논문 두 개를 가지고 잠시 얘기해보고자 합니다.

Nucl. Acids Res. (2010) 38 (22): e200.

PeerJ (2016) 4:e1869

논문을 찾아보기 시작한 이유는 454가 막을 내린 후 다른 시퀀싱 플랫폼에서는 왜 다른 region을 target하고 있고 왜 diversity에 차이를 보이는지... (내가 분석을 잘못했나.. ㅎㄷㄷㄷ)

우선 V region, 454는 V1-V2였는데 MiSeq은 V4 region을, Ion은 4개 region? 7개 region? 을 동시에target하고 있다는..

모 논문보면 아시겠지만
2010년 논문은 454 vs MiSeq을 비교했습니다. 두 플랫폼이 차이가 날까? 어떤것이 차이가 날까?

2010년도 논문을 한장 figure 요약하자면 이거죠



상단은 phylum abundance/ 하단은 genus abundance 그리고 좌측에 있는 V4는 이전 연구에서 사용되었던 기준이라고 생각되는 참고용 분포입니다. 실험 결과가 V4 region이 저 분포를 나타내면 실험이 잘됐다고 확인하는 용도로 사용됩니다.

사실 phylum은 크게 차이없죠, 차이가 있기도 쉽지않습니다.
관심사는 genus되겠습니다. 일루미나 데이터의 대부분은 unclassified입니다. 논문에서는 error때문에 이렇게 나왔으니 error좀 낮아지면 일루미나가 output이 많으니 sequence error 문제점을 개선된다면 미생물 분석에 적합한 킹왕짱 시퀀서가 될거라고 하는데 개인적인 생각으로는 sequence error(454가 일루미나가 한테 sequence error ㅋㅋ 좀 웃겼다능..
systematic error는 눈에 안뵈냐라고 한다면 눼눼, 하긴 이 논문이 2010년이란 것을 감안한다면 무리는 아니긴 합니다.)보다는 db선택이 unclassified문제는 보정할 수 있지 않을까 합니다.

그렇다면 이제 16s rRNA 입문한지 얼마안된 님께서 그렇게 느끼는 느낌적인 이유는
무엇인가?

바로 2016년 논문되겠습니다.

2016년 논문은 PacBio로 시퀀싱한 것을 db에 따라 분석 결과가 달라지는냐에 대한 내용으로
다음 한 장으로 요약 할 수 있겠습니다.




동일한 시료를 가지고 시퀀싱한 데이터를 16S rRNA db에 따라 classification되는 정도를 확인해본 그래프 입니다. 느낌 딹오시죠?
다만 나중에 뒤통수 맞았다는 느낌 안 받게 하나 말씀드리자면 RDP와 Silva의 경우 genus까지만 확인했고 gg는 genus와 genus+species 두가지로 확인한 것 입니다.

이제 PacBio의 Sequel에서 CCS로 생산된 16S rRNA 서열가지고 연구해도 나쁘지 않을 것 같다는..

아.. 이제 돈만 많으면 되는건가!!! 


수요일, 11월 02, 2016

16S rRNA Variable regions



Variable regions of the 16S ribosomal RNA.
출처: Nat Rev Microbiol. 2014 Sep;12(9):635-45. doi: 10.1038/nrmicro3330.

월요일, 8월 08, 2016

16S rRNA Workflow

요즘하는게 요 16S rRNA작업인데
workflow와 해당 작업에서 사용할만한 tool을 잘 정리한글이 있어서..

H3abionet.org

덤으로 GOBLET이라는 사이트가 있는것도 알게 되었네요..
GOBLET이 뭔지 궁금해요?
그럼 링크에 들어가시면됩니다. :)