레이블이 16s rRNA인 게시물을 표시합니다. 모든 게시물 표시
레이블이 16s rRNA인 게시물을 표시합니다. 모든 게시물 표시

월요일, 3월 24, 2025

168,000개 샘플을 분석해 인간 내장 미생물군의 글로벌한 패턴을 밝히다

오늘은 장내미생물 연구에 대한 내용을 가져와봤습니다. Integration of 168,000 samples reveals global patterns of the human gut microbiome 라는 제목의 논문으로 지역별로 미생물 군집과 다양성이 차이가 난다는 내용되겠습니다.

DOI: 10.1016/j.cell.2024.12.017


gemini

## 인간 장내 미생물의 글로벌 패턴

인간의 장내 미생물은 건강과 질병에 중요한 역할을 합니다. 하지만 아직까지 장내 미생물의 다양성과 그에 영향을 미치는 요인에 대해서는 많은 연구가 필요합니다.

최근 미국 시카고대학의 Ran Blekhman 박사 연구팀은 전 세계 168,000명의 장내 미생물 데이터를 분석한 연구 결과를 발표했습니다. 이 연구에서는 지리적 위치, 기술적 요인 등 장내 미생물 변화에 영향을 미치는 다양한 요인을 분석했습니다.

## 연구 결과

* **지리적 위치:** 연구팀은 전 세계적으로 장내 미생물의 구성이 다르다는 것을 확인했습니다. 특히 중앙 아시아와 남부 아시아의 경우, 유럽과 북미에 비해 장내 미생물의 다양성이 낮았습니다.

* **기술적 요인:** 연구팀은 PCR 프라이머, DNA 추출 방법 등 기술적 요인도 장내 미생물 분석 결과에 영향을 미친다는 것을 확인했습니다.

## 연구의 의미

이 연구는 전 세계적으로 장내 미생물의 다양성과 그에 영향을 미치는 요인을 분석한 최초의 대규모 연구입니다. 이 연구 결과는 장내 미생물과 건강 및 질병의 관계를 이해하는 데 중요한 역할을 할 것으로 기대됩니다.

## 일반 시민을 위한 요약

우리 몸에는 수많은 미생물이 살고 있습니다. 이 미생물들은 건강에 중요한 역할을 하지만, 아직까지 어떤 미생물이 어떤 역할을 하는지에 대해서는 많은 연구가 필요합니다.

최근 미국 시카고대학의 연구팀은 전 세계 168,000명의 장내 미생물 데이터를 분석한 연구 결과를 발표했습니다. 이 연구에서는 지리적 위치, 기술적 요인 등 장내 미생물 변화에 영향을 미치는 다양한 요인을 분석했습니다.

연구 결과에 따르면, 전 세계적으로 장내 미생물의 구성은 다르며, 지리적 위치, 기술적 요인 등이 장내 미생물 분석 결과에 영향을 미칩니다. 이 연구는 장내 미생물과 건강 및 질병의 관계를 이해하는 데 중요한 역할을 할 것으로 기대됩니다.



clova-x

제목: 인간 내장 미생물군의 전 세계적 패턴을 밝히다

안녕하세요! 오늘은 최근 발표된 논문에서 밝혀진 인간 내장 미생물군의 전 세계적 패턴에 대해 이야기해 보려고 합니다.

내장 미생물군이란 우리 몸 속에 살고 있는 다양한 미생물들을 말합니다. 이들은 우리 건강에 큰 영향을 미치며, 최근에는 이들의 구성과 분포를 연구하는 미생물군 연구가 활발하게 이루어지고 있습니다.

이번에 발표된 논문에서는 무려 168,000개의 샘플을 통합하여 인간 내장 미생물군의 전 세계적 패턴을 밝혀냈습니다. 이 샘플들은 전 세계 수백 개의 독립적인 프로젝트에서 수집되었으며, 이를 통해 지금까지 알려지지 않았던 내장 미생물군의 다양성과 분포에 대한 놀라운 사실들이 밝혀졌습니다.

먼저, 이 연구에서는 245,627개의 16S rRNA 유전자 증폭 시퀀싱 샘플을 식별하여 NCBI의 바이오샘플 데이터베이스에 저장했습니다. 여기서 16S rRNA 유전자란 미생물의 세포 내에 존재하는 유전자 중 하나로, 미생물의 종류를 구분하는 데 사용됩니다.

그리고 이렇게 수집된 샘플들을 분석하기 위해 DADA2 알고리즘을 사용했습니다. 이 알고리즘은 미생물의 DNA 서열을 분석하여 균주 수준의 다양성을 평가하는 데 사용됩니다.

연구진은 데이터를 국가별, 기술적 요인별로 세분화하여 분석의 정확도를 높였습니다. 그리고 이를 통해 내장 미생물군의 지역적 차이와 기술적 요인이 미생물군의 양에 미치는 영향을 확인할 수 있었습니다.

또한, 연구진은 내장 미생물군의 다양성을 시각화하고 비교할 수 있는 웹사이트(microbiomap.org)를 개발하여 이번 연구에서 얻은 데이터를 공개했습니다. 이 웹사이트에서는 누구나 쉽게 내장 미생물군의 분포와 다양성을 확인할 수 있습니다.

이러한 연구는 우리의 건강과 생태계에 큰 영향을 미치는 내장 미생물군에 대한 이해를 높이는 데 큰 도움이 될 것입니다. 앞으로도 이러한 연구가 더욱 활발하게 이루어져 우리의 삶을 더욱 건강하고 풍요롭게 만드는 데 기여할 수 있기를 기대해 봅니다.



chatGPT

# **168,000개 샘플을 분석해 밝혀낸 인간 장내 미생물군의 글로벌 패턴**  

## **들어가는 글**  

우리 몸속에는 수많은 미생물이 살고 있으며, 특히 장내 미생물군(마이크로바이옴)은 건강과 질병에 큰 영향을 미친다. 최근 연구에서는 장내 미생물이 **비만, 당뇨병, 대장암, 염증성 장질환** 등 다양한 질환과 연관이 있음이 밝혀졌다. 하지만, 지금까지의 연구는 주로 서구권(유럽, 북미)에 집중되어 있어 전 세계적으로 장내 미생물이 어떻게 다를지 명확하게 밝혀지지 않았다.  

이 연구에서는 **168,000개 이상의 인간 장내 미생물 샘플**을 분석하여 전 세계적인 장내 미생물의 패턴을 파악하고, 지역별 차이와 연구 방법에 따른 영향을 평가하였다.  

---

## **연구의 주요 내용**  

### **1. 168,000개 샘플을 모아 거대한 데이터베이스 구축**  

연구팀은 **전 세계에서 공개된 16S rRNA 시퀀싱 데이터를 수집**하여, 인간 장내 미생물의 통합 데이터베이스(Human Microbiome Compendium)를 구축했다. 이 데이터는 약 **68개국에서 채취된 샘플**을 포함하며, 모두 동일한 분석 방법을 사용하여 처리되었다.  

➡️ **예시**: 마치 여러 나라에서 다양한 요리를 모아 같은 조리법으로 조리한 뒤, 맛과 영양소를 비교하는 것과 비슷하다.  

---

### **2. 지역별 장내 미생물의 차이**  

분석 결과, 지역에 따라 **장내 미생물 조성이 크게 다르다**는 점이 확인되었다.  

- **유럽 및 북미**: Bacteroides(박테로이데스) 비율이 높음  

- **중앙 및 남아시아**: Actinomycetota(방선균문) 비율이 높음  

- **사하라 이남 아프리카**: Prevotella(프레보텔라) 비율이 높음  

- **라틴 아메리카**: 다양한 미생물이 존재하며, 높은 미생물 다양성을 보임  

➡️ **이유**: 지역별 식습관, 위생 환경, 항생제 사용 차이 등이 장내 미생물 조성에 영향을 미친다.  

➡️ **예시**: 패스트푸드가 주식인 나라와 채식 위주의 나라에서 장내 미생물 균형이 다르게 나타나는 것과 같다.  

---

### **3. 미생물 조성을 보면 어느 나라 사람인지 예측 가능**  

연구팀은 머신러닝 기법을 활용해 **장내 미생물 데이터만으로 샘플이 어느 지역에서 온 것인지 80~90% 정확도로 예측**할 수 있음을 발견했다.  

➡️ **예시**: 사람의 언어만 들어도 어느 나라 사람인지 추측할 수 있는 것과 같은 원리다.  

---

### **4. 연구 방법에 따라 결과가 달라질 수 있음**  

분석 방법(사용한 DNA 추출 방법, 증폭된 유전자 부위 등)에 따라서도 미생물 데이터가 다르게 나올 수 있음이 확인되었다.  

➡️ **예시**: 같은 음식이라도 조리법에 따라 맛이 달라질 수 있는 것과 같다.  

---

## **연구의 의미와 한계**  

🔹 **의미**  

- 전 세계적으로 장내 미생물이 얼마나 다양한지 정량적으로 분석한 최초의 대규모 연구  

- 특정 지역에서만 연구된 데이터를 보편적으로 적용하는 것에 대한 문제 제기  

- 향후 **맞춤형 장 건강 치료**에 중요한 기초 자료 제공  

🔹 **한계**  

- 데이터가 특정 지역(유럽, 북미)에 치우쳐 있음  

- 식습관, 건강 상태 등 추가적인 메타데이터 부족  

---

## **맺음말**  

이번 연구는 인간 장내 미생물의 **전 세계적 차이를 분석한 최대 규모의 연구**로, 향후 **개인 맞춤형 치료 및 건강 관리**에 중요한 정보를 제공할 것으로 기대된다. 하지만 데이터의 지역적 불균형을 해결하기 위해, **더 많은 국가에서 미생물 연구가 진행될 필요가 있다**.  

➡️ **결론**: 장내 미생물은 단순한 소화기관의 일부가 아니라, 건강과 질병을 결정하는 중요한 요소이며, 앞으로 이를 활용한 정밀 의료가 더욱 발전할 것으로 기대된다.  



NotebookLM

이 파일은 **인간 장내 미생물**에 대한 대규모 연구 결과를 담고 있으며, **전 세계 168,000개** 이상의 샘플을 분석하여 장내 미생물의 분포와 다양성에 대한 중요한 패턴을 밝혀냈습니다. 이 연구는 일반 시민들이 이해하기 쉽게 설명하면 다음과 같은 내용을 담고 있습니다.

**1. 연구 배경 및 중요성**

*   우리 몸에는 수많은 미생물이 살고 있으며, 특히 **장내 미생물은 건강과 질병에 큰 영향**을 미칩니다.

*   **장내 미생물 구성**은 사람마다 다르며, **지역, 인종, 식습관** 등 다양한 요인에 따라 달라질 수 있습니다.

*   **대장암, 염증성 장 질환**과 같은 질병은 장내 미생물 불균형과 관련이 있다는 연구 결과들이 있습니다. 따라서 장내 미생물에 대한 이해는 건강 관리에 매우 중요합니다.

**2. 연구 방법**

*   연구자들은 **전 세계에서 수집된 168,000개의 장내 미생물 샘플**을 분석했습니다.

*   이 샘플들은 **16S rRNA 유전자**를 분석하여 미생물 종류와 양을 파악했습니다.

    *   **16S rRNA 유전자**: 모든 세균과 고세균에 공통적으로 존재하는 유전자로, 미생물의 종류를 구분하는 데 사용됩니다. 쉽게 말해, 미생물의 **'이름표'**와 같은 역할을 합니다.

*   연구자들은 **미생물 분류, 지역별 분포, 다양성** 등 다양한 측면에서 데이터를 분석했습니다.

*   데이터 분석 시 **기술적 요인** (예: DNA 추출 방법, 유전자 증폭 부위)이 결과에 영향을 줄 수 있다는 점을 고려했습니다.

**3. 주요 연구 결과**

*   **장내 미생물 구성과 다양성은 지역별로 큰 차이**를 보였습니다.

    *   예를 들어, **유럽과 북미 지역**의 미생물 구성은 **아프리카나 아시아 지역**과 뚜렷한 차이를 보였습니다.

    *   이는 식습관, 생활 환경, 유전적 요인 등 다양한 요인이 복합적으로 작용한 결과로 추정됩니다.

*   **미생물 분류**에 있어서, **Bacillota (이전의 Firmicutes)** 문이 가장 많이 발견되었고, 그 다음으로 Pseudomonadota (이전의 Proteobacteria), Actinomycetota (이전의 Actinobacteria), 그리고 Bacteroidota가 많았습니다.

    *   **문(phylum)**은 생물 분류에서 매우 큰 범주를 의미합니다. 예를 들어, 동물계의 척추동물문에 해당하는 것과 비슷합니다.

*   연구자들은 **샘플 수가 증가할수록 새로운 미생물 종의 발견률이 줄어든다**는 사실을 확인했습니다.

    *   이는 대규모 연구를 통해 장내 미생물 세계에 대한 이해가 깊어지고 있음을 보여줍니다.

*   **유전자 증폭 부위 선택 (amplicon choice)**도 장내 미생물 구성 분석 결과에 영향을 미칠 수 있었습니다.

    *   **V4 부위**가 초기에 많이 사용되었고, **V3-V4 부위**가 최근 들어 인기를 얻고 있습니다.

    *   특정 미생물 속인 **Enterobacter**는 V3-V4 부위를 사용했을 때 더 많이 검출되었고, V4 부위를 사용했을 때는 적게 검출되었습니다.

    *    **Methanobrevibacter** 라는 고세균은 V1-V2 부위를 사용했을 때 적게 검출되었고, V4 부위를 사용했을 때 더 많이 검출되었습니다.

    *   **유전자 증폭 부위**는 PCR과 같은 유전자 분석 과정에서 특정 유전자를 선택적으로 복제하는 데 사용되는 DNA 영역입니다. 이러한 선택에 따라서 검출되는 미생물의 종류와 양이 달라질 수 있습니다.

*   **DNA 추출 시 세포를 파괴하는 방법(bead beating)**도 미생물 검출에 영향을 줄 수 있습니다.

    *   **비드 비팅**은 작은 구슬을 사용하여 세포를 물리적으로 파괴하는 방법으로, 특히 **그람 양성균** 검출에 효과적입니다.

        *   **그람 양성균**은 세균의 세포벽 구조에 따라 분류되는 세균 그룹 중 하나입니다.

*   **지역별 주요 특징 미생물**:

    *   **중앙 및 남부 아시아** 지역은 다른 지역에 비해 **Actinomycetota** 문이 많았으며, **Bacteroides** 문은 적었습니다.

    *   **유럽과 북미 지역**은 **Bacteroides** 가 높은 반면, **Prevotella** 는 상대적으로 적었습니다.

    *   **사하라 이남 아프리카**는 **Prevotella** 가 높은 반면, **Bacteroides** 는 적었습니다.

    *   각 지역별로 **Bifidobacterium, Bacteroides, Prevotella, Streptococcus, Veillonella, Escherichia/Shigella** 와 같은 미생물들이 공통적으로 발견되었습니다.

*   **미생물 불균형과 질병**:

    *   **Bacteroides, Bifidobacterium, Prevotella** 등의 미생물은 염증, 비만, 염증성 장 질환, 소아 장내 미생물 발달과 관련이 있다고 합니다.

    *   예를 들어, **Prevotella** 는 서구화되지 않은 식단과 관련이 있다고 알려져 있습니다.

    *   장내 미생물 구성은 건강에 다양한 영향을 미칠 수 있으며, 특정 미생물의 불균형은 질병 발생 위험을 높일 수 있습니다.

**4. 추가 설명**

*   **알파 다양성**: 한 샘플 내에 존재하는 미생물 종의 다양성을 나타내는 지표로, 높을수록 다양한 미생물이 존재함을 의미합니다.

    *   알파 다양성이 높은 지역은 미생물 생태계가 더 풍부하고 안정적일 가능성이 높습니다.

*   **베타 다양성**: 여러 샘플 간의 미생물 구성 차이를 나타내는 지표로, 높을수록 샘플 간 미생물 구성 차이가 크다는 것을 의미합니다.

    *   베타 다양성이 높은 지역은 미생물 구성이 서로 다를 가능성이 높습니다.

*   **중심 좌표 분석 (PCoA)**: 데이터의 복잡한 패턴을 시각적으로 표현하는 데 사용되는 통계 기법으로, 미생물 구성의 차이를 2차원 또는 3차원 공간에 나타내어 시각적으로 비교할 수 있습니다.

**5. 연구의 의의 및 한계**

*   이 연구는 **대규모 장내 미생물 데이터**를 분석하여 지역별, 기술적 요인별 차이를 규명하고, 미생물 다양성에 대한 이해를 높였다는 데 의의가 있습니다.

*   하지만, **연구 데이터의 대부분이 유럽과 북미 지역에 편중**되어 있어 다른 지역의 미생물 생태계를 충분히 반영하지 못하는 한계가 있습니다.

    *   향후 다양한 지역의 데이터를 확보하여 미생물 연구의 다양성을 높여야 합니다.

*   또한, **기술적 요인이 미생물 분석 결과에 영향을 미친다**는 사실을 보여주었으며, 이는 미생물 연구에서 표준화된 분석 방법이 필요함을 시사합니다.

**6. 일반 시민을 위한 추가 설명**

*   이 연구는 우리 몸속에 살고 있는 미생물이 **단순히 우리와 함께 사는 것이 아니라 우리 건강에 매우 중요한 역할**을 한다는 것을 보여줍니다.

*   특히, **식습관**이나 **생활 환경**이 우리의 **장내 미생물 구성에 큰 영향을 미친다**는 점을 알 수 있습니다.

    *   예를 들어, 서구화된 식단은 장내 미생물 균형을 깨뜨리고 질병 위험을 높일 수 있습니다.

*   **장 건강**을 지키기 위해서는 **균형 잡힌 식단**과 **규칙적인 생활 습관**이 중요하며, **프로바이오틱스** 섭취 등 장 건강에 도움을 주는 방법을 고려해 볼 수 있습니다.

*   미생물 연구는 아직 발전하고 있는 분야이기 때문에 앞으로 더 많은 연구가 필요하며, 이 연구는 그 연구의 중요한 발판이 될 것입니다.

이 연구 결과는 과학적인 연구이지만, 일반 시민들에게도 장 건강의 중요성을 알리고, 건강한 생활 습관을 만드는 데 도움이 될 것입니다.


지역별로 장내 미생물 조성과 군집이 달라지는 것은 대부분 의식주 중 食의 차이인데, 지역별과 함께 소득에 따라서도 함께 구분이 되었으면 더 흥미로운 결과를 얻어낼 수 있지 않았을까...

가령 지역별로도 유의미한데, 소득별로도 유의미하다라던지..

결국은 좋은것을 먹어야 장도 편안하다 되겠습니다. :)



출처: @ye._.vely618


화요일, 7월 30, 2024

미생물의 기능을 어디까지 알아낼 수 있을까?

오늘은 23년도 3월에 출판된 딥러닝 방법을 이용한 미생물 기능에 대한 논문 인  Comprehensive Functional Annotation of Metagenomes and Microbial Genomes Using a Deep Learning-Based Method 을 가져와 봤습니다.

DOI: 10.1128/msystems.01178-22


gemini

## 미생물 유전체 기능, 딥러닝으로 99%까지 밝혀내다!

인간 장 미생물은 우리 건강에 중요한 역할을 하지만, 그 기능은 아직까지 대부분 밝혀지지 않았습니다. 이번 연구에서는 딥러닝 기반 모델 DeepFRI를 사용하여 미생물 유전체의 기능을 99%까지 설명하는 놀라운 성과를 달성했습니다. 이는 기존 방법보다 훨씬 높은 비율이며, 미생물학 연구에 새로운 지평을 열 것입니다.

**딥러닝의 위력, 미생물 유전체 기능 밝히다**

딥러닝은 인공지능의 한 분야로, 방대한 양의 데이터를 학습하여 예측을 수행하는 기술입니다. DeepFRI는 이러한 딥러닝 기술을 활용하여 미생물 유전체의 기능을 설명하는 모델입니다.

연구에서는 DeepFRI를 사용하여 190만 개의 미생물 유전자를 분석했습니다. 그 결과, DeepFRI는 99%의 유전자에 대해 기능을 예측하는 데 성공했습니다. 이는 기존의 방법으로는 불가능했던 놀라운 결과입니다.

**기존 방법보다 더 나은 DeepFRI, 그 이유는?**

DeepFRI가 기존 방법보다 더 우수한 성능을 보여준 이유는 다음과 같습니다.

* **높은 정확도:** DeepFRI는 딥러닝 기술의 강력한 학습 능력을 통해 높은 정확도로 유전자의 기능을 예측합니다.

* **대규모 데이터 처리:** DeepFRI는 방대한 양의 데이터를 효율적으로 처리할 수 있어, 수많은 미생물 유전체를 분석하는 데 유용합니다.

* **신규 기능 발견:** DeepFRI는 기존 방법으로는 발견되지 않은 새로운 기능을 발견할 수 있습니다.

**딥러닝, 미생물학 연구의 새로운 지평을 열다**

이번 연구는 딥러닝 기술이 미생물학 연구에 얼마나 유용한 도구인지를 보여주는 좋은 예시입니다. DeepFRI와 같은 딥러닝 기반 모델은 앞으로 더욱 발전하여, 미생물 유전체의 기능을 더욱 정확하게 이해하고, 질병의 원인을 찾는 데 도움이 될 것으로 기대됩니다.


clova-x

DeepFRI는 딥러닝 기반의 기능적 주석 방법으로, 장내 미생물 단백질의 기능을 효과적으로 주석할 수 있다. 이 방법은 기존의 방법보다 더 많은 유전자를 인식하고, 그들의 기능을 추론할 수 있다. 또한, 이 방법은 자동화되고 확장 가능한 방법으로, 대규모의 데이터를 처리할 수 있다.

DeepFRI는 유전자 온톨로지 주석과 높은 일치율을 보이며, 이전 연구와 비교하여 주석 범위를 개선했다. 이 방법은 metagenomic microbiome studies에서 관찰된 새로운 기능을 발견하는 데 도움이 될 수 있다.

하지만, DeepFRI가 설명한 유전자의 기능을 평가하기 위해서는 추가적인 검증이 필요하다. 이를 위해서는 실험적인 데이터나 생물학적 지식을 활용하여 DeepFRI가 설명한 기능을 검증할 수 있다. 또한, 다른 유전자 분석 도구와 비교하여 DeepFRI의 결과를 검증하는 것도 좋은 방법이다.

DeepFRI는 학습 데이터와 추론 방법에 따라 결과가 달라질 수 있다. 따라서, DeepFRI를 사용할 때는 학습 데이터와 추론 방법을 충분히 이해하고, 결과를 신중하게 해석해야 한다.

DeepFRI는 장내 미생물 단백질의 기능을 이해하고, 질병의 원인이 되는 기능적 변화를 파악하는 데 중요한 역할을 할 수 있다. 또한, 이 방법은 항생제 내성 유전자와 치료 전략을 식별하는 데도 유용하다.

딥러닝은 생물학 분야에서 점점 더 중요한 역할을 하고 있으며, DeepFRI와 같은 딥러닝 기반의 기능적 주석 방법은 장내 미생물 연구뿐만 아니라 다양한 생물학 분야에서 활용될 수 있다.


chatGPT

### 딥러닝을 활용한 메타게놈 데이터 분석: DeepFRI와 기존 방법의 비교

메타게놈 데이터 분석에서 유전자 기능을 주석하는 것은 매우 중요한 작업입니다. 그러나 많은 메타게놈 데이터는 기능적 주석이 부족하여 그 활용도가 제한됩니다. 최근 연구에서는 딥러닝을 활용한 새로운 메타게놈 분석 방법이 제시되었고, 이는 기존 방법보다 훨씬 더 높은 커버리지와 정확성을 제공합니다. 이번 글에서는 딥러닝 기반 방법인 DeepFRI와 기존의 유사성 기반 방법인 eggNOG를 비교하고, 딥러닝을 활용한 이유와 그 장점을 살펴보겠습니다.

#### 딥러닝을 활용한 이유

1. **높은 기능적 주석 커버리지**: 

    - 기존의 유사성 기반 방법은 알려진 단백질 서열과의 유사성을 바탕으로 기능을 예측합니다. 이 방법은 새로운 단백질 서열에 대해서는 낮은 커버리지를 가지는 단점이 있습니다.

    - 반면, 딥러닝 모델은 대규모 데이터셋에서 학습하여 패턴을 인식하고 예측할 수 있어, 새로운 단백질 서열에 대해서도 높은 커버리지를 제공합니다.

2. **대규모 데이터 처리 능력**: 

    - 유사성 기반 방법은 데이터베이스 검색과 매칭을 필요로 하며, 대규모 데이터 처리에 시간이 많이 소요됩니다.

    - 딥러닝은 병렬 처리와 GPU 가속을 통해 대규모 데이터를 효율적으로 처리할 수 있습니다.

3. **새로운 기능 발견 가능성**: 

    - 기존 방법은 데이터베이스에 이미 존재하는 기능 정보에 의존하기 때문에 새로운 기능을 발견하는 데 한계가 있습니다.

    - 딥러닝 모델은 서열과 기능 간의 복잡한 패턴을 학습하여 새로운 기능을 예측할 수 있는 가능성이 높습니다.

#### DeepFRI와 eggNOG의 비교

최근 연구에서는 DeepFRI를 사용하여 DIABIMMUNE 코호트의 유아 메타게놈 데이터를 분석했습니다. 그 결과, DeepFRI는 총 190만 개의 중복되지 않는 미생물 유전자를 포함하는 서열 카탈로그를 생성했으며, 99%의 유전자에 대해 Gene Ontology 분자 기능 주석을 제공했습니다. 반면, 기존의 유사성 기반 방법인 eggNOG는 12%의 커버리지를 제공하는 데 그쳤습니다.

#### 예측의 신뢰성 검증 방법

딥러닝 기반 방법이 더 많은 유전자의 기능을 설명하는 것은 좋은 일이지만, 예측된 기능이 올바른지 확인하는 것도 중요합니다. 이를 위해 다양한 검증 방법이 사용됩니다.

1. **교차 검증 (Cross-validation)**: 데이터를 여러 부분으로 나누어 모델을 학습하고 검증하여 모델의 예측 성능을 평가합니다.

2. **독립적인 검증 데이터셋 사용**: 모델이 학습에 사용되지 않은 데이터로 모델의 예측 성능을 테스트합니다.

3. **실험적 검증**: 예측된 기능을 실제 실험을 통해 확인합니다.

4. **기존 데이터와의 비교**: 모델이 예측한 기능이 기존 데이터와 얼마나 일치하는지 비교합니다.

5. **기능적 유사성 네트워크 분석**: 예측된 유전자 기능들이 서로 얼마나 관련이 있는지를 분석합니다.

#### 결론

딥러닝 기반 방법인 DeepFRI는 기존의 유사성 기반 방법보다 높은 커버리지와 정확성을 제공합니다. 이를 통해 메타게놈 데이터의 해석 가능성을 크게 높일 수 있으며, 새로운 기능을 발견할 가능성도 높습니다. 하지만 예측된 기능의 신뢰성을 검증하는 것이 중요하며, 다양한 검증 방법을 통해 이를 확인할 수 있습니다. 딥러닝을 활용한 메타게놈 데이터 분석은 앞으로 인간 장내 미생물 군집의 기능적 특징을 이해하는 데 큰 기여를 할 것입니다.

---

이 글이 여러분에게 딥러닝을 활용한 메타게놈 데이터 분석의 중요성과 그 장점에 대해 이해하는 데 도움이 되었기를 바랍니다. 앞으로도 최신 연구 동향과 기술을 소개하는 유익한 글을 지속적으로 제공하겠습니다.


보통 microbiome이나 metagenome분석은 미생물들의 종 assign까지가 대부분이고, 이를 통해 질병이나 건강 상태에 따라 미생물 조성이 어떻게 변화하는지 알아봅니다. 하지만 종 수준의 분석만으로는 미생물의 역할이나 기능을 완전히 이해하기 어려운 경우가 많습니다.

이 연구에서는 단순히 종을 분류하는 것을 넘어 genome을 재구성하여 유전자의 기능을 예측/분석하여 미생물의 역할을 좀 더 정확히 파악하고자 했는데, 미생물과 숙주간의 상호작용을 더욱 심층적으로 이해하는데 큰 도움이 되지 않을까 합니다. 

아마도 (논문을 당연히 안봤으므로) 시퀀싱 방법은 16S rRNA가 아닌 Meta WGS일 것 같은데, 나중에 이런 데이터를 확보해서 작업해보면 재미있을 것 같네요. 


다음에 또 흥미로운 것이 있으면 가져오도로 하겠습니다. :)



출처: @ye._.vely618


수요일, 11월 08, 2023

이제는 전체 16S rRNA 서열을 봐야하지 하지 않을까? 하는 얘기

마이크로바이옴 분석을 할 때 매번 나오는 얘기로 16S rRNA에서 V3-V4  영역만으로 괜찮겠냐, full 16S rRNA봐야하는거 아니냐? whole sequencing해야하는거 아니냐 라는 내용의 논문이 있엇 한번 가져와봤씁니다.

2019년에 출판된 "Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis" 종/strain 수준의 16s RNA 서열 평가에 대한 내용 되겠습니다.

DOI: doi.org/10.1038/s41467-019-13036-1


16S rRNA는 박테리아 분석, microbiome 분석 시 주로 사용해오고 있고, 지금도 활발히 사용되고 있는 분석 방법 이지만, 지금까지는 V3-V4 영역만을 대상으로하는 방법이었고, 이제는 전체 16S rRNA를 확인하는 것에 대해서 얘기해봐야 하는 시점이 되었죠.

이전까지 16S의 V3-V4 영역으로 구분이 안되는 종들이 있었고, 지금까지 하던 분변 마이크로바이옴은 모르겠다만, 다른 환경의 마이크로바이옴을 할때는 V4-V5가 더 좋아보이는데 너님들의 생각은 어때? 라는 논문이 꾸준히 나오는거 봐선 이제 전장 16S rRNA 방법이 두각을 나타날때가 되긴했죠 :)


바드에 물어보니 다음과 같이 요약해 주었습니다.

  • 16S rRNA 유전자 시퀀싱은 미생물군집 내의 다양한 종과 균주를 식별하고 그들의 풍부도를 정량화하는 데 사용할 수 있습니다.
  • 또한 미생물군집의 구성 변화를 추적하는 데 사용할 수 있습니다.
  • 그러나 16S rRNA 유전자 시퀀싱은 균주 수준에서 정확도가 떨어질 수 있으며, 유사한 종을 구분하기 어려울 수 있습니다.
  • 16S rRNA 유전자 시퀀싱의 정확도는 향상되고 있으며, 미생물군집을 연구하는 연구자들에게 유용한 도구입니다.
다른 미생물군집 분석 방법으로는 샷건 메타지놈 분석과 whole-genome 시퀀싱이 있지만 이 방법들은 16S rRNA 분석 방법보다 돈도 많이 들고, 시간도 더 많이 소요되니 너님이 궁금해하는게 무엇인지에 따라 선택해야하지 않겠니?

정도로 잘 요약해 줬습니다.V3-V4 수준이 아닌 고품질의 full 16S rRNA 데이터를 확보할 수 있으니 이제 V3-V4, V4-V5와 같은 좁은 영역이 아닌 full 16S rRNA로 microbiome 분석을 진행하는것이 좋아보이고, 이제 충분히 품질이나 비용이 만족할 수준까지 왔으니 더 나은 결과를 위해서 나와 함께 해보지 않겠는가? 라는 내용 되겠습니다.




출처: @ye._.vely618


수요일, 9월 13, 2023

무균체액에는 얼마나 다양한 박테리아가 있을까? 그 10년의 기록

10년에 걸쳐 뇌척수액, 심낭액, 복막 및 흉막액 같은 체액(NSBF)에 어떤 박테리아들이 서식하는지 확인한 논문이 있어 한번 가져와봤습니다. 

제목은 Comparison of 16S Ribosomal RNA Targeted Sequencing and Culture for Bacterial Identification in Normally Sterile Body Fluid Samples: Report of a 10-Year Clinical Laboratory Review 이고, doi는 10.3343/alm.2020.40.1.63 입니다.

테스트한 샘플은 312개의 NSBF이고, 16S rRNA 분석과 배양 실험을 동시에 진행하여 비교해보았다고 합니다.

metagenome을 사용하는 이유가 시간도 오래 걸리고 번거로운 배양실험을 대체하기 위한 목적이 크다보니 비교실험을 통해 사용에 당위성을 확보하기도 합니다.

여튼 10년동안 모든 음성 샘플 277개와 양성 샘플 35개 중 277개의 음성 샘플을 정확히 구분해 냈으나 35개 샘플중 시퀀싱과 배양 방법을 통해서 확인된 양성 샘플은 10개 였습니다.

전체 312개 중 92%의 정확도? 라고 할 수 있으나, 이 10개 샘플은 16S rRNA와 배양 방법으로 모두 양성이라고 확인한 결과이고, 16S rRNA 방법으로, 배양 방법으로 확인한 결과는 35개 모두 다 잘 진단 하였습니다. 

그래서 논문에서도 기존의 배양방법으로만 하는 것보다 16S rRNA 시퀀싱 방법을 배양 방법과 함께 사용하면 체액 샘플에서 박테리아를 더 정확하게 식별할 수 있고, 항상제를 이미 처방받은 환자나 혐기성 감염이 의심되는 경우 배양 방법만으로는 한계가 존재하기 때문에 함께 사용하는것이 좋은것 같다는 의견이었습니다.

개인적으로는 16S rRNA 단독으로 사용하였을 때 앞도적인 차이로 더 잘 진단 할 줄 알았는데 꼭 제 마음같지는 않은듯 합니다. :)

음... 근데 안타깝게도 시퀀싱 데이터가 공개되어 있지 않은듯 한데.. 좀 더 자세히 뜯어보도록 하겠습니다. SRA 번호를 찾게되면 한번 분석 해보는 것으로 :)

그럼 다음에 또 흥미로운 논문으로 찾아뵙도록 하겠습니다.



출처: @ye._.vely618

토요일, 9월 09, 2023

누가누가 미생물 프로파일링을 잘할까?

NGS가 태동된지 20여년.... (너무 과했나?) 대중적으로 관심을 받아 쓰는지는 10여년이 훌쩍 지나가고 있는 시점에 예전에는 454나 Solexa 정도 만져보던 시절에서 지금은 다양한 시퀀서들이 나와서 연구자들의 다양한 궁금증을 일선에서 해결해 주고있습죠 :)

여튼 그래서 21년 기준에 보편적으로 또는 미래에 대세가될 시퀀서들을 대상으로
누구나 관심있어하는 장내 미생물 프로파일링을 어느어느 시퀀싱 플랫폼이 잘하나 비교해보는 논문이 있어서 가져와봤습니다.

제목은 Comparison of 16S rRNA Gene Based Microbial Profiling Using Five Next-Generation Sequencers and Various Primers 이고,

doi: 10.3389/fmicb.2021.715500 입니다.

(물론 저자중에 제가 아는 분이 있어서 그런것은 아니고요, 구글링 하다가 찾아진겁니다.)


그래서 비교해볼 시퀀서는

MiSeq, IonTorrent, MGIseq-2000, Sequel II 그리고 MinION 까지.. ..
짧은 read와 긴 read들을 생산하는 대표 시퀀서들을 5개를 가지고 테스트를 해봤습니다.

시퀀싱을 잘 했는지 못했는지 확인하려면 시료의 정답을 미리 알고 있어야 겠죠?

그래서 한국 식약처에 등재된 19종의 미생물 종중에 8종을 선별하여서 다양한 비율의 Mock community를 만들어서 테스트 했다고 합니다. 

그런데 Mock community내에 미생물들의 비율은 어떻게 확인했냐!!
digital PCR을 사용해서 Mock community내 미생물들을 정량해서 확인했다고 합니다. 물론 Sequins (스팽글?, aka Sequencing spike-ins)이라는 방법을 활용할 수 있다고 하는데 다양한 박테리아에 대해서 모두 Sequins를 만들기 어렵기 때문에.. 이방법을 사용했다고 합니다. 사실어떤 방법이 golden standard인지는 모르겠으나 연구 디자인에 적합하면 되지 않을까 합니다.

여튼 8개 Mock community를 제작하였고, 각각에 시료를 바탕으로 5개의 시퀀서로 시퀀싱을 진행하였습니다. 그리고 분석은 MOTHUR을 사용해서 진행하였다고 합니다.

그럼 결론은 몬데?
뭣이 중헌디?

음... 개인적으로는 16S rRNA 서열을 한번에 확인 할 수 있는 롱리드 플랫폼이 숏리드 플랫폼보다 편향이 적다라는 결과를 기대했으나.. 도리어 숏리드 플랫폼에 비해서 롱리드가 더 편향적(과대 또는 과소 표현)이었다는... 물론 이게 긴 길이의 리드를 시퀀싱하기 위해서 전처리로 PCR단계에서 비롯된거 같다는 의견이었습니다만, Sequel II같은 경우 숏리드 플랫폼과 유사한 양의 결과물을 확인하기 위해서는 더 많은 비용이 소요될텐데... 그럼 롱리드 플랫폼을 사용할 이유가 딱히 없다는게 문제가 될듯합니다.

Figure 3,4,5를 잘 뜯어보면 

Bifidobacterium breve의 경우 숏리드 플랫폼에서 상대적으로 과소 표현되고,
Limosilactobacillus fermentum의 경우 롱리드 플랫폼에서 과소표현되고, 반대로 Lactococcus lactis subsp. lactis의 경우 롱리드에서 과대표현 되고,
Lactobacillus acidophilus의 경우는 플랫폼 상관없이 과소표현 되기도하고..

함께 있는 종에 따라 영향을 받기도, 받지 않기도 하기 때문에 해석을 할 때 고려해야할게 한두가지가 아니라서 좀 어렵죠. ㅎㅎ 

그리고 숏리드의 경우 가장 큰 문제점이 한정된 영역(V3-V4)의 서열만 가지고 확인하다보니 서로 다른 균주로 분류되는 문제가 있었고 이는 보통 probiotic bacteria인 Lactobacillus casei group(LCG)에서 확인되어서 LCG, probiotic bacteria 분석에는 V3-V4는 좀 피해야할듯 합니다.

결론은 연구에 맞게 적절하게 잘 사용하고, 직접 실험하지 않는 저같은 게으름뱅이들에게는 이리저리 분석할때 표준 데이터로 사용할만한 좋은 데이터가 확보되었다는 것입니다. :)



출처: @ye._.vely618


금요일, 8월 11, 2023

16S rRNA에서 V3/4와 V4/5는 대체 얼마나 다르지?

정확히 얘기하자면 북극해의 해양 생태계의 미생물 군집을 연구할 때는 16S rRNA의 어느 variable region을 사용하는게 좋을까? 되겠습니다.

Comparison of Two 16S rRNA Primers (V3–V4 and V4–V5) for Studies of Arctic Microbial Communities

doi: 10.3389/fmicb.2021.637526

예전부터 microbiome, metagenome연구할 때 항상 언급되는 내용이긴 합니다.
엄밀히 얘기하면

1. 박테리아 genome full sequence가 제일 좋아요
2. 안되면 full lenght 16S rRNA가 좋아요
3. 안되면 그냥 본인이 이거다 싶은거 쓰세요. 다른사람이 무엇을 쓰든지

여튼 이 논문은 빠른 온난화로인해 북극해의 해양 생태계가 어떻게 변화하는지 확인해보고자 1년여동안 모니터링한/샘플링한 데이터를 분석해봤는데, 지금까지 우리가 대중적으로 사용하고 있었던 16S rRNA의 V34가 진짜 golden standard인가? 우리 한번 생각해봐야하지 않겠나? 아니면 적어도 북극해의 미생물 분석 할 때는 (우리가 해봤을때는) 16S rRNA의 V34보다는 V45가 더 적합한것 같아요를 얘기하고 있는 논문되겠습니다.

여기서 얘기하고 있는 16S rRNA의 V34는 어디고 V45는 어디냐?

16S rRNA는 >여기< 참고하시면 잘 나와있습니다. 그리고 그중 V34와 V45는 어디냐?

V34는 341(F)에서 785(R)까지, V45는 515(F-Y)에서 926(R)까지라고 하네요

사실 범용적으로 사용하는 primer 위치들이 연구팀들마다 100% 동일하지는 않습니다. 살짝씩 다를 수 있으니 이 부분도 잘 확인하시면 좋을 것 같습니다.

그 이유는 이 논문에서도 언급되었듯이 지금까지 지금까지 연구가 잘 되어오지 않았던 곳(여기서는 북극해)에서는 어떤 variable region이 종들을 더 잘 구분하는지, 어떤 범용 primer set이 더 잘 작동하는지 정확히 모르기 때문에 그렇습니다. 반대로 사람의 대변, 구강과 같이 이미 수년동안 연구를 통해 실험 방법이 정립된 경우에는 그냥 기존 방법대로 하시면 되겠습니다.

그래서 이 논문의 결론은 북극해와 같이 아직 생태계가 연구되지 않은 환경에 대해서 미생물 군집 연구를 위해서는 V45 primer set을 사용하는 것이 좋다고 하였습니다.


근데 진짜 그럴까요?

논문에서도 나오지만 결론에서 북극해의 미생물 군집 연구를 위해서는 V45가 좋은데, 그 이유가 다른 미생물 군집 검출에 영향을 끼치지 않기 때문이고, archaea도 검출 가능하기 때문인데, V45와 함께 V34를 혼용해서 사용하면 더 좋지 않을까하는 생각이네요


그리고 사족으로 일부 샘플에서 현미경으로 셀 카운팅을 했는데 그 결과가 NSG와 차이가 있었고, 그 이유가 현미경 정량의 한계라고 얘기를 하였지만 꼭 그럴까하는 생각도, NGS의 한계일 수 도 있다는 생각은 >여기<를 보시면 알게 된다는..

그럼 다시 또 재미있는 이야기거리를 가져와 보도록 하겠습니다.



출처: @ye._.vely618


토요일, 7월 29, 2023

왕의 귀환, greengene2

어이쿠... 기억속에 잊혀져 있던 database가 우리 곁으로 다시 돌아왔네요

옛날에 metagenome 한번 해봤으면 썼었던 바로 그 db, greengene이 버전업 해서

greengene2으로 아래 논문으로 돌아왔습니다.


Greengenes2 unifies microbial data in a single reference tree


역시 우리 Rob훃아가 찬밥 신세로 있었던 greengeen을 멱살 잡고 끌고 온듯합니다.

단순히 greengene의 빈약했던 taxonomy정보만 벌크업 한것이 아닌 16S rRNA와 shotgun metagenome 결과를 비교할 수 있도록 개선했다고 합니다.

여튼 metagenome 하면서 다들 느낀 점은 시퀀싱 방법과 db가 바뀔 때 마다 결과가 왜 다르지 아니겠습니까? 이 문제를 (어느정도)해결하지 않나 싶습니다.

꼼꼼하게 보지는 않았지만 현존하는 종 db들을 싹싹 털었던듯 싶네요

WoL(Web of Life), LTP(Living Tree Project)등의 db에서 확보가능한 full length 16S rRNA 서열을 긁어모았고 쿵짝 쿵짝 하고 taxonomy는 통일을 하기 위해 NCBI체계를 따르는 LTP 정보를 GTDB(Genome Taxonomy DataBase)에 통합하였다고 합니다.  curation차이로 인해서 LTP와 GTDB간의 차이가 발생하고 종의 종보들이 누락되어 있는 것들이 있다보니 데이터가 더 풍부한 GTDB에 LTP 정보들을 통합하였다고 하네요.
(개인적으로 NCBI taxonomy 체계를 사용하고 있는데...)

여튼.. 거의 10년만의 greengene의 귀환 논문이고 (단순히) 데이터만 많았던 siliva가 긴장좀 하겠네요 ㅎㅎ 


더 자세하게 읽어 봐야하는데...

기쁜 마음에 포스트 먼저 훗..




출처: @ye._.vely618



일요일, 9월 23, 2018

Microbiome Database를 만들어볼까? -NCBI편 4-

지난번 글에서 받기시작했던 nt.gz파일은 잘 받아졌나요?

그럼 이제 이 파일에서 무엇인가 뽑아내야 겠죠?

무엇을 뽑아내느냐?
16S rRNA를 뽑아낼겁니다.
어떻게?
다음 스크립트를 작성해 봅시다.

$vi parser_nt.py

import glob,sys,re,gzip
from Bio import SeqIO

try:
        input_fa = sys.argv[1]
except:
        print "fasta_split.py <in.fa.gz>"
        exit(1)
for rec in SeqIO.parse(gzip.open(input_fa),format='fasta'):
        desc = rec.description
        seq = str(rec.seq)
        name = desc.strip().split('\x01')[0]
        if name.upper().find(' 16S RIBOSOMAL RNA ') != -1 or name.find(' 16S RIBOSOMAL RNA,') != -1:
                if name.upper().find('MITOCHONDRIA')!= -1:
                        pass
                elif name.upper().find('CHLOROPLAST')!= -1:
                        pass
                elif name.upper().find(' 23S ') != -1:
                        pass
                else:
                        if name.upper().find(' SIMILAR ') != -1:
                                pass
                        elif name.upper().find(' INTRON') != -1:
                                pass
                        elif name.upper().find(' PLASTID') != -1:
                                pass
                        else:
                                print '>%s\n%s\n'%(desc,seq)


※ 위의  스크립트를 수정해서 입맛에 맞게 교정하시고 사용하시면되겠습니다.

$python parser_nt.py nt.gz > nt.fasta
위에 스크립트 실행시키면 떡 하니 수 gb 짜리 파일이 하나 나올겁니다.

이 파일안에는 nt서열 중에서 16S rRNA 서열 (대신 mitochondria와 chloroplast의 16S rRNA는 제외하고 이것도 16S rRNA지만 저한테는 일단 필요없어서 뺐습니다. 사용하고 싶으시면 사용하셔도 됩니다. :) )이 500만개 정도 들어 있습니다.

이 파일에는 온갖 종의 16S rRNA 서열이 있지만 문제가 있다는 점!

16S rRNA 서열이 품질이...
어떤 녀석은 full 서열이 있지만 어떤녀석은 서열의 일부만 가지고 있는 경우가 있습니다.

그래서 그런 녀석들을 잘 확인해서 제거를 하던지 merge를 하던지... 

그건 개인 취향으로 남겨 놓도록 하겠습니다. :)
aka 필터링을 하던 안하던 문제 생기면 그 문제의 책임은 오롯이 당신의 것!!

그리고 즐거운 추석보내시기 바랍니다. :)

출처 SM


수요일, 9월 19, 2018

Microbiome Database를 만들어볼까? -NCBI편 3-

지난 시간에 이곳에서 귀한 자료를 받아 봤을 겁니다.
그게 무엇이냐!!!

지금까지 공개된 bacteria의 서열들이죠 정확하게 말하면
현재까지 수많은 연구자들이 자발적(자의타의)으로
공개해준 것을 NCBI가 아름답게 정리한 RNA서열들만 다운받았습니다.

근데 우리는 RNA 서열이 아니라 rRNA 서열이 필요하죠

이전 글에서 우리는 rna라는 폴더 안에 12만개에 달하는 파일들을 다운받았습니다.
아마 그냥 ls하시면 어쩌구 저쩌구 long 할겁니다.
ls로 불러오기에 item이 너무 많다 이거죠
그럼 어쩌지?? @.@

우리에겐 귀도 훃님의 파이썬이 있지 않겠습니꽈

간단하게 다음과 같은 스크립트를 뚝딱 뚝딱 만들어보죠

import os,glob
from Bio import SeqIO
for files in glob.glob('rna/*gz`):
    for rec in SeqIO.parse(gzip.open(files), format='fasta'):
        name =rec.description
        seq = rec.seq
        if name.find('[product=16S ribosomal RNA]') != -1:
            print '>%s\n%s\n'.format(name,seq)

(python2.7에 Biopython이 설치되어 있어야 하고 *_rna_form_genomic.fna.gz 파일이 rna폴더 밑에 위치하고 있어야 합니다.)

$python script.py > ncbi.fa

라고 해주면 헤더에 "[product=16S ribosomal RNA]"가 포함된 aka 우리가 원하는 바로 그것! 16S rRNA 서열을 각 종에서 샤샤샥 ncbi.fa라는 파일에 저장할 수가 있습니다.

-12만개 파일 읽어 오는거라 순차적으로 하면 3-4시간 걸릴것이고
subprocess로 잘 해주시면 적어도 십수분? 30분이내면 충분히 끝날각 되겠습니다.

출처: SM Town

월요일, 12월 05, 2016

16S rRNA와 시퀀싱플랫폼

블로그에 쓰는 내용이 16S rRNA에 많이 집중되고 있긴하죠? ㅎㅎ
하는일이 이거다보니.. :)

여튼 오늘은 16S rRNA와 시퀀싱플랫폼에 대해서 잠시 이야기 하도록 하겠습니다.

최근 16S rRNA sequencing의 최강자 454가 서비스를 bye bye한 관계로
많은 연구자들이 MiSeq체제로 변환하고 있는데 (물론 Ion도 있고, PacBio도 있습니다.)
기존에 454를 사용했을 때와 다른 V region을 사용하고 다소 다른 결과들을 보이는 것들이
있을 것 입니다. 그래서 이리저리 검색하다가 걸린 논문 두 개를 가지고 잠시 얘기해보고자 합니다.

Nucl. Acids Res. (2010) 38 (22): e200.

PeerJ (2016) 4:e1869

논문을 찾아보기 시작한 이유는 454가 막을 내린 후 다른 시퀀싱 플랫폼에서는 왜 다른 region을 target하고 있고 왜 diversity에 차이를 보이는지... (내가 분석을 잘못했나.. ㅎㄷㄷㄷ)

우선 V region, 454는 V1-V2였는데 MiSeq은 V4 region을, Ion은 4개 region? 7개 region? 을 동시에target하고 있다는..

모 논문보면 아시겠지만
2010년 논문은 454 vs MiSeq을 비교했습니다. 두 플랫폼이 차이가 날까? 어떤것이 차이가 날까?

2010년도 논문을 한장 figure 요약하자면 이거죠



상단은 phylum abundance/ 하단은 genus abundance 그리고 좌측에 있는 V4는 이전 연구에서 사용되었던 기준이라고 생각되는 참고용 분포입니다. 실험 결과가 V4 region이 저 분포를 나타내면 실험이 잘됐다고 확인하는 용도로 사용됩니다.

사실 phylum은 크게 차이없죠, 차이가 있기도 쉽지않습니다.
관심사는 genus되겠습니다. 일루미나 데이터의 대부분은 unclassified입니다. 논문에서는 error때문에 이렇게 나왔으니 error좀 낮아지면 일루미나가 output이 많으니 sequence error 문제점을 개선된다면 미생물 분석에 적합한 킹왕짱 시퀀서가 될거라고 하는데 개인적인 생각으로는 sequence error(454가 일루미나가 한테 sequence error ㅋㅋ 좀 웃겼다능..
systematic error는 눈에 안뵈냐라고 한다면 눼눼, 하긴 이 논문이 2010년이란 것을 감안한다면 무리는 아니긴 합니다.)보다는 db선택이 unclassified문제는 보정할 수 있지 않을까 합니다.

그렇다면 이제 16s rRNA 입문한지 얼마안된 님께서 그렇게 느끼는 느낌적인 이유는
무엇인가?

바로 2016년 논문되겠습니다.

2016년 논문은 PacBio로 시퀀싱한 것을 db에 따라 분석 결과가 달라지는냐에 대한 내용으로
다음 한 장으로 요약 할 수 있겠습니다.




동일한 시료를 가지고 시퀀싱한 데이터를 16S rRNA db에 따라 classification되는 정도를 확인해본 그래프 입니다. 느낌 딹오시죠?
다만 나중에 뒤통수 맞았다는 느낌 안 받게 하나 말씀드리자면 RDP와 Silva의 경우 genus까지만 확인했고 gg는 genus와 genus+species 두가지로 확인한 것 입니다.

이제 PacBio의 Sequel에서 CCS로 생산된 16S rRNA 서열가지고 연구해도 나쁘지 않을 것 같다는..

아.. 이제 돈만 많으면 되는건가!!! 


수요일, 11월 02, 2016

16S rRNA Variable regions



Variable regions of the 16S ribosomal RNA.
출처: Nat Rev Microbiol. 2014 Sep;12(9):635-45. doi: 10.1038/nrmicro3330.

월요일, 8월 08, 2016

16S rRNA Workflow

요즘하는게 요 16S rRNA작업인데
workflow와 해당 작업에서 사용할만한 tool을 잘 정리한글이 있어서..

H3abionet.org

덤으로 GOBLET이라는 사이트가 있는것도 알게 되었네요..
GOBLET이 뭔지 궁금해요?
그럼 링크에 들어가시면됩니다. :)