레이블이 캔디리더인 게시물을 표시합니다. 모든 게시물 표시
레이블이 캔디리더인 게시물을 표시합니다. 모든 게시물 표시

목요일, 10월 31, 2024

NGS에서 통계적 검정력과 표본 크기 계산의 중요성

오늘은 간만에 좀 지난 논문을 하나 가져와봤슴다. Power and sample size calculations for high-throughput sequencing-based experiments으로 high-throughput seq 실험을 할 떄 검정력과 샘플 개수를 어떻게 사용해야 하는지에 대한 내용되겠습니다. 


DOI: 10.1093/bib/bbx061


gemini

**NGS 기반의 실험의 통계적 Power와 표본 크기 계산**

NGS 기반의 실험은 빠르게 발전하는 기술로, 생명과학 분야에서 광범위하게 사용되고 있습니다. 이 기술은 DNA, RNA, 단백질 등의 고분자를 대상으로 하는 다양한 실험에 활용되며, 대량의 데이터를 생성합니다. 이러한 대량의 데이터를 분석하고 해석하기 위해서는 통계적 방법이 필수적입니다. 통계적 power와 표본 크기 계산은 NGS 기반의 실험을 설계하고 분석하는 데 있어서 매우 중요한 요소입니다.

Power는 통계적 검정에서 유의한 결과를 얻을 수 있는 확률을 나타냅니다. 즉, 1-β로 나타내며, β는 제1종 오류의 확률입니다. 제1종 오류는 귀무가설이 참인데도 거짓으로 기각하는 오류입니다. 표본 크기는 통계적 검정에서 유의한 결과를 얻기 위해 필요한 표본의 크기를 나타냅니다.

NGS 기반의 실험에서 통계적 power와 표본 크기 계산은 여러 가지 요인에 영향을 받습니다. 예를 들어, 실험 대상의 특성, 실험의 목적, 실험 방법, 분석 방법 등이 있습니다. 이러한 요인들을 고려하여 적절한 통계적 power와 표본 크기를 계산하는 것이 중요합니다.

이러한 요인들을 고려하여 적절한 통계적 power와 표본 크기를 계산하는 것이 중요합니다. 이를 위해서는 통계학 전문가의 도움을 받는 것이 좋습니다. 또한, 다양한 통계적 power와 표본 크기 계산 방법이 개발되어 있으므로, 자신의 연구에 가장 적합한 방법을 선택하는 것이 중요합니다.

**NGS 기반의 실험의 통계적 Power와 표본 크기 계산의 중요성**

NGS 기반의 실험에서 통계적 power와 표본 크기 계산을 올바르게 수행하지 않으면, 다음과 같은 문제가 발생할 수 있습니다.

* 유의한 결과를 얻지 못할 수 있습니다.

* 실험에 필요한 비용이 과도하게 발생할 수 있습니다.

* 실험 결과의 신뢰성이 떨어질 수 있습니다.

따라서, NGS 기반의 실험을 설계하고 분석할 때에는 통계적 power와 표본 크기 계산을 반드시 고려해야 합니다.



clova-x

최근 생명공학 분야에서는 차세대 염기서열 분석(NGS) 기술이 빠르게 발전하면서, 대규모의 유전 정보를 빠르고 정확하게 분석할 수 있게 되었습니다. 이에 따라 NGS 기술을 활용한 다양한 연구가 활발하게 이루어지고 있습니다.

NGS 기반의 실험에서는 많은 양의 데이터가 생성되기 때문에, 이를 효과적으로 분석하기 위해서는 적절한 통계적 방법이 필요합니다. 특히, 실험의 목적에 따라 적절한 표본 크기를 결정하고, 통계적 파워를 계산하는 것이 중요합니다.

통계적 파워란, 연구에서 설정한 가설을 검증할 수 있는 능력을 나타내는 지표입니다. 즉, 실험에서 얻은 결과가 우연에 의한 것이 아니라, 실제로 가설을 지지하는 것인지를 판단하는 데 도움을 줍니다.

표본 크기란, 연구에서 사용하는 데이터의 양을 말합니다. 표본 크기가 클수록 통계적 파워가 높아지기 때문에, 보다 정확한 결과를 얻을 수 있습니다. 하지만, 표본 크기가 너무 커지면 비용이 많이 들기 때문에, 적절한 균형을 유지하는 것이 중요합니다.

이번 연구에서는 NGS 기반의 실험에서 통계적 파워와 표본 크기를 계산하는 방법에 대해 다루었습니다. 이를 위해 다양한 통계적 모델과 알고리즘을 사용하였으며, 실제 데이터를 활용하여 검증하였습니다.

연구 결과, NGS 기반의 실험에서는 리드 깊이, 분산 등의 고유한 매개변수를 고려하여 통계적 파워와 표본 크기를 계산해야 한다는 것을 확인하였습니다. 또한, 여러 가지 통계적 모델 중에서 Negative Binomial 모델이 NGS 데이터의 특성을 잘 반영하는 것으로 나타났습니다.

이번 연구는 NGS 기반의 실험을 계획하는 연구자들에게 유용한 정보를 제공합니다. 실험의 목적에 따라 적절한 표본 크기를 결정하고, 통계적 파워를 계산함으로써 보다 정확한 결과를 얻을 수 있으며, 이를 통해 생명공학 분야의 발전에 기여할 수 있을 것으로 기대됩니다.

NGS 기술과 통계적 방법은 계속해서 발전하고 있기 때문에, 이에 대한 지속적인 연구와 업데이트가 필요합니다. 연구자들은 최신 기술과 방법을 적극적으로 활용하여, 보다 정확하고 효율적인 연구를 수행해야 합니다.



chatGPT

이 연구는 고처리량 시퀀싱(HTS) 기반 실험에서 통계적 파워와 샘플 크기 계산의 중요성을 설명하는 데 중점을 두고 있습니다. **통계적 파워**란, 실험에서 의미 있는 차이나 효과를 발견할 수 있는 능력을 의미하며, 실험의 성공 여부에 중요한 역할을 합니다. 샘플 크기 역시 실험 결과의 신뢰성을 결정하는 핵심 요소입니다. 따라서 실험을 설계할 때, 통계적 파워와 적절한 샘플 크기를 계산하는 것은 필수적입니다.

**연구 배경**  

고처리량 시퀀싱(HTS)은 DNA, RNA, 마이크로바이옴(미생물군집), 단백질-유전체 상호작용 연구 등에서 활용되는 최신 기술로, 한 번에 수백만 개의 데이터를 분석할 수 있습니다. HTS 기술은 생물학적 연구를 한 단계 더 발전시키는 데 기여했지만, 이러한 복잡한 데이터 분석에 맞는 통계적 방법을 적용하는 것이 매우 어렵습니다. 특히, HTS 실험에서는 데이터의 다양성과 복잡성으로 인해 **파워 분석**이 필수적입니다. 기존의 유전자 분석 방식과는 달리, HTS 데이터는 더 많은 변동성과 오류 가능성을 포함하고 있어 더욱 세밀한 분석이 요구됩니다.

**연구에서 사용된 방법**  

이 연구에서는 HTS 기반 실험에 필요한 파워와 샘플 크기 계산 방법을 다루고 있습니다. 연구진은 다양한 시퀀싱 방법에 따른 통계적 분석 도구를 사용했습니다. 예를 들어, DNA 시퀀싱에서는 변이(유전자 돌연변이)를 발견하고 이를 표현형(겉으로 드러나는 특성)과 연관 짓기 위한 파워 분석을 진행했습니다. RNA 시퀀싱에서는 유전자 발현 수준의 차이를 분석하기 위해 **Poisson 분포**와 **음이항 분포** 등의 통계 모델을 적용하여 샘플 크기를 계산했습니다. 또한, 마이크로바이옴 연구에서는 미생물 종의 다양성을 분석하기 위해 **다항 분포**를 사용한 파워 분석을 수행했습니다. 이 연구에서 사용된 통계적 방법들은 모두 HTS 실험의 목표와 데이터 유형에 맞게 조정되었습니다.

**연구 결과**  

연구진은 HTS 실험에서 실험 설계의 성공 여부를 판단하는 데 있어 파워 분석이 필수적이라는 결론을 내렸습니다. HTS 데이터는 기존의 유전자 분석 데이터보다 더 많은 변수를 포함하고 있어, 정확한 분석을 위해서는 실험의 목표에 맞춘 정교한 통계적 방법이 필요합니다. 연구는 각 시퀀싱 방법에 맞는 다양한 파워 분석 도구와 계산 방법을 제안했으며, 이를 통해 연구자들이 실험 설계 시 적절한 샘플 크기를 선택하고 신뢰성 있는 결과를 얻을 수 있도록 안내했습니다.

**연구의 의의**  

이 연구는 HTS 기반 실험의 성공을 위한 통계적 파워와 샘플 크기 계산의 중요성을 재조명했습니다. HTS 기술을 사용하는 연구자들에게는 실험 설계 시 데이터의 복잡성을 고려하여 적절한 통계적 방법을 적용하는 것이 필수적입니다. 이를 통해 과학적 연구의 신뢰성을 높이고, 더 나아가 생물학적 발견을 이루는 데 기여할 수 있습니다. 일반 대중에게는 HTS 기술이 얼마나 중요한 역할을 하는지, 그리고 이러한 실험에서 신뢰성 있는 결과를 얻기 위해서는 철저한 통계적 분석이 필요하다는 점을 알리는 중요한 계기가 될 것입니다.



NotebookLM

## 차세대 염기서열 분석(NGS) 기반 실험에서 통계적 검정력과 표본 크기 계산의 중요성

최근 생명 공학 분야에서는 차세대 염기서열 분석(NGS) 기술이 등장하면서 생명 현상을 분자 수준에서 이해하는 데 혁명적인 발전을 이루었습니다. NGS는 DNA나 RNA와 같은 유전 물질을 빠르게 해독하여 방대한 양의 유전 정보를 생성할 수 있는 기술입니다. 이러한 대규모 데이터를 기반으로 질병의 원인을 규명하고 개인 맞춤형 치료법을 개발하는 등 다양한 연구가 진행되고 있습니다. 하지만 NGS 기반 실험은 높은 비용과 복잡한 데이터 분석 과정 때문에 연구 설계 단계에서부터 신중한 고려가 필요합니다. 

특히, **통계적 검정력(Power)**과 **표본 크기**는 NGS 연구의 성공 여부를 결정하는 중요한 요소입니다. 통계적 검정력이란 실제로 효과가 존재할 때, 실험을 통해 해당 효과를 검출할 수 있는 확률을 의미합니다. 즉, 검정력이 높을수록 실험 결과의 신뢰성을 확보할 수 있습니다. 표본 크기는 연구 대상으로 삼는 개체 수를 의미하며, 통계적 검정력과 밀접한 관련이 있습니다. 일반적으로 표본 크기가 클수록 통계적 검정력이 높아지지만, NGS 실험의 경우 비용적인 제약으로 인해 무작정 표본 크기를 늘릴 수는 없습니다. 

제공해주신 자료 에 따르면, NGS 기반 실험의 전력 분석은 기존의 마이크로어레이 기반 실험보다 훨씬 복잡하다고 합니다. 그 이유는 NGS 데이터가 가지는 고유한 특징 때문입니다. 첫째, NGS 데이터는 **읽기 깊이(Read Depth)**와 **읽기 분산(Read Dispersion)**과 같은 요소들을 고려해야 합니다. 읽기 깊이는 특정 유전자 영역이 시퀀싱된 횟수를 의미하며, 읽기 분산은 각 유전자 영역에 대한 읽기 횟수의 변동을 나타냅니다. 둘째, NGS는 DNA 시퀀싱, RNA 시퀀싱, 메타게놈 시퀀싱 등 다양한 분야에 활용될 수 있으며, 각각의 적용 분야에 따라 데이터의 특성과 분석 목표가 달라지기 때문에 전력 분석 방법 또한 다르게 적용되어야 합니다.

NGS 기반 실험에서 통계적 검정력과 표본 크기를 정확하게 계산하기 위해서는 다양한 요소들을 종합적으로 고려해야 합니다. 예를 들어, 연구 목표, 데이터 유형, 분석 방법, 효과 크기, 유의 수준, 예산 등을 고려하여 최적의 표본 크기를 결정해야 합니다.  

**결론적으로, NGS 기반 실험의 성공을 위해서는 연구 설계 단계에서부터 통계적 검정력과 표본 크기에 대한 심층적인 고려가 필수적입니다.** NGS 데이터의 복잡성과 다양한 연구 목표를 고려하여 적절한 전력 분석 방법을 적용하고 최적의 표본 크기를 결정함으로써, 연구 결과의 신뢰성을 확보하고 효율적인 연구를 수행할 수 있습니다. 


결론적으로, NGS 기반 실험의 성공을 위해서는 연구 설계 단계에서부터 통계적 검정력과 표본 크기에 대한 심층적인 고려가 필수적입니다. 결국 잘 해야한다는 얘기 되겠습니다. 

샘플 개수가 작으면 유의미한 결과를 도출 할 수 없고, 샘플 개수가 너무 많이 필요하면 비용이 어마무시하게 많이 소요될 수 있으니깐요. 적절한 점을 잘 찾아야 할 듯 합니다.

우리들의 clova-x 曰 논문을 읽어보니 Negative Binomial 모델이 괜찮아 보인다고하네요.

모두들 10월의 마지막날을 잘 보내시기 바랍니다. :)


출처: @candyz_hyojung


금요일, 12월 01, 2023

이제 우리 cfDNA를 활용해 보아요 (feat. 머신러닝)


Genome-wide cell-free DNA fragmentation in patients with cancer


"내 혈관 속 DNA가 말해줘"라는 BTS의 DNA의 가사 처럼 우리 혈관 속에는 우리 상태를 알게 해주는 마커로 사용할 수 있는 cfDNA가 있습죠

오늘은 2019년 발표된 "Genome-wide cell-free DNA fragmentation in patients with cancer"라는 논문을 가져와봤습니다.

DOI: 10.1038/s41586-019-1272-6

이 논문은 암환자의 혈액 내 cfDNA를 측정하여 암 진단은 당연하고, 어떤 암종인지, 조기 발견 및 모니터링을 위한 초석을 놓은... 물론 그전에 다른 논문에서 이미 초석을 다진 논문도 있을것 같긴하지만, 어찌됐든 모 괜찮은 논문이라고 생각합니다. :)


그래서 7종의 암환자 200여명과 건강한 (aka 암환자가 아닌) 건강한 사람의 cfDNA을 분석해서 이리저리 굴려보고 돌려보고 해서(결국 머신러닝 아니겠습니까) 암종간 cfDNA의 profile의 변화를 머신러닝을 통해 모델을 만들었고, cfDNA profile 모델과 함께 cfDNA상에 존재하는 변이를 활용하면 더 나은 결과를 보여줬다고 하네요


cfDNA는 원래 혈액속에 있는 암에 걸리면 (무조건은 아니지만) cfDNA의 양이 증가하게 됩니다. 원래 혈액속에 떠다니는 cfDNA가 만들어지는 source외에 암세포가 혈액에 추가로 cfDNA가 더 공급하는 꼴이 되기때문이죠.

cfDNA 중 암세포에서 나온 cfDNA인 ctDNA?만 따로 선별하는 방법으로 접근하기도합니다. 개인적으로는 cfDNA에서 ctDNA를 찾겠다 보다는  cfDNA를 더 잘 characterization 하는게 나을듯한데... cfDNA를 characterization하면 ctDNA를 더 잘 구별할 수 있게 되는건가? 여튼..

아.. 그래서 제가 블로그에 가끔씩 얘기했던 NIPT를 하다가 산모의 암도 찾아냈다고 하는 얘기가 있었기도 했습니다.

오늘은 cfDNA와 머신러닝 방법을 이용해서 암진단 및 암종 구분을 하는 논문에 대해서 잠깐 얘기해보았는데, 분야를 막론하고 머신러닝 모델을 개발할것 까지는 아니지만 활용을 잘 할 수 는 있어야 한다는 느낌은 항상 받는것 같습니다.


23년 12월의 첫날, 아내느님의 탄생일 기념으로 포스팅을 해보았습니다.




출처 : @candyz_hyojung


수요일, 9월 20, 2023

cnvkit 설치 방법

간만에 프로그램 설치 기록 하나 남겨 봅니다.

설치할 tool은 Copy Number Variant 탐지에 대명사 중 하나인 CNVKit입니다.

참조할 사이트는 당연히 공식 cnvkit github고요 


첫번째 방법은 conda를 이용한 방법!

$ conda config --add channels defaults 
(conda를 설치해서 사용하시는 분들은 굳이 defaults는 안하셔도 됩니다.)

$ conda config --add channels conda-forge
$ conda config --add channels bioconda
$ conda install psutil
$ conda create -n cnvkit cnvkit
라고 명령어를 입력하면 엄청 많은 패키지들을 설치하겠다고 나옵니다.

$ source activate cnvkit

(cnvkit)$ python cnvkit.py -h
numpy가 없다고 나와서 다음과 같이 가상 환경 안에서 numpy 설치
(cnvkit)$ conda install numpy

그러나 conda를 이용한 방법은 제대로 작동을 안해서...

$ source deactivate


이유는 꼭 알아야 할까요? 다른 방법으로 설치하면되지요!

그래서 걍 github에서 소스 파일 다운 받아서 pip를 사용하여 설치!!

$ git clone https://github.com/etal/cnvkit
$ cd cnvkit/
$ pip install -e .
$ ~/Python-2.7.12/bin/python cnvkit.py -h

기본 pip를 사용했기 때문에 python-2.7.12에 설치가 되었고, 만약 pip3를 사용하여 설치하였다면... python3을 이용하면 되었을 것으로 예상됩니다.

그래서 오늘은 conda와 pip를 이용한 설치 방법에 대해서 알아보았습니다.

다음에 또 유익한 정보를 가지고 찾아오도록 하겠습니다.



출처: @candyz_hyojung



월요일, 2월 06, 2023

우리들의 Nanopore는 결핵균을 잘 시퀀싱하여 세계 공중 보건에 기여할 수 있을까?

Evaluation of Nanopore sequencing for Mycobacterium tuberculosis drug susceptibility testing and outbreak investigation: a genomic analysis

https://doi.org/10.1016/S2666-5247(22)00301-9 


그래서 한번 알아 보았습니다.

일루미나 일색인 시퀀싱 시장에 신성처럼 찾아온 (찾아왔지 떨어지지 않았습니다.) long-read sequencing의 이단아 ONT을 사용한 결핵균의 drug susceptibility testing (DST) 결과가 기존 일루미나 결과에 비해 부족하지 않고, 동등한 결과와 정보를 제공해 줄 수 있는지 확인해 보았습니다.


영국, 남아프리카등의 샘플을 MiSeq, HiSeq, NextSeq, MinION, GridION, PacBio 기기를 사용하여 시퀀싱 진행하였습니다. 물론 개별 시퀀서마다 동일한 샘플을 시퀀싱한 것은 아니고 영국샘플은 MiSeq, GridION에서, 남아프리카나 마다가스카르 샘플은 HiSeq, NextSeq, MinION에서 진행하였으나, 전체적으로 short와 long read 시퀀서간에 비교 할 수 있도록 디자인은 되었습니다.

일루미나는 UK에서 사용하는 COMPASS를 사용해서, Nanopore는 BCFtools를 사용하여 변이를 확인하였습니다.

그래서 일루미나와 Nanopore의 변이 결과를 확인해보니(본문의 figure1을 참고) 재현율이 다소 떨어지는 경향을 확인 할 수 있었습니다. 

Nanopore는 정밀도: 99.3%, 재현율: 90.2%

일루미나는 정밀도: 99.6%, 재현율: 91.9%

그리고 151개의 isolate(시퀀싱한 isolate는 208개이나 일루미나와 Nanopore를 동시에 비교 할 수 있는 데이터는 151개 였음)에서 66,537개의 저항성 변이가 call되었는데 일루미나와 Nanopore간에 4개의 차이밖에 보이지 않았다고 합니다. (이정도면 거의 동일한 수준 아닌가?)

그래서 결론은 우리 모두 예상하듯이 Nanopore 데이터로도 정밀한 변이 call이 가능함을 확인하였고, 그 결과 또한 일루미나와 동등한 수준이므로, 깨작 깨작 하지 말고 Nanopore를 이용해서 MTB 전체 서열을 한번에 분석해서 결과를 주면 좋지 않을까 기대하고 싶다. 되지 안하을까합니다.


본 저자는 ONT.L 주식을 (아직) 보유하고 있지 않습니다.










수요일, 7월 20, 2022

Long Read 조립은 누가누가 잘하나

Piroplasm를 나노포어를 사용하여 genome project를 진행했고 나노포어를 활용한 assembler들에 대한 성능 비교 논문 되겠습니다.


제목은 Systematic Comparison of the Performances of De Novo Genome Assemblers for Oxford Nanopore Technology Reads From Piroplasm

doi는 https://doi.org/10.3389/fcimb.2021.696669


piroplasm이 몬지는 모르겠으나 일단 그렇게 엄청나게 복잡하지는 않은 원생동물이나 사람이나 동물들에게 질병을 일으키는 녀석 되는 것 같습니다. funding중에 동물 전염병 및 인수공통전염병 관련 프로그램이 있는것으로 보아하니...


여튼 중요한건 nanopore로 읽어낸 서열을 사용하여 genome 조립할때 어떤 어떤 조립 프로그램이 제일 좋은지를 검토해본 것이니 OLC (Over-Layout-Consensus)나 전통적인 de-Brujin graph, string graph-based 방법 등등의 NECAT, Canu, wtdbg2, Miniasm, Smartdenovo, FlyeNextDenovo, Shasta와 같이 일반적으로 long-read에 사용하는 assembler들을 비교 테스트 하였다고 합니다.

대신 여기서는 assembly의 정확도와 함께 CPU 사용량, 메모리 사용량, 분석시간 사용방법 등등에 대해서도 함께 평가했다고 합니다. 참 바람직한 태도라고 봅니다. 모든 연구팀들이 그래픽카드 4개꼽히고 6T 메모리의 4U 서버를 가지고있는것은 아니니 말입니다.


실험 방법은 prioplasm free한 양 2마리(??)에게 prioplasm을 감염시켜 잘 배양(??)시킨 다음 Qiagen 사용 prep kit을 가지고 DNA 추출하고 PromethION으로 시퀀싱하였고 데이터 셋트에 따른 assembly 결과 평가를 위해 6가지 생산량 (약 15x, 30x, 50x, 70x, 100x, 120x)의 셋트를 만들었다고 합니다. 그리고 추가적(aka error correction)으로 (일루미나와 특허 소송에서 승리한) MGI로도 시퀀싱을 하였다고 합니다.


여튼 결과적으로

N50과 contig개수(적을수록 좋음)는 생산량과 밀접하고,
분석 시간은 생산량이 많으면 어떤 assembler를 사용하던 길어졌고,
polishing은 안하는것보다 하는것이 좋은것 같고 각 tool의 장단점은 Figure3에 방사형 그래프로 이쁘게 표현하였으니 한번 참고하시면 좋을것 같습니다.

그래서 Miniasm, Flye, wtdbg2는 그닥 좋은 선택지는 아닌것 같고 평균 커버리지가 30x 이상 확보된다면 NECAT, Canu, NextDenovo, Smartdenovo가 더 나은것 같다 정도 되겠습니다.

(사실 위의 tool들을 실행시키려면 평균 30x 이상은 있어야 작동을 합니다. 안그러면 작동안하던지 말도안되는 결과들을 뱉어내곤 합니다.)


그리고 시간이 충분했는지 각 assembler 결과들을 병합/후처리하는 작업을 하여 더 나은 assembly 결과를 보여주는지 테스트 했고 몇몇 조합에서 결과물이 향상된것을 확인했다는데... dramatically 좋은 결과는 보여주지 않은것 같았습니다. 

만약 병합/후처리하는 결과가 좋았다면 논문 결과가 single assembler 쓰지말고 ensemble방법을 추천드립니다라고 했었을테니 말이죠.. 



출처: @candyz_hyojung


월요일, 4월 25, 2022

Forensic Microbiome Database


Forensic Microbiome Database: A Tool for Forensic Geolocation Meta-Analysis Using Publicly Available 16S rRNA Microbiome Sequencing

DOI : 10.3389/fmicb.2021.644861



간만에 재미난 제목의 논문이 있어 올려봅니다.

Microbiom Database인데 법의학을 위한...

미생물검체를 시퀀싱한 결과를 분석툴에 돌리고나면 이 미생물검체가 어디서 채취되었는지.. 사람의 어느 부위 또는 지리적 위치와 같은 것을 알려줄수 있는 DB가 있다면 범죄추적에 갱장히 많은 도움을 주겠죠?

그래서 결론은 다양한 분야와 연구자들의 지속적인 데이터 공유로 DB의 업데이트가 필요하니 굽신굽신 (가능하면 다양한 샘플을 정교하게 분류하고 tag 달아서)




미생물을 이용한 법의학하니 옛날에 CSI에서 신발바닥이나 바지밑단 뭍은 물질을 바탕으로 범인의 행동반경이나 직업들을 유추하거나 시체에서 애벌래나 성충이 되는 벌레들을 가지고 대략적인 사망시간 추정 또는 시체가 다른곳에서 유기되었는지도 추측하는 장면이 나왔었는데 만약 미생물 정보를 활용하여 사건 장소나 범인에 대한 정보를 예측할 수 있는 좋은 도구가 될것 같네요

다만 시퀀싱할때마다 시퀀싱되는 종들의 편차가 잘못된 결과를 도출 할 수 있으니 이런 편차나 문제를 극적으로 줄여 줄 수 있는 실험방법이나 분석방법이 나오면 참 좋을듯하네요

간단하게 생각나는 건...
임의의 장소에서 채취된 A검체를 시퀀싱한 결과를 DB에 대고 샘플링(100번 혹은 1000번정도)해서 비교해서 가장 비슷한 DB의 결과를 확률적으로 보여주는 방법 정도?

그리고 Microbiom을 더 정확하게 분류해놓은 DB가 필요하다는.. (사실 모 이건 모든 Microbiom 서비스를 하는 곳에서 요구되는 사항이긴 하지만..)

그리고 이 흥미진진한 내용을 보고 싶으시면 >이곳< 을 방문하시면 될것 같습니다.




그럼 4월 마지막 주를 활활 불태워 보고자 흥미진진한 논문 한번 올려봤습니다. :)




출처: @candyz_hyojung