레이블이 MinION인 게시물을 표시합니다. 모든 게시물 표시
레이블이 MinION인 게시물을 표시합니다. 모든 게시물 표시

토요일, 9월 09, 2023

누가누가 미생물 프로파일링을 잘할까?

NGS가 태동된지 20여년.... (너무 과했나?) 대중적으로 관심을 받아 쓰는지는 10여년이 훌쩍 지나가고 있는 시점에 예전에는 454나 Solexa 정도 만져보던 시절에서 지금은 다양한 시퀀서들이 나와서 연구자들의 다양한 궁금증을 일선에서 해결해 주고있습죠 :)

여튼 그래서 21년 기준에 보편적으로 또는 미래에 대세가될 시퀀서들을 대상으로
누구나 관심있어하는 장내 미생물 프로파일링을 어느어느 시퀀싱 플랫폼이 잘하나 비교해보는 논문이 있어서 가져와봤습니다.

제목은 Comparison of 16S rRNA Gene Based Microbial Profiling Using Five Next-Generation Sequencers and Various Primers 이고,

doi: 10.3389/fmicb.2021.715500 입니다.

(물론 저자중에 제가 아는 분이 있어서 그런것은 아니고요, 구글링 하다가 찾아진겁니다.)


그래서 비교해볼 시퀀서는

MiSeq, IonTorrent, MGIseq-2000, Sequel II 그리고 MinION 까지.. ..
짧은 read와 긴 read들을 생산하는 대표 시퀀서들을 5개를 가지고 테스트를 해봤습니다.

시퀀싱을 잘 했는지 못했는지 확인하려면 시료의 정답을 미리 알고 있어야 겠죠?

그래서 한국 식약처에 등재된 19종의 미생물 종중에 8종을 선별하여서 다양한 비율의 Mock community를 만들어서 테스트 했다고 합니다. 

그런데 Mock community내에 미생물들의 비율은 어떻게 확인했냐!!
digital PCR을 사용해서 Mock community내 미생물들을 정량해서 확인했다고 합니다. 물론 Sequins (스팽글?, aka Sequencing spike-ins)이라는 방법을 활용할 수 있다고 하는데 다양한 박테리아에 대해서 모두 Sequins를 만들기 어렵기 때문에.. 이방법을 사용했다고 합니다. 사실어떤 방법이 golden standard인지는 모르겠으나 연구 디자인에 적합하면 되지 않을까 합니다.

여튼 8개 Mock community를 제작하였고, 각각에 시료를 바탕으로 5개의 시퀀서로 시퀀싱을 진행하였습니다. 그리고 분석은 MOTHUR을 사용해서 진행하였다고 합니다.

그럼 결론은 몬데?
뭣이 중헌디?

음... 개인적으로는 16S rRNA 서열을 한번에 확인 할 수 있는 롱리드 플랫폼이 숏리드 플랫폼보다 편향이 적다라는 결과를 기대했으나.. 도리어 숏리드 플랫폼에 비해서 롱리드가 더 편향적(과대 또는 과소 표현)이었다는... 물론 이게 긴 길이의 리드를 시퀀싱하기 위해서 전처리로 PCR단계에서 비롯된거 같다는 의견이었습니다만, Sequel II같은 경우 숏리드 플랫폼과 유사한 양의 결과물을 확인하기 위해서는 더 많은 비용이 소요될텐데... 그럼 롱리드 플랫폼을 사용할 이유가 딱히 없다는게 문제가 될듯합니다.

Figure 3,4,5를 잘 뜯어보면 

Bifidobacterium breve의 경우 숏리드 플랫폼에서 상대적으로 과소 표현되고,
Limosilactobacillus fermentum의 경우 롱리드 플랫폼에서 과소표현되고, 반대로 Lactococcus lactis subsp. lactis의 경우 롱리드에서 과대표현 되고,
Lactobacillus acidophilus의 경우는 플랫폼 상관없이 과소표현 되기도하고..

함께 있는 종에 따라 영향을 받기도, 받지 않기도 하기 때문에 해석을 할 때 고려해야할게 한두가지가 아니라서 좀 어렵죠. ㅎㅎ 

그리고 숏리드의 경우 가장 큰 문제점이 한정된 영역(V3-V4)의 서열만 가지고 확인하다보니 서로 다른 균주로 분류되는 문제가 있었고 이는 보통 probiotic bacteria인 Lactobacillus casei group(LCG)에서 확인되어서 LCG, probiotic bacteria 분석에는 V3-V4는 좀 피해야할듯 합니다.

결론은 연구에 맞게 적절하게 잘 사용하고, 직접 실험하지 않는 저같은 게으름뱅이들에게는 이리저리 분석할때 표준 데이터로 사용할만한 좋은 데이터가 확보되었다는 것입니다. :)



출처: @ye._.vely618


일요일, 11월 07, 2021

HLA를 빠르고 정확하게 할 수 없을까

그래서 나노포어가 준비했습니다.

절대적으로 빠른 건지, 정확도의 수준은 정확히 모르겠으나 일단 샘플당 $80되겠습니다.
물론 이게 재료비값인지 소비자가인지는.....
아마 본인들이 했을때 가격인듯.... (일반 소비자가 이 가격에 가능할지는 모르겠네요)

Rapid, highly accurate and cost-effective open-source simultaneous complete HLA typing and phasing of class I and II alleles using nanopore sequencing

그럼 HLA(Human leukocyte antigen)검사는 무엇이냐? 쉽게 얘기하면 장기이식할때 장기이식할수 있는지 여부를 확인하는 검사되겠습니다. 이 HLA가 내거와 내거 아닌거를 구분하게 해주는 녀석되겠습니다. 

면역학 책 들춰보시면... 책을 덮습니다.

일반적으로 HLA는 A,B,C인 Class I, DRA1, DRB1/3/4/5, DQA1, DQB1, DPA1, DPB1인 Class II인데 우리나라는 A,B,C를 포함해서 일부만 본다고 합니다. 

여튼 나노포어는 긴 길이로 시퀀싱하는 장점과 빠른 시퀀싱속도를 바탕으로 시퀀싱 시간은 8시간내 (물론 라이브러리 제작시간은... 따로 좀 봐야할것 같습니다.) 분석은 샘플당 30분(근데 사용한 서버 수준이... 32core 256g 메모리 서버)소요 됐다고하는데...

1 샘플(aka 1검체)의 경우 나노포어 한개 사용해서 기존 일루미나나 써모 플랫폼보다 빠르고 싸게 결과를 도출할 수 있도록 해준다는데...

영어의 짧음인지...  가끔 나노포어가 더 안좋아 보이게 설명하는거 같기도합니다. 


결론은 나노포어가 더 길게 시퀀싱하기 떄문에 복잡한 HLA에서 더 정확하게 구별할 수 있고,
기존에 short 시퀀싱에 적합한 pcr primer말고 long range PCR에 적합하게 프라이머를 변경해서 진행하면 HLA의 복잡한 부분들을 더 잘 잡아낼 수 있을것이라고 털고있습니다.


여튼 개인적으로 기존 short 시퀀서 플랫폼 보다는 나노포어가 HLA에서는 좀더 나은 성능을 보여주지 않을까합니다. HLA의 복잡도 때문에 나노포어의 장점을 활용할 수 있는 PCR 프라이머로 재 디자인해서 진행하면 시퀀싱 시간/분석 시간/정확도에서 가장 적합하기 않을까하는 생각입니다.




@ye._.vely618


금요일, 3월 31, 2017

nanonet 사용법


Nanonet Git Hub

Nanopore MinION raw 데이터인 fast5에서 2D read 추출하려고 하는데
nanopore로 검색하면 나오는 poretools, nanopolish, nanook들을 사용했음에도
어느하나 2D 서열을 추출 못하고 있어서 전전긍긍하고 있을때

혜식처럼 나타나는 그분이 알려주신 바로 그 tool!!

nanonet되시겠습니다.

우선 CPU기반으로 사용하였습니다. nanonet은 GPU도 지원하고 있는데
GPU로 하였을때 CPU기반으로 돌렸을 때 확인되던 2D가 나오지 않았다능..

일단 어쩔수 없지만 cpu기반으로 수행

fastq로 저장을 해보자!
$nanonet2d --fastq --jobs 8 --chemistry r9.4 pass output.r94

fasta로 저장을 해보자!
$nanonet2d --jobs 8 --chemistry r9.4 pass output.r94

다른 tools들과 다른 점은 chemistry버전을 선택할 수 있는 것과 무엇인지 모르겠지만 간지나 보이는 trmplate와 complement의 model 선택 옵션
그리고 이를 뒷받침하듯이 nanonettrain명령어도 있고....
poretools같은 일반적인 tools이 안먹힐때는 nanonet도 한번 사용해 보시기 바랍니다. ;)

화요일, 3월 14, 2017

poretools 사용법

poretools doc사이트

poretools git url

Oxford Nanopore 데이터 핸들링을 위한 tools중 하나로
현재 다양한 nano로 시작하는 tools들이 있긴 하지만
우선 이 tools을 먼저 살펴보았습니다.

이유는 간단합니다. 제가 사용하고 있으니 작업 로그 삼아 글쓰는거죠 ㅎㅎ

설치는 간단합니다.
먼저 poretools에 필요한 hdf5, numpy, cython 라이브러리들을 설치해 주시고
다음과 같이 샤샤샥

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install
물론 이렇게 해서 한큐에 되는 경우는 그렇게 많지는 않죠..
물론 위는 root권한이 있어야 가능하고요
저같은 일반 유저들은 다음과 같이 해야겟죠(물론 이런 저런 라이브러리는 알아서 잘 설치를...)

git clone https://github.com/arq5x/poretools
cd poretools
python setup.py install --home=/path/to/install 
그럼 일단 큰 문제 없이 설치는 될 겁니다.

poretools는 nanopore read 추출/통계정도의 작업제외하고는 할 수 있는게...
그래서 여기서는 extract read관련한것만 간단히 적고자 합니다.

nanopore데이터는 hdf5로 PacBio와 format이 유사해서 직접 데이터를 확인 할 수 없습니다.
그래서 fasta파일이나 fastq파일로 추출 작업을 거쳐야 합니다.

다행히 추출 방법은 그리어렵지 않습니다(사실 어려울게 없죠).

poretools {fasta|fastq} /path/to/reads/pass/ > reads.{fa|fq}

이렇게 하면 fast5파일에서 fasta나 fastq정보를 추출해서 파일로 만들어 줍니다.
근데 nanopore보시다 보면 1D다 2D다 이상한 얘기를 하는것을 볼 수 있습니다.
1D, 2D는 sequence type입니다. 쉽게 얘기해서 1D는 한번 읽고 2D는 두번 읽은거

그래서 2D가 먼데?  요기

그러면 2D 서열은 어떻게 추출하는건가?

다음과 같이 각 type에 따라 저장 할 수 있습니다.
poretools {fasta|fastq} --type {all|fwd|rev|2D|fwd,rev|best} /path/to/reads/pass/ > reads.{fa|fq}