레이블이 Ion Torrent인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Ion Torrent인 게시물을 표시합니다. 모든 게시물 표시

일요일, 12월 17, 2023

Ion Torrent 데이터는 어떻게 사용해야 할까?

S5 데이터를 생각보다 많이 만지고 있어서 간만에 S5의 데이터에서 주의해야하는 것들에 대한 논문한번 뒤적거려보았습니다.


2013년도에 나온 "Shining a Light on Dark Sequencing: Characterising Errors in Ion Torrent PGM Data" 으로 Ion Torrent의 PGM에서 발생 할 수 있는 문제들을 훑어본 논문으로 생각되어 읽어보았습니다.

DOI: 10.1371/journal.pcbi.1003031


음... 귀찮으니 일단 Copilot (with Bing Chat)에게 논문을 읽고 블로그용 컨텐트를 작성하는데 어떤 것들을 주의해야하는지에 대해서 작성해 달라고 하였습니다.


PGM이라는 시퀀싱 기계는 Ion Torrent의 제품으로, DNA를 분석하기 위해 반도체 칩을 사용하는 방식입니다. 이 방식은 다른 시퀀싱 기술에 비해 빠르고 저렴하게 데이터를 생성할 수 있는 장점이 있습니다. 하지만, PGM에서 발생할 수 있는 error에 대해서 주의해야 합니다.

PGM에서 생성되는 데이터는 다음과 같은 error를 포함할 수 있습니다.

- **Homopolymer error**: 연속된 동일한 염기가 있는 경우, 정확한 염기 수를 측정하기 어려운 error입니다. 예를 들어, AAAAA라는 염기가 있으면, PGM은 이것을 AAAA나 AAAAAA로 인식할 수 있습니다. 이러한 error는 PGM의 시그널 강도가 염기 수와 선형적으로 증가하지 않기 때문에 발생합니다.

- **GC bias**: GC 함량이 높거나 낮은 영역에서 시퀀싱 효율이 떨어지는 현상입니다. PGM은 GC 함량이 40% 이상인 영역에서 시퀀싱 효율이 감소하고, GC 함량이 60% 이상인 영역에서는 거의 시퀀싱되지 않습니다. 이러한 bias는 PGM의 PCR 과정에서 발생합니다.

- **Over- and under-sampling**: PGM에서는 반도체 칩에 DNA 분자를 고르게 분배하기 어렵습니다. 따라서 일부 영역은 다른 영역보다 많이 또는 적게 시퀀싱될 수 있습니다. 이러한 sampling bias는 PGM의 emulsion PCR 과정에서 발생합니다.


PGM 기계에서 생성되는 데이터를 사용할 때 주의해야 하는 것은 다음과 같습니다.

- **Error rate 확인**: PGM 데이터는 homopolymer error로 인해 다른 시퀀싱 데이터보다 error rate가 높을 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 error rate를 확인하고, 필요한 경우 error correction을 수행해야 합니다.

- **GC bias 보정**: PGM 데이터는 GC bias로 인해 특정 영역의 시퀀싱 깊이가 왜곡될 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 GC bias를 보정하거나, GC bias에 민감하지 않은 분석 방법을 사용해야 합니다.

- **Sampling depth 고려**: PGM 데이터는 over- and under-sampling으로 인해 일부 영역의 시퀀싱 깊이가 다른 영역보다 많이 또는 적게 될 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 sampling depth를 고려하고, 필요한 경우 rarefaction을 수행해야 합니다.

PGM 기계는 혁신적인 시퀀싱 기술이지만, 그만큼 error와 bias에 주의해야 합니다. 이러한 문제점을 인식하고, 적절한 보정과 분석 방법을 사용한다면, PGM 데이터로부터 유용한 정보를 얻을 수 있을 것입니다.


제법... 괜찮습니다. 

Homopolymer 에러를 비롯해서 GC bias 에 대한 얘기도 해주고, 고르게 시퀀싱이 되지 않으니 read sampling에 대한 얘기도 함께 얘기해주었습니다. 제가 읽었으면 아마 Error rate 내용만 편향적으로 보고 "저거봐라 왜 Ion 쓰냐"라고 말을 줄이지 않았을까 합니다.

물론... 비정상적으로 긴 homopolymer 변이가 있는 종에 대해서는 도전정신을 가지고 Ion 시퀀서를 써봤자 너님만 손해다가 오늘의 한줄 요약 되겠습니다.



출처: ye._.vely618


토요일, 9월 09, 2023

누가누가 미생물 프로파일링을 잘할까?

NGS가 태동된지 20여년.... (너무 과했나?) 대중적으로 관심을 받아 쓰는지는 10여년이 훌쩍 지나가고 있는 시점에 예전에는 454나 Solexa 정도 만져보던 시절에서 지금은 다양한 시퀀서들이 나와서 연구자들의 다양한 궁금증을 일선에서 해결해 주고있습죠 :)

여튼 그래서 21년 기준에 보편적으로 또는 미래에 대세가될 시퀀서들을 대상으로
누구나 관심있어하는 장내 미생물 프로파일링을 어느어느 시퀀싱 플랫폼이 잘하나 비교해보는 논문이 있어서 가져와봤습니다.

제목은 Comparison of 16S rRNA Gene Based Microbial Profiling Using Five Next-Generation Sequencers and Various Primers 이고,

doi: 10.3389/fmicb.2021.715500 입니다.

(물론 저자중에 제가 아는 분이 있어서 그런것은 아니고요, 구글링 하다가 찾아진겁니다.)


그래서 비교해볼 시퀀서는

MiSeq, IonTorrent, MGIseq-2000, Sequel II 그리고 MinION 까지.. ..
짧은 read와 긴 read들을 생산하는 대표 시퀀서들을 5개를 가지고 테스트를 해봤습니다.

시퀀싱을 잘 했는지 못했는지 확인하려면 시료의 정답을 미리 알고 있어야 겠죠?

그래서 한국 식약처에 등재된 19종의 미생물 종중에 8종을 선별하여서 다양한 비율의 Mock community를 만들어서 테스트 했다고 합니다. 

그런데 Mock community내에 미생물들의 비율은 어떻게 확인했냐!!
digital PCR을 사용해서 Mock community내 미생물들을 정량해서 확인했다고 합니다. 물론 Sequins (스팽글?, aka Sequencing spike-ins)이라는 방법을 활용할 수 있다고 하는데 다양한 박테리아에 대해서 모두 Sequins를 만들기 어렵기 때문에.. 이방법을 사용했다고 합니다. 사실어떤 방법이 golden standard인지는 모르겠으나 연구 디자인에 적합하면 되지 않을까 합니다.

여튼 8개 Mock community를 제작하였고, 각각에 시료를 바탕으로 5개의 시퀀서로 시퀀싱을 진행하였습니다. 그리고 분석은 MOTHUR을 사용해서 진행하였다고 합니다.

그럼 결론은 몬데?
뭣이 중헌디?

음... 개인적으로는 16S rRNA 서열을 한번에 확인 할 수 있는 롱리드 플랫폼이 숏리드 플랫폼보다 편향이 적다라는 결과를 기대했으나.. 도리어 숏리드 플랫폼에 비해서 롱리드가 더 편향적(과대 또는 과소 표현)이었다는... 물론 이게 긴 길이의 리드를 시퀀싱하기 위해서 전처리로 PCR단계에서 비롯된거 같다는 의견이었습니다만, Sequel II같은 경우 숏리드 플랫폼과 유사한 양의 결과물을 확인하기 위해서는 더 많은 비용이 소요될텐데... 그럼 롱리드 플랫폼을 사용할 이유가 딱히 없다는게 문제가 될듯합니다.

Figure 3,4,5를 잘 뜯어보면 

Bifidobacterium breve의 경우 숏리드 플랫폼에서 상대적으로 과소 표현되고,
Limosilactobacillus fermentum의 경우 롱리드 플랫폼에서 과소표현되고, 반대로 Lactococcus lactis subsp. lactis의 경우 롱리드에서 과대표현 되고,
Lactobacillus acidophilus의 경우는 플랫폼 상관없이 과소표현 되기도하고..

함께 있는 종에 따라 영향을 받기도, 받지 않기도 하기 때문에 해석을 할 때 고려해야할게 한두가지가 아니라서 좀 어렵죠. ㅎㅎ 

그리고 숏리드의 경우 가장 큰 문제점이 한정된 영역(V3-V4)의 서열만 가지고 확인하다보니 서로 다른 균주로 분류되는 문제가 있었고 이는 보통 probiotic bacteria인 Lactobacillus casei group(LCG)에서 확인되어서 LCG, probiotic bacteria 분석에는 V3-V4는 좀 피해야할듯 합니다.

결론은 연구에 맞게 적절하게 잘 사용하고, 직접 실험하지 않는 저같은 게으름뱅이들에게는 이리저리 분석할때 표준 데이터로 사용할만한 좋은 데이터가 확보되었다는 것입니다. :)



출처: @ye._.vely618