S5 데이터를 생각보다 많이 만지고 있어서 간만에 S5의 데이터에서 주의해야하는 것들에 대한 논문한번 뒤적거려보았습니다.
2013년도에 나온 "Shining a Light on Dark Sequencing: Characterising Errors in Ion Torrent PGM Data" 으로 Ion Torrent의 PGM에서 발생 할 수 있는 문제들을 훑어본 논문으로 생각되어 읽어보았습니다.
DOI: 10.1371/journal.pcbi.1003031
음... 귀찮으니 일단 Copilot (with Bing Chat)에게 논문을 읽고 블로그용 컨텐트를 작성하는데 어떤 것들을 주의해야하는지에 대해서 작성해 달라고 하였습니다.
PGM이라는 시퀀싱 기계는 Ion Torrent의 제품으로, DNA를 분석하기 위해 반도체 칩을 사용하는 방식입니다. 이 방식은 다른 시퀀싱 기술에 비해 빠르고 저렴하게 데이터를 생성할 수 있는 장점이 있습니다. 하지만, PGM에서 발생할 수 있는 error에 대해서 주의해야 합니다.
PGM에서 생성되는 데이터는 다음과 같은 error를 포함할 수 있습니다.
- **Homopolymer error**: 연속된 동일한 염기가 있는 경우, 정확한 염기 수를 측정하기 어려운 error입니다. 예를 들어, AAAAA라는 염기가 있으면, PGM은 이것을 AAAA나 AAAAAA로 인식할 수 있습니다. 이러한 error는 PGM의 시그널 강도가 염기 수와 선형적으로 증가하지 않기 때문에 발생합니다.
- **GC bias**: GC 함량이 높거나 낮은 영역에서 시퀀싱 효율이 떨어지는 현상입니다. PGM은 GC 함량이 40% 이상인 영역에서 시퀀싱 효율이 감소하고, GC 함량이 60% 이상인 영역에서는 거의 시퀀싱되지 않습니다. 이러한 bias는 PGM의 PCR 과정에서 발생합니다.
- **Over- and under-sampling**: PGM에서는 반도체 칩에 DNA 분자를 고르게 분배하기 어렵습니다. 따라서 일부 영역은 다른 영역보다 많이 또는 적게 시퀀싱될 수 있습니다. 이러한 sampling bias는 PGM의 emulsion PCR 과정에서 발생합니다.
PGM 기계에서 생성되는 데이터를 사용할 때 주의해야 하는 것은 다음과 같습니다.
- **Error rate 확인**: PGM 데이터는 homopolymer error로 인해 다른 시퀀싱 데이터보다 error rate가 높을 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 error rate를 확인하고, 필요한 경우 error correction을 수행해야 합니다.
- **GC bias 보정**: PGM 데이터는 GC bias로 인해 특정 영역의 시퀀싱 깊이가 왜곡될 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 GC bias를 보정하거나, GC bias에 민감하지 않은 분석 방법을 사용해야 합니다.
- **Sampling depth 고려**: PGM 데이터는 over- and under-sampling으로 인해 일부 영역의 시퀀싱 깊이가 다른 영역보다 많이 또는 적게 될 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 sampling depth를 고려하고, 필요한 경우 rarefaction을 수행해야 합니다.
PGM 기계는 혁신적인 시퀀싱 기술이지만, 그만큼 error와 bias에 주의해야 합니다. 이러한 문제점을 인식하고, 적절한 보정과 분석 방법을 사용한다면, PGM 데이터로부터 유용한 정보를 얻을 수 있을 것입니다.
제법... 괜찮습니다.
Homopolymer 에러를 비롯해서 GC bias 에 대한 얘기도 해주고, 고르게 시퀀싱이 되지 않으니 read sampling에 대한 얘기도 함께 얘기해주었습니다. 제가 읽었으면 아마 Error rate 내용만 편향적으로 보고 "저거봐라 왜 Ion 쓰냐"라고 말을 줄이지 않았을까 합니다.
물론... 비정상적으로 긴 homopolymer 변이가 있는 종에 대해서는 도전정신을 가지고 Ion 시퀀서를 써봤자 너님만 손해다가 오늘의 한줄 요약 되겠습니다.
출처: ye._.vely618 |
댓글 없음:
댓글 쓰기