레이블이 Machine Learning인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Machine Learning인 게시물을 표시합니다. 모든 게시물 표시

화요일, 2월 13, 2024

생명정보를 끄집어 내는 나노포어!!

음.. 21년도에 옥스포드 나노포어에 관련하여 잘 설명한 글이 있었네요

"Beyond sequencing: machine learning algorithms extract biology hidden in Nanopore signal data"

DOI: 10.1016/j.tig.2021.09.001


그래서 당연히 이것도 gemini에게 블로그에 게재할 요약 글 하나 적어달라고 해봤습니다.


제목: 나노포어 시퀀싱, 숨겨진 생명 정보를 끄집어내는 미래 기술

나노포어에 대해 잘 모르는 분들을 위한 블로그 글을 쓰고 싶다고 하셨네요. 좋은 선택이에요! 이 글에서는 나노포어 시퀀싱 기술이 어떻게 작동하고, 어떤 흥미로운 활용 방식이 있는지 알아볼 예정입니다.


나노포어 시퀀싱의 기본 원리

먼저 나노포어 시퀀싱이 무엇인지 알아볼까요? 간단히 말하면 DNA나 RNA를 작은 구멍(나노포어)을 통과시켜 염기 서열 정보를 읽는 기술입니다. DNA/RNA 가닥이 나노포어를 통과하며 발생하는 전류 변화를 분석하여 염기 서열을 추측합니다. 하지만 이 전류 변화 패턴은 복잡하고 해석하기 어렵죠.


머신러닝과 나노포어의 만남

여기서 머신러닝이 중요한 역할을 합니다! 머신러닝 알고리즘은 대量の 나노포어 전류 데이터를 분석하여 이 패턴을 알파벳 코드(A, C, T, G)로 변환하는 방법을 배우게 됩니다. 이를 베이스 콜링(base calling)이라고 합니다. 

초기에는 단순한 통계적 방법과 규칙 기반 알고리즘이 사용되었지만, 최근에는 머신러닝 기반 알고리즘이 주목받고 있습니다. 이 알고리즘은 실험 데이터를 대량 학습하여 전류 패턴과 염기 사이의 복잡한 관계를 파악합니다. 대표적인 알고리즘으로는 히든 마르코프 모델 (Hidden Markov Model, HMM)과 신경망 (Neural Network)이 있습니다.

 - HMM: 각 염기마다 고유한 상태를 가정하고, 전류 패턴의 변화를 통해 상태 이동을 예측합니다. 이를 통해 전체 염기 서열을 추측합니다.

 - 신경망: 복잡한 전류 패턴을 직접 분석하여 염기 예측 확률을 계산합니다. 최근에는 딥러닝 기반의 신경망 모델들이 우수한 성능을 보여주고 있습니다.

이러한 알고리즘은 지속적으로 발전하고 있으며, 베이스 콜링 정확도는 점점 향상되고 있습니다. 하지만 아직 완벽하지 않으며, 특히 동일한 전류 패턴을 유발하는 modified base 구분은 어려움이 있습니다. 연구는 지속적으로 진행되고 있으며, 더 정확하고 신뢰할 수 있는 베이스 콜링 알고리즘 개발이 활발히 이루어지고 있습니다.

또한 베이스 콜링을 통해 염기 서열을 얻었지만, 이것만으로는 충분하지 않습니다. 마치 흩어진 퍼즐 조각처럼 이 염기 서열을 참고 게놈 전체에 위치를 정확하게 매핑해야 합니다. 이 과정을 시퀀스 매핑(sequence mapping)이라고 합니다.

시퀀스 매핑 알고리즘은 크게 두 가지 방법이 있습니다.

 - 참조 게놈 기반 매핑: 이미 알려진 참조 게놈을 사용하여 읽은 염기 서열과 유사한 부분을 찾아 매핑합니다. 빠르고 정확하지만 돌연변이가 있는 경우 정확도가 떨어질 수 있습니다.

 - De novo 매핑: 참조 게놈 없이 읽은 염기 서열 자체를 조합하여 전체 게놈을 재구성합니다. 돌연변이가 있어도 정확하게 매핑할 수 있지만, 계산량이 많고 어렵습니다.

최근에는 이 두 방법을 결합하여 정확도와 속도를 높이는 하이브리드 방식도 사용되고 있습니다. 또한 롱 리드 시퀀싱 기술인 나노포어는 다른 시퀀싱 기술에 비해 더 긴 염기 서열을 읽을 수 있어 매핑 과정의 정확도를 높이는 데 유리합니다. 머신러닝 알고리즘은 이 과정에도 활용되어, 정확한 매핑을 위해 지속적으로 발전하고 있습니다.


나노포어 활용의 무한 가능성

이제 흥미로운 부분, 나노포어를 활용하여 무엇을 할 수 있는지 알아볼까요? 기존 시퀀싱 기술에 비해 장점이 많은 나노포어는 다양한 분야에서 혁신을 가져올 것으로 기대됩니다.

 - DNA 메틸화 분석: DNA에 달린 메틸 그룹은 유전자 발현을 조절합니다. 나노포어는 이 메틸화 정보를 전류 패턴에서 직접 읽을 수 있어 유전자 발현 연구에 유용합니다.

 - 단백질-DNA 상호 작용 분석: DNA와 상호 작용하는 단백질을 나노포어를 통해 직접 확인할 수 있습니다. 이는 질병 유발 기작 연구 등에 활용될 수 있습니다.

 - RNA 구조 분석: RNA는 독특한 구조를 가지고 있으며, 나노포어는 이 구조 정보도 전류 패턴에서 추측할 수 있습니다. 이는 RNA 기능 연구에 중요한 정보를 제공합니다.

이 외에도 나노포어는 미생물 동정, 식물 연구, 개인 맞춤 의료 등 다양한 분야에서 활용 가능성이 높습니다.


결론

나노포어 시퀀싱은 빠르게 발전하는 기술이며, 머신러닝과의 결합은 더욱 강력한 생명 과학 연구 도구로서 활약할 것입니다. 이 글을 통해 나노포어에 대한 기본적인 이해를 얻고, 앞으로의 발전 가능성에 대해 기대를 갖게 되었기를 바랍니다!


참고

* 이 글은 생명공학 분야 기초 지식을 가진 독자를 대상으로 이해하기 쉽게 설명했습니다.

* 논문 원본은 영어이지만, 주요 내용을 한국어로 요약했습니다.

* 더 자세한 정보는 제공된 논문 링크를 참조하세요.

저도 나노포어 기술의 발전을 지켜볼 예정이니, 앞으로 더 흥미로운 소식을 공유하도록 하겠습니다!


응? 왜 니가 나노포어 기술의 발전을 지켜볼 예정이니? ㄴ(°0°)ㄱ 내가 블로그에 작성하는 글이라고 하니 사람이 쓰는 것처럼 소식을 공유하겠다는 멘트도 깨알같이 놓치지 않았네요.   

그럼 다음에도 어딘가에 제가 아직 보지 못한 논문들을 찾아서 AI를 활용하여 글을 또 써보도록 하겠습니다. 물론 AI가 글을 쓰겠지요 :)



출처: @ye._.vely618