레이블이 ont인 게시물을 표시합니다. 모든 게시물 표시
레이블이 ont인 게시물을 표시합니다. 모든 게시물 표시

화요일, 5월 14, 2024

롱리드냐 숏리드냐 그것이 문제로다! 그냥 둘 다 써!

23년에 효모를 사용해서 여러 플랫폼 데이터의 어셈블리 성능을 테스트한 논문이 있어서 한번 가져와봤습니다.

DOI는 10.26508/lsa.202201744 입니다.

조금 더 복잡한 genome을 사용했으면 좋았을 것 같지만, 그러면 genome에서 오는 복잡도로 결과를 명확하게 분석하기 어려운 면이 있어서 yeast를 선정한 것은 좋은 선택인 것 같았습니다. 어설프게 다배체 생물 건드리면 나는 어딘가? 여기는 누군가? 하고 있었을 수 도 있으니깐요 :)

논문 장수와 용량이 적절해서 clova-x, gemini와 더불어 claude에게 까지 물어보았습니다.

질문: 블로그에 이 연구 내용으로 글을 하나 작성해주세요. 읽는 대상은 차세대 시퀀싱은 알지 못하지만 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들 입니다.


clova-x

이 논문에서는 Debaryomyces hansenii KCTC27743 yeast species의 전체 유전체를 4개의 다른 시퀀싱 플랫폼을 사용하여 시퀀싱하고 조립하는 방법을 설명하고 있습니다. 이 방법은 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 것으로, 생물학 연구에서 중요한 역할을 합니다.

이 논문에서는 PacBio Sequel, ONT MinION, Illumina NovaSeq 6000, MGI DNBSEQ-T7 등 4개의 시퀀싱 플랫폼을 사용하여 유전체를 분석하였습니다. 각각의 플랫폼은 서로 다른 장단점을 가지고 있으며, 이를 고려하여 적절한 플랫폼을 선택해야 합니다.

조립 과정에서는 Flye, WTDBG2, Canu, MaSuRCA, WENGAN, SPAdes, ABySS 등 7개의 조립 프로그램을 사용하였습니다. 이 프로그램들은 각각의 특성과 장단점을 가지고 있으며, 이를 고려하여 적절한 프로그램을 선택해야 합니다.

이 논문에서는 유전체 분석 결과를 바탕으로 다양한 유전체 구조를 분석하였습니다. 유전체 구조는 생물학적 특성과 밀접한 관련이 있으며, 이를 분석함으로써 생물학적 연구에 유용한 정보를 얻을 수 있습니다.

이 논문에서는 차세대 시퀀싱 기술을 사용하여 유전체를 분석하는 방법과, 이를 위한 다양한 플랫폼과 프로그램을 소개하고 있습니다. 이는 생물학 연구에 관심이 있는 사람들에게 유용한 정보가 될 것입니다. 또한, 공립 중고등학교에서 가르치는 생물에 대한 지식이 있는 사람들도 이 논문을 통해 차세대 시퀀싱 기술에 대한 이해를 높일 수 있을 것입니다.




claude

안녕하세요. 오늘은 차세대 시퀀싱 기술과 유전체 조립에 대한 재미있는 연구 결과를 소개하겠습니다.

여러분도 학교에서 DNA의 구조, 유전자, 염기서열 등을 배웠을 텐데요. 현대 생명과학에서는 생물체의 전체 유전정보인 게놈(genome)을 해독하는 것이 매우 중요합니다. 게놈을 알면 그 생물의 유전적 특성과 진화 과정을 이해할 수 있기 때문입니다.

게놈은 DNA가 긴 가닥으로 이어진 것인데, 이를 조각조각 읽어서 다시 맞춰 전체 구조를 복원하는 것이 바로 '유전체 조립(genome assembly)' 작업입니다. 마치 퍼즐을 맞추는 것과 비슷하죠.

과거에는 DNA를 직접 읽는 시퀀싱 기술의 한계로 유전체 조립이 쉽지 않았습니다. 하지만 최근 '차세대 시퀀싱(Next-Generation Sequencing)' 기술이 발달하면서 좀 더 정확하고 효율적인 유전체 조립이 가능해졌습니다.

이번에 소개할 연구는 여러 차세대 시퀀싱 플랫폼과 조립 프로그램을 활용해 효모 게놈 조립을 시도한 결과입니다. 연구팀은 PacBio, 옥스퍼드 나노포어, 일루미나, MGI 등 4가지 플랫폼으로 효모를 시퀀싱했습니다. 그리고 Flye, WTDBG2, Canu 등 7가지 조립 프로그램을 사용해 총 212개의 효모 유전체 조립체를 만들었습니다.

결과적으로 가장 완성도 높은 조립체는 옥스퍼드 나노포어 플랫폼의 긴 염기서열을 사용하고, Canu 프로그램으로 조립한 뒤 MGI 플랫폼의 데이터로 오류를 수정한 것이었습니다. 하지만 각 플랫폼과 프로그램마다 장단점이 있었는데요.

옥스퍼드 나노포어는 긴 염기서열을 얻을 수 있었지만 오류율이 높았고, 일루미나 플랫폼은 정확도가 높았지만 짧은 염기서열 때문에 반복 영역을 해결하기 어려웠습니다. 조립 프로그램 중에서는 Canu가 반복 영역 해결력이 좋았지만 느린 편이었고, WTDBG2는 빨랐지만 정확도가 낮았습니다.

이렇게 시퀀싱 플랫폼과 조립 프로그램의 특성을 고려하면 생물 종류나 상황에 맞춰 최적의 조합을 선택할 수 있습니다.

유전체 조립은 생명과학 분야에서 아주 기초적이지만 중요한 작업입니다. 앞으로 더 나은 기술이 개발되면 다양한 생물체의 게놈을 해독하고 분석할 수 있을 것입니다. 이를 통해 생명현상에 대한 이해를 넓힐 수 있을 거예요.

이상으로 생소한 주제였지만 재미있게 읽으셨나요? 다음에는 더 알기 쉽고 흥미로운 주제로 찾아오겠습니다.




gemini

차세대 시퀀싱 기술: 효모 게놈의 비밀을 밝히다!

안녕하세요, 생물 선생님들! 오늘은 여러분의 생물 수업을 더욱 풍성하게 만들어 줄 차세대 시퀀싱 기술에 대해 이야기 나누려고 합니다. 차세대 시퀀싱은 단순히 DNA를 읽는 기술을 넘어, 우리가 살아있는 세상에 대한 이해를 혁신하는 강력한 도구입니다.

차세대 시퀀싱이란 무엇일까요?
과거에는 DNA를 읽는 데 오랜 시간과 노력이 필요했지만, 차세대 시퀀싱 기술은 단 며칠 만에 수백억 개의 염기 서열을 읽을 수 있게 해줍니다. 이는 마치 거대한 책을 한 번에 읽는 것과 같습니다!

차세대 시퀀싱으로 무엇을 할 수 있을까요?
효모 게놈 비밀 탐구: 오늘 소개하는 연구는 차세대 시퀀싱 기술을 사용하여 효모 게놈의 완벽한 지도를 만들었습니다. 이는 효모가 어떻게 작동하고, 우리에게 어떤 영향을 미치는지 이해하는 데 큰 도움이 될 것입니다.
질병 진단: 차세대 시퀀싱 기술은 암, 유전 질환 및 감염성 질환 등 다양한 질병을 진단하는 데 사용될 수 있습니다. 이는 더 정확하고 개인 맞춤형 치료법 개발에 기여할 것입니다.
새로운 약물 개발: 차세대 시퀀싱 기술은 질병의 원인을 파악하고 새로운 약물 개발에 도움을 줄 수 있습니다. 이는 더 효과적이고 안전한 치료법 개발로 이어질 것입니다.
진화 연구: 차세대 시퀀싱 기술은 다양한 생물 종의 DNA를 비교 분석하여 진화 과정을 이해하는 데 도움을 줄 수 있습니다.

차세대 시퀀싱 기술이 생물 교육에 미치는 영향
차세대 시퀀싱 기술은 생물 교육에도 혁신을 가져올 수 있습니다.
실제 데이터 활용: 학생들은 실제 과학 연구에서 사용되는 DNA 데이터를 분석하고 해석하는 방법을 배울 수 있습니다.
개인 맞춤형 학습: 학생들의 DNA를 시퀀싱하여 개인의 유전적 특성에 맞는 학습 경험을 제공할 수 있습니다.
창의적인 과학 프로젝트: 학생들은 차세대 시퀀싱 기술을 사용하여 자신의 과학 프로젝트를 진행하고 새로운 생물학적 발견을 할 수 있습니다.

차세대 시퀀싱 기술은 생명 과학의 미래를 바꿀 잠재력을 지닌 강력한 도구입니다. 생물 선생님들은 이 기술을 활용하여 학생들에게 더욱 흥미롭고 의미 있는 학습 경험을 제공할 수 있습니다.


clova-x와 claude는 꽤 괜찮은 내용의 글을 작성해주었습니다. 반면에 gemini는 제목은 멋드러지게 뽑은 반면에 내용은... 무슨말을 하는지 알맹이가 없었습니다.

물론 질문이 모호하긴 했죠, 공립 중고등학교라니, 한국이냐 미국이냐에 따라 대도심 지역이나 지방소도시간의 차이도 있을 텐데... 그런것은 그냥 무시하고 글을 작성한 것 같기도 합니다. ㅎㅎ 



출처: @ye._.vely618


토요일, 4월 13, 2024

ONT, cfDNA 그리고 Methylation

나노포어를 이용해서 cell-free DNA의 메틸레이션 패턴을 분석한 논문이 있어서 한번 가져와봤습니다.
이번에는 제목은 어떻게 쓰면 좋을지 한번 물어보았습니다.

제목 답변

해당 연구의 제목은 "Detecting cell-of-origin and cancer-specific methylation features of cell-free DNA from Nanopore sequencing"입니다. 이 제목은 세포유리 DNA의 메틸화 패턴을 분석하여 암세포에서 유래한 세포유리 DNA를 식별하는 방법을 개발한 연구라는 것을 나타내고 있습니다. 이 연구는 생명공학 분야에서 매우 중요한 연구 중 하나이며, 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암 진단과 치료에 큰 도움을 줄 수 있습니다.
"세포유리 DNA의 메틸화 패턴을 이용한 암 진단 연구"와 같은 제목을 사용할 수 있습니다. 이 글에서는 연구의 목적과 방법, 결과 등을 소개하고, 세포유리 DNA의 메틸화 패턴이 암 진단에 어떻게 활용될 수 있는 지에 대해 설명할 수 있습니다.

내용 요약

이 연구는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단하고 모니터링하는 방법을 개발하는 것을 목적으로 합니다. 암은 우리 주변에서 매우 흔하게 발생하는 질병 중 하나이며, 암을 조기에 발견하고 치료하는 것은 매우 중요합니다. 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암을 조기에 발견하고 치료하는 데 큰 도움을 줄 수 있습니다.

세포유리 DNA는 혈액 내에 존재하는 DNA 조각으로, 암세포에서 유래한 것일 수 있습니다. 이 연구에서는 세포유리 DNA의 메틸화 패턴을 분석하여 암세포에서 유래한 세포유리 DNA를 식별하는 방법을 개발하였습니다. 이를 위해 Nanopore sequencing 기술을 사용하여 세포유리 DNA의 염기서열을 분석하고, DNA methylation 분석을 수행하였습니다.

연구 결과, 세포유리 DNA의 메틸화 패턴은 암세포에서 유래한 세포유리 DNA와 건강한 세포에서 유래한 세포유리 DNA에서 차이가 있음을 확인하였습니다. 이는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단할 수 있는 가능성을 보여줍니다. 또한, 이 연구는 세포유리 DNA의 메틸화 패턴이 시간에 따라 변화한다는 것을 발견하였습니다. 이는 암의 진행 상황을 모니터링하는 데 유용한 정보를 제공할 수 있습니다.

이 연구는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단하고 모니터링하는 데 새로운 가능성을 제시한 것으로 평가됩니다. 이 연구 결과를 바탕으로, 세포유리 DNA의 메틸화 패턴을 분석하는 기술이 발전하면 암 진단과 치료에 더욱 효과적인 방법이 개발될 것으로 기대됩니다.

이 연구는 생명공학 분야에서 매우 중요한 연구 중 하나입니다. 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암 진단과 치료에 큰 도움을 줄 수 있으며, 미래에는 더욱 발전하여 다양한 질병을 진단하고 치료하는 데 활용될 수 있을 것입니다. 또한 미래의 건강과 의료 산업에 큰 영향을 미칠 것이며, 우리의 삶을 더욱 건강하고 안전하게 만들어줄 것입니다.

요약해줘 하니깐, 그래 이 연구는 중요해, 중요하니깐 중요해만 반복적으로 답변하는 느낌은 어쩔 수 없는듯합니다. 디테일 한 연구 내용을 확인하려면 질문을 계속 해서 확인해야 할 듯 합니다.

다시 잠깐 더 살펴보자면 단순히 ONT로 실험한 것이 아니고 기존의 표준실험 방법인 WGBS(Whole Genome Bisulfite Sequencing)와 비교한 데이터로 ONT로 연구해도 cfDNA의 메틸레이션을 확인 할 수 있다라고 주장하고 있는데... 생각해보면 cfDNA는 long read 시퀀서의 대명사인 ONT를 사용할 매력이 반감되기는 하나 native한 methylation을 볼 수 있다는 또 다른 압도적인 장점이 존재하다 보니..
그러나 보통 cfDNA가 150bp 이내의 짧은 것들만 생각하나 di나 tri-nucleosome도 함께 확인 할 수 있기 때문에... di나 tir nucleosome은 300~400bp 이상의 길이가 있기 때문에, 꼭 ONT의 매력이 반감되지는 않을 듯 합니다.
근데 di-, tri-nucleosome이 왜 중요한지는 제가 공부를 아직 안 해서 잘 모르겠습니다.
나중에 공부하게 되면 다시 글을 하나 써보는 걸로 :)


화요일, 2월 13, 2024

생명정보를 끄집어 내는 나노포어!!

음.. 21년도에 옥스포드 나노포어에 관련하여 잘 설명한 글이 있었네요

"Beyond sequencing: machine learning algorithms extract biology hidden in Nanopore signal data"

DOI: 10.1016/j.tig.2021.09.001


그래서 당연히 이것도 gemini에게 블로그에 게재할 요약 글 하나 적어달라고 해봤습니다.


제목: 나노포어 시퀀싱, 숨겨진 생명 정보를 끄집어내는 미래 기술

나노포어에 대해 잘 모르는 분들을 위한 블로그 글을 쓰고 싶다고 하셨네요. 좋은 선택이에요! 이 글에서는 나노포어 시퀀싱 기술이 어떻게 작동하고, 어떤 흥미로운 활용 방식이 있는지 알아볼 예정입니다.


나노포어 시퀀싱의 기본 원리

먼저 나노포어 시퀀싱이 무엇인지 알아볼까요? 간단히 말하면 DNA나 RNA를 작은 구멍(나노포어)을 통과시켜 염기 서열 정보를 읽는 기술입니다. DNA/RNA 가닥이 나노포어를 통과하며 발생하는 전류 변화를 분석하여 염기 서열을 추측합니다. 하지만 이 전류 변화 패턴은 복잡하고 해석하기 어렵죠.


머신러닝과 나노포어의 만남

여기서 머신러닝이 중요한 역할을 합니다! 머신러닝 알고리즘은 대量の 나노포어 전류 데이터를 분석하여 이 패턴을 알파벳 코드(A, C, T, G)로 변환하는 방법을 배우게 됩니다. 이를 베이스 콜링(base calling)이라고 합니다. 

초기에는 단순한 통계적 방법과 규칙 기반 알고리즘이 사용되었지만, 최근에는 머신러닝 기반 알고리즘이 주목받고 있습니다. 이 알고리즘은 실험 데이터를 대량 학습하여 전류 패턴과 염기 사이의 복잡한 관계를 파악합니다. 대표적인 알고리즘으로는 히든 마르코프 모델 (Hidden Markov Model, HMM)과 신경망 (Neural Network)이 있습니다.

 - HMM: 각 염기마다 고유한 상태를 가정하고, 전류 패턴의 변화를 통해 상태 이동을 예측합니다. 이를 통해 전체 염기 서열을 추측합니다.

 - 신경망: 복잡한 전류 패턴을 직접 분석하여 염기 예측 확률을 계산합니다. 최근에는 딥러닝 기반의 신경망 모델들이 우수한 성능을 보여주고 있습니다.

이러한 알고리즘은 지속적으로 발전하고 있으며, 베이스 콜링 정확도는 점점 향상되고 있습니다. 하지만 아직 완벽하지 않으며, 특히 동일한 전류 패턴을 유발하는 modified base 구분은 어려움이 있습니다. 연구는 지속적으로 진행되고 있으며, 더 정확하고 신뢰할 수 있는 베이스 콜링 알고리즘 개발이 활발히 이루어지고 있습니다.

또한 베이스 콜링을 통해 염기 서열을 얻었지만, 이것만으로는 충분하지 않습니다. 마치 흩어진 퍼즐 조각처럼 이 염기 서열을 참고 게놈 전체에 위치를 정확하게 매핑해야 합니다. 이 과정을 시퀀스 매핑(sequence mapping)이라고 합니다.

시퀀스 매핑 알고리즘은 크게 두 가지 방법이 있습니다.

 - 참조 게놈 기반 매핑: 이미 알려진 참조 게놈을 사용하여 읽은 염기 서열과 유사한 부분을 찾아 매핑합니다. 빠르고 정확하지만 돌연변이가 있는 경우 정확도가 떨어질 수 있습니다.

 - De novo 매핑: 참조 게놈 없이 읽은 염기 서열 자체를 조합하여 전체 게놈을 재구성합니다. 돌연변이가 있어도 정확하게 매핑할 수 있지만, 계산량이 많고 어렵습니다.

최근에는 이 두 방법을 결합하여 정확도와 속도를 높이는 하이브리드 방식도 사용되고 있습니다. 또한 롱 리드 시퀀싱 기술인 나노포어는 다른 시퀀싱 기술에 비해 더 긴 염기 서열을 읽을 수 있어 매핑 과정의 정확도를 높이는 데 유리합니다. 머신러닝 알고리즘은 이 과정에도 활용되어, 정확한 매핑을 위해 지속적으로 발전하고 있습니다.


나노포어 활용의 무한 가능성

이제 흥미로운 부분, 나노포어를 활용하여 무엇을 할 수 있는지 알아볼까요? 기존 시퀀싱 기술에 비해 장점이 많은 나노포어는 다양한 분야에서 혁신을 가져올 것으로 기대됩니다.

 - DNA 메틸화 분석: DNA에 달린 메틸 그룹은 유전자 발현을 조절합니다. 나노포어는 이 메틸화 정보를 전류 패턴에서 직접 읽을 수 있어 유전자 발현 연구에 유용합니다.

 - 단백질-DNA 상호 작용 분석: DNA와 상호 작용하는 단백질을 나노포어를 통해 직접 확인할 수 있습니다. 이는 질병 유발 기작 연구 등에 활용될 수 있습니다.

 - RNA 구조 분석: RNA는 독특한 구조를 가지고 있으며, 나노포어는 이 구조 정보도 전류 패턴에서 추측할 수 있습니다. 이는 RNA 기능 연구에 중요한 정보를 제공합니다.

이 외에도 나노포어는 미생물 동정, 식물 연구, 개인 맞춤 의료 등 다양한 분야에서 활용 가능성이 높습니다.


결론

나노포어 시퀀싱은 빠르게 발전하는 기술이며, 머신러닝과의 결합은 더욱 강력한 생명 과학 연구 도구로서 활약할 것입니다. 이 글을 통해 나노포어에 대한 기본적인 이해를 얻고, 앞으로의 발전 가능성에 대해 기대를 갖게 되었기를 바랍니다!


참고

* 이 글은 생명공학 분야 기초 지식을 가진 독자를 대상으로 이해하기 쉽게 설명했습니다.

* 논문 원본은 영어이지만, 주요 내용을 한국어로 요약했습니다.

* 더 자세한 정보는 제공된 논문 링크를 참조하세요.

저도 나노포어 기술의 발전을 지켜볼 예정이니, 앞으로 더 흥미로운 소식을 공유하도록 하겠습니다!


응? 왜 니가 나노포어 기술의 발전을 지켜볼 예정이니? ㄴ(°0°)ㄱ 내가 블로그에 작성하는 글이라고 하니 사람이 쓰는 것처럼 소식을 공유하겠다는 멘트도 깨알같이 놓치지 않았네요.   

그럼 다음에도 어딘가에 제가 아직 보지 못한 논문들을 찾아서 AI를 활용하여 글을 또 써보도록 하겠습니다. 물론 AI가 글을 쓰겠지요 :)



출처: @ye._.vely618


금요일, 10월 27, 2023

롱리드 시퀀싱을 쓰지 않을 이유가 있는가?

이번 논문은 제가 참여한 논문입니다.. 흠흠..

이름하여 Two long read-based genome assembly and annotation of polyploidy woody plants, Hibiscus syriacus L. using PacBio and Nanopore platforms

DOI: 10.1038/s41597-023-02631-z

Hibiscus syriacus, 쉽게말해 무궁화 genome을 assembly하는데 어떤 데이터를 어떤 assembly 도구로하면 그래도 가성비가 좋은지에 대해서 확인한 논문 되겠습니다.

무궁화는 full genome은 이미 몇해전에 나와있는 상태고요, 아마 무궁화가 2배체가 아니라 4,6배체로 기억됩니다. 그래서 숏리드가지고 assembly가 만만치 않았는데 그 데이터를 바탕으로 이전에는 short리드로 어렵싸리 했었는데 이번에는 롱리드 시퀀싱으로 하면 어떻게 되는지 확인 해보자 입니다.

이전 무궁화 genome project 논문에서 핸들링하는 데이터 양을 정확히는 모르겠으나 어마무시했던것으로 알고 있습니다. 거기다가 숏리드라서 양쪽 로우 퀄리티 좀 정리해주고, scaffold용 mate-paired 데이터 정리작업하는데도 아마 꽤나 시간이 걸릴겁니다.

나노포어 데이터(ONT)와 PacBio data가 있었는데, 솔까말 ONT 데이터로만 해도... 사실 갠춘합니다.

그런데 여기서 중요한것은 ONT가 중요하기도 하지만 ONT의 장점을 십분 발휘할 수 있게 해주는 DNA 뽑는게 ART되겠습니다. ONT가 길게 읽을 수 있는거지 template가 짧으면 ONT도 길게 읽고 싶어도 못읽습니다.

결국 실험자의 손이 중요합니다. 손 똥손이면 ONT도 해결 못해줍니다.

그 똥손도 가능하게 해주는게 commercial prep kit이긴한데 현재 기준으로 그런 kit이 있는지는 저는 모르겠습니다. 


여튼 그래서 ONT 데이터를 앞뒤없이 다 때려박고 assembly하지 않았습니다.

cell 하나, cell 2개, 결과가 어떻게 달라지는지 확인해고, assembly tool마다 결과는 어떻게 나오는지 확인하면서 테스트 하였고, 이거쓰세요는 하지 못했지만 그럭적럭 요정도 생산해서 이 tool쓰면 평타 칩니다 라고 가이드는 해드릴 수 있는 논문되겠습니다.

다음에는 테스트하는 code를 간지나게 git에 올려놓고 논문에 url하나 올려둘 수 있도록 해봐야겠습니다. :)


그럼 또 쓸만한 논문을 찾아 돌아오도록 하겠습니다.




월요일, 2월 06, 2023

우리들의 Nanopore는 결핵균을 잘 시퀀싱하여 세계 공중 보건에 기여할 수 있을까?

Evaluation of Nanopore sequencing for Mycobacterium tuberculosis drug susceptibility testing and outbreak investigation: a genomic analysis

https://doi.org/10.1016/S2666-5247(22)00301-9 


그래서 한번 알아 보았습니다.

일루미나 일색인 시퀀싱 시장에 신성처럼 찾아온 (찾아왔지 떨어지지 않았습니다.) long-read sequencing의 이단아 ONT을 사용한 결핵균의 drug susceptibility testing (DST) 결과가 기존 일루미나 결과에 비해 부족하지 않고, 동등한 결과와 정보를 제공해 줄 수 있는지 확인해 보았습니다.


영국, 남아프리카등의 샘플을 MiSeq, HiSeq, NextSeq, MinION, GridION, PacBio 기기를 사용하여 시퀀싱 진행하였습니다. 물론 개별 시퀀서마다 동일한 샘플을 시퀀싱한 것은 아니고 영국샘플은 MiSeq, GridION에서, 남아프리카나 마다가스카르 샘플은 HiSeq, NextSeq, MinION에서 진행하였으나, 전체적으로 short와 long read 시퀀서간에 비교 할 수 있도록 디자인은 되었습니다.

일루미나는 UK에서 사용하는 COMPASS를 사용해서, Nanopore는 BCFtools를 사용하여 변이를 확인하였습니다.

그래서 일루미나와 Nanopore의 변이 결과를 확인해보니(본문의 figure1을 참고) 재현율이 다소 떨어지는 경향을 확인 할 수 있었습니다. 

Nanopore는 정밀도: 99.3%, 재현율: 90.2%

일루미나는 정밀도: 99.6%, 재현율: 91.9%

그리고 151개의 isolate(시퀀싱한 isolate는 208개이나 일루미나와 Nanopore를 동시에 비교 할 수 있는 데이터는 151개 였음)에서 66,537개의 저항성 변이가 call되었는데 일루미나와 Nanopore간에 4개의 차이밖에 보이지 않았다고 합니다. (이정도면 거의 동일한 수준 아닌가?)

그래서 결론은 우리 모두 예상하듯이 Nanopore 데이터로도 정밀한 변이 call이 가능함을 확인하였고, 그 결과 또한 일루미나와 동등한 수준이므로, 깨작 깨작 하지 말고 Nanopore를 이용해서 MTB 전체 서열을 한번에 분석해서 결과를 주면 좋지 않을까 기대하고 싶다. 되지 안하을까합니다.


본 저자는 ONT.L 주식을 (아직) 보유하고 있지 않습니다.










수요일, 7월 20, 2022

Long Read 조립은 누가누가 잘하나

Piroplasm를 나노포어를 사용하여 genome project를 진행했고 나노포어를 활용한 assembler들에 대한 성능 비교 논문 되겠습니다.


제목은 Systematic Comparison of the Performances of De Novo Genome Assemblers for Oxford Nanopore Technology Reads From Piroplasm

doi는 https://doi.org/10.3389/fcimb.2021.696669


piroplasm이 몬지는 모르겠으나 일단 그렇게 엄청나게 복잡하지는 않은 원생동물이나 사람이나 동물들에게 질병을 일으키는 녀석 되는 것 같습니다. funding중에 동물 전염병 및 인수공통전염병 관련 프로그램이 있는것으로 보아하니...


여튼 중요한건 nanopore로 읽어낸 서열을 사용하여 genome 조립할때 어떤 어떤 조립 프로그램이 제일 좋은지를 검토해본 것이니 OLC (Over-Layout-Consensus)나 전통적인 de-Brujin graph, string graph-based 방법 등등의 NECAT, Canu, wtdbg2, Miniasm, Smartdenovo, FlyeNextDenovo, Shasta와 같이 일반적으로 long-read에 사용하는 assembler들을 비교 테스트 하였다고 합니다.

대신 여기서는 assembly의 정확도와 함께 CPU 사용량, 메모리 사용량, 분석시간 사용방법 등등에 대해서도 함께 평가했다고 합니다. 참 바람직한 태도라고 봅니다. 모든 연구팀들이 그래픽카드 4개꼽히고 6T 메모리의 4U 서버를 가지고있는것은 아니니 말입니다.


실험 방법은 prioplasm free한 양 2마리(??)에게 prioplasm을 감염시켜 잘 배양(??)시킨 다음 Qiagen 사용 prep kit을 가지고 DNA 추출하고 PromethION으로 시퀀싱하였고 데이터 셋트에 따른 assembly 결과 평가를 위해 6가지 생산량 (약 15x, 30x, 50x, 70x, 100x, 120x)의 셋트를 만들었다고 합니다. 그리고 추가적(aka error correction)으로 (일루미나와 특허 소송에서 승리한) MGI로도 시퀀싱을 하였다고 합니다.


여튼 결과적으로

N50과 contig개수(적을수록 좋음)는 생산량과 밀접하고,
분석 시간은 생산량이 많으면 어떤 assembler를 사용하던 길어졌고,
polishing은 안하는것보다 하는것이 좋은것 같고 각 tool의 장단점은 Figure3에 방사형 그래프로 이쁘게 표현하였으니 한번 참고하시면 좋을것 같습니다.

그래서 Miniasm, Flye, wtdbg2는 그닥 좋은 선택지는 아닌것 같고 평균 커버리지가 30x 이상 확보된다면 NECAT, Canu, NextDenovo, Smartdenovo가 더 나은것 같다 정도 되겠습니다.

(사실 위의 tool들을 실행시키려면 평균 30x 이상은 있어야 작동을 합니다. 안그러면 작동안하던지 말도안되는 결과들을 뱉어내곤 합니다.)


그리고 시간이 충분했는지 각 assembler 결과들을 병합/후처리하는 작업을 하여 더 나은 assembly 결과를 보여주는지 테스트 했고 몇몇 조합에서 결과물이 향상된것을 확인했다는데... dramatically 좋은 결과는 보여주지 않은것 같았습니다. 

만약 병합/후처리하는 결과가 좋았다면 논문 결과가 single assembler 쓰지말고 ensemble방법을 추천드립니다라고 했었을테니 말이죠.. 



출처: @candyz_hyojung


일요일, 4월 26, 2020

Benchmarking of long-read assemblers for prokaryote whole genome sequencing

나노포어는 현존하는 시퀀서중에 가장 긴 서열을 뽑아내는 시퀀서임에는 그 누구도 부인하지 못할것입니다. 근데.. 생산된 리드의 각 base의 phred score를 보자면.. 왜 갑자기 눈에서 물이나오는 이유는 왜때문일까요?
(그렇지만 저는 de-novo할때 보수적인 그룹이 아니라면 나노포어를 권장하는건 비밀..)

여하튼.. 현재 나노포어 어셈블리 용으로 이런저런 어셈블러가 판치고 있는 난세에 누가누가 좋은지 확인하는 작업을 해서 투고하신분이 나타나셨습니다.
제목도 정직합니다. 단, prokaryote대상입니다.
Benchmarking of long-read assemblers for prokaryote whole genome sequencing

prokaryote에서도 개판이면 굳이 사용할 이유가 있겠느냐? 주의 되겠습니다.
일단 가장 좋은것은 모르겠지만 최악은 걸러내야 해야 시간 낭비, 전기 낭비 하지 않지 않겠습니까?

현재(aka 당시에) 돌려볼 수 있는 7개 어셈블러 (Canu, Flye, Miniasm/Minipolish, NECAT, Raven, Redbean, Shasta)의 성능을 비교 평가 했습니다.
어셈블리의 정확성은 당연하고, prokarypte다 보니 circularisation도 중요하고, 계산시 사용되는 리소스와 분석 시간등을 평가했다고 합니다.

아름다운 figure는 상단에 링크된 논문에서 감상하시면 되고,
canu는 그나마 볼만한 서열들을 제공해줬고
flye는 canu다음으로 괜찮은 서열로 어셈블리 했다고 합니다.
redbean(wtdbg2) 과 shasta는 계산 리소스와 분석 시간에서는 효율적이었지만 결과는 그다지 효율적이지 않았고 하네요.

그래서 종합해서 논문에서 결론을 냈는데
모.. de-novo aseeembly 해보신분이라면 알고계시다 싶이.. 다들 장단점이 있었고, 원탑인 어셈블러는 없었지만 그 중에서 Flye, Miniasm / Minipolish와 raven이지 않나 싶다고 하네요

Flye는 믿을만한 서열을 제공했고(low depth에서도 나름..)
Miniasm / Minipolish는 circularisation이 좋았고
raven은 identity가 낮은 read set들에서 tolerant가 있었다고 합니다.

역시 최적의 어셈블리를 위한 정도는 당신이 사용 가능한 리소스를 동원해서 다양하게 돌려보고 비교한 게 킹왕짱이지 남의말 믿고 쓰면 너만 바보 되고
개발자님들인 이런 상황이니 개발좀 굽신굽신 :)



출처: @sana_twice.09