레이블이 polyploidy인 게시물을 표시합니다. 모든 게시물 표시
레이블이 polyploidy인 게시물을 표시합니다. 모든 게시물 표시

금요일, 10월 27, 2023

롱리드 시퀀싱을 쓰지 않을 이유가 있는가?

이번 논문은 제가 참여한 논문입니다.. 흠흠..

이름하여 Two long read-based genome assembly and annotation of polyploidy woody plants, Hibiscus syriacus L. using PacBio and Nanopore platforms

DOI: 10.1038/s41597-023-02631-z

Hibiscus syriacus, 쉽게말해 무궁화 genome을 assembly하는데 어떤 데이터를 어떤 assembly 도구로하면 그래도 가성비가 좋은지에 대해서 확인한 논문 되겠습니다.

무궁화는 full genome은 이미 몇해전에 나와있는 상태고요, 아마 무궁화가 2배체가 아니라 4,6배체로 기억됩니다. 그래서 숏리드가지고 assembly가 만만치 않았는데 그 데이터를 바탕으로 이전에는 short리드로 어렵싸리 했었는데 이번에는 롱리드 시퀀싱으로 하면 어떻게 되는지 확인 해보자 입니다.

이전 무궁화 genome project 논문에서 핸들링하는 데이터 양을 정확히는 모르겠으나 어마무시했던것으로 알고 있습니다. 거기다가 숏리드라서 양쪽 로우 퀄리티 좀 정리해주고, scaffold용 mate-paired 데이터 정리작업하는데도 아마 꽤나 시간이 걸릴겁니다.

나노포어 데이터(ONT)와 PacBio data가 있었는데, 솔까말 ONT 데이터로만 해도... 사실 갠춘합니다.

그런데 여기서 중요한것은 ONT가 중요하기도 하지만 ONT의 장점을 십분 발휘할 수 있게 해주는 DNA 뽑는게 ART되겠습니다. ONT가 길게 읽을 수 있는거지 template가 짧으면 ONT도 길게 읽고 싶어도 못읽습니다.

결국 실험자의 손이 중요합니다. 손 똥손이면 ONT도 해결 못해줍니다.

그 똥손도 가능하게 해주는게 commercial prep kit이긴한데 현재 기준으로 그런 kit이 있는지는 저는 모르겠습니다. 


여튼 그래서 ONT 데이터를 앞뒤없이 다 때려박고 assembly하지 않았습니다.

cell 하나, cell 2개, 결과가 어떻게 달라지는지 확인해고, assembly tool마다 결과는 어떻게 나오는지 확인하면서 테스트 하였고, 이거쓰세요는 하지 못했지만 그럭적럭 요정도 생산해서 이 tool쓰면 평타 칩니다 라고 가이드는 해드릴 수 있는 논문되겠습니다.

다음에는 테스트하는 code를 간지나게 git에 올려놓고 논문에 url하나 올려둘 수 있도록 해봐야겠습니다. :)


그럼 또 쓸만한 논문을 찾아 돌아오도록 하겠습니다.




토요일, 1월 02, 2021

High Heterozygosity genome 어셈블리 할 때 해결사로 자처하고 나온 어셈블러

2021년 첫 포스팅 시작합니다. :)

오늘은 de novo assembly관련된 tools 소개 글입니다.

모델 생물 혹은 그외의 생명체에 대해서 genome을 알고 싶다면...
그냥 절래절래 하거나 아니면 필요하거나 알고 싶은 부분만 클로닝해서 슬쩍 슬쩍 알아내던 시절... 

돈없는 연구자들은 손가락이나 빨고 눈물이나 흘리던지 어딘가에 끼어서 연구를 진행했었어야 했으나...

이제는 바야흐로 2021년!! (사실 글의 초안을 작성하고 있었던 때는 2020년 11월;;;)

454 따위 역사속으로 사라지고 킹왕짱 long read인 PacBio와 나노포어가 활발히 사용되는 시대에 살고 있습니다.

(물론 de novo는 454와 일루미나로 이어 붙여야 제맛이지 하는 라떼들도 있지만...)

저는 박테리아에서 PacBio 써본 후 박테리아 연구에서 PacBio 사용하지 않고 일루미나 플랫폼을 사용한다고하면 일루미나 주식을 가지고 있나 생각하게 되었고, 그외에 genome을 de novo작업은 nanopore를 추천하고 있는데 굳이 나노포어를 사용하지 않겠다라고 한다면... 굳이? 라는 궁금증으로 가지게 되었다능.. ㅋㅋ
(당연히 무조건 저걸 써야하는건 아니쥬 ㅎㅎ 연구 목적에 따라 봐야 하는 결과물에 따라 플랫폼을 잘 선택하시면되겠습니다.)

※ 여기서 나노포어 base의 quality는 굳이 논할 이유는 없고 제대로된 데이터 만져보면 나노포어 쓰지 않을 이유가 없으실 겁니다.


이제는 PacBio나 나노포어를 굳이 사용하지 않을 이유가 없는 것이 예전이라면 PacBio나 나노포어를 지원해주는 프로그램이 많지 않아서 좀 꺼려질수 있었지만.. 지금은 반대로 너무 많아셔져서 어떤 tools을 사용해야 하나 할 정도니...

그중에서 어셈블리를 하면서 문제가 되는 부분이 High heterozygous region들이 있는데 (그 와 함께 저세상 텐션을 보여주는 polyploidy;; ) 이런 문제들을 해결에 주겠다는 해결사로 자처하고 나온 tools이 있어서 한번 끄적여 보았습니다.

Purge Haplotigs: allelic contig reassignment for third-gen diploid genome assemblies

물론 이전에도 heterozygous 문제를 해결하는 tools이 없지는 않았습니다.
이전 글에서도 잠시 소개했었던 HaploMerger2 도 있고 저는 잘 몰랐지만 Redundans라는 도구도 있었다고 합니다. 다만 이전에 나온 tools의 단점은 사용자가 수동으로 contig를 재 할당해야한다는 문제가 있다고 합니다.
(음.. 저도 이전에 한두번 HaploMerge2를 사용해었는데;;; 여기서 얘기하는 contig 재할당에 대한 얘기가 정확히 어떤 의미인지는 정확하게 모르겠네요;; 여튼... 좀 단계 단계를 수동으로 작업을 하기는 했었습니다만 여기서 얘기하는 "수동"이 이 얘기가 아닌거 같은데...)

여튼... purge의 분석 pipeline은 다음과 같은 단계들로 진행됩니다.
purge의 분석 Flow chart >Figure1<


음... 확실히 장점으로는 draft로 조립된 genome에서 중복되는 contig들을 제거해서 draft assembly 서열의 크기를 줄여서 실제 genome size에 가깝게 된다는 것 이긴 합니다.

그리고 이 tool을 사용할 시 참고할 점으로는 일루미나 데이터를 가지고 purge를 진행할때는 지양했으면 합니다.
제가 해봤을때에 nanopore-raw 서열가지고는 분석이 가능했는데 일루미나 데이터로 작업하였을 때 purge_haplotigs의 hist 명령어를 사용하여 cov의 input 값이 -l, -m, -h 값을 구하는 작업을 할때 -l, -m, -h 값을 특정 할 수 있는 문제가 좀 있었습니다. 너무 값들이 낮아서 어떤 값을 low, mid, high을 사용할지가 모호하더라구요..

여튼..

de novo  작업을 하시다가 생각보다 genome 크기가 큰 경우 내 genome 중간에 heterozygous한 지역이 있구나 생각하시고 이 tools한번 돌려보시면 좋을것 같습니다. :)



출처: @ye._.vely618