레이블이 de novo assembly인 게시물을 표시합니다. 모든 게시물 표시
레이블이 de novo assembly인 게시물을 표시합니다. 모든 게시물 표시

수요일, 7월 20, 2022

Long Read 조립은 누가누가 잘하나

Piroplasm를 나노포어를 사용하여 genome project를 진행했고 나노포어를 활용한 assembler들에 대한 성능 비교 논문 되겠습니다.


제목은 Systematic Comparison of the Performances of De Novo Genome Assemblers for Oxford Nanopore Technology Reads From Piroplasm

doi는 https://doi.org/10.3389/fcimb.2021.696669


piroplasm이 몬지는 모르겠으나 일단 그렇게 엄청나게 복잡하지는 않은 원생동물이나 사람이나 동물들에게 질병을 일으키는 녀석 되는 것 같습니다. funding중에 동물 전염병 및 인수공통전염병 관련 프로그램이 있는것으로 보아하니...


여튼 중요한건 nanopore로 읽어낸 서열을 사용하여 genome 조립할때 어떤 어떤 조립 프로그램이 제일 좋은지를 검토해본 것이니 OLC (Over-Layout-Consensus)나 전통적인 de-Brujin graph, string graph-based 방법 등등의 NECAT, Canu, wtdbg2, Miniasm, Smartdenovo, FlyeNextDenovo, Shasta와 같이 일반적으로 long-read에 사용하는 assembler들을 비교 테스트 하였다고 합니다.

대신 여기서는 assembly의 정확도와 함께 CPU 사용량, 메모리 사용량, 분석시간 사용방법 등등에 대해서도 함께 평가했다고 합니다. 참 바람직한 태도라고 봅니다. 모든 연구팀들이 그래픽카드 4개꼽히고 6T 메모리의 4U 서버를 가지고있는것은 아니니 말입니다.


실험 방법은 prioplasm free한 양 2마리(??)에게 prioplasm을 감염시켜 잘 배양(??)시킨 다음 Qiagen 사용 prep kit을 가지고 DNA 추출하고 PromethION으로 시퀀싱하였고 데이터 셋트에 따른 assembly 결과 평가를 위해 6가지 생산량 (약 15x, 30x, 50x, 70x, 100x, 120x)의 셋트를 만들었다고 합니다. 그리고 추가적(aka error correction)으로 (일루미나와 특허 소송에서 승리한) MGI로도 시퀀싱을 하였다고 합니다.


여튼 결과적으로

N50과 contig개수(적을수록 좋음)는 생산량과 밀접하고,
분석 시간은 생산량이 많으면 어떤 assembler를 사용하던 길어졌고,
polishing은 안하는것보다 하는것이 좋은것 같고 각 tool의 장단점은 Figure3에 방사형 그래프로 이쁘게 표현하였으니 한번 참고하시면 좋을것 같습니다.

그래서 Miniasm, Flye, wtdbg2는 그닥 좋은 선택지는 아닌것 같고 평균 커버리지가 30x 이상 확보된다면 NECAT, Canu, NextDenovo, Smartdenovo가 더 나은것 같다 정도 되겠습니다.

(사실 위의 tool들을 실행시키려면 평균 30x 이상은 있어야 작동을 합니다. 안그러면 작동안하던지 말도안되는 결과들을 뱉어내곤 합니다.)


그리고 시간이 충분했는지 각 assembler 결과들을 병합/후처리하는 작업을 하여 더 나은 assembly 결과를 보여주는지 테스트 했고 몇몇 조합에서 결과물이 향상된것을 확인했다는데... dramatically 좋은 결과는 보여주지 않은것 같았습니다. 

만약 병합/후처리하는 결과가 좋았다면 논문 결과가 single assembler 쓰지말고 ensemble방법을 추천드립니다라고 했었을테니 말이죠.. 



출처: @candyz_hyojung


일요일, 4월 26, 2020

Benchmarking of long-read assemblers for prokaryote whole genome sequencing

나노포어는 현존하는 시퀀서중에 가장 긴 서열을 뽑아내는 시퀀서임에는 그 누구도 부인하지 못할것입니다. 근데.. 생산된 리드의 각 base의 phred score를 보자면.. 왜 갑자기 눈에서 물이나오는 이유는 왜때문일까요?
(그렇지만 저는 de-novo할때 보수적인 그룹이 아니라면 나노포어를 권장하는건 비밀..)

여하튼.. 현재 나노포어 어셈블리 용으로 이런저런 어셈블러가 판치고 있는 난세에 누가누가 좋은지 확인하는 작업을 해서 투고하신분이 나타나셨습니다.
제목도 정직합니다. 단, prokaryote대상입니다.
Benchmarking of long-read assemblers for prokaryote whole genome sequencing

prokaryote에서도 개판이면 굳이 사용할 이유가 있겠느냐? 주의 되겠습니다.
일단 가장 좋은것은 모르겠지만 최악은 걸러내야 해야 시간 낭비, 전기 낭비 하지 않지 않겠습니까?

현재(aka 당시에) 돌려볼 수 있는 7개 어셈블러 (Canu, Flye, Miniasm/Minipolish, NECAT, Raven, Redbean, Shasta)의 성능을 비교 평가 했습니다.
어셈블리의 정확성은 당연하고, prokarypte다 보니 circularisation도 중요하고, 계산시 사용되는 리소스와 분석 시간등을 평가했다고 합니다.

아름다운 figure는 상단에 링크된 논문에서 감상하시면 되고,
canu는 그나마 볼만한 서열들을 제공해줬고
flye는 canu다음으로 괜찮은 서열로 어셈블리 했다고 합니다.
redbean(wtdbg2) 과 shasta는 계산 리소스와 분석 시간에서는 효율적이었지만 결과는 그다지 효율적이지 않았고 하네요.

그래서 종합해서 논문에서 결론을 냈는데
모.. de-novo aseeembly 해보신분이라면 알고계시다 싶이.. 다들 장단점이 있었고, 원탑인 어셈블러는 없었지만 그 중에서 Flye, Miniasm / Minipolish와 raven이지 않나 싶다고 하네요

Flye는 믿을만한 서열을 제공했고(low depth에서도 나름..)
Miniasm / Minipolish는 circularisation이 좋았고
raven은 identity가 낮은 read set들에서 tolerant가 있었다고 합니다.

역시 최적의 어셈블리를 위한 정도는 당신이 사용 가능한 리소스를 동원해서 다양하게 돌려보고 비교한 게 킹왕짱이지 남의말 믿고 쓰면 너만 바보 되고
개발자님들인 이런 상황이니 개발좀 굽신굽신 :)



출처: @sana_twice.09

화요일, 2월 14, 2017

A5 pipeline


논문: An Integrated Pipeline for de Novo Assembly of Microbial Genomes

다년간 Non にんげん  denovo aseembly를 하다보니 별별 라이브러리 조합을 만나 봤는데
A5 파이프라인이 이 별별 라이브러리 조합에서 의외로 괜찮은 성능을 보여주는 관계로
다른 좋은 파이프라인이 있지만 라이브러리 조합이 내맘같지 않을때 한번 써보시라고 소개글 하나 투척

A5 (aka Andrew And Aaron's Awesome Assembly pipeline)
>DOWNLOAD<

대게 short read의 경우 SOAPdenovo, ALLPATH-LG 결과에 SSPACE로 스캣폴딩이
일반적인데 이게 내가 직접 라이브러리 디자인을 못할 때 뜬금없는 라이브러리 조합으로
시퀀싱 데이터를 영접할 때에 의외로 성능이 안나오셨을 때가 있으실겁니다.

고갱느님께서 나는 시퀀싱을 했으니 complete sequence를 내놔라.
어차피 complete sequence 안나오는거 앞뒤없이 complete 외친 분 제외하고는 다 압니다. ㅎㅎ
걱정마세요.

너님이 named가 아니라서 못하는것이니 노오오오오오오력을 해라
라는 말만 되풀이 하시니 어쩌겠습니까 일단 해야죠  ㅋㅋ :)

이때 사용할 만한 파이프라인 되겠습니다.

물론 complete 안되는게 이 파이프라인 돌리면 complete가 된다는 건 아닙니다.

그나마 SOAPdenovo/ALLPATH-LG에서 돌리는것보다는 상대적으로
통계치가 우수해집니다. 절대적으로 이 결과가 좋다는 아닙니다.
N50 개수 줄고 Max Length 조금 길어지고.. 모 그정도..
(그리고 언제나 A5 결과가 SOAPdenovo, ALLPATH-LG보다 좋다는것도 아님을 밝힘 ㅋ)

중간에 SGA써서 SGA셋팅이 최적화되어 있다면 문제 없는데 SGA를 위한 셋팅이 안되어 있다면 시간은 좀 오래 걸릴 수 있습니다.

본인의 경우 그냥 돌려놓고 당분간 까먹고 있으면 결과는 나오더라구요.

최근에 하나 돌릴게 있어서
문뜩 생각나서 소소하게 A5 파이프라인 글 올려봅니다.

목요일, 7월 10, 2014

SSPACE-Standard 3.0


오오오오..
간만에 assembly작업때문에
프로그램 다시 확인하고 있는데..
SSPACE는 언제 3.0으로 바꼈는지.. ㅎㅎ


SSPACE

SSPACE 스탠다드와 함께 Longread도 있는데..
usage보니 pac용이네...

이번에도 좀 잘 부탁한다는.. (_ _)

이번에도 두자리 한번 찍어보자.!!