Lee Gir-Won (Lee Gil-Won): mummer4, 미처 알아보지 못했다

mummer는 서열 정열프로그램으로 꽤나 오래부터 사용되었던...
NGS시대에 접어들면서 일반적으로 사용되지는 않고...
Reference 제작할때 종종 쓰이는...

MUMmer이라고 보통 쓰는데... MUM의 의미가 "Maximal Unique Matches"라고.. 여기에 나와있었네요..

그리고 이번에 알았는데.. MUMmer는 당연히 target와 query는 fasta형식만 입력될줄 알았는데 input으로 fastq도 사용할 수 있다는..
당연히 fasta 형식으로 변경해서 사용하려고 했는데... 작동해서 잠깐 화장실좀 다녀왔다능..

input으로 fastq형식을 받을 수 있는 버전의 tools이 2018년도에 논문으로 출판되어 한번 들추어 보았습니다.

이름하여 MUMmer4: A fast and versatile genome alignment system

이전 MUMmer3 이후 데이터구조를 32bit에서 48bit로 증가시켜 이론적으로 비교가능한 크기가 141Tbp (다시 한번 화장실을 다녀오게 만드는.....)로 늘렸다는.. 근데 이거 141Tbp이 입력 파일이면 입력 파일 로딩하는데만 한세월 아닌가...

여튼..

MUMmer4 논문 작성 할때 언급해준 정렬 프로그램으로
그냥 생명정보학 분석한다고 할때 기본 옵션인 BWA/Bowtie,
PacBio 데이터 할때 사용하는 BLASR 들을 언급해 주셨는데
이제 fastq형식의 파일을 지원해서
reference vs reference 비교 프로그램이 NGS용 정렬 프로그램들에게 어깨를 나란히 할 수 있는 기회를...

mummer라고 하면 갱장한 legacy 프로그램이라고 생각할 수 있지만...
다방면으로 개선 시킨 mummer4를 하나하나 뜯어보면 갱장히 힙해졌다고 볼 수 있습니다.

NGS 시대에 다양하게 쏟아져 나오는 reference크기에 대응할 수 있도록 비교 사이즈의 증가(141Tb)되었고, 또한 긴 서열 작업시 메모리 문제가 발생할 것을 대비해서 긴 서열들을 자동으로 분할해서 작업해주는 --batch라는 옵션기능까지...

mummer4의 새로운 기능들이 갱장히 많아졌습니다.

reference 서열을 제작하는 de-novo assembly하시는 분들 외에도 다양한 작업시 사용할 수 있을것으로 생각되니 한번 기능들 구경해보시고 활용해보시기 바랍니다.

그런데... 사실 NGS 서열 정렬은 역시 여기가 맛집이긴 합니다.

ps. BLAST에서도 query파일을 fastq 형식을 받을 수 있다고 합니다. 이름하여 Magic-BLAST를 사용하시면되겠습니다. 속도는 잘 모르겠습니다. ㅎㅎ

@ye._.vely618

Lee Gir-Won (Lee Gil-Won)

Pages

토요일, 6월 18, 2022

mummer4, 미처 알아보지 못했다

댓글 없음: