레이블이 Kmer인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Kmer인 게시물을 표시합니다. 모든 게시물 표시

토요일, 3월 12, 2016

Kmer 분석 관련 논문


간만에 뒤적이다가 Kmer 관련해서 설명된 2013년도 논문이 있어서 아실분은 아시겠지만
공유차 끄적끄적 합니다.

Estimation of genomic characteristics by analyzing kmer frequency in de novo genome projects

논문요약을 하자면
NGS의 발전으로 re-seq말고도 de novo를 하는데 short read라서 우리가 genome assembly를 잘했는지 "아 몰라요" 하지 않기위해 서열의 content frequency를 사용해서 예측하는 k-mer 분석을 해서 대략적으로라도 genome size를 확인해서 우리가 "assembly 쩔 잘했어요"를 외치는데 도움이 되는 테스트도 해봤고 소스도 있습니다. 우리 잘했죠?
모 그런 내용 되겠습니다. :)

가장맘에 들었던 figure는 error와 heterozygous에따른 Kmer 분포 였습니다.


NGS 특히 일루미나 데이터를 가지고 de novo 해보셨던 분들께서는
아마 다음과 같은 그림을 보셨을겁니다.



맨날 보는 그림이고 이그림은 시퀀싱 error를 포함하고 있는 그림입니다(1-2 depth에 peak가 무제한인게 가당키냐 한 얘기냐고요 >_< ).

다음이 이상적인 시퀀싱이 된 결과 에서 얻어질수 있는 원래 kmer 그래프 입니다(이것도 가당키나 가능한 얘기냐??).


그리고 하단의 그림은 위의 그림들을 merge하여 잘 표현해놓은 그림입니다.




그리고 마지막으로 Kmer분석하면 진짜 genome size 예측 제대로 되는거 맞어?
라는 의구심을 가지시는 분들께서는 논문 p25에 Table2. b 테이블보시면 되겠습니다.

현재 genome size가 보고된 종들에 대해서 Kmer분석을 해봤고, 어떻게 하면 그나마 실제 genome size에 가까운 Kmer 분석 결과를 얻을 수 있는지 아실수 있습니다. 그리고 보시다 싶이 genome size큰거는 (사람은 150Mb 차이가 나는데) 예측 잘 안되는거 아니냐 라고 할수 있지만 %로 보면 오차가 5%내외이니 크게 걱정하지 않으셔도 됩니다(아마추어 같이 왜그러십니까).

그리고 논문 마지막에 K-mer 분석하려면 (인간적으로) genome size에 30x 이상은 시퀀싱하자 라고 촉구하고 있습니다.

사족: 논문 맹신하지 말아라. 겪어보면 알겠지만 케바케다.