Wednesday, February 15, 2017

Oxford Nanopore 쉽게 이해하기


이제 옥스포드 나노포어가 나온지 좀 됐죠?

롱롱롱 read도 시퀀싱(아직 accuracy문제는 있긴 하지만..) 하고
시퀀싱 후에 듣보잡 서버에서만 쿵짝쿵짝했어야
수십기가 txt파일 받았었는데
이녀석은 내 데스크탑에서 usb꼽으면 빨강파랑초록 왔다갔다거리고
그래프도 막 나오고 조만간에는 아이퐁에서도
시퀀싱을 해볼 수 있다는 찌라시도 가끔나오다가 업자들의 입에서도 심심치 않게 나오고..

그리고 이거 돌아가는 꼬라지를 보니 그냥 시덥지 않은 우스개 소리가 아니라
이제 곧 현실이 될 것 같기도 한데 그림은 봐도 잘 모르겠고..

그래서 옥스포드 나노포어를 조금 쉽게 이해해보는 글을 하나 투척합니다.
이게 real은 아닙니다. 이해를 쉽게 돕고자 제가 이해한 바를 풀어 해친겁니다.


Nanopore
http://www2.technologyreview.com/news/427677/nanopore-sequencing/


최근 NGS시대를 맞이하면서 일루미나가 한번런에 몇샘플 할 수 있다 생산량이 500G다. 시퀀싱기계를 10EA 묶음 판매한다. 몇일이면 몇백명 exome 시퀀싱을 해서 이제 시퀀싱 단가 10만원이 실현됐다, 팩은 10kbp read 시퀀싱한다 많이들 떠들고 있습니다.

일단 현재 전세계에서 범용적으로 운영되고 있는 시퀀싱플랫폼은 대게 3개정도 입니다.
일루미나/PacBio/PGM 이 3대 시퀀싱 플랫폼이 모두 엄밀히 말하면 시퀀싱의 부산물을 가지고 시퀀싱(basecalling)하고 있는 것입니다. 일루미나와 PacBio은 형광, PGM은 H+

근데 가장 핫한 Nanopore의 경우 현존하는 시퀀싱 플랫폼과 달리 직접 서열을 확인하는 기기라고 말씀드릴 수 있습니다.
엄밀히 얘기하자면 직접 들여다 보는건 아니고 전기신호로 각 base의 그림자를 확인해서 실체를 알아낸다고 하는게 더 맞을 수 있습니다.


이게 무슨말이냐!!!

옛날 옛적에 8-90년대 국민학교시절때 드래곤볼인가 어떤 게임 카드 뒤에 아래와 같은 글씨

가 적혀 있던 것을  기억하시는분!!! 분명 있으실겁니다.
이것은 숫자인데 특정 카드 집에 카드를 꼽으면 해당 카드의 공격력(?)을 알 수 있게 해놓은 카드 입니다. 쉽게 숫자를 판독할 수 없게 해서 꼭 카드집에 꼽아야 해당 숫자를 확인 할 수 있게... 물론 시간이 흐르면 대충 저 기호만 봐도 공격력(?)을 알 수 있게 학습된다는... ㅋㅋ









쉽게 생각하면 나노포어가 이와 같이 시퀀싱을 해석한다고 보시면됩니다.
원래 숫자(A/C/G/T)가 있으나 우리는 그것을 직접 알 수 없지만 저런 기호(전기적신호)로는 저장을 할 수 있다!



그래서 저 기호를 해독 할 수 있는 카드집에 저 기호를 대보면 원래 숫자를 알 수 있게 되는것이죠



좀 이해가 되시나요?

근데 이 숫자들이 단지 숫자로만 되어있다면 간단한데
숫마뿐만 아니라 영문자도 섞여 있다면 이 카드집으로도 간단할까요?

위의 그림은 숫자와 영문자가 있는 기호라고 합니다.

이것을 지금까지 숫자만 판독하던 카드집에 넣고 확인을 하면 다음과 같습니다.


어랏!! 일단 읽혀지긴 합니다.
그럼 이것을 어떻게 읽으시겠습니까?

A125c947로 읽으실건가요?
AI2Sc947? 아니면 A12Sc947? 이런 문제가 여기서 뿐만아니라
나노포어에서도 생기게 됩니다.

나노포어가 기존 시퀀서들과 다른점이 여기에 있습니다.

기존 시퀀서들의 경우 A/G/C/T에 각각에 형광을 부착하던지
혹은 현재 합성되는 base가 무엇인지 이미 알고 있습니다. 시퀀싱, basecalling을 합니다.
(그럼에도 불구하고 플랫폼의 한계들로 에러가 포함되고 있습니다.)

그러나 나노포어의 경우 사전정보가 없습니다. 그냥 AGCT가닥을 pore에 집어넣어서
전기적 신호의 차이를 읽어서 시퀀싱을 하기때문에 이 전기적 신호에 대한 연습이 필요하게 됩니다.

위에서 나온 두번째와 네번째 기호에 대한 구분을 어떻게 할지 연습이 필요한것 처럼 말입니다.


위의 방법은 두가지가 있습니다.
측정한 자료를 마사지해서 지금써오던 단순한 카드집을 계속 사용한다.
아니면 새로운 카드집으로 변경한다.

첫번때는 정보의 손실과 기존 카드집에서보다 더큰 에러를 발생할 수 잇는것이죠 A라는 정보는 원래 없었으니 A와 비슷한 8로 치환, S자도 어차피 없는 정보니 S를 5로 오독하는것이죠

이러면 안되겠죠
그래서 지금까지 써왔던 단순한 카드집 대신
조금더 세련된 1과 I, 5와 S를 구분 할 수 있는
카드집이 필요한것이죠


나노포어도 계속 기존 정보를 마사지하는것이 아니라 새로운 카드집을 계속 개선해나가고 있다고 생각하시면 될것 같습니다.



조만간 영국에서 Brexit말고 나노포어의 얘기가 건너오길 기대하면서
낚시글은 이만 줄이도록 하겠습니다. :)


(2017년 2월 18일 글 중간 중간 수정 및 첨언을 하였습니다.)

No comments: