레이블이 Annotation인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Annotation인 게시물을 표시합니다. 모든 게시물 표시

수요일, 8월 16, 2023

누가 누가 Annotation을 잘 하나

작년에 나온 논문으로 NGS를 활용한 임상 유전체 판독 할 때 어떤 annotation tool을 쓰면 좋을지에 대한 내용입니다.

A performance evaluation study: Variant annotation tools - the enigma of clinical next generation sequencing (NGS) based genetic testing

doi: 10.1016/j.jpi.2022.100130


현재 다양한 annotation tool이 사용되고 있긴 하나 그 중에서 Alamut, ANNOVAR, VEP 3개 tool을 벤치마킹 해봤다고 합니다.

VEP는 Ensembl Variant Effect Predictor이고,
Alamut는 SOPHiA GENETICS에서 제공하고 있는 tool,
ANNOVAR은 qiagen에서 제공하고 있는 tool로 3개 tool 모두 annotation해봤다고 해봤으면 한번쯤 구경은 해봤을 tool 일겁니다.

결과를 얘기하자면 이 3개 tool을 이전에 확인되었던 298개 변이를 대상으로 벤치마킹하였고 이 중에서 VEP가 가장 성능이 좋았고, ANNOVAR이 가장 낮을 일치율을 보여주었다고 합니다. (298개 중 20개가 불일치하여 93.3%의 일치율)

그래서 Lurie Molecular Diagnostics Laboratory(저자들의 소속 기관)은 VEP를 사용하기로 하였다고 논문에 언급하긴 했는데 진짜 VEP를 사용하고 있는지 ANNOVAR나 Alamut를 몰래 사용하고 안하는지는 제가 알 방법이 없네요

여튼 NGS의 발달로 말미암아 WGS를 하면 400만개, WES를 하면 ~2만개 정도의 변이들을 탐지할 수 있게 되었죠. 그래서 이전에는 변이를 하나하나 탐지하는게 병목점이었다면 이제는 탐지된 변이를 정확하게 판독 할 수 있도록 annotation을 하는 것이 더 중요하고 병목점이 되었다는 것은 누구나 부인하지 못할 것입니다.

- 물론 최근에는 AI/머신러닝의 발달로 annotation 단계에서도 괄목할만한 신속 정확한 결과를 바라볼 수 있지 않을까 합니다. -

이런 이유로 Lurie Molecular Diagnostics Laboratory에서도 이전에는 Alamut를 사용하고 있었는데 라이센스 문제등 효율적인 문제가 부각되어 상용 tool들과 오픈 소스인 VEP간의 annotation 결과 일치도 테스트를 해보게 되었다고 합니다.


그렇다면 비교를 하기위해서는 정답이 있는 문제지가 있어야 되겠죠?
그래서 이전에 Lurie Molecular Diagnostics Laboratory에서 진행되고 큐레이션 되었던 191개 유전자에 있는 298개 변이를 테스트 세트로 했다고합니다.

3개의 annotation tools을 비교하기 위한 vcf를 준비해서 각각 분석을 진행하였다고 합니다.

그래서 확인한 결과 298개 중 278개 변이는 3개 tool에서 모두 동일하게 확인되었고, 그 중 VEP와 Alamut는 99% 일치 하였으나, ANNOVAR의 경우 20개가 불일치 하였다고 합니다. 298개 중 278개 변이가 3개 tools에서 동일하게 나온 이유가 ANNOVAR가 제대로 분석을 하지 못해서였네요.. 

VEP는 298개중 297개를, Alamut는 298개중 296개를 올바르게 annotation을 하였고, ANNOVAR은 위에서 언급한대로 278개만 올바르게 annotation을 하였다고 합니다.

조만간 누군가 고도화된 AI/머신러닝을 탑재한 annotation tool을 출시하면 새바람이 불지 않을까합니다.

그때까지 밥벌이는 해보는걸로 :)



출처: @ye._.vely618


금요일, 8월 02, 2013

Maker란

Maker는 Gene annotation 작업을 하는 pipeline으로 EVM과 함께 많이 사용된다고 합니다.

요즘같이 자고일어나면 DNA sequencing 가격이 계속 떨어지는 세상에서는 많은 연구자들이 de novo sequencing을 하여 생명체의 genome을 확보하기가 몇년전과 비교해보더라도 확연하게 쉬워진것을 알 수 있습니다.

그래서 이런 gene annotation tool들이 필요해졌죠
genome sequence만 있어서는 알수 있는게 별로 없으니깐요
생명체 안에서 일을하는 것은 단백질이고 그것을 만들 설계도는 gene이니
내가 sequencing해서 genome을 가지고 있다고 해서 연구 끝이 아니라는 얘기.. :)

근데 왜 EVM이 아니라 Maker를 언급하는걸까요?
걍 제가 써봤으니깐 언급한 겁니다. 다른 이유는 딱히 없습니다. ㅎㅎ :)

Maker의 경우 장점이라고 할 수 있는게
genome의 repeat masking을 pipeline에서 해준다는거 정도? 꼽을 수 있겠습니다. :)

그거 말고는 EVM이랑 비슷한듯 합니다.
Annotation 결과 품질이나 알고리즘면으로는 모...
알수가없으니..
단점은 홈페이지가 심심하면 다운된다는 정도?? ㅎㅎ

그럼 Maker를 믿을 수 있겠느냐?
그래서 한번 확인해 봤습니다.

중고등시절 들어봤을 플라나리아
그리고 애국가에도 나오는 소나무(종이 좀 다를듯합니다. ㅋ)
최재천 교수님께서 좋아하시는 개미 몇종.. 등등
GMOD 사이트를 방문하시면 확인 하실 수 있습니다.

다음에 기회가 된다면
좀더 경험을 해 본 다음에..
더 좋은글로 찾아뵙겠습니다. :)



ps. GMOD에서 NESCent라는 곳에서 매년 Gene Annotation 관련된 school이 열리는 듯 합니다. 2013년 써머스쿨은 지나갔고 관심있으시고 여력이 되신다면 한번 참석해보시는 것도 나쁘지 않을 듯 합니다 :)