레이블이 evaluate인 게시물을 표시합니다. 모든 게시물 표시
레이블이 evaluate인 게시물을 표시합니다. 모든 게시물 표시

수요일, 8월 16, 2023

누가 누가 Annotation을 잘 하나

작년에 나온 논문으로 NGS를 활용한 임상 유전체 판독 할 때 어떤 annotation tool을 쓰면 좋을지에 대한 내용입니다.

A performance evaluation study: Variant annotation tools - the enigma of clinical next generation sequencing (NGS) based genetic testing

doi: 10.1016/j.jpi.2022.100130


현재 다양한 annotation tool이 사용되고 있긴 하나 그 중에서 Alamut, ANNOVAR, VEP 3개 tool을 벤치마킹 해봤다고 합니다.

VEP는 Ensembl Variant Effect Predictor이고,
Alamut는 SOPHiA GENETICS에서 제공하고 있는 tool,
ANNOVAR은 qiagen에서 제공하고 있는 tool로 3개 tool 모두 annotation해봤다고 해봤으면 한번쯤 구경은 해봤을 tool 일겁니다.

결과를 얘기하자면 이 3개 tool을 이전에 확인되었던 298개 변이를 대상으로 벤치마킹하였고 이 중에서 VEP가 가장 성능이 좋았고, ANNOVAR이 가장 낮을 일치율을 보여주었다고 합니다. (298개 중 20개가 불일치하여 93.3%의 일치율)

그래서 Lurie Molecular Diagnostics Laboratory(저자들의 소속 기관)은 VEP를 사용하기로 하였다고 논문에 언급하긴 했는데 진짜 VEP를 사용하고 있는지 ANNOVAR나 Alamut를 몰래 사용하고 안하는지는 제가 알 방법이 없네요

여튼 NGS의 발달로 말미암아 WGS를 하면 400만개, WES를 하면 ~2만개 정도의 변이들을 탐지할 수 있게 되었죠. 그래서 이전에는 변이를 하나하나 탐지하는게 병목점이었다면 이제는 탐지된 변이를 정확하게 판독 할 수 있도록 annotation을 하는 것이 더 중요하고 병목점이 되었다는 것은 누구나 부인하지 못할 것입니다.

- 물론 최근에는 AI/머신러닝의 발달로 annotation 단계에서도 괄목할만한 신속 정확한 결과를 바라볼 수 있지 않을까 합니다. -

이런 이유로 Lurie Molecular Diagnostics Laboratory에서도 이전에는 Alamut를 사용하고 있었는데 라이센스 문제등 효율적인 문제가 부각되어 상용 tool들과 오픈 소스인 VEP간의 annotation 결과 일치도 테스트를 해보게 되었다고 합니다.


그렇다면 비교를 하기위해서는 정답이 있는 문제지가 있어야 되겠죠?
그래서 이전에 Lurie Molecular Diagnostics Laboratory에서 진행되고 큐레이션 되었던 191개 유전자에 있는 298개 변이를 테스트 세트로 했다고합니다.

3개의 annotation tools을 비교하기 위한 vcf를 준비해서 각각 분석을 진행하였다고 합니다.

그래서 확인한 결과 298개 중 278개 변이는 3개 tool에서 모두 동일하게 확인되었고, 그 중 VEP와 Alamut는 99% 일치 하였으나, ANNOVAR의 경우 20개가 불일치 하였다고 합니다. 298개 중 278개 변이가 3개 tools에서 동일하게 나온 이유가 ANNOVAR가 제대로 분석을 하지 못해서였네요.. 

VEP는 298개중 297개를, Alamut는 298개중 296개를 올바르게 annotation을 하였고, ANNOVAR은 위에서 언급한대로 278개만 올바르게 annotation을 하였다고 합니다.

조만간 누군가 고도화된 AI/머신러닝을 탑재한 annotation tool을 출시하면 새바람이 불지 않을까합니다.

그때까지 밥벌이는 해보는걸로 :)



출처: @ye._.vely618