레이블이 OH!MyGirl인 게시물을 표시합니다. 모든 게시물 표시
레이블이 OH!MyGirl인 게시물을 표시합니다. 모든 게시물 표시

수요일, 8월 23, 2023

SpeedSeq은 어디에 쓰는거지?

오늘은 연식은 좀 되었으나 빠른 분석 tool하나 가져와봤습니다.


SpeedSeq: ultra-fast personal genome analysis and interpretation

doi : 10.1038/nmeth.3505

이름하여 SpeedSeq!! 그래서 제목에 ultra-fast, 초고속이 들어갑니다.
근데... 분석시간이 얼마나 걸렸었는지는.. 기억이 잘..

논문에서는 저렴한 서버에서 50x WGS데이터를 13시간만에 align을 했다고하는데...
(저렴한서버의 정의는 CPU 16core에 128GB RAM이 장착된 서버라고 하네요)

여튼 논문에서는 50x WGS 데이터를 저렴한 서버를 사용해서 분석을 진행할 때 정렬 작업을 시간단위에서 끝냈다.. 라는 소식을 솔직히 DRAGEN 제외하고서는 들어본적이 없어서 조금 갸우뚱 하긴 합니다.

여하튼 논문에서 13시간만에 정렬을 끝냈다고 했다니!! 그렇다고 믿는게 인지상정 아니겠습니까?

근데 정렬 속도가 빠른건 큰 장점이지만 단순히 속도만 빠르면... 그건 아무짝에도 쓸모없는거죠


그래서 SpeedSeq와 기라성같은 변이 탐지 툴들과도 비교 해봤습니다.

somatic/germline 분석 툴들을 가리지 않고 모두 비교해봤습니다. GATK의 Haplotype Caller, Mutect, VarScan2와 같은... 기존에 너님들이 많이 쓰던 툴들이랑 비교해서 결과 다르지 않아. 라고 얘기하고 있습니다.


그런데 사실 저는 SpeedSeq을 사용한 이유가 속도가 빠르면서 bwa와 같은 기존 정렬 프로그램 대비 결과가 정확해서 사용한것이 아닌 그냥 LUMPY tool을 사용하기 위해서 였다는게 함정

사실 이 정렬 tool이 nature에 출판되었는지도 몰랐다는..

LUMPY사용하려고 메뉴얼보니 SpeedSeq 결과 사용하세요 라고 적혀 있어서 단지 사용 했었을뿐... 그 후에 나도 몰라 하고 있었는데...


그냥 한번 들쳐봤는데 다시 검토해볼만한 tool일거 같긴한데..

"Reference Sample 백만번 돌려서 결과 동일해요" 하는것보다 임상 샘플 10개만 분석해봐도 그 진가를 알아볼수 있으니...

만약에 제가 사용하게 된다면 다음에 다시 글하나 올려보도록 하죠 :)




출처: @ye._.vely618


수요일, 8월 16, 2023

누가 누가 Annotation을 잘 하나

작년에 나온 논문으로 NGS를 활용한 임상 유전체 판독 할 때 어떤 annotation tool을 쓰면 좋을지에 대한 내용입니다.

A performance evaluation study: Variant annotation tools - the enigma of clinical next generation sequencing (NGS) based genetic testing

doi: 10.1016/j.jpi.2022.100130


현재 다양한 annotation tool이 사용되고 있긴 하나 그 중에서 Alamut, ANNOVAR, VEP 3개 tool을 벤치마킹 해봤다고 합니다.

VEP는 Ensembl Variant Effect Predictor이고,
Alamut는 SOPHiA GENETICS에서 제공하고 있는 tool,
ANNOVAR은 qiagen에서 제공하고 있는 tool로 3개 tool 모두 annotation해봤다고 해봤으면 한번쯤 구경은 해봤을 tool 일겁니다.

결과를 얘기하자면 이 3개 tool을 이전에 확인되었던 298개 변이를 대상으로 벤치마킹하였고 이 중에서 VEP가 가장 성능이 좋았고, ANNOVAR이 가장 낮을 일치율을 보여주었다고 합니다. (298개 중 20개가 불일치하여 93.3%의 일치율)

그래서 Lurie Molecular Diagnostics Laboratory(저자들의 소속 기관)은 VEP를 사용하기로 하였다고 논문에 언급하긴 했는데 진짜 VEP를 사용하고 있는지 ANNOVAR나 Alamut를 몰래 사용하고 안하는지는 제가 알 방법이 없네요

여튼 NGS의 발달로 말미암아 WGS를 하면 400만개, WES를 하면 ~2만개 정도의 변이들을 탐지할 수 있게 되었죠. 그래서 이전에는 변이를 하나하나 탐지하는게 병목점이었다면 이제는 탐지된 변이를 정확하게 판독 할 수 있도록 annotation을 하는 것이 더 중요하고 병목점이 되었다는 것은 누구나 부인하지 못할 것입니다.

- 물론 최근에는 AI/머신러닝의 발달로 annotation 단계에서도 괄목할만한 신속 정확한 결과를 바라볼 수 있지 않을까 합니다. -

이런 이유로 Lurie Molecular Diagnostics Laboratory에서도 이전에는 Alamut를 사용하고 있었는데 라이센스 문제등 효율적인 문제가 부각되어 상용 tool들과 오픈 소스인 VEP간의 annotation 결과 일치도 테스트를 해보게 되었다고 합니다.


그렇다면 비교를 하기위해서는 정답이 있는 문제지가 있어야 되겠죠?
그래서 이전에 Lurie Molecular Diagnostics Laboratory에서 진행되고 큐레이션 되었던 191개 유전자에 있는 298개 변이를 테스트 세트로 했다고합니다.

3개의 annotation tools을 비교하기 위한 vcf를 준비해서 각각 분석을 진행하였다고 합니다.

그래서 확인한 결과 298개 중 278개 변이는 3개 tool에서 모두 동일하게 확인되었고, 그 중 VEP와 Alamut는 99% 일치 하였으나, ANNOVAR의 경우 20개가 불일치 하였다고 합니다. 298개 중 278개 변이가 3개 tools에서 동일하게 나온 이유가 ANNOVAR가 제대로 분석을 하지 못해서였네요.. 

VEP는 298개중 297개를, Alamut는 298개중 296개를 올바르게 annotation을 하였고, ANNOVAR은 위에서 언급한대로 278개만 올바르게 annotation을 하였다고 합니다.

조만간 누군가 고도화된 AI/머신러닝을 탑재한 annotation tool을 출시하면 새바람이 불지 않을까합니다.

그때까지 밥벌이는 해보는걸로 :)



출처: @ye._.vely618


금요일, 8월 11, 2023

16S rRNA에서 V3/4와 V4/5는 대체 얼마나 다르지?

정확히 얘기하자면 북극해의 해양 생태계의 미생물 군집을 연구할 때는 16S rRNA의 어느 variable region을 사용하는게 좋을까? 되겠습니다.

Comparison of Two 16S rRNA Primers (V3–V4 and V4–V5) for Studies of Arctic Microbial Communities

doi: 10.3389/fmicb.2021.637526

예전부터 microbiome, metagenome연구할 때 항상 언급되는 내용이긴 합니다.
엄밀히 얘기하면

1. 박테리아 genome full sequence가 제일 좋아요
2. 안되면 full lenght 16S rRNA가 좋아요
3. 안되면 그냥 본인이 이거다 싶은거 쓰세요. 다른사람이 무엇을 쓰든지

여튼 이 논문은 빠른 온난화로인해 북극해의 해양 생태계가 어떻게 변화하는지 확인해보고자 1년여동안 모니터링한/샘플링한 데이터를 분석해봤는데, 지금까지 우리가 대중적으로 사용하고 있었던 16S rRNA의 V34가 진짜 golden standard인가? 우리 한번 생각해봐야하지 않겠나? 아니면 적어도 북극해의 미생물 분석 할 때는 (우리가 해봤을때는) 16S rRNA의 V34보다는 V45가 더 적합한것 같아요를 얘기하고 있는 논문되겠습니다.

여기서 얘기하고 있는 16S rRNA의 V34는 어디고 V45는 어디냐?

16S rRNA는 >여기< 참고하시면 잘 나와있습니다. 그리고 그중 V34와 V45는 어디냐?

V34는 341(F)에서 785(R)까지, V45는 515(F-Y)에서 926(R)까지라고 하네요

사실 범용적으로 사용하는 primer 위치들이 연구팀들마다 100% 동일하지는 않습니다. 살짝씩 다를 수 있으니 이 부분도 잘 확인하시면 좋을 것 같습니다.

그 이유는 이 논문에서도 언급되었듯이 지금까지 지금까지 연구가 잘 되어오지 않았던 곳(여기서는 북극해)에서는 어떤 variable region이 종들을 더 잘 구분하는지, 어떤 범용 primer set이 더 잘 작동하는지 정확히 모르기 때문에 그렇습니다. 반대로 사람의 대변, 구강과 같이 이미 수년동안 연구를 통해 실험 방법이 정립된 경우에는 그냥 기존 방법대로 하시면 되겠습니다.

그래서 이 논문의 결론은 북극해와 같이 아직 생태계가 연구되지 않은 환경에 대해서 미생물 군집 연구를 위해서는 V45 primer set을 사용하는 것이 좋다고 하였습니다.


근데 진짜 그럴까요?

논문에서도 나오지만 결론에서 북극해의 미생물 군집 연구를 위해서는 V45가 좋은데, 그 이유가 다른 미생물 군집 검출에 영향을 끼치지 않기 때문이고, archaea도 검출 가능하기 때문인데, V45와 함께 V34를 혼용해서 사용하면 더 좋지 않을까하는 생각이네요


그리고 사족으로 일부 샘플에서 현미경으로 셀 카운팅을 했는데 그 결과가 NSG와 차이가 있었고, 그 이유가 현미경 정량의 한계라고 얘기를 하였지만 꼭 그럴까하는 생각도, NGS의 한계일 수 도 있다는 생각은 >여기<를 보시면 알게 된다는..

그럼 다시 또 재미있는 이야기거리를 가져와 보도록 하겠습니다.



출처: @ye._.vely618