레이블이 Variant인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Variant인 게시물을 표시합니다. 모든 게시물 표시

목요일, 4월 18, 2024

UK Biobank 데이터 활용하면 어떤것을 할 수 있을까?

오늘은 많은 국가의 BioBank 사업에 귀감이 되고 있는 UK BioBank를 활용한 논문을 한번 가져와봤습니다. 

당연히 UK BioBank 데이터를 활용한 논문은 어마 무시하게 많이 있습니다.

그중에서 이 Effects of protein-coding variants on blood metabolite measurements and clinical biomarkers in the UK Biobank 논문을 가져온 이유는 그냥 최근에 나왔으니깐요 ㅎㅎ 

DOI: 10.1016/j.ajhg.2023.02.002


오늘도 역시 clova-x에게 물어보았습니다.

이 연구는 단백질 코딩 변이가 혈액 대사물 측정과 임상 바이오마커에 미치는 영향을 분석한 것으로, 다음과 같은 내용을 포함하고 있습니다.

1. 412,393 영국 바이오뱅크 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였습니다.

2. 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였습니다.

3. 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 205개의 유전자와 331개의 유전자가 유의미한 연관성을 가진 것으로 나타났습니다.

4. 이 연구는 새로운 생물학적 통찰력을 제공하며, 확립된 질병 메커니즘에 대한 이해도 깊어질 수 있습니다.

5. 기존 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재합니다.

6. 희귀 단백질 코딩 변이형은 큰 효과 크기와 기능적 영향을 가지며, 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있습니다.


이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

대규모의 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였으며, 이를 통해 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 데 기여하였습니다. 또한 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

그리고 다양한 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다. 또한, 이 연구는 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 유전자와 유의미한 연관성을 발견하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

이 논문은 생명공학 분야에서 중요한 연구 결과를 담고 있으며, 생명공학을 전공하지 않은 사람들도 이 논문을 통해 혈액 대사물 측정과 단백질 코딩 변이의 관계를 이해하고, 질병 예방과 치료에 대한 정보를 얻을 수 있습니다.

이 논문을 이해하기 위해서는 생명공학에 대한 기본적인 지식이 필요합니다. 생명공학에 대한 기본적인 지식이 없는 경우에는 이 논문을 이해하기 어려울 수 있습니다. 이 경우에는 생명공학에 대한 기초적인 지식을 학습하고, 이 논문을 다시 읽어보는 것이 좋습니다.


결론: 응? 무엇을 요약했는지 무슨 말인지 하나도 모르겠다.

아니 생명공학에 대한 기본 지식이 있는 전공자가 귀찮아서 생명공학을 전공하지 않은 사람들에게 설명하는 글을 작성해달라고 clova-x를 돌렸는데 기초지식을 학습하고 다시 논문을 읽어보라니.... 요놈 보소

결국 UK Biobank는 아이디어만 있으면 할 수 있는게 무궁무진 하다는 것 되겠습니다.




출처: @ye._.vely618


일요일, 9월 17, 2023

탐지한 varaint가 대체 왜 이러지?

이것저것 변이 call을 하다보면 가끔씩 여러개의 변이가 한번에 call되는 경우가 있습니다.

여러개의 변이가 한번에 call되는 경우는 대게 multi allelic 이거나 multi-nucleotide variant 정도일겁니다.

※ Multi Allelic

1번 염기서열 위치에 Reference는 TA였는데 변이 call결과에 T,TAA,TAAA 가 확인되었을 때 를 얘기하는 경우



※ Multi Nucleotide Variant

159030번 염기서열 위치에 Reference가 TAACCTTTC였는데, TGACCTTTT로 call되었다고 하는 경우, 일반적으로 이런 경우 159031번과 159038번만 reference와 다른데 왜 뭉뚱그려서 여기가 다 변이입니다 하는 경우 입니다.
TAACCTTTC
TGACCTTTT

그러나 다행히 우리에게는 VT라는 천하무적 tool이 있습니다.
이런 multi allelic나 multi nucleotide variant 가 있는 경우 이것을 뜯어서 분리하는 sub command를 가지고 있다고 하네요 :)

난 multi Allelic를 분리하고 싶어요! 라면 

vt decompose input.vcf -o decomposed.vcf 
이렇게

아니에요 나는 multi nucleotide variant를 분리하고 싶어요! 라면

$vt decompose_blocksub -p input.vcf -o decomposed.vcf 
이렇게 명령어를 실행시켜 주면 된다고 합니다.

multi allelic가 나오고 multi nucleotide variant가 당신을 괴롭히더라도 당신 곁에는 vt가 있다는 것을 잊지 마세요.

다시 또 유익한 정보를 가지고 돌아오도록 하겠습니다. :)




출처: @ye._.vely618


수요일, 8월 16, 2023

누가 누가 Annotation을 잘 하나

작년에 나온 논문으로 NGS를 활용한 임상 유전체 판독 할 때 어떤 annotation tool을 쓰면 좋을지에 대한 내용입니다.

A performance evaluation study: Variant annotation tools - the enigma of clinical next generation sequencing (NGS) based genetic testing

doi: 10.1016/j.jpi.2022.100130


현재 다양한 annotation tool이 사용되고 있긴 하나 그 중에서 Alamut, ANNOVAR, VEP 3개 tool을 벤치마킹 해봤다고 합니다.

VEP는 Ensembl Variant Effect Predictor이고,
Alamut는 SOPHiA GENETICS에서 제공하고 있는 tool,
ANNOVAR은 qiagen에서 제공하고 있는 tool로 3개 tool 모두 annotation해봤다고 해봤으면 한번쯤 구경은 해봤을 tool 일겁니다.

결과를 얘기하자면 이 3개 tool을 이전에 확인되었던 298개 변이를 대상으로 벤치마킹하였고 이 중에서 VEP가 가장 성능이 좋았고, ANNOVAR이 가장 낮을 일치율을 보여주었다고 합니다. (298개 중 20개가 불일치하여 93.3%의 일치율)

그래서 Lurie Molecular Diagnostics Laboratory(저자들의 소속 기관)은 VEP를 사용하기로 하였다고 논문에 언급하긴 했는데 진짜 VEP를 사용하고 있는지 ANNOVAR나 Alamut를 몰래 사용하고 안하는지는 제가 알 방법이 없네요

여튼 NGS의 발달로 말미암아 WGS를 하면 400만개, WES를 하면 ~2만개 정도의 변이들을 탐지할 수 있게 되었죠. 그래서 이전에는 변이를 하나하나 탐지하는게 병목점이었다면 이제는 탐지된 변이를 정확하게 판독 할 수 있도록 annotation을 하는 것이 더 중요하고 병목점이 되었다는 것은 누구나 부인하지 못할 것입니다.

- 물론 최근에는 AI/머신러닝의 발달로 annotation 단계에서도 괄목할만한 신속 정확한 결과를 바라볼 수 있지 않을까 합니다. -

이런 이유로 Lurie Molecular Diagnostics Laboratory에서도 이전에는 Alamut를 사용하고 있었는데 라이센스 문제등 효율적인 문제가 부각되어 상용 tool들과 오픈 소스인 VEP간의 annotation 결과 일치도 테스트를 해보게 되었다고 합니다.


그렇다면 비교를 하기위해서는 정답이 있는 문제지가 있어야 되겠죠?
그래서 이전에 Lurie Molecular Diagnostics Laboratory에서 진행되고 큐레이션 되었던 191개 유전자에 있는 298개 변이를 테스트 세트로 했다고합니다.

3개의 annotation tools을 비교하기 위한 vcf를 준비해서 각각 분석을 진행하였다고 합니다.

그래서 확인한 결과 298개 중 278개 변이는 3개 tool에서 모두 동일하게 확인되었고, 그 중 VEP와 Alamut는 99% 일치 하였으나, ANNOVAR의 경우 20개가 불일치 하였다고 합니다. 298개 중 278개 변이가 3개 tools에서 동일하게 나온 이유가 ANNOVAR가 제대로 분석을 하지 못해서였네요.. 

VEP는 298개중 297개를, Alamut는 298개중 296개를 올바르게 annotation을 하였고, ANNOVAR은 위에서 언급한대로 278개만 올바르게 annotation을 하였다고 합니다.

조만간 누군가 고도화된 AI/머신러닝을 탑재한 annotation tool을 출시하면 새바람이 불지 않을까합니다.

그때까지 밥벌이는 해보는걸로 :)



출처: @ye._.vely618


수요일, 3월 08, 2023

임상에서 변이 탐지는 조금은 달라야지

오늘 읽어본 논문은 임상에서 변이탐지을 위한 모범 사례에 대한 내용입니다.

Best practices for variant calling in clinical sequencing


DOI: 10.1186/s13073-020-00791-w 


사실 지난번 논문이 현장에서는 더 도움이 되는 논문이긴 하나 

임상 현장에서의 의견이 좀 더 녹아져 있을까 해서 읽어보았습니다.

그래봤자 이미 우리 모두 대략적으로 다 알고 있는 바로 그 얘기입니다.


업으로 하고 있으신 들이 보면 사실 새로운건 없어요. 그냥 레퍼런스에요


어떤 정렬 프로그램이 좋은지, 정렬 하고 나서 바로 변이 탐지를 해도 되는지, 아니면 전처리를 어떻게 하고 변이 탐지를 하면 좋은지, 어떤 변이 탐지 방법을 사용하는게 좋은지..

여기서는 GATK 모범 사례를 주로 들긴 했지만, 여러 변이 탐지 프로그램 사용해서 가급적 못잡는 변이를 최소화하고, 가끔 de-novo 변이가 있는데 그거는 나도 모르겠으니 IGV 키고 눈씻고 찾아봐라. CNV도 시중에 떠돌아 다니는 프로그램 사용하더라도 마지막에는 IGV켜서 확인해라.

인듯하네요.



그리고 다음 내용은 MS사의 Bing에게 "요약해줘"(균형있게) 치트키를 써서 나온 내용입니다.

이 논문은 유전 질환과 암과 같은 질병에 대한 임상 유전 검사에서 사용되는 차세대 시퀀싱 기술의 발전에 따라 정확한 변이 호출이 얼마나 중요한지를 설명합니다. 또한 현재 변이 호출에 대한 최선의 관행과 향후 개선 방향을 제시합니다.


답변 후 요약이 충분히 도움이 되었나요? 더 자세한 정보를 원하시면 말씀해달라고 해서, "아니오, 더 자세히 알고 싶어요" 해서 나온 내용은 아래와 같습니다.

논문은 다음과 같은 내용으로 구성되어 있습니다.

배경: 차세대 시퀀싱(NGS) 기술은 임상 유전 검사의 범위와 정확도를 크게 향상시켰습니다. 그러나 NGS 데이터에서 변이를 호출하는 과정은 여전히 복잡하고 오류가 발생하기 쉽습니다. 따라서 변이 호출에 대한 표준화된 가이드라인과 최적화된 파이프라인이 필요합니다.

본론: 논문에서는 NGS 데이터에서 변이를 호출하는 과정에 영향을 미치는 여러 요인들을 설명합니다. 예를 들어, 시퀀싱 플랫폼, 시료 준비 방법, 분석 소프트웨어 등입니다. 또한 현재 사용되고 있는 변이 호출 알고리즘과 도구들을 비교하고 평가합니다. 마지막으로 임상 유전 검사에서 변이 호출의 정확도와 신뢰도를 향상시키기 위한 권장 사항과 개선 방안을 제시합니다.

결론: NGS 기술은 임상 유전 검사의 혁신적인 도구입니다. 그러나 변이 호출은 여전히 어려운 문제입니다. 이 논문은 임상 유전 검사에서 변이 호출에 대한 최선의 관행과 향후 연구 방향을 제공합니다.

더 궁금하신 점이 있으신가요?🙋


다음은 chatGPT한테 요약해줘 한 내용

이 논문은 기존 유전체 연구를 보완하고, 유전체 변이를 활용하여 질병 진단과 치료 방법을 개선하는 것을 목적으로 하고 있다.

이 논문에서는 유전체 연구의 새로운 방법으로 'CRISPR-Cas9' 기술을 사용하여 질병 관련 유전자를 수정하는 방법을 제시한다.

chatGPT는 참 치명적으로 창의적인듯...


결론은 chatGPT한테 링크 알려주고 요약해줘하면 헛소리 작렬, MS Bing한테 링크 알려주고 요약해줘 하면 성심껏 알려주는 거기다가 답변도 창의적으로, 균형있게, 근거기반 세분화해서 알려주는게 포인트



@ye._.vely618


토요일, 3월 04, 2023

역시 변이 탐지에서도 machine learning

역시 세상에는 내마을을 알고 있는 분들이 있다는..

논문 제목은 Systematic benchmark of state-of-the-art variant calling pipelines identifies major factors affecting accuracy of coding sequence variant discovery 입니다.

doi: https://doi.org/10.1186/s12864-022-08365-3


결론은 누가누가 변이를 잘 찾나 테스트 되겠습니다.

그래서 샘플 준비도 GIAB과 함께 non-GIAB 데이터도 준비하고, 정렬 프로그램도 BWA, BOWTIE, Isaac, Novoalign 다양하게, 변이 caller도 GATK, FreeBayes, Strelka이외에도 DeepVariantClair3Octopus 등 다양한 변이 caller를 도입해서 테스트를 진행해 보았다고 합니다.

Clair3와  Octopus는 처음들어 봤네요 @.@ 역시 사람은 공부를 해야함

그리고 GIAB외에도 non-GIAB 데이터를 활용한것은 또 새로운 접근법인듯합니다. 아무래도 많은 연구가 이뤄진 데이터와 그러지 않은 데이터간의 차이가 있을 수 있고, 아직 T2T를 사용한 변이 탐지 벤치마킹 논문을 찾아보진 못했는데 이 또한 조만간 나오겠네요. 이미 나와 있을수도.. 


여튼 이것저것 따져 봤을 때 정렬 프로그램은 일단 Bowtie2는 성능이 저하되는 결과를 보여주기에 사용하면 안되는 방법이고, 변이 탐지에서는 DeepVariant가 좋은 성능을 보이는 결과를 얻을 수 있었다고 합니다.

그리고 GIAB와 non-GIAB 샘플을 비교해본 바 현재 사용하는 분석 방법이 GIAB에서만 좋은 결과를 보이고 non-GIAB에서는 그렇지 않다는 것, aka GIAB 샘플이나 non-GIAB 샘플이나 편견없이 잘 분석된니, 현재 분석 방법들을 활용해도 문제가 없다는 것을 확인하였다고 합니다.

그러나 아직 존재하는 몇 가지 문제점을 지적하기도 했습니다.

기계학습 방법을 사용하는 caller 같은 경우 모델에 따라 변이 탐지에 문제가 발생할 수 있기 때문에 조심해서 사용하여야 하고, 앞서 얘기했던 T2T 표준 유전체를 사용하였을 때 발생할 수 있는 기존 정렬 프로그램이나 변이 탐지 프로그램의 한계점이나 영향(부정적인)은 확인된바가 없기떄문에 검토가 필요하다는 점, GIAB이나 non-GIAB이던 일반적인 벤치마킹에 사용하고 있는 표준 샘플들의 사용 region에 대한 문제, 대게 잘 정의된 변이들은 유전자 영역에 분포하고 있기 때문에 비유전자 영역에 있는 변이 또는 시퀀싱이 잘 되지 않은 영역들에 대한 정보는 제한적일 수 있기에 이런 단점들이 보강된 표준 샘플들이 필요하는 점, NGS 데이터의 경우 지속적으로 개선되고 새로운 방법이나 도구들이 개발되고 있으나 민감도, 재현성과 같은 변이 탐지 성능 지표에 집중되어 있지 분석 시간이나 사용의 편의성, 프로그램 설치 난이도와 같은 비교적 중요하게 다루지 않는 항목들에 대해서도 관심이 필요하다는 것들에 대해서 언급을 해주었습니다. 


간만에 최신 변이 탐지 벤치마킹 논문을 한번 읽어봤는데, 저는 유익한 시간이었는데 어떠셨나요? 

이제 즐거운 주말을 보내러~ :)


ps. 근데 chatGPT한테 요약 해달라고 하니 왜 이 논문에서 Dama dama (사슴)을 왜 그리 찾는지... 처음에는 내가 url을 잘못 입력한줄 알았는데... 



출처: @ye._.vely618


일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)


오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한  BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -


3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )




Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.


Sequencing Samples Bases(Gbp) Read(x106) Clean rare >Q20 >Q30 GC Mean coverage
BGISEQ500-WES 29.41 294.3 0.41% 96.72% 89.14% 49.75%  328.49X
MGISEQ2000-WES 16.34 163.55 0.25% 98.18% 92.08% 49.71%  129.40X
HiSeq4000-WES 41.93 283.7 4.46% 97.36% 93.01% 50.63%  395.17X
NovaSeq-WES 25.88 178.87 2.25% 95.33% 92.67% 49.73%  241.52X
BGISEQ500-WGS 126.86 1270.02 1.76% 93.73% 83.33% 41.76%  41.03X
MGISEQ2000-WGS 137.36 1374.87 0.21% 96.17% 88.19% 41.76%  45.13X
HiSeq4000-WGS 191 1276.1 8.25% 95.90% 90.11% 41.69%  58.00X
NovaSeq-WGS 98.3 657.45 1.28% 95.89% 93.86% 41.61%  28.96X
HiSeq Xten-WGS 134 894.58 7.29% 94.50% 87.63% 40.71%  38.93X
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ...  :)


출처: @sana_twice.09