레이블이 변이탐지인 게시물을 표시합니다. 모든 게시물 표시
레이블이 변이탐지인 게시물을 표시합니다. 모든 게시물 표시

수요일, 3월 08, 2023

임상에서 변이 탐지는 조금은 달라야지

오늘 읽어본 논문은 임상에서 변이탐지을 위한 모범 사례에 대한 내용입니다.

Best practices for variant calling in clinical sequencing


DOI: 10.1186/s13073-020-00791-w 


사실 지난번 논문이 현장에서는 더 도움이 되는 논문이긴 하나 

임상 현장에서의 의견이 좀 더 녹아져 있을까 해서 읽어보았습니다.

그래봤자 이미 우리 모두 대략적으로 다 알고 있는 바로 그 얘기입니다.


업으로 하고 있으신 들이 보면 사실 새로운건 없어요. 그냥 레퍼런스에요


어떤 정렬 프로그램이 좋은지, 정렬 하고 나서 바로 변이 탐지를 해도 되는지, 아니면 전처리를 어떻게 하고 변이 탐지를 하면 좋은지, 어떤 변이 탐지 방법을 사용하는게 좋은지..

여기서는 GATK 모범 사례를 주로 들긴 했지만, 여러 변이 탐지 프로그램 사용해서 가급적 못잡는 변이를 최소화하고, 가끔 de-novo 변이가 있는데 그거는 나도 모르겠으니 IGV 키고 눈씻고 찾아봐라. CNV도 시중에 떠돌아 다니는 프로그램 사용하더라도 마지막에는 IGV켜서 확인해라.

인듯하네요.



그리고 다음 내용은 MS사의 Bing에게 "요약해줘"(균형있게) 치트키를 써서 나온 내용입니다.

이 논문은 유전 질환과 암과 같은 질병에 대한 임상 유전 검사에서 사용되는 차세대 시퀀싱 기술의 발전에 따라 정확한 변이 호출이 얼마나 중요한지를 설명합니다. 또한 현재 변이 호출에 대한 최선의 관행과 향후 개선 방향을 제시합니다.


답변 후 요약이 충분히 도움이 되었나요? 더 자세한 정보를 원하시면 말씀해달라고 해서, "아니오, 더 자세히 알고 싶어요" 해서 나온 내용은 아래와 같습니다.

논문은 다음과 같은 내용으로 구성되어 있습니다.

배경: 차세대 시퀀싱(NGS) 기술은 임상 유전 검사의 범위와 정확도를 크게 향상시켰습니다. 그러나 NGS 데이터에서 변이를 호출하는 과정은 여전히 복잡하고 오류가 발생하기 쉽습니다. 따라서 변이 호출에 대한 표준화된 가이드라인과 최적화된 파이프라인이 필요합니다.

본론: 논문에서는 NGS 데이터에서 변이를 호출하는 과정에 영향을 미치는 여러 요인들을 설명합니다. 예를 들어, 시퀀싱 플랫폼, 시료 준비 방법, 분석 소프트웨어 등입니다. 또한 현재 사용되고 있는 변이 호출 알고리즘과 도구들을 비교하고 평가합니다. 마지막으로 임상 유전 검사에서 변이 호출의 정확도와 신뢰도를 향상시키기 위한 권장 사항과 개선 방안을 제시합니다.

결론: NGS 기술은 임상 유전 검사의 혁신적인 도구입니다. 그러나 변이 호출은 여전히 어려운 문제입니다. 이 논문은 임상 유전 검사에서 변이 호출에 대한 최선의 관행과 향후 연구 방향을 제공합니다.

더 궁금하신 점이 있으신가요?🙋


다음은 chatGPT한테 요약해줘 한 내용

이 논문은 기존 유전체 연구를 보완하고, 유전체 변이를 활용하여 질병 진단과 치료 방법을 개선하는 것을 목적으로 하고 있다.

이 논문에서는 유전체 연구의 새로운 방법으로 'CRISPR-Cas9' 기술을 사용하여 질병 관련 유전자를 수정하는 방법을 제시한다.

chatGPT는 참 치명적으로 창의적인듯...


결론은 chatGPT한테 링크 알려주고 요약해줘하면 헛소리 작렬, MS Bing한테 링크 알려주고 요약해줘 하면 성심껏 알려주는 거기다가 답변도 창의적으로, 균형있게, 근거기반 세분화해서 알려주는게 포인트



@ye._.vely618


토요일, 3월 04, 2023

역시 변이 탐지에서도 machine learning

역시 세상에는 내마을을 알고 있는 분들이 있다는..

논문 제목은 Systematic benchmark of state-of-the-art variant calling pipelines identifies major factors affecting accuracy of coding sequence variant discovery 입니다.

doi: https://doi.org/10.1186/s12864-022-08365-3


결론은 누가누가 변이를 잘 찾나 테스트 되겠습니다.

그래서 샘플 준비도 GIAB과 함께 non-GIAB 데이터도 준비하고, 정렬 프로그램도 BWA, BOWTIE, Isaac, Novoalign 다양하게, 변이 caller도 GATK, FreeBayes, Strelka이외에도 DeepVariantClair3Octopus 등 다양한 변이 caller를 도입해서 테스트를 진행해 보았다고 합니다.

Clair3와  Octopus는 처음들어 봤네요 @.@ 역시 사람은 공부를 해야함

그리고 GIAB외에도 non-GIAB 데이터를 활용한것은 또 새로운 접근법인듯합니다. 아무래도 많은 연구가 이뤄진 데이터와 그러지 않은 데이터간의 차이가 있을 수 있고, 아직 T2T를 사용한 변이 탐지 벤치마킹 논문을 찾아보진 못했는데 이 또한 조만간 나오겠네요. 이미 나와 있을수도.. 


여튼 이것저것 따져 봤을 때 정렬 프로그램은 일단 Bowtie2는 성능이 저하되는 결과를 보여주기에 사용하면 안되는 방법이고, 변이 탐지에서는 DeepVariant가 좋은 성능을 보이는 결과를 얻을 수 있었다고 합니다.

그리고 GIAB와 non-GIAB 샘플을 비교해본 바 현재 사용하는 분석 방법이 GIAB에서만 좋은 결과를 보이고 non-GIAB에서는 그렇지 않다는 것, aka GIAB 샘플이나 non-GIAB 샘플이나 편견없이 잘 분석된니, 현재 분석 방법들을 활용해도 문제가 없다는 것을 확인하였다고 합니다.

그러나 아직 존재하는 몇 가지 문제점을 지적하기도 했습니다.

기계학습 방법을 사용하는 caller 같은 경우 모델에 따라 변이 탐지에 문제가 발생할 수 있기 때문에 조심해서 사용하여야 하고, 앞서 얘기했던 T2T 표준 유전체를 사용하였을 때 발생할 수 있는 기존 정렬 프로그램이나 변이 탐지 프로그램의 한계점이나 영향(부정적인)은 확인된바가 없기떄문에 검토가 필요하다는 점, GIAB이나 non-GIAB이던 일반적인 벤치마킹에 사용하고 있는 표준 샘플들의 사용 region에 대한 문제, 대게 잘 정의된 변이들은 유전자 영역에 분포하고 있기 때문에 비유전자 영역에 있는 변이 또는 시퀀싱이 잘 되지 않은 영역들에 대한 정보는 제한적일 수 있기에 이런 단점들이 보강된 표준 샘플들이 필요하는 점, NGS 데이터의 경우 지속적으로 개선되고 새로운 방법이나 도구들이 개발되고 있으나 민감도, 재현성과 같은 변이 탐지 성능 지표에 집중되어 있지 분석 시간이나 사용의 편의성, 프로그램 설치 난이도와 같은 비교적 중요하게 다루지 않는 항목들에 대해서도 관심이 필요하다는 것들에 대해서 언급을 해주었습니다. 


간만에 최신 변이 탐지 벤치마킹 논문을 한번 읽어봤는데, 저는 유익한 시간이었는데 어떠셨나요? 

이제 즐거운 주말을 보내러~ :)


ps. 근데 chatGPT한테 요약 해달라고 하니 왜 이 논문에서 Dama dama (사슴)을 왜 그리 찾는지... 처음에는 내가 url을 잘못 입력한줄 알았는데... 



출처: @ye._.vely618