일요일, 11월 19, 2023

NGS을 임상에 사용하기 위한, 5년의 시간

최근에 임상실험실에서 NGS 서비스를 시작한다고 하는 내용들의 뉴스..
를 신기하게 보시는 분들도 물론 있으실겁니다.

그러나 전공자나 업계에 몸 담고 있는 분들에게는 그리 신기하지 않은.. "아.. 어디 임상실험실에서 NGS 서비스를 하는구나" 정도로.. 어느 실험실에서 NGS로 검사를 해준다라고.. 정도의 수준일겁니다.


하지만 10년전만해도 NGS가 무슨 임상실험실에서 검사 서비스로 가당키나 한 분석 방법이냐고 하시는 분들이 대다수였을 때에 5여년동안 데이터를 쌓아서 NGS 플랫폼의 타당성을 입증한 논문이 있어 한번 가져와봤습니다.

Next generation sequencing for clinical diagnostics: Five year experience of an academic laboratory

DOI: 10.1016/j.ymgmr.2019.100464

태평양 건너 있는 미국 미네소타 대학교의 임상 실험실에서 2012년부터 2017년 동안, 자그마치 5년동안 NGS로 임상 진단 검사를 실시했던 데이터를 차곡 차곡 잘 수집/축적하여 공개한 내용으로 

2012년 8월부터 2014년 3월 까지는 568 유전자 영역의 SureSelect 패널을,

2014년 4월 부터 2017년 9월 까지는 일루미나의 TruSightOne 패널을,

2017년 10월부터 2017년 12월 까지는 TruSightOne 확장 패널을 사용하여

각각 349개, 2058개, 102개 검체, 모두 2059건의 검사를 실시했다고 하네요

전반적으로 25% 진단율을 유지하였다고 하고, 불확실한 의미 변이인 VUS 수가 2012년도에는 75%정도였는데 2017년도에서는 50%정도로 감소되었다고 합니다. 사실 지금 다시 하면 25%정도로 더 감소되어있지 않을까 하는 생각도 드네요. 

그리고 다양한 질병들에 대해서 진단을 하였는데 질병마다 진단율의 차이를 보였고, 피부병이나 청력손실, 안과질환 같은 경우에는 진단율이 40% 이상의 높은 진단율이, 소화기나 호흡기 질환의 진단율은 10%로 낮았다고 하는데 사실 이건 유전적 원인과 관계가 있냐없냐가 더 중요한 요인으로 보이네요.

결과적으로 이 연구 결과, 5년동안 2천개 넘는 검체를 검사해봤는데 NGS가 임상진단에 사용할 수 있는 유용성을 입증하였다고 생각되고, NGS가 임상 진단 부문에서 사용 할 수 있는 가시적은 근거자료로 활용되어 병원관리자들이 NGS 인프라에 투가하도록 설득 할 수 있는 자료로 사용 할 수 있다고... ??

그거까지는 난 모르겠고, 이전의 많은 연구진들의 연구 결과로 말미암아 이제는 NGS 검사가 우리 생활에 생각보다 많이 사용되고 있다는 것은 맞는 얘기인것 같습니다.

이전에 연구진들의 노고가 아니었다면 아직도 연구수준에서 벗어나지 못했을것 같습니다.

가끔 이런 논문들을  한번 들춰보는것도 나쁘지는 않아서 한번씩 꺼내볼 생각입니다.




출처: @ye._.vely618


일요일, 11월 12, 2023

Long Read Sequencing을 전적으로 믿으셔야 합니다.

항상 느끼는것이지만 사람들은 익숙한것에 익숙하다는...
물론 이 글을 쓰는 본인도 별반 차이 없다는게 현실
그럼에도 불구하고 세상에는 익숙한것을 거부하고 한 걸음 나아가는 분들이 있어서 발전한다는...

오늘은 유전체분야에서 다들 익숙한 짧은길이의 시퀀싱 플랫폼 대신 Long read 시퀀싱 플랫폼을 왜 써야하는지 보여주는 논문이 있어 들고와봤습니다.

The blooming of long-read sequencing reforms biomedical research

DOI: 10.1186/s13059-022-02604-2


Long read 시퀀싱의 대표주자인 PacBio와 Nanopore가 나온지도 꽤 된것 같으나, 아직 주류 시퀀싱 플랫폼으로서는 자리매김을 하지 못한... 조명받지 못하고 있지만.. 그 진가를 하나둘씩 알게되고 안쓸수 없지 않을까 합니다.

물론 이 Long read 플랫폼을 안 쓸수 없지만 PacBio/Nanopore 플랫폼을 이용해서 진단 키트를 개발하여 돈을 벌 수 있게 된다는 것은 아닙니다. 오해 없으시기 바랍니다. Long read 플랫폼에서 기존 NGS 시스템에서 해온 것 같이 하려고 하면 개인적인 생각으로는 그냥 하지 마세요 라고 말하고 싶네요. 그런 생각이라면..


여튼 Long read 플랫폼은 genome assembly과 transcriptome 분야에서 활약을 하고 있다고 하는데 이는 기존 NGS의 짧은 read로 인한 한계를 극복하였기 때문에 가능한 당연한 결과였을 듯 합니다.

genome assembly를 설명하면서 이런 저런 설명을 하였는데 사실 T2T genome이 세상에 나왔는데 무슨 설명이 더 필요할지... 물론 다배체면서, repeat 서열이 엄청 긴 식물과 같은 다양한 생물의 유전체 연구에서는 아직 할일이 많이 남아있을듯 합니다.

그리고 더불어 transcriptome, 전사체에서도 두각을 나타내고 있다고 합니다. 이전에 PcaBio사에서 나온 Iso-Seq이라는 플랫폼이 있었는데 기존 숏리드 플랫폼으로는 할 수 없었던 full-length 유전자 서열을 확인하여, 다양한 gene의 isoform 을 확인 할 수 있었는데, 이제는 이는 당연한것이고, read count를 활용하여 정확한 발현 측정까지도.. 가능하다고 합니다. 또한 이 논문에서 처음 보았는데 exitron이라는 것도 확인하였다고 하네요.

더불어 당연히 암연구에서도 long-read 플랫폼이 중요한 역할을 하고 있는데, 시퀀싱을 위해 dna나 rna가닥을 증폭시키지 않은 특징 때문에 가능 응용법이긴하죠. 특히 nanopre 플랫폼을 사용하여 급성 골수성 백혈병 (AML) 환자의 RNA변이와 fusion gene 구조를 확인하기도 하였고, 대장암 세포주에서 5mC 위치와 양을 정량하여 각각 AML와 대장암 연구에 도움이 되고 있다고 합니다.

이렇듯 Long Read Seq 플랫폼은 이제 쓰지 않을 이유가 없는 플랫폼으로 우리 곁에 생각보다 가깝게 다가왔으나 생각에는 Long이든 Short든 정확하게 내 병의 이유를 빠르고 "싸게" 알아낼 수 있으면 모두 행복한 것 아니겠습니까?

그럴 수 있는 방법이 어딘가에 있겠죠, 없으면, 언제나 그러했듯이 우리는 또 해답을 찾아내겠죠. :)




출처: @ye._.vely618


수요일, 11월 08, 2023

이제는 전체 16S rRNA 서열을 봐야하지 하지 않을까? 하는 얘기

마이크로바이옴 분석을 할 때 매번 나오는 얘기로 16S rRNA에서 V3-V4  영역만으로 괜찮겠냐, full 16S rRNA봐야하는거 아니냐? whole sequencing해야하는거 아니냐 라는 내용의 논문이 있엇 한번 가져와봤씁니다.

2019년에 출판된 "Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis" 종/strain 수준의 16s RNA 서열 평가에 대한 내용 되겠습니다.

DOI: doi.org/10.1038/s41467-019-13036-1


16S rRNA는 박테리아 분석, microbiome 분석 시 주로 사용해오고 있고, 지금도 활발히 사용되고 있는 분석 방법 이지만, 지금까지는 V3-V4 영역만을 대상으로하는 방법이었고, 이제는 전체 16S rRNA를 확인하는 것에 대해서 얘기해봐야 하는 시점이 되었죠.

이전까지 16S의 V3-V4 영역으로 구분이 안되는 종들이 있었고, 지금까지 하던 분변 마이크로바이옴은 모르겠다만, 다른 환경의 마이크로바이옴을 할때는 V4-V5가 더 좋아보이는데 너님들의 생각은 어때? 라는 논문이 꾸준히 나오는거 봐선 이제 전장 16S rRNA 방법이 두각을 나타날때가 되긴했죠 :)


바드에 물어보니 다음과 같이 요약해 주었습니다.

  • 16S rRNA 유전자 시퀀싱은 미생물군집 내의 다양한 종과 균주를 식별하고 그들의 풍부도를 정량화하는 데 사용할 수 있습니다.
  • 또한 미생물군집의 구성 변화를 추적하는 데 사용할 수 있습니다.
  • 그러나 16S rRNA 유전자 시퀀싱은 균주 수준에서 정확도가 떨어질 수 있으며, 유사한 종을 구분하기 어려울 수 있습니다.
  • 16S rRNA 유전자 시퀀싱의 정확도는 향상되고 있으며, 미생물군집을 연구하는 연구자들에게 유용한 도구입니다.
다른 미생물군집 분석 방법으로는 샷건 메타지놈 분석과 whole-genome 시퀀싱이 있지만 이 방법들은 16S rRNA 분석 방법보다 돈도 많이 들고, 시간도 더 많이 소요되니 너님이 궁금해하는게 무엇인지에 따라 선택해야하지 않겠니?

정도로 잘 요약해 줬습니다.V3-V4 수준이 아닌 고품질의 full 16S rRNA 데이터를 확보할 수 있으니 이제 V3-V4, V4-V5와 같은 좁은 영역이 아닌 full 16S rRNA로 microbiome 분석을 진행하는것이 좋아보이고, 이제 충분히 품질이나 비용이 만족할 수준까지 왔으니 더 나은 결과를 위해서 나와 함께 해보지 않겠는가? 라는 내용 되겠습니다.




출처: @ye._.vely618


수요일, 11월 01, 2023

NGS을 기반으로 하는 항체 선택 전략에 대한 insight에 대해서

11월의 첫 포스팅 링크드인에서 랩실 후배님께서 공유해주신 따끈한 논문 하나를 구글 바드에 한번 물어보았습니다.


항체 선택을 NGS를 사용하면 효과적/효율적으로 할 수 있다 에 대한 내용을 정리한 논문으로 제목은 "Insights into next generation sequencing guided antibody selection strategies" 입니다. 

doi: 10.1038/s41598-023-45538-w


- 논문 요약

NGS를 기반으로하는 항체 선택 전략에 대한 통찰력 제공.
NGS는 항체의 유전적 다양성을 빠르고 효율적으로 분석 할 수 있는 방법으로, 이를 활용하여 항체의 특이성과 효능을 개선 할 수 있습니다.

-논문 주요 내용

* NGS를 기반으로 하는 항체 선택 전략은 기존의 항체 선택 전략에 비해 보다 효과적이고 효율적입니다.
 ; NGS는 항체의 유전적 다양성을 빠르고 효율적으로 분석할 수 있기 때문에, 기존의 항체 선택 전략에 비해 보다 효과적이고 효율적입니다. 예를 들어, NGS를 사용하면 수백만 개의 항체를 한 번에 분석할 수 있기 때문에, 원하는 특성을 가진 항체를 보다 빠르게 찾을 수 있습니다.

* NGS를 기반으로 하는 항체 선택 전략은 항체의 특이성과 효능을 개선하는 데 도움이 됩니다.
 ; NGS를 사용하면 항체의 특이성과 효능을 개선하는 데 도움이 되는 항체를 선택할 수 있습니다. 예를 들어, NGS를 사용하면 항체가 특정 표적에만 결합하는 항체를 선택할 수 있습니다. 또한, NGS를 사용하면 항체의 결합력과 내성을 개선하는 항체를 선택할 수 있습니다.

* NGS를 기반으로 하는 항체 선택 전략은 다양한 질병에 대한 치료제 개발에 적용될 수 있습니다.
 ; 다양한 질병에 적용 가능: NGS를 사용한 항체 선택 전략은 다양한 질병에 대한 치료제 개발에 적용될 수 있습니다. 예를 들어, NGS를 사용하면 암, 감염병, 자가면역질환 등에 대한 치료제로 사용할 수 있는 항체를 개발할 수 있습니다.

논문의 저자들은 NGS를 기반으로 하는 항체 선택 전략이 항체 치료제 개발에 새로운 가능성을 제시한다고 결론짓습니다.

예로, NGS를 기반으로 하는 항체 선택 전략을 사용하여 특정 질병에 대한 치료 효과가 뛰어난 항체를 개발할 수 있습니다. 또한, NGS를 기반으로 하는 항체 선택 전략을 사용하여 항체의 독성을 줄이고 부작용을 개선할 수 있습니다.

NGS를 기반으로 하는 항체 선택 전략은 항체 치료제 개발의 새로운 장을 열 것으로 기대.


-시사점 

* NGS는 항체 치료제 개발에 필수적인 도구가 될 것입니다.

* NGS를 기반으로 하는 항체 선택 전략은 항체 치료제의 효과와 안전성을 개선하는 데 도움이 될 것입니다.

* NGS를 기반으로 하는 항체 선택 전략은 다양한 질병에 대한 새로운 치료제 개발을 가속화할 것입니다.


오... 그냥 bard에 물어보고 논문에 대해 추가 질문을 계속 물어보면 될듯하네요.


출처: @ye._.vely618

월요일, 10월 30, 2023

Clinical Trial 자료는 어떻게 확인 할 수 있을까?

미국 임상시험 자료는 잘 정리되어 공개되어 있기로 유명하죠

clinical trial 사이트에서 확인 가능한데 

매번 일일이 clinicaltrials.gov에 들어가서 찾기 귀찮은데..

근데 API는 사용할 수준은 안되고..


무슨 방법이 없을까하고 머리를 계속 굴리다보면 찾아지는게 인지상정 아니겠습니까,

물론 최근 새로 리뉴얼 된 clinicaltrial.gov에서는 제공되지는 않습니다.

예전 clinicaltrials사이트인 classic.clinicaltrials.gov에서 확인 가능합니다.

친절하게 다음 URL을 당신의 브라우저에 입력하면 파일을 다운로드 받을 수 있다 라고 얘기하고 있습니다.

https://classic.clinicaltrials.gov/AllPublicXML.zip


대신 이 파일이 최신 임상 시험 자료까지 포함하고 있다고 자신은 못할 것 같습니다. :)

내부에 미국 임상시험 DB를 구축하고 싶을 때 사용할 수 있음직한 파일이 될 것 같습니다.


다음에 또 유용한 정보를 가지고 돌아와보도록 하겠습니다. :)






출처: @ye._.vely618


금요일, 10월 27, 2023

롱리드 시퀀싱을 쓰지 않을 이유가 있는가?

이번 논문은 제가 참여한 논문입니다.. 흠흠..

이름하여 Two long read-based genome assembly and annotation of polyploidy woody plants, Hibiscus syriacus L. using PacBio and Nanopore platforms

DOI: 10.1038/s41597-023-02631-z

Hibiscus syriacus, 쉽게말해 무궁화 genome을 assembly하는데 어떤 데이터를 어떤 assembly 도구로하면 그래도 가성비가 좋은지에 대해서 확인한 논문 되겠습니다.

무궁화는 full genome은 이미 몇해전에 나와있는 상태고요, 아마 무궁화가 2배체가 아니라 4,6배체로 기억됩니다. 그래서 숏리드가지고 assembly가 만만치 않았는데 그 데이터를 바탕으로 이전에는 short리드로 어렵싸리 했었는데 이번에는 롱리드 시퀀싱으로 하면 어떻게 되는지 확인 해보자 입니다.

이전 무궁화 genome project 논문에서 핸들링하는 데이터 양을 정확히는 모르겠으나 어마무시했던것으로 알고 있습니다. 거기다가 숏리드라서 양쪽 로우 퀄리티 좀 정리해주고, scaffold용 mate-paired 데이터 정리작업하는데도 아마 꽤나 시간이 걸릴겁니다.

나노포어 데이터(ONT)와 PacBio data가 있었는데, 솔까말 ONT 데이터로만 해도... 사실 갠춘합니다.

그런데 여기서 중요한것은 ONT가 중요하기도 하지만 ONT의 장점을 십분 발휘할 수 있게 해주는 DNA 뽑는게 ART되겠습니다. ONT가 길게 읽을 수 있는거지 template가 짧으면 ONT도 길게 읽고 싶어도 못읽습니다.

결국 실험자의 손이 중요합니다. 손 똥손이면 ONT도 해결 못해줍니다.

그 똥손도 가능하게 해주는게 commercial prep kit이긴한데 현재 기준으로 그런 kit이 있는지는 저는 모르겠습니다. 


여튼 그래서 ONT 데이터를 앞뒤없이 다 때려박고 assembly하지 않았습니다.

cell 하나, cell 2개, 결과가 어떻게 달라지는지 확인해고, assembly tool마다 결과는 어떻게 나오는지 확인하면서 테스트 하였고, 이거쓰세요는 하지 못했지만 그럭적럭 요정도 생산해서 이 tool쓰면 평타 칩니다 라고 가이드는 해드릴 수 있는 논문되겠습니다.

다음에는 테스트하는 code를 간지나게 git에 올려놓고 논문에 url하나 올려둘 수 있도록 해봐야겠습니다. :)


그럼 또 쓸만한 논문을 찾아 돌아오도록 하겠습니다.




토요일, 10월 14, 2023

FFPE 처리된 암조직의 NGS 결과를신뢰할 수 있을까?

몇년전에도 NGS 분석 결과를 그냥 불신하는 분들은 당연히 계셨고 지금도 의심의 눈초리로 바라보는 분들이 없지는 않을겁니다. 물론 저도 NGS를 믿으십시요! 라고는 하지 않습니다. NGS가 모든 문제를 해결 해 주지는 않으니깐요. 그래도 진단에서 NGS는 꽤 나 중요한 위치를 차지하고 있고 효용성을 증명하고 있는데 일방적인 불신은 좋지 않겠죠.

2015년, 아직 NGS으로 진단하기에는 아직 무리이지 라는 의견이 지배적이었고, 그런 편견을 벗어나기 위해 부단히도 애를 쓰고 있었던 때인지는 잘 모르겠으나 그래도 아직 시기상조라는 분위기가 지배적이었던 시절 끊임없이 가능성을 보여주고자 노력했던 연구팀의 논문이 있어 한번 들고 와봤습니다.

그냥 일반 조직에서 시퀀싱한 결과도 믿을 수 없다고 하던 시절, FFPE처리된 샘플에서 BRCA1/2의 somatic 변이 검출을 신뢰 할 수 있다는 것을 보여주는 논문 되겠습니다.

"A reliable method for the detection of BRCA1 and BRCA2 mutations in fixed tumour tissue utilising multiplex PCR-based targeted next generation sequencing" 이라는 제목의 논문입니다.

DOI: 10.1186/s12907-015-0004-6


FFPE, 병리검사를 위해 띠어낸 조직을 장기 보관하기 위해서 처리하는 방법인데, 여기에 사용되는 praffin과 formaldehyde가 DNA 한테는 쥐약이죠..

그래서 FFPE 전용 DNA추출 키트도 나오고 있는데 이미 fragment되어 있고, damage받은 DNA 뽑아서 NGS 돌려봤자 그거 믿을 수 있겠냐? 라는게 FFPE 샘플을 가지고 NGS 수행후 분석 결과를 잘 못믿겠다고 하니 그래서 그거 우리가 확인 했어. 되겠습니다.

그래서 일단 제일 접근하기 쉬운 BRCA1/2를 타겟으로 하였고, 어차피 FFPE 샘플이니 서열들이 조각들 나 있을 테니 증폭시켜서 우선 DNA양을 늘리고 NGS해서 분석 해보자가 가장 좋은 선택지 아니었나 싶습니다.

그래서 다양한 변이 샘플 확보하고 NGS 키트 중에 여러 키트 (GeneRead V1, V2의 BRCA1/2와 Ion AmpliSeq BRCA1/2)로 상호 비교 실험도 했고, Sanger 실험으로 확인도 하였다고 합니다.

그래서 결과적으로 FFPE 샘플에서 추출한 DNA로 NGS 분석으로 돌연벼이를 확인 할 수 있었고, 일부 rare한 frequency를 가지고 있는 변이의 경우 Sanger로는 찾기 힘들었으나 NGS로는 찾을 수 있었다.

그러나 그래도 아직 germline을 분석(이 연구에서는 somatic BRCA1/2 변이를 탐지 했습니다.)을 대체하는 용도로는 안되고, 환자에게 득이 될 수 있는 PARP 억제요법을 사용할지 여부를 확인하는 용도로는 사용할 수 있을 것 같다라고 마무리하고 있습니다.

이처럼 그전까지는 카더라로마 떠돌었떤 근거없는 소문을 여러 다양한 케이스와 방법을 통해 벤치마킹을 하여 충분히 사용할 수 있는데? 라는 근거를 제시함으로써, 좋은 기술을 적재적소에서 사용 할 수 있게 해주는 것도 굉장히 중요한 일 인듯 합니다.

그럼 15년도에 FFPE로 somatic 변이를 NGS로 수행해서 변이를 찾을 수 있지만 제한적이라고 했는데, 지금은 기술이 더 발달 했는데, 그 제한적인 사용처가 극복이 되었는지? 아니면 그대로 별 차이가 없는지를 조만간 확인해보는 시간을 가지면 좋겠네요.

그럴 수 있기를 제발~  :)


출처: @ye._.vely618

수요일, 10월 11, 2023

Interpretation도 이제는 AI가 해야지

간만에 지난달에 출판된 따끈따끈한 논문 하나 읆어보는 시간 가져보도록 하겠습니다.

AlphaGo와 AlphaFold로 유명한 DeepMine에서 나온 논문으로 제목은 "Accurate proteome-wide missense variant effect prediction with AlphaMissense" 입니다.

DOI: 10.1126/science.adg7492

한 줄로 요약하자면 단백질 기능에 영향을 줄 수 있는 Missense Mutation가 발생하였을 경우 이 돌연변이가 질병을 유발할 수 있는 pathogenic 변이인지 알려주는 모델이라고 보시면 되겠습니다.

단, Missense Mutation 즉 아미노산이 바뀌는 유전적 변이에 대해서 pathogenic 정도를 알려 줄 수 있습니다. 아직 절반의 성공이긴 하죠. 

그래도 지금까지 인류는 missense mutation에 대해서 inpterpretation작업을 진행하였을 때 극소수, 논문에서는 0.1% 정도만 확인 하였다 라고 하고 있을 정도 극히 일부만 알 수 있었으나 이 AlphaMissense는 가능한 missense mutation 중 89%에 대해서 benign이나 pathogenic 을 구분할 수 있다고 합니다.

사실 AlphaMissense 모델이 나올 수 있었던데에는 AF, aka AlphaFold가 있었기에 가능했다고합니다. AlphaFold가 지구상에 있는 가능한 모든 단백질 구조를 예측하였고, 이 단백질 구조들을 바탕으로 정상적인 단백질 구조와 이상한 단백질 구조(질병과 관련있거나, 질병을 일으킬 수 있는)를 구분 할 수 있는 기초 자료가 되었다는 것이겠죠.

그리고 AlphaMissense에서 활용하는 정보들이 단순히 모델을 통해서 뚝딱뚝딱 만들어지긴 하였지만 수십년동연 연구하면서 쌓은 단백질 구조 정보와 진화적인 정보와도 일치하기도 하였다고 합니다. 1992년도에 발표되었던 BLOSUM인데, AlphaMissense가 학습한 아미노산 치환으로 병원성을 예측 하였을 때와 BLOSUM62 행렬을 바탕으로 병원성을 예측 할 때와 상관관계가 있었다고 합니다. BLOSUM은... 크... 

여튼 오늘 간만에 옛날 논문이 아닌 나름 따끈따끈한 논문을 읽어봤는데, 100% 이해하지는 못하나 그래도 이제는 머신러닝이나 AI를 사용하지 않고는 일을 하기 어려운 시대가 되어 가는 듯합니다. 모델을 구현하고 생성할지는 못할지언정 평가하고 활용은 해야지 다가올 미래에 밥벌이는 할 수 있지 않을까 합니다.

그리고 안타깝게도 AlphaMissense Code는 아파치 라이센스로 사용에 문제가 없으나 AlphaMissense 예측 코드는 BY-NC-SA 4.0으로 상용적으로 활용이 어렵겠네요..

저런저런... Orz


출처 : @ye._.vely618


수요일, 10월 04, 2023

WES를 하는데 Capture가 좋을까 Amplicon이 좋을까?

Evaluation of Hybridization Capture Versus Amplicon-Based Methods for Whole-Exome Sequencing 라는 제목의 WES(Whole Exome Sequencing)를 하는데 Hybridization Capture가 좋은지 Amplicon이 좋은지 비교해본 논문이 있어 한번 들여다 보았습니다.

doi: 10.1002/humu.22825

사실 2023년 현재 WES를 하는데 Amplicon을 한다고 저는 말리지는 않겠지만, WES를 Amplicon으로? 라고 왜 Amplicon으로 하는지 궁금한 눈빛으로 바라보긴 할 것 같습니다.

이 논문은 당연히 2015년에 출판된 논문으로, 그 때 당시에는 한번 짚고 넘어가야 할 수 밖에 없는 내용이었고, 당시에 이런 벤치마킹 연구를 해주었기 때문에 현재 우리가 큰 의심없이 WES할 때는 Capture지를 외칠 수 있지 않나 합니다.

물론 가까운 시일내에 고성능의 간섭 없는 Amplicon 방법이 개발되면, 2025년에는 WES는 Amplicon이지! 할지 누가 또 알겠습니까 :)

여튼 논문에서는 2015년 당시 대표적으로 사용되던 Capture 방법 2가지(SureSelect, SeqCap)와 Amplicon 방법 2가지(HaloPlex, AmpliSeq) 를 상호 비교해보았습니다.

아직도 SeqCpa과 HaloPlex로 생성된 데이터를 한번도 만져보지를 못해서 얼마나 데이터가 깨끗한지, 쓸만한지는 모르겠습니다. 다만 SureSelect와 AmpliSeq은 지금도 사용하고 있으니 그 기술을 꼭 알아야 할까 하는 의문이 있습니다.

그리고 시료로는 변이들이 잘 정의된 것들을 사용하지 않았나 싶네요

BT-20, MCF-7, HCC-2218, HCC-2218BL 4개 셀라인을 사용한듯 싶습니다.

그리고 결과 비교 중에 SNP말고도 copy number를 확인하는데 copy number 확인을 위해  Affy사의 SNP Array 6.0도 함께 진행하여 HCC-2218, HCC-2218BL의 copy number를 확인 하였습니다. 굳이 NGS를 하는데 microarray도 해야돼? 라는 생각이 드셨다면, 이 논문이 발표된 시점이 2015년이란것을 잊지 않으셨으면 합니다. :)

그래서 이런저런 당시 일반적으로 사용되었던 정렬 툴과 각 Library에 적합한 정렬 툴을 사용하여 정렬하고, 다음에는 각각 SNV와 InDel, Copy Number 관련된 분석 툴을 사용하여 비교해보았고,

지금의 우리가 알고있는것과 동일하게 Capture방식이 Amplicon 방식보다 시쿼싱 복잡성(? 이건 어떤의미인지 잘 모르겠습니다.)과 균일성 (Uniformity)관련해서 더 좋은것을 확인했고, 위양성 변이가 탐지될 가능성도 적음을 확인했다고 합니다.

그러니 WES 할 때는 안심하고 Capture 방식 사용하세요 되겠습니다.



 출처: @ye._.vely618



수요일, 9월 20, 2023

cnvkit 설치 방법

간만에 프로그램 설치 기록 하나 남겨 봅니다.

설치할 tool은 Copy Number Variant 탐지에 대명사 중 하나인 CNVKit입니다.

참조할 사이트는 당연히 공식 cnvkit github고요 


첫번째 방법은 conda를 이용한 방법!

$ conda config --add channels defaults 
(conda를 설치해서 사용하시는 분들은 굳이 defaults는 안하셔도 됩니다.)

$ conda config --add channels conda-forge
$ conda config --add channels bioconda
$ conda install psutil
$ conda create -n cnvkit cnvkit
라고 명령어를 입력하면 엄청 많은 패키지들을 설치하겠다고 나옵니다.

$ source activate cnvkit

(cnvkit)$ python cnvkit.py -h
numpy가 없다고 나와서 다음과 같이 가상 환경 안에서 numpy 설치
(cnvkit)$ conda install numpy

그러나 conda를 이용한 방법은 제대로 작동을 안해서...

$ source deactivate


이유는 꼭 알아야 할까요? 다른 방법으로 설치하면되지요!

그래서 걍 github에서 소스 파일 다운 받아서 pip를 사용하여 설치!!

$ git clone https://github.com/etal/cnvkit
$ cd cnvkit/
$ pip install -e .
$ ~/Python-2.7.12/bin/python cnvkit.py -h

기본 pip를 사용했기 때문에 python-2.7.12에 설치가 되었고, 만약 pip3를 사용하여 설치하였다면... python3을 이용하면 되었을 것으로 예상됩니다.

그래서 오늘은 conda와 pip를 이용한 설치 방법에 대해서 알아보았습니다.

다음에 또 유익한 정보를 가지고 찾아오도록 하겠습니다.



출처: @candyz_hyojung