일요일, 11월 12, 2023

Long Read Sequencing을 전적으로 믿으셔야 합니다.

항상 느끼는것이지만 사람들은 익숙한것에 익숙하다는...
물론 이 글을 쓰는 본인도 별반 차이 없다는게 현실
그럼에도 불구하고 세상에는 익숙한것을 거부하고 한 걸음 나아가는 분들이 있어서 발전한다는...

오늘은 유전체분야에서 다들 익숙한 짧은길이의 시퀀싱 플랫폼 대신 Long read 시퀀싱 플랫폼을 왜 써야하는지 보여주는 논문이 있어 들고와봤습니다.

The blooming of long-read sequencing reforms biomedical research

DOI: 10.1186/s13059-022-02604-2


Long read 시퀀싱의 대표주자인 PacBio와 Nanopore가 나온지도 꽤 된것 같으나, 아직 주류 시퀀싱 플랫폼으로서는 자리매김을 하지 못한... 조명받지 못하고 있지만.. 그 진가를 하나둘씩 알게되고 안쓸수 없지 않을까 합니다.

물론 이 Long read 플랫폼을 안 쓸수 없지만 PacBio/Nanopore 플랫폼을 이용해서 진단 키트를 개발하여 돈을 벌 수 있게 된다는 것은 아닙니다. 오해 없으시기 바랍니다. Long read 플랫폼에서 기존 NGS 시스템에서 해온 것 같이 하려고 하면 개인적인 생각으로는 그냥 하지 마세요 라고 말하고 싶네요. 그런 생각이라면..


여튼 Long read 플랫폼은 genome assembly과 transcriptome 분야에서 활약을 하고 있다고 하는데 이는 기존 NGS의 짧은 read로 인한 한계를 극복하였기 때문에 가능한 당연한 결과였을 듯 합니다.

genome assembly를 설명하면서 이런 저런 설명을 하였는데 사실 T2T genome이 세상에 나왔는데 무슨 설명이 더 필요할지... 물론 다배체면서, repeat 서열이 엄청 긴 식물과 같은 다양한 생물의 유전체 연구에서는 아직 할일이 많이 남아있을듯 합니다.

그리고 더불어 transcriptome, 전사체에서도 두각을 나타내고 있다고 합니다. 이전에 PcaBio사에서 나온 Iso-Seq이라는 플랫폼이 있었는데 기존 숏리드 플랫폼으로는 할 수 없었던 full-length 유전자 서열을 확인하여, 다양한 gene의 isoform 을 확인 할 수 있었는데, 이제는 이는 당연한것이고, read count를 활용하여 정확한 발현 측정까지도.. 가능하다고 합니다. 또한 이 논문에서 처음 보았는데 exitron이라는 것도 확인하였다고 하네요.

더불어 당연히 암연구에서도 long-read 플랫폼이 중요한 역할을 하고 있는데, 시퀀싱을 위해 dna나 rna가닥을 증폭시키지 않은 특징 때문에 가능 응용법이긴하죠. 특히 nanopre 플랫폼을 사용하여 급성 골수성 백혈병 (AML) 환자의 RNA변이와 fusion gene 구조를 확인하기도 하였고, 대장암 세포주에서 5mC 위치와 양을 정량하여 각각 AML와 대장암 연구에 도움이 되고 있다고 합니다.

이렇듯 Long Read Seq 플랫폼은 이제 쓰지 않을 이유가 없는 플랫폼으로 우리 곁에 생각보다 가깝게 다가왔으나 생각에는 Long이든 Short든 정확하게 내 병의 이유를 빠르고 "싸게" 알아낼 수 있으면 모두 행복한 것 아니겠습니까?

그럴 수 있는 방법이 어딘가에 있겠죠, 없으면, 언제나 그러했듯이 우리는 또 해답을 찾아내겠죠. :)




출처: @ye._.vely618


수요일, 11월 08, 2023

이제는 전체 16S rRNA 서열을 봐야하지 하지 않을까? 하는 얘기

마이크로바이옴 분석을 할 때 매번 나오는 얘기로 16S rRNA에서 V3-V4  영역만으로 괜찮겠냐, full 16S rRNA봐야하는거 아니냐? whole sequencing해야하는거 아니냐 라는 내용의 논문이 있엇 한번 가져와봤씁니다.

2019년에 출판된 "Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis" 종/strain 수준의 16s RNA 서열 평가에 대한 내용 되겠습니다.

DOI: doi.org/10.1038/s41467-019-13036-1


16S rRNA는 박테리아 분석, microbiome 분석 시 주로 사용해오고 있고, 지금도 활발히 사용되고 있는 분석 방법 이지만, 지금까지는 V3-V4 영역만을 대상으로하는 방법이었고, 이제는 전체 16S rRNA를 확인하는 것에 대해서 얘기해봐야 하는 시점이 되었죠.

이전까지 16S의 V3-V4 영역으로 구분이 안되는 종들이 있었고, 지금까지 하던 분변 마이크로바이옴은 모르겠다만, 다른 환경의 마이크로바이옴을 할때는 V4-V5가 더 좋아보이는데 너님들의 생각은 어때? 라는 논문이 꾸준히 나오는거 봐선 이제 전장 16S rRNA 방법이 두각을 나타날때가 되긴했죠 :)


바드에 물어보니 다음과 같이 요약해 주었습니다.

  • 16S rRNA 유전자 시퀀싱은 미생물군집 내의 다양한 종과 균주를 식별하고 그들의 풍부도를 정량화하는 데 사용할 수 있습니다.
  • 또한 미생물군집의 구성 변화를 추적하는 데 사용할 수 있습니다.
  • 그러나 16S rRNA 유전자 시퀀싱은 균주 수준에서 정확도가 떨어질 수 있으며, 유사한 종을 구분하기 어려울 수 있습니다.
  • 16S rRNA 유전자 시퀀싱의 정확도는 향상되고 있으며, 미생물군집을 연구하는 연구자들에게 유용한 도구입니다.
다른 미생물군집 분석 방법으로는 샷건 메타지놈 분석과 whole-genome 시퀀싱이 있지만 이 방법들은 16S rRNA 분석 방법보다 돈도 많이 들고, 시간도 더 많이 소요되니 너님이 궁금해하는게 무엇인지에 따라 선택해야하지 않겠니?

정도로 잘 요약해 줬습니다.V3-V4 수준이 아닌 고품질의 full 16S rRNA 데이터를 확보할 수 있으니 이제 V3-V4, V4-V5와 같은 좁은 영역이 아닌 full 16S rRNA로 microbiome 분석을 진행하는것이 좋아보이고, 이제 충분히 품질이나 비용이 만족할 수준까지 왔으니 더 나은 결과를 위해서 나와 함께 해보지 않겠는가? 라는 내용 되겠습니다.




출처: @ye._.vely618


수요일, 11월 01, 2023

NGS을 기반으로 하는 항체 선택 전략에 대한 insight에 대해서

11월의 첫 포스팅 링크드인에서 랩실 후배님께서 공유해주신 따끈한 논문 하나를 구글 바드에 한번 물어보았습니다.


항체 선택을 NGS를 사용하면 효과적/효율적으로 할 수 있다 에 대한 내용을 정리한 논문으로 제목은 "Insights into next generation sequencing guided antibody selection strategies" 입니다. 

doi: 10.1038/s41598-023-45538-w


- 논문 요약

NGS를 기반으로하는 항체 선택 전략에 대한 통찰력 제공.
NGS는 항체의 유전적 다양성을 빠르고 효율적으로 분석 할 수 있는 방법으로, 이를 활용하여 항체의 특이성과 효능을 개선 할 수 있습니다.

-논문 주요 내용

* NGS를 기반으로 하는 항체 선택 전략은 기존의 항체 선택 전략에 비해 보다 효과적이고 효율적입니다.
 ; NGS는 항체의 유전적 다양성을 빠르고 효율적으로 분석할 수 있기 때문에, 기존의 항체 선택 전략에 비해 보다 효과적이고 효율적입니다. 예를 들어, NGS를 사용하면 수백만 개의 항체를 한 번에 분석할 수 있기 때문에, 원하는 특성을 가진 항체를 보다 빠르게 찾을 수 있습니다.

* NGS를 기반으로 하는 항체 선택 전략은 항체의 특이성과 효능을 개선하는 데 도움이 됩니다.
 ; NGS를 사용하면 항체의 특이성과 효능을 개선하는 데 도움이 되는 항체를 선택할 수 있습니다. 예를 들어, NGS를 사용하면 항체가 특정 표적에만 결합하는 항체를 선택할 수 있습니다. 또한, NGS를 사용하면 항체의 결합력과 내성을 개선하는 항체를 선택할 수 있습니다.

* NGS를 기반으로 하는 항체 선택 전략은 다양한 질병에 대한 치료제 개발에 적용될 수 있습니다.
 ; 다양한 질병에 적용 가능: NGS를 사용한 항체 선택 전략은 다양한 질병에 대한 치료제 개발에 적용될 수 있습니다. 예를 들어, NGS를 사용하면 암, 감염병, 자가면역질환 등에 대한 치료제로 사용할 수 있는 항체를 개발할 수 있습니다.

논문의 저자들은 NGS를 기반으로 하는 항체 선택 전략이 항체 치료제 개발에 새로운 가능성을 제시한다고 결론짓습니다.

예로, NGS를 기반으로 하는 항체 선택 전략을 사용하여 특정 질병에 대한 치료 효과가 뛰어난 항체를 개발할 수 있습니다. 또한, NGS를 기반으로 하는 항체 선택 전략을 사용하여 항체의 독성을 줄이고 부작용을 개선할 수 있습니다.

NGS를 기반으로 하는 항체 선택 전략은 항체 치료제 개발의 새로운 장을 열 것으로 기대.


-시사점 

* NGS는 항체 치료제 개발에 필수적인 도구가 될 것입니다.

* NGS를 기반으로 하는 항체 선택 전략은 항체 치료제의 효과와 안전성을 개선하는 데 도움이 될 것입니다.

* NGS를 기반으로 하는 항체 선택 전략은 다양한 질병에 대한 새로운 치료제 개발을 가속화할 것입니다.


오... 그냥 bard에 물어보고 논문에 대해 추가 질문을 계속 물어보면 될듯하네요.


출처: @ye._.vely618

월요일, 10월 30, 2023

Clinical Trial 자료는 어떻게 확인 할 수 있을까?

미국 임상시험 자료는 잘 정리되어 공개되어 있기로 유명하죠

clinical trial 사이트에서 확인 가능한데 

매번 일일이 clinicaltrials.gov에 들어가서 찾기 귀찮은데..

근데 API는 사용할 수준은 안되고..


무슨 방법이 없을까하고 머리를 계속 굴리다보면 찾아지는게 인지상정 아니겠습니까,

물론 최근 새로 리뉴얼 된 clinicaltrial.gov에서는 제공되지는 않습니다.

예전 clinicaltrials사이트인 classic.clinicaltrials.gov에서 확인 가능합니다.

친절하게 다음 URL을 당신의 브라우저에 입력하면 파일을 다운로드 받을 수 있다 라고 얘기하고 있습니다.

https://classic.clinicaltrials.gov/AllPublicXML.zip


대신 이 파일이 최신 임상 시험 자료까지 포함하고 있다고 자신은 못할 것 같습니다. :)

내부에 미국 임상시험 DB를 구축하고 싶을 때 사용할 수 있음직한 파일이 될 것 같습니다.


다음에 또 유용한 정보를 가지고 돌아와보도록 하겠습니다. :)






출처: @ye._.vely618


금요일, 10월 27, 2023

롱리드 시퀀싱을 쓰지 않을 이유가 있는가?

이번 논문은 제가 참여한 논문입니다.. 흠흠..

이름하여 Two long read-based genome assembly and annotation of polyploidy woody plants, Hibiscus syriacus L. using PacBio and Nanopore platforms

DOI: 10.1038/s41597-023-02631-z

Hibiscus syriacus, 쉽게말해 무궁화 genome을 assembly하는데 어떤 데이터를 어떤 assembly 도구로하면 그래도 가성비가 좋은지에 대해서 확인한 논문 되겠습니다.

무궁화는 full genome은 이미 몇해전에 나와있는 상태고요, 아마 무궁화가 2배체가 아니라 4,6배체로 기억됩니다. 그래서 숏리드가지고 assembly가 만만치 않았는데 그 데이터를 바탕으로 이전에는 short리드로 어렵싸리 했었는데 이번에는 롱리드 시퀀싱으로 하면 어떻게 되는지 확인 해보자 입니다.

이전 무궁화 genome project 논문에서 핸들링하는 데이터 양을 정확히는 모르겠으나 어마무시했던것으로 알고 있습니다. 거기다가 숏리드라서 양쪽 로우 퀄리티 좀 정리해주고, scaffold용 mate-paired 데이터 정리작업하는데도 아마 꽤나 시간이 걸릴겁니다.

나노포어 데이터(ONT)와 PacBio data가 있었는데, 솔까말 ONT 데이터로만 해도... 사실 갠춘합니다.

그런데 여기서 중요한것은 ONT가 중요하기도 하지만 ONT의 장점을 십분 발휘할 수 있게 해주는 DNA 뽑는게 ART되겠습니다. ONT가 길게 읽을 수 있는거지 template가 짧으면 ONT도 길게 읽고 싶어도 못읽습니다.

결국 실험자의 손이 중요합니다. 손 똥손이면 ONT도 해결 못해줍니다.

그 똥손도 가능하게 해주는게 commercial prep kit이긴한데 현재 기준으로 그런 kit이 있는지는 저는 모르겠습니다. 


여튼 그래서 ONT 데이터를 앞뒤없이 다 때려박고 assembly하지 않았습니다.

cell 하나, cell 2개, 결과가 어떻게 달라지는지 확인해고, assembly tool마다 결과는 어떻게 나오는지 확인하면서 테스트 하였고, 이거쓰세요는 하지 못했지만 그럭적럭 요정도 생산해서 이 tool쓰면 평타 칩니다 라고 가이드는 해드릴 수 있는 논문되겠습니다.

다음에는 테스트하는 code를 간지나게 git에 올려놓고 논문에 url하나 올려둘 수 있도록 해봐야겠습니다. :)


그럼 또 쓸만한 논문을 찾아 돌아오도록 하겠습니다.




토요일, 10월 14, 2023

FFPE 처리된 암조직의 NGS 결과를신뢰할 수 있을까?

몇년전에도 NGS 분석 결과를 그냥 불신하는 분들은 당연히 계셨고 지금도 의심의 눈초리로 바라보는 분들이 없지는 않을겁니다. 물론 저도 NGS를 믿으십시요! 라고는 하지 않습니다. NGS가 모든 문제를 해결 해 주지는 않으니깐요. 그래도 진단에서 NGS는 꽤 나 중요한 위치를 차지하고 있고 효용성을 증명하고 있는데 일방적인 불신은 좋지 않겠죠.

2015년, 아직 NGS으로 진단하기에는 아직 무리이지 라는 의견이 지배적이었고, 그런 편견을 벗어나기 위해 부단히도 애를 쓰고 있었던 때인지는 잘 모르겠으나 그래도 아직 시기상조라는 분위기가 지배적이었던 시절 끊임없이 가능성을 보여주고자 노력했던 연구팀의 논문이 있어 한번 들고 와봤습니다.

그냥 일반 조직에서 시퀀싱한 결과도 믿을 수 없다고 하던 시절, FFPE처리된 샘플에서 BRCA1/2의 somatic 변이 검출을 신뢰 할 수 있다는 것을 보여주는 논문 되겠습니다.

"A reliable method for the detection of BRCA1 and BRCA2 mutations in fixed tumour tissue utilising multiplex PCR-based targeted next generation sequencing" 이라는 제목의 논문입니다.

DOI: 10.1186/s12907-015-0004-6


FFPE, 병리검사를 위해 띠어낸 조직을 장기 보관하기 위해서 처리하는 방법인데, 여기에 사용되는 praffin과 formaldehyde가 DNA 한테는 쥐약이죠..

그래서 FFPE 전용 DNA추출 키트도 나오고 있는데 이미 fragment되어 있고, damage받은 DNA 뽑아서 NGS 돌려봤자 그거 믿을 수 있겠냐? 라는게 FFPE 샘플을 가지고 NGS 수행후 분석 결과를 잘 못믿겠다고 하니 그래서 그거 우리가 확인 했어. 되겠습니다.

그래서 일단 제일 접근하기 쉬운 BRCA1/2를 타겟으로 하였고, 어차피 FFPE 샘플이니 서열들이 조각들 나 있을 테니 증폭시켜서 우선 DNA양을 늘리고 NGS해서 분석 해보자가 가장 좋은 선택지 아니었나 싶습니다.

그래서 다양한 변이 샘플 확보하고 NGS 키트 중에 여러 키트 (GeneRead V1, V2의 BRCA1/2와 Ion AmpliSeq BRCA1/2)로 상호 비교 실험도 했고, Sanger 실험으로 확인도 하였다고 합니다.

그래서 결과적으로 FFPE 샘플에서 추출한 DNA로 NGS 분석으로 돌연벼이를 확인 할 수 있었고, 일부 rare한 frequency를 가지고 있는 변이의 경우 Sanger로는 찾기 힘들었으나 NGS로는 찾을 수 있었다.

그러나 그래도 아직 germline을 분석(이 연구에서는 somatic BRCA1/2 변이를 탐지 했습니다.)을 대체하는 용도로는 안되고, 환자에게 득이 될 수 있는 PARP 억제요법을 사용할지 여부를 확인하는 용도로는 사용할 수 있을 것 같다라고 마무리하고 있습니다.

이처럼 그전까지는 카더라로마 떠돌었떤 근거없는 소문을 여러 다양한 케이스와 방법을 통해 벤치마킹을 하여 충분히 사용할 수 있는데? 라는 근거를 제시함으로써, 좋은 기술을 적재적소에서 사용 할 수 있게 해주는 것도 굉장히 중요한 일 인듯 합니다.

그럼 15년도에 FFPE로 somatic 변이를 NGS로 수행해서 변이를 찾을 수 있지만 제한적이라고 했는데, 지금은 기술이 더 발달 했는데, 그 제한적인 사용처가 극복이 되었는지? 아니면 그대로 별 차이가 없는지를 조만간 확인해보는 시간을 가지면 좋겠네요.

그럴 수 있기를 제발~  :)


출처: @ye._.vely618

수요일, 10월 11, 2023

Interpretation도 이제는 AI가 해야지

간만에 지난달에 출판된 따끈따끈한 논문 하나 읆어보는 시간 가져보도록 하겠습니다.

AlphaGo와 AlphaFold로 유명한 DeepMine에서 나온 논문으로 제목은 "Accurate proteome-wide missense variant effect prediction with AlphaMissense" 입니다.

DOI: 10.1126/science.adg7492

한 줄로 요약하자면 단백질 기능에 영향을 줄 수 있는 Missense Mutation가 발생하였을 경우 이 돌연변이가 질병을 유발할 수 있는 pathogenic 변이인지 알려주는 모델이라고 보시면 되겠습니다.

단, Missense Mutation 즉 아미노산이 바뀌는 유전적 변이에 대해서 pathogenic 정도를 알려 줄 수 있습니다. 아직 절반의 성공이긴 하죠. 

그래도 지금까지 인류는 missense mutation에 대해서 inpterpretation작업을 진행하였을 때 극소수, 논문에서는 0.1% 정도만 확인 하였다 라고 하고 있을 정도 극히 일부만 알 수 있었으나 이 AlphaMissense는 가능한 missense mutation 중 89%에 대해서 benign이나 pathogenic 을 구분할 수 있다고 합니다.

사실 AlphaMissense 모델이 나올 수 있었던데에는 AF, aka AlphaFold가 있었기에 가능했다고합니다. AlphaFold가 지구상에 있는 가능한 모든 단백질 구조를 예측하였고, 이 단백질 구조들을 바탕으로 정상적인 단백질 구조와 이상한 단백질 구조(질병과 관련있거나, 질병을 일으킬 수 있는)를 구분 할 수 있는 기초 자료가 되었다는 것이겠죠.

그리고 AlphaMissense에서 활용하는 정보들이 단순히 모델을 통해서 뚝딱뚝딱 만들어지긴 하였지만 수십년동연 연구하면서 쌓은 단백질 구조 정보와 진화적인 정보와도 일치하기도 하였다고 합니다. 1992년도에 발표되었던 BLOSUM인데, AlphaMissense가 학습한 아미노산 치환으로 병원성을 예측 하였을 때와 BLOSUM62 행렬을 바탕으로 병원성을 예측 할 때와 상관관계가 있었다고 합니다. BLOSUM은... 크... 

여튼 오늘 간만에 옛날 논문이 아닌 나름 따끈따끈한 논문을 읽어봤는데, 100% 이해하지는 못하나 그래도 이제는 머신러닝이나 AI를 사용하지 않고는 일을 하기 어려운 시대가 되어 가는 듯합니다. 모델을 구현하고 생성할지는 못할지언정 평가하고 활용은 해야지 다가올 미래에 밥벌이는 할 수 있지 않을까 합니다.

그리고 안타깝게도 AlphaMissense Code는 아파치 라이센스로 사용에 문제가 없으나 AlphaMissense 예측 코드는 BY-NC-SA 4.0으로 상용적으로 활용이 어렵겠네요..

저런저런... Orz


출처 : @ye._.vely618


수요일, 10월 04, 2023

WES를 하는데 Capture가 좋을까 Amplicon이 좋을까?

Evaluation of Hybridization Capture Versus Amplicon-Based Methods for Whole-Exome Sequencing 라는 제목의 WES(Whole Exome Sequencing)를 하는데 Hybridization Capture가 좋은지 Amplicon이 좋은지 비교해본 논문이 있어 한번 들여다 보았습니다.

doi: 10.1002/humu.22825

사실 2023년 현재 WES를 하는데 Amplicon을 한다고 저는 말리지는 않겠지만, WES를 Amplicon으로? 라고 왜 Amplicon으로 하는지 궁금한 눈빛으로 바라보긴 할 것 같습니다.

이 논문은 당연히 2015년에 출판된 논문으로, 그 때 당시에는 한번 짚고 넘어가야 할 수 밖에 없는 내용이었고, 당시에 이런 벤치마킹 연구를 해주었기 때문에 현재 우리가 큰 의심없이 WES할 때는 Capture지를 외칠 수 있지 않나 합니다.

물론 가까운 시일내에 고성능의 간섭 없는 Amplicon 방법이 개발되면, 2025년에는 WES는 Amplicon이지! 할지 누가 또 알겠습니까 :)

여튼 논문에서는 2015년 당시 대표적으로 사용되던 Capture 방법 2가지(SureSelect, SeqCap)와 Amplicon 방법 2가지(HaloPlex, AmpliSeq) 를 상호 비교해보았습니다.

아직도 SeqCpa과 HaloPlex로 생성된 데이터를 한번도 만져보지를 못해서 얼마나 데이터가 깨끗한지, 쓸만한지는 모르겠습니다. 다만 SureSelect와 AmpliSeq은 지금도 사용하고 있으니 그 기술을 꼭 알아야 할까 하는 의문이 있습니다.

그리고 시료로는 변이들이 잘 정의된 것들을 사용하지 않았나 싶네요

BT-20, MCF-7, HCC-2218, HCC-2218BL 4개 셀라인을 사용한듯 싶습니다.

그리고 결과 비교 중에 SNP말고도 copy number를 확인하는데 copy number 확인을 위해  Affy사의 SNP Array 6.0도 함께 진행하여 HCC-2218, HCC-2218BL의 copy number를 확인 하였습니다. 굳이 NGS를 하는데 microarray도 해야돼? 라는 생각이 드셨다면, 이 논문이 발표된 시점이 2015년이란것을 잊지 않으셨으면 합니다. :)

그래서 이런저런 당시 일반적으로 사용되었던 정렬 툴과 각 Library에 적합한 정렬 툴을 사용하여 정렬하고, 다음에는 각각 SNV와 InDel, Copy Number 관련된 분석 툴을 사용하여 비교해보았고,

지금의 우리가 알고있는것과 동일하게 Capture방식이 Amplicon 방식보다 시쿼싱 복잡성(? 이건 어떤의미인지 잘 모르겠습니다.)과 균일성 (Uniformity)관련해서 더 좋은것을 확인했고, 위양성 변이가 탐지될 가능성도 적음을 확인했다고 합니다.

그러니 WES 할 때는 안심하고 Capture 방식 사용하세요 되겠습니다.



 출처: @ye._.vely618



수요일, 9월 20, 2023

cnvkit 설치 방법

간만에 프로그램 설치 기록 하나 남겨 봅니다.

설치할 tool은 Copy Number Variant 탐지에 대명사 중 하나인 CNVKit입니다.

참조할 사이트는 당연히 공식 cnvkit github고요 


첫번째 방법은 conda를 이용한 방법!

$ conda config --add channels defaults 
(conda를 설치해서 사용하시는 분들은 굳이 defaults는 안하셔도 됩니다.)

$ conda config --add channels conda-forge
$ conda config --add channels bioconda
$ conda install psutil
$ conda create -n cnvkit cnvkit
라고 명령어를 입력하면 엄청 많은 패키지들을 설치하겠다고 나옵니다.

$ source activate cnvkit

(cnvkit)$ python cnvkit.py -h
numpy가 없다고 나와서 다음과 같이 가상 환경 안에서 numpy 설치
(cnvkit)$ conda install numpy

그러나 conda를 이용한 방법은 제대로 작동을 안해서...

$ source deactivate


이유는 꼭 알아야 할까요? 다른 방법으로 설치하면되지요!

그래서 걍 github에서 소스 파일 다운 받아서 pip를 사용하여 설치!!

$ git clone https://github.com/etal/cnvkit
$ cd cnvkit/
$ pip install -e .
$ ~/Python-2.7.12/bin/python cnvkit.py -h

기본 pip를 사용했기 때문에 python-2.7.12에 설치가 되었고, 만약 pip3를 사용하여 설치하였다면... python3을 이용하면 되었을 것으로 예상됩니다.

그래서 오늘은 conda와 pip를 이용한 설치 방법에 대해서 알아보았습니다.

다음에 또 유익한 정보를 가지고 찾아오도록 하겠습니다.



출처: @candyz_hyojung



일요일, 9월 17, 2023

탐지한 varaint가 대체 왜 이러지?

이것저것 변이 call을 하다보면 가끔씩 여러개의 변이가 한번에 call되는 경우가 있습니다.

여러개의 변이가 한번에 call되는 경우는 대게 multi allelic 이거나 multi-nucleotide variant 정도일겁니다.

※ Multi Allelic

1번 염기서열 위치에 Reference는 TA였는데 변이 call결과에 T,TAA,TAAA 가 확인되었을 때 를 얘기하는 경우



※ Multi Nucleotide Variant

159030번 염기서열 위치에 Reference가 TAACCTTTC였는데, TGACCTTTT로 call되었다고 하는 경우, 일반적으로 이런 경우 159031번과 159038번만 reference와 다른데 왜 뭉뚱그려서 여기가 다 변이입니다 하는 경우 입니다.
TAACCTTTC
TGACCTTTT

그러나 다행히 우리에게는 VT라는 천하무적 tool이 있습니다.
이런 multi allelic나 multi nucleotide variant 가 있는 경우 이것을 뜯어서 분리하는 sub command를 가지고 있다고 하네요 :)

난 multi Allelic를 분리하고 싶어요! 라면 

vt decompose input.vcf -o decomposed.vcf 
이렇게

아니에요 나는 multi nucleotide variant를 분리하고 싶어요! 라면

$vt decompose_blocksub -p input.vcf -o decomposed.vcf 
이렇게 명령어를 실행시켜 주면 된다고 합니다.

multi allelic가 나오고 multi nucleotide variant가 당신을 괴롭히더라도 당신 곁에는 vt가 있다는 것을 잊지 마세요.

다시 또 유익한 정보를 가지고 돌아오도록 하겠습니다. :)




출처: @ye._.vely618


수요일, 9월 13, 2023

무균체액에는 얼마나 다양한 박테리아가 있을까? 그 10년의 기록

10년에 걸쳐 뇌척수액, 심낭액, 복막 및 흉막액 같은 체액(NSBF)에 어떤 박테리아들이 서식하는지 확인한 논문이 있어 한번 가져와봤습니다. 

제목은 Comparison of 16S Ribosomal RNA Targeted Sequencing and Culture for Bacterial Identification in Normally Sterile Body Fluid Samples: Report of a 10-Year Clinical Laboratory Review 이고, doi는 10.3343/alm.2020.40.1.63 입니다.

테스트한 샘플은 312개의 NSBF이고, 16S rRNA 분석과 배양 실험을 동시에 진행하여 비교해보았다고 합니다.

metagenome을 사용하는 이유가 시간도 오래 걸리고 번거로운 배양실험을 대체하기 위한 목적이 크다보니 비교실험을 통해 사용에 당위성을 확보하기도 합니다.

여튼 10년동안 모든 음성 샘플 277개와 양성 샘플 35개 중 277개의 음성 샘플을 정확히 구분해 냈으나 35개 샘플중 시퀀싱과 배양 방법을 통해서 확인된 양성 샘플은 10개 였습니다.

전체 312개 중 92%의 정확도? 라고 할 수 있으나, 이 10개 샘플은 16S rRNA와 배양 방법으로 모두 양성이라고 확인한 결과이고, 16S rRNA 방법으로, 배양 방법으로 확인한 결과는 35개 모두 다 잘 진단 하였습니다. 

그래서 논문에서도 기존의 배양방법으로만 하는 것보다 16S rRNA 시퀀싱 방법을 배양 방법과 함께 사용하면 체액 샘플에서 박테리아를 더 정확하게 식별할 수 있고, 항상제를 이미 처방받은 환자나 혐기성 감염이 의심되는 경우 배양 방법만으로는 한계가 존재하기 때문에 함께 사용하는것이 좋은것 같다는 의견이었습니다.

개인적으로는 16S rRNA 단독으로 사용하였을 때 앞도적인 차이로 더 잘 진단 할 줄 알았는데 꼭 제 마음같지는 않은듯 합니다. :)

음... 근데 안타깝게도 시퀀싱 데이터가 공개되어 있지 않은듯 한데.. 좀 더 자세히 뜯어보도록 하겠습니다. SRA 번호를 찾게되면 한번 분석 해보는 것으로 :)

그럼 다음에 또 흥미로운 논문으로 찾아뵙도록 하겠습니다.



출처: @ye._.vely618

토요일, 9월 09, 2023

누가누가 미생물 프로파일링을 잘할까?

NGS가 태동된지 20여년.... (너무 과했나?) 대중적으로 관심을 받아 쓰는지는 10여년이 훌쩍 지나가고 있는 시점에 예전에는 454나 Solexa 정도 만져보던 시절에서 지금은 다양한 시퀀서들이 나와서 연구자들의 다양한 궁금증을 일선에서 해결해 주고있습죠 :)

여튼 그래서 21년 기준에 보편적으로 또는 미래에 대세가될 시퀀서들을 대상으로
누구나 관심있어하는 장내 미생물 프로파일링을 어느어느 시퀀싱 플랫폼이 잘하나 비교해보는 논문이 있어서 가져와봤습니다.

제목은 Comparison of 16S rRNA Gene Based Microbial Profiling Using Five Next-Generation Sequencers and Various Primers 이고,

doi: 10.3389/fmicb.2021.715500 입니다.

(물론 저자중에 제가 아는 분이 있어서 그런것은 아니고요, 구글링 하다가 찾아진겁니다.)


그래서 비교해볼 시퀀서는

MiSeq, IonTorrent, MGIseq-2000, Sequel II 그리고 MinION 까지.. ..
짧은 read와 긴 read들을 생산하는 대표 시퀀서들을 5개를 가지고 테스트를 해봤습니다.

시퀀싱을 잘 했는지 못했는지 확인하려면 시료의 정답을 미리 알고 있어야 겠죠?

그래서 한국 식약처에 등재된 19종의 미생물 종중에 8종을 선별하여서 다양한 비율의 Mock community를 만들어서 테스트 했다고 합니다. 

그런데 Mock community내에 미생물들의 비율은 어떻게 확인했냐!!
digital PCR을 사용해서 Mock community내 미생물들을 정량해서 확인했다고 합니다. 물론 Sequins (스팽글?, aka Sequencing spike-ins)이라는 방법을 활용할 수 있다고 하는데 다양한 박테리아에 대해서 모두 Sequins를 만들기 어렵기 때문에.. 이방법을 사용했다고 합니다. 사실어떤 방법이 golden standard인지는 모르겠으나 연구 디자인에 적합하면 되지 않을까 합니다.

여튼 8개 Mock community를 제작하였고, 각각에 시료를 바탕으로 5개의 시퀀서로 시퀀싱을 진행하였습니다. 그리고 분석은 MOTHUR을 사용해서 진행하였다고 합니다.

그럼 결론은 몬데?
뭣이 중헌디?

음... 개인적으로는 16S rRNA 서열을 한번에 확인 할 수 있는 롱리드 플랫폼이 숏리드 플랫폼보다 편향이 적다라는 결과를 기대했으나.. 도리어 숏리드 플랫폼에 비해서 롱리드가 더 편향적(과대 또는 과소 표현)이었다는... 물론 이게 긴 길이의 리드를 시퀀싱하기 위해서 전처리로 PCR단계에서 비롯된거 같다는 의견이었습니다만, Sequel II같은 경우 숏리드 플랫폼과 유사한 양의 결과물을 확인하기 위해서는 더 많은 비용이 소요될텐데... 그럼 롱리드 플랫폼을 사용할 이유가 딱히 없다는게 문제가 될듯합니다.

Figure 3,4,5를 잘 뜯어보면 

Bifidobacterium breve의 경우 숏리드 플랫폼에서 상대적으로 과소 표현되고,
Limosilactobacillus fermentum의 경우 롱리드 플랫폼에서 과소표현되고, 반대로 Lactococcus lactis subsp. lactis의 경우 롱리드에서 과대표현 되고,
Lactobacillus acidophilus의 경우는 플랫폼 상관없이 과소표현 되기도하고..

함께 있는 종에 따라 영향을 받기도, 받지 않기도 하기 때문에 해석을 할 때 고려해야할게 한두가지가 아니라서 좀 어렵죠. ㅎㅎ 

그리고 숏리드의 경우 가장 큰 문제점이 한정된 영역(V3-V4)의 서열만 가지고 확인하다보니 서로 다른 균주로 분류되는 문제가 있었고 이는 보통 probiotic bacteria인 Lactobacillus casei group(LCG)에서 확인되어서 LCG, probiotic bacteria 분석에는 V3-V4는 좀 피해야할듯 합니다.

결론은 연구에 맞게 적절하게 잘 사용하고, 직접 실험하지 않는 저같은 게으름뱅이들에게는 이리저리 분석할때 표준 데이터로 사용할만한 좋은 데이터가 확보되었다는 것입니다. :)



출처: @ye._.vely618


월요일, 9월 04, 2023

NCBI에서 제공하는 ribosomal RNA Database

때는 바야흐로 2020년 초

NCBI에 Blog에 새로운 ribosomal RNA 데이터베이스가 출시되었다는 글이 하나 떴었네요...


사실 그 전부터 BLAST용 ribosomal RNA 서열은 제공하고 있었습니다.

다만 그 전까지는 NCBI에 수집된 nucleotide 서열을 모아놓은 수준이었던것 같은데,

2020년에 공개된 데이터는 단순히 모아놓는 부정확한 정보 수준이 아닌 각 서열을 정확하게 식별하고 분류할 수 있도록 엄선하였다고 하네요 

rRNA뿐만 아니라 ITS 서열까지.. 2020년즈음에는 microbiome에 이어 mycobiota도 관심이 증가하고 있었던 시기였던터라 이전에 ITS 서열을 제공하지 않았던것 같은데, 역시 NCBI 훃님들은 페달 밟으면 아주 시원하게 뽑아주는듯 합니다.

여튼 요즘에는 16S, 18S, ITS 서열들을 잘 정리해서 식별할 수 있도록 (aka taxonomy 정보가 잘 정리되어 있다는 것이겠죠) 제공하고 있습니다.


>여기< 에 우리가 알고 있는 nt db와 nr db 말고도 다양한 local용 blast database들이 제공되고 있으니 잘 다운로드 받아 잘 사용하면 좋을 것 같습니다. 


또 유익한 정보를 가지고 블로그에 글을 적어보도록 하겠습니다. 





출처: @ye._.vely618




화요일, 8월 29, 2023

SAM-TB, 주인공은 나야나

결핵은 참 끊임없이 인류를 괴롭혀오는 감염병균 하나입니다.
더구나 이 녀석이 악랄한 이유는 누구에게나 동일하게 감염되는것이 아닌 개발도상국이나 저소득구간에 있는 생활환경이 그리 좋지 않은 나라나 가정에 더 잘 발병한다는 것입니다.

선진국, 다른 말로 고소득국가나 생활환경이 더 나은 곳에서 사는 사람들에게는 감염되지는 않지만 그래도 전세계가 관심있게 모니터링하고 있는 감염균중 하나일겁니다.

그래서인지 분석 Tool들이 생각보다 많이 나와있습니다.

물론 대부분 파편화되어 있었으나 최근들어 포괄적인 분석 tool들이 등장하고 있습니다.

오늘 소개하는 tool도, 이거 하나만 있어봐!!

다 할 수 있어 되겠습니다.

SAM-TB: a whole genome sequencing data analysis website for detection of Mycobacterium tuberculosis drug resistance and transmission


이 분석 tool은 결핵균의 WGS한 데이터를 분석하는 tool이고, 약물 내성과 spoligotyping 및 NTM이라면 어떤 NTM 종인지도 구분할 수 있다. 즉 SAM-TB 하나면 결핵에 관련된 모든것을 다 확인 할 수 있습니다. 되겠습니다.

기존에 나왔었던 다양한 MTB 분석 tool들(KvarQ, PhyResSE, TGS-TB, CASTB, Mykrobe, TBProfiler, MTBseq 및 ReSeqTB-UVP)을 언급하면서 우리는 지금까지 나왔던 모든 분석 프로그램의 기능을 구현하고 있다라고 자랑하고 있고, 그런 tool을 웹에서 분석 해보실 수 있습니다. 라고 자랑하고 있습니다.

어디서? 바로 >여기<에서!!

근데 안타깝게도 오늘 (2023년 8월 29일 기준) 접속이 안되더라구요.

내일은 되길 바라겠습니다.


일단 다시 한번 중요 포인트를 짚어보자면,

MTB WGS 데이터를 사용하여
 약물 내성 변이 확인, 
 spoligotyping 확인,
 MTBC 및 NTM 확인
웹상에 업로드하여 분석 할 수 있다 되겠습니다만 가장 중요한 분석 사이트가 접속이 안되네요

여튼 기존에 1%씩 부족했던 기능을 가지고 있던 tool을 한 자리에 모아놨다가 가장 큰 의의일것 같습니다. 

생각보다 특이할만한 tool은 사용하지 않았고, 일반적인 NGS 분석을 해보셨다면 다뤄봤을 그런 tool들로 잘 구현했습니다.

BWA-MEM, samtools, VarScan, Kraken2와 각종 in-house script들...

사실 중요한게 약물 내성 변이의 db와 lineage, MTBC 및 NTM을 확인 할 수 있는 정보에 대한 내용이 더 잘 설명되어 있으면 좋았을텐데 그 내용은 살짝 빠져있는게 아쉬웠네요 

작년 초에 출판되었는데 벌써 웹사이트가 막히다니.. 

살짝 아쉬움을 남기고 오늘 글은 마무리하도록 하겠습니다. 



@ye._.vely618


수요일, 8월 23, 2023

SpeedSeq은 어디에 쓰는거지?

오늘은 연식은 좀 되었으나 빠른 분석 tool하나 가져와봤습니다.


SpeedSeq: ultra-fast personal genome analysis and interpretation

doi : 10.1038/nmeth.3505

이름하여 SpeedSeq!! 그래서 제목에 ultra-fast, 초고속이 들어갑니다.
근데... 분석시간이 얼마나 걸렸었는지는.. 기억이 잘..

논문에서는 저렴한 서버에서 50x WGS데이터를 13시간만에 align을 했다고하는데...
(저렴한서버의 정의는 CPU 16core에 128GB RAM이 장착된 서버라고 하네요)

여튼 논문에서는 50x WGS 데이터를 저렴한 서버를 사용해서 분석을 진행할 때 정렬 작업을 시간단위에서 끝냈다.. 라는 소식을 솔직히 DRAGEN 제외하고서는 들어본적이 없어서 조금 갸우뚱 하긴 합니다.

여하튼 논문에서 13시간만에 정렬을 끝냈다고 했다니!! 그렇다고 믿는게 인지상정 아니겠습니까?

근데 정렬 속도가 빠른건 큰 장점이지만 단순히 속도만 빠르면... 그건 아무짝에도 쓸모없는거죠


그래서 SpeedSeq와 기라성같은 변이 탐지 툴들과도 비교 해봤습니다.

somatic/germline 분석 툴들을 가리지 않고 모두 비교해봤습니다. GATK의 Haplotype Caller, Mutect, VarScan2와 같은... 기존에 너님들이 많이 쓰던 툴들이랑 비교해서 결과 다르지 않아. 라고 얘기하고 있습니다.


그런데 사실 저는 SpeedSeq을 사용한 이유가 속도가 빠르면서 bwa와 같은 기존 정렬 프로그램 대비 결과가 정확해서 사용한것이 아닌 그냥 LUMPY tool을 사용하기 위해서 였다는게 함정

사실 이 정렬 tool이 nature에 출판되었는지도 몰랐다는..

LUMPY사용하려고 메뉴얼보니 SpeedSeq 결과 사용하세요 라고 적혀 있어서 단지 사용 했었을뿐... 그 후에 나도 몰라 하고 있었는데...


그냥 한번 들쳐봤는데 다시 검토해볼만한 tool일거 같긴한데..

"Reference Sample 백만번 돌려서 결과 동일해요" 하는것보다 임상 샘플 10개만 분석해봐도 그 진가를 알아볼수 있으니...

만약에 제가 사용하게 된다면 다음에 다시 글하나 올려보도록 하죠 :)




출처: @ye._.vely618


수요일, 8월 16, 2023

누가 누가 Annotation을 잘 하나

작년에 나온 논문으로 NGS를 활용한 임상 유전체 판독 할 때 어떤 annotation tool을 쓰면 좋을지에 대한 내용입니다.

A performance evaluation study: Variant annotation tools - the enigma of clinical next generation sequencing (NGS) based genetic testing

doi: 10.1016/j.jpi.2022.100130


현재 다양한 annotation tool이 사용되고 있긴 하나 그 중에서 Alamut, ANNOVAR, VEP 3개 tool을 벤치마킹 해봤다고 합니다.

VEP는 Ensembl Variant Effect Predictor이고,
Alamut는 SOPHiA GENETICS에서 제공하고 있는 tool,
ANNOVAR은 qiagen에서 제공하고 있는 tool로 3개 tool 모두 annotation해봤다고 해봤으면 한번쯤 구경은 해봤을 tool 일겁니다.

결과를 얘기하자면 이 3개 tool을 이전에 확인되었던 298개 변이를 대상으로 벤치마킹하였고 이 중에서 VEP가 가장 성능이 좋았고, ANNOVAR이 가장 낮을 일치율을 보여주었다고 합니다. (298개 중 20개가 불일치하여 93.3%의 일치율)

그래서 Lurie Molecular Diagnostics Laboratory(저자들의 소속 기관)은 VEP를 사용하기로 하였다고 논문에 언급하긴 했는데 진짜 VEP를 사용하고 있는지 ANNOVAR나 Alamut를 몰래 사용하고 안하는지는 제가 알 방법이 없네요

여튼 NGS의 발달로 말미암아 WGS를 하면 400만개, WES를 하면 ~2만개 정도의 변이들을 탐지할 수 있게 되었죠. 그래서 이전에는 변이를 하나하나 탐지하는게 병목점이었다면 이제는 탐지된 변이를 정확하게 판독 할 수 있도록 annotation을 하는 것이 더 중요하고 병목점이 되었다는 것은 누구나 부인하지 못할 것입니다.

- 물론 최근에는 AI/머신러닝의 발달로 annotation 단계에서도 괄목할만한 신속 정확한 결과를 바라볼 수 있지 않을까 합니다. -

이런 이유로 Lurie Molecular Diagnostics Laboratory에서도 이전에는 Alamut를 사용하고 있었는데 라이센스 문제등 효율적인 문제가 부각되어 상용 tool들과 오픈 소스인 VEP간의 annotation 결과 일치도 테스트를 해보게 되었다고 합니다.


그렇다면 비교를 하기위해서는 정답이 있는 문제지가 있어야 되겠죠?
그래서 이전에 Lurie Molecular Diagnostics Laboratory에서 진행되고 큐레이션 되었던 191개 유전자에 있는 298개 변이를 테스트 세트로 했다고합니다.

3개의 annotation tools을 비교하기 위한 vcf를 준비해서 각각 분석을 진행하였다고 합니다.

그래서 확인한 결과 298개 중 278개 변이는 3개 tool에서 모두 동일하게 확인되었고, 그 중 VEP와 Alamut는 99% 일치 하였으나, ANNOVAR의 경우 20개가 불일치 하였다고 합니다. 298개 중 278개 변이가 3개 tools에서 동일하게 나온 이유가 ANNOVAR가 제대로 분석을 하지 못해서였네요.. 

VEP는 298개중 297개를, Alamut는 298개중 296개를 올바르게 annotation을 하였고, ANNOVAR은 위에서 언급한대로 278개만 올바르게 annotation을 하였다고 합니다.

조만간 누군가 고도화된 AI/머신러닝을 탑재한 annotation tool을 출시하면 새바람이 불지 않을까합니다.

그때까지 밥벌이는 해보는걸로 :)



출처: @ye._.vely618


금요일, 8월 11, 2023

16S rRNA에서 V3/4와 V4/5는 대체 얼마나 다르지?

정확히 얘기하자면 북극해의 해양 생태계의 미생물 군집을 연구할 때는 16S rRNA의 어느 variable region을 사용하는게 좋을까? 되겠습니다.

Comparison of Two 16S rRNA Primers (V3–V4 and V4–V5) for Studies of Arctic Microbial Communities

doi: 10.3389/fmicb.2021.637526

예전부터 microbiome, metagenome연구할 때 항상 언급되는 내용이긴 합니다.
엄밀히 얘기하면

1. 박테리아 genome full sequence가 제일 좋아요
2. 안되면 full lenght 16S rRNA가 좋아요
3. 안되면 그냥 본인이 이거다 싶은거 쓰세요. 다른사람이 무엇을 쓰든지

여튼 이 논문은 빠른 온난화로인해 북극해의 해양 생태계가 어떻게 변화하는지 확인해보고자 1년여동안 모니터링한/샘플링한 데이터를 분석해봤는데, 지금까지 우리가 대중적으로 사용하고 있었던 16S rRNA의 V34가 진짜 golden standard인가? 우리 한번 생각해봐야하지 않겠나? 아니면 적어도 북극해의 미생물 분석 할 때는 (우리가 해봤을때는) 16S rRNA의 V34보다는 V45가 더 적합한것 같아요를 얘기하고 있는 논문되겠습니다.

여기서 얘기하고 있는 16S rRNA의 V34는 어디고 V45는 어디냐?

16S rRNA는 >여기< 참고하시면 잘 나와있습니다. 그리고 그중 V34와 V45는 어디냐?

V34는 341(F)에서 785(R)까지, V45는 515(F-Y)에서 926(R)까지라고 하네요

사실 범용적으로 사용하는 primer 위치들이 연구팀들마다 100% 동일하지는 않습니다. 살짝씩 다를 수 있으니 이 부분도 잘 확인하시면 좋을 것 같습니다.

그 이유는 이 논문에서도 언급되었듯이 지금까지 지금까지 연구가 잘 되어오지 않았던 곳(여기서는 북극해)에서는 어떤 variable region이 종들을 더 잘 구분하는지, 어떤 범용 primer set이 더 잘 작동하는지 정확히 모르기 때문에 그렇습니다. 반대로 사람의 대변, 구강과 같이 이미 수년동안 연구를 통해 실험 방법이 정립된 경우에는 그냥 기존 방법대로 하시면 되겠습니다.

그래서 이 논문의 결론은 북극해와 같이 아직 생태계가 연구되지 않은 환경에 대해서 미생물 군집 연구를 위해서는 V45 primer set을 사용하는 것이 좋다고 하였습니다.


근데 진짜 그럴까요?

논문에서도 나오지만 결론에서 북극해의 미생물 군집 연구를 위해서는 V45가 좋은데, 그 이유가 다른 미생물 군집 검출에 영향을 끼치지 않기 때문이고, archaea도 검출 가능하기 때문인데, V45와 함께 V34를 혼용해서 사용하면 더 좋지 않을까하는 생각이네요


그리고 사족으로 일부 샘플에서 현미경으로 셀 카운팅을 했는데 그 결과가 NSG와 차이가 있었고, 그 이유가 현미경 정량의 한계라고 얘기를 하였지만 꼭 그럴까하는 생각도, NGS의 한계일 수 도 있다는 생각은 >여기<를 보시면 알게 된다는..

그럼 다시 또 재미있는 이야기거리를 가져와 보도록 하겠습니다.



출처: @ye._.vely618


목요일, 8월 10, 2023

NCBI기반의 분류데이터를 손쉽게 다루는 방법

NCBI의 taxonomy 데이터는 드려다 보신 분들은 아시겠지만 환장의 도가니라고 할 수 있죠

그래서 보다 못한 호주의 어느 용자께서 NCBI의 taxonomy 데이터를 처리할 수 있는 스크립트를 개발하셔서 github에 올려주셨습니다. 물론 논문도 투고하셨고요


이름하여 ncbi-taxonomist, NCBI 분류학자라니.. Orz

Collecting and managing taxonomic data with NCBI-taxonomist

doi: https://doi.org/10.1093%2Fbioinformatics%2Fbtaa1027


여튼 재미있는 기능 중 하나가 NCBI의 nucleotide이든 protein이든 accession을 입력하면 이 accession의 taxonomy 정보를 알려준다는 것입니다.

물론 NCBI 분류학자답게 NCBI의 taxonomy ID과 종 이름(약간의 오타가 있어도, 그 오타가 NCBI에 등록되어 있다면)로도 검색할 수 있습죠.

accession 정보를 이용하여 taxonomy 정보를 파악하는게 생각보다 번거로운 작업인데 ncbi-taxonomist에서 명령어 한번 때려주면 호로록 검색해서 결과를 알려줍니다.

여튼 오늘은 간단한 기능을 보여주는 tool을 소개하였는데
밤새 태풍에 무탈하시기 바랍니다. :)



출처: @ye._.vely618












토요일, 8월 05, 2023

microbiome 시퀀싱 데이터는 얼마나 잘라내야 결과가 좋을까? for DADA2

요즘 QIIME2를 뒤적이고 있는 차에 쓰임이 많아 보이는 논문이 하나 있어서 투적해봅니다. (물론 greengene2만큼일련지는...)

Trimming conditions for DADA2 analysis in QIIME2 platform

doi: https://doi.org/10.11620/IJOB.2021.46.3.146


사실 QIIME2를 사용할 때뿐만 아니라 metagenome 분석을 할 때 한번은 짚고 넘어가야 하는 내용을 다루고 있어서 거쳐야 하는 단계를 가볍게 넘어가게 할 수 있지 않을까 합니다.

바로 metagenome분석시 qiime2에서 DADA2를 이용한 최적의 read trimming 조건 찾기 입니다.


metagenome 연구를 할 때 일반적으로 일루미나 플랫폼의 V3/4 region을 target으로 시퀀싱을 진행하게 됩니다. 16S rRNA가 종 동정에 많이 사용되고 16S rRNA의 가변 영역인 V1~V9중 해상도가 괜찮은 부분인 V3/4라고 연구되어 있기 때문에 일반적으로 많이 사용하고 있죠

V3/4은 대략 440bp정도이므로 안타깝게도 일루미나의 한쪽 read만으로는 V3/4 영역을 커버할 수가 없습니다. 그래서 pair로 짝을 이뤄 중간에 overlap되게 하여 시퀀싱을 진행하고 overlap되는 서열을 활용하여 merged/stitch 하게 됩니다.

이때 Read1에서는 얼마나 잘라내고 Read2에서는 얼마나 잘라내야지 내 피 같은 연구비를 들여서 생산한 데이터를 최대로 활용하면서 좋은 데이터를 확보할 수 있을까? 가 중요하게 됩니다.

그래서 이 연구팀은 QIIME2의 DADA2를 사용하여 Read1과 Read2를 얼마나 trimming해야지 내 데이터에서 좋은 결과를 뽑아낼 수 있는지에 대한 다양한 실험을 통해 확인하였습니다.

QIIME2에는 DADA2말고 deblur도 있는데 delbur는 왜 안 했어? 라고 하신다면 안타깝게도 deblur는 single read에서 작동된다고 되어 있으니 deblur 결과가 궁금하신 분께서는 직접 해보시는 것도 좋은 선택지 같습니다. :)


여튼 Read1과 Read2의 여러 수치의 trimming 조건과 trimming후 read merge/stitch 이후 chimera 서열로 보이는 데이터의 양, 그리고 trimming에 따라 얻어진 데이터의 미생물의 풍부도(Alpha Diversity)까지, 세심하게 trimming에 따른 결과 영향까지 확인해서 논문에 실어주었네요

사실 빡빡 trimming해서 좋은 quality base들만 남겨 논들 read merge/stitch가 되지 않고, 죄다 chimera라고 나와버리면 무용지물이다 보지 trimming 이후에 trimming의 영향에 대해서도 함께 평가해서 적절한 trimming 지점을 제안해주고 있습니다. 

결과적으로 Read1은 1사분위의 read quality가 Q20가 되면 이제 그 위치부터는 헤어져야 하고, Read2는 Read1과 overlap되는 길이가 16bp이상만 되도록 조절(trimming)해주면 결과에 나쁜 영향을 미치지 않는 -개인적으로는 망하지는 않는 조건이지 않을까 합니다- trimming 조건이라고 얘기하고 있습니다.


그럼 다음에 또 재미있는 내용으로 찾아와 보도록 하겠습니다.


출처: @ye._.vely618


화요일, 8월 01, 2023

ncbi 횽아들은 어디까지 만들어 낼 것인가

이것저것 작업하면서

ncbi tool들을 다시 사용하고 있는데..

훗.. 역시 우리 ncbi 훃아들의 위대함을 다시 한번 느꼈다는...


NCBI BLAST에서 taxonomy로 제한 거는 기능을 당연히 stand-alone에서도 사용할 수 있는데 NCBI의 -taxid의 숨은 함정이 종 수준의 taxid만 제한 걸 수 있다는..

(근데 써보면 종 수준의 taxid만 제한이 걸리는지 갸우뚱 거리긴 함.. )


여튼 종 수준의 taxid만 제한할 수 있다는 것이 무엇이냐면..

종보다 상위 class의 taxid인 Enterobacterales의 taxid를 사용하면 정상적으로 작동을 안하게 된다는 말씀.

그러므로 NCBI BLAST 프로그램을 다운 받았을 때 함께 있는 get_species_taxids.sh를 활용하면 이 문제를 피해갈 수 있다고 합니다.

사실 최근까지 get_species_taxid.sh가 왜 있는지 관심은 없을 뿐더러
왜 쓰잘떼기 없는 shell script는 왜 넣어놨는지 했다는 ㅎㅎ 


여튼 언제나 NCBI 훃님들께 감사인사를... :)


참고 URL: https://www.ncbi.nlm.nih.gov/books/NBK569846/



출처: @ye._.vely618