레이블이 Variant인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Variant인 게시물을 표시합니다. 모든 게시물 표시

월요일, 10월 28, 2024

RNA-Seq 데이터로 SNP를 찾아내보자

오늘은 오랜만에 예전에(10년이 넘었네요;;;) 출판된 RNA-seq에서 SNP를 식별하는 논문을 가져와봤습니다. 제목은 Reliable Identification of Genomic Variants from RNA-Seq Data 입니다. RNA-seq 데이터가지고 SNP를 식별하는 것을 좀 거부감이 있었... 혹시 나만 그런거였나.. 
그러나 요즘엔 RNA-seq 가지고 SNP를 탐지하는 것이 이상하지 않죠.
그래서 옛날옛적엔 어떤 아이디어로 접근했었는지 확인해보려고 한번 가져와봤습니다




gemini
## RNA-seq 데이터로 유전체 변이 찾기: SNPiR 이야기
### 우리 몸의 설계도, 유전체
우리 몸은 하나의 정교한 기계와 같습니다. 이 기계를 만드는 설계도가 바로 유전체(genome)입니다. 유전체는 A, T, G, C 네 가지 염기로 이루어진 긴 염기 서열로, 이 서열의 차이가 사람마다 다른 특징을 만들어냅니다. 이러한 염기 서열의 차이 중 하나가 바로 SNP(Single Nucleotide Polymorphism)입니다. SNP는 단 하나의 염기가 다른 사람과 다르게 나타나는 현상을 말하며, 이러한 SNP들이 질병 발생이나 특정 형질에 영향을 미칠 수 있습니다.
### 유전체 분석 방법: WGS, WES, 그리고 RNA-seq
유전체를 분석하는 방법에는 여러 가지가 있습니다. 대표적인 방법으로는 Whole Genome Sequencing(WGS), Whole Exome Sequencing(WES), 그리고 RNA Sequencing(RNA-seq)이 있습니다.
* **WGS (Whole Genome Sequencing):** 유전체 전체를 낱낱이 해독하는 방법입니다. 가장 많은 정보를 얻을 수 있지만, 비용이 많이 들고 분석 시간이 오래 걸리는 단점이 있습니다.
* **WES (Whole Exome Sequencing):** 유전체 중에서 단백질을 만드는 데 직접적인 역할을 하는 부분인 엑솜만을 해독하는 방법입니다. WGS에 비해 비용이 적게 들고 분석 시간이 짧지만, 엑솜 이외의 부분에 있는 유전 변이는 찾아낼 수 없습니다.
* **RNA-seq (RNA Sequencing):** 유전체 정보가 실제로 어떻게 활용되는지를 분석하는 방법입니다. 유전체 정보는 RNA라는 중간 매개체를 거쳐 단백질로 만들어지는데, RNA-seq은 이러한 RNA를 직접 분석하여 어떤 유전자가 활성화되어 있는지, 어떤 유전자에 변이가 있는지를 파악합니다.
### 왜 RNA-seq으로 SNP를 찾을까?
일반적으로 SNP를 찾을 때는 WGS나 WES를 많이 사용합니다. 그런데 왜 RNA-seq으로 SNP를 찾으려고 할까요? 그 이유는 다음과 같습니다.
* **특정 조건에서 발현되는 유전자의 변이를 찾을 수 있다:** RNA-seq은 특정 조건에서 활성화되는 유전자의 변이를 찾는 데 유리합니다. 예를 들어, 특정 질병에 걸린 환자의 RNA-seq 데이터를 분석하면, 질병과 관련된 유전자의 변이를 더 정확하게 찾아낼 수 있습니다.
* **비용 효율적이다:** WGS나 WES에 비해 비용이 적게 듭니다.
* **발현되는 변이에 집중할 수 있다:** RNA-seq은 실제로 단백질로 만들어지는 부분의 변이에 집중하기 때문에, 질병과의 연관성을 밝히는 데 더 효과적일 수 있습니다.
### SNPiR: RNA-seq 데이터에서 SNP를 더 정확하게 찾는 방법
SNPiR은 RNA-seq 데이터에서 SNP를 찾는 새로운 방법입니다. 기존의 방법보다 더 정확하게 SNP를 찾아낼 수 있다는 장점이 있습니다. SNPiR이 기존 방법보다 좋은 이유는 다음과 같습니다.
* **더 높은 정확도:** SNPiR은 기존 방법보다 더 높은 정확도로 SNP를 찾아냅니다.
* **더 많은 발현된 변이 발견:** SNPiR은 기존 방법보다 더 많은 발현된 변이를 찾아냅니다.
* **비용 효율적:** SNPiR은 WGS나 WES에 비해 비용이 적게 듭니다.
### 결론
RNA-seq 데이터를 이용하여 SNP를 찾는 것은 유전체 연구의 새로운 가능성을 열어줍니다. 특히 SNPiR과 같은 새로운 방법의 개발은 더욱 정확하고 효율적인 유전체 분석을 가능하게 합니다. 이러한 연구는 질병의 원인 규명, 새로운 치료법 개발 등 다양한 분야에 활용될 수 있을 것으로 기대됩니다.
**핵심 정리**
* SNP는 유전체 염기 서열의 차이를 의미하며, 질병 발생과 관련이 있을 수 있습니다.
* RNA-seq은 유전체 정보가 실제로 어떻게 활용되는지를 분석하는 방법입니다.
* SNPiR은 RNA-seq 데이터에서 SNP를 더 정확하게 찾는 새로운 방법입니다.
* SNPiR은 기존 방법보다 더 높은 정확도로 SNP를 찾아내고, 비용 효율적입니다.


clova-x
제목: RNA-seq 데이터에서 SNP를 식별하는 SNPiR 방법이란?
생명공학 분야에서는 유전자 변이를 파악하는 것이 중요한데, 이를 위해 그동안은 비용이 많이 드는 Whole Genome Sequencing(WGS), Whole Exome Sequencing(WES) 방법을 주로 사용해왔습니다. 하지만 최근에는 RNA 시퀀싱 데이터를 활용하여 유전자 변이를 파악하는 연구가 활발하게 이루어지고 있습니다.
RNA-seq 데이터에서 SNP를 식별하는 이유는 크게 두 가지입니다. 첫째, RNA-seq은 유전자의 발현량을 측정할 수 있을 뿐만 아니라, 변이를 동시에 파악할 수 있어 유용합니다. 둘째, RNA-seq은 WGS나 WES에 비해 비용이 저렴하고, 다양한 생물종에서 적용할 수 있습니다.
하지만 RNA-seq 데이터에서 SNP를 식별하는 것은 전사체의 복잡성으로 인해 쉽지 않은 일입니다. 이러한 문제를 해결하기 위해 SNPiR이라는 방법이 개발되었습니다. SNPiR은 splice-aware 방식으로 RNA-seq 데이터를 매핑하고, 변이를 호출한 후, false-positive를 강력하게 필터링하는 방법입니다.
기존의 RNA-seq 데이터에서 SNP를 식별하는 방법에 비해 SNPiR은 다음과 같은 장점이 있습니다. 먼저, splice-aware 방식을 사용하여 정확한 매핑이 가능합니다. 그리고 변이 호출 및 필터링 과정에서 false-positive를 효과적으로 제거하여 높은 정확도를 보장합니다. 마지막으로, RNA-seq 데이터의 특성을 고려하여 개발되었기 때문에, 다른 방법에 비해 더욱 효율적입니다.
이러한 SNPiR 방법을 통해 RNA-seq 데이터에서 SNP를 식별함으로써, 유전자 변이 연구에 큰 도움이 될 것으로 기대됩니다.


chatGPT
### RNA-Seq 데이터로 유전자 변이를 찾아내는 새로운 방법: SNPiR
유전자와 질병의 관계를 이해하는 중요한 방법 중 하나는 **단일염기 다형성(SNP, Single Nucleotide Polymorphism)**을 찾아내는 것입니다. SNP는 유전자 서열의 작은 변화로, 개개인의 차이를 만들어내고 질병의 원인이 될 수 있습니다. 기존에는 주로 **전체 유전체 시퀀싱(Whole Genome Sequencing, WGS)**이나 **전체 엑솜 시퀀싱(Whole Exome Sequencing, WES)** 같은 DNA 기반 기술을 통해 SNP를 찾아냈습니다. 하지만 이번 연구는 **RNA 시퀀싱(RNA-seq)** 데이터를 활용해 SNP를 더 효율적으로 찾아내는 방법을 제안합니다. 여기서 사용된 방법이 바로 **SNPiR**라는 기술입니다.
#### 1. 연구 배경
왜 우리는 RNA 시퀀싱을 통해 SNP를 찾아내려고 할까요? 전통적인 WGS나 WES는 이미 잘 알려진 방법인데도 말이죠. 그 이유는 RNA-seq가 몇 가지 독특한 장점을 가지고 있기 때문입니다.
- **비용 효율성**: RNA-seq는 WGS에 비해 비용이 저렴합니다. 많은 연구에서 이미 RNA-seq 데이터를 수집한 상태이기 때문에, 별도의 비용 없이 추가 분석을 통해 SNP를 찾아낼 수 있습니다.
- **유전자 발현 분석**: RNA-seq는 어떤 유전자가 활성화되고 있는지 보여주기 때문에, 변이가 실제로 발현되는 유전자에 있는지 알 수 있습니다. 이는 질병 연구에서 중요한 정보입니다.
#### 2. RNA-seq를 통한 SNP 탐지의 장점과 단점
RNA-seq를 통해 SNP를 찾아내는 것에는 분명한 장점이 있지만, 단점도 존재합니다.
##### 장점:
- **기존 데이터 활용**: 많은 질병 샘플에 대해 이미 RNA-seq 데이터를 가지고 있는 경우, 추가로 WGS나 WES를 수행하지 않고도 변이를 찾아낼 수 있습니다.
- **유전자 발현 정보**: RNA-seq 데이터는 발현 중인 유전자에서만 변이를 탐지할 수 있기 때문에, 기능적으로 중요한 변이를 더 쉽게 찾을 수 있습니다.
##### 단점:
- **전체 유전체 커버리지 부족**: RNA-seq는 발현 중인 유전자에서만 변이를 찾을 수 있기 때문에, 발현되지 않은 유전자나 비암호화 영역에서는 변이를 탐지할 수 없습니다.
- **기술적 복잡성**: RNA는 전사체의 복잡성(예: 스플라이싱) 때문에 분석이 더 어렵습니다. 잘못된 위치에 읽힘이 매핑되면 거짓 양성 결과가 나올 수 있습니다.
#### 3. SNPiR: RNA-seq 데이터를 활용한 SNP 탐지 방법
이번 연구에서 제안된 **SNPiR** 방법은 RNA-seq 데이터를 활용해 고도로 정확하게 SNP를 찾아낼 수 있는 알고리즘입니다. 이 방법의 핵심은 다음과 같습니다:
- **스플라이싱 인식 매핑**: RNA-seq 데이터는 유전자가 어떻게 조합되어 발현되는지 보여주기 때문에, SNPiR은 이러한 스플라이싱 정보를 인식하면서 매핑을 진행합니다.
- **GATK를 통한 변이 탐지**: Genome Analysis Toolkit(GATK)를 활용해 변이를 탐지하고, 엄격한 필터링 과정을 통해 잘못된 결과를 걸러냅니다.
SNPiR은 WGS 또는 WES 데이터와 비교했을 때 98% 이상의 정확도를 기록하며, 매우 높은 민감도를 보여줍니다.
#### 4. 다른 방법과의 비교: SNPiR vs. RNASEQR
SNPiR은 기존의 **RNASEQR**이라는 RNA-seq 변이 탐지 방법보다 더 나은 성능을 보였습니다. RNASEQR은 많은 거짓 양성 결과를 생성했지만, SNPiR은 더 적은 오류로 더 높은 정확도를 보여주었습니다. 특히 **코딩 영역**에서의 변이 탐지 민감도가 SNPiR이 RNASEQR보다 훨씬 높았습니다. 따라서 RNA-seq 데이터를 사용해 SNP를 찾는다면 **SNPiR**이 더 나은 선택입니다.
#### 5. 결론
RNA-seq 데이터를 통해 SNP를 찾는 방법은 기존의 WGS나 WES 방법을 보완할 수 있는 중요한 도구입니다. 특히 비용 효율성과 발현 유전자에서의 변이 탐지라는 장점 덕분에 RNA-seq를 통한 SNP 탐지는 앞으로도 더 많이 활용될 가능성이 큽니다. **SNPiR**은 그 중에서도 높은 정확성과 민감도를 자랑하는 방법으로, 유전체 연구나 질병 연구에 매우 유용할 것입니다.


NotebookLM
## RNA Sequencing 데이터를 이용한 SNP 식별: SNPiR 소개
**유전체 변이는 개인의 특징을 결정하는 중요한 요소**이며, 질병 발생과도 밀접한 관련이 있습니다. 이러한 유전체 변이를 정확하게 식별하는 것은 질병 메커니즘 이해, 진단 및 치료법 개발에 필수적입니다. 기존에는 **WGS (Whole Genome Sequencing)** 나 **WES (Whole Exome Sequencing)** 와 같은 DNA 염기서열 분석 방법을 통해 유전체 변이를 식별해왔습니다. 하지만 이러한 방법은 **비용이 많이 들고**, 분석 과정이 복잡하다는 단점이 있습니다.
최근에는 RNA Sequencing 데이터를 이용하여 유전체 변이를 식별하는 **RNA-seq** 방법이 주목받고 있습니다. **RNA-seq**는 DNA 염기서열 분석보다 **저렴**하며, 유전자 발현량, alternative splicing, allele-specific expression 등 다양한 정보를 얻을 수 있다는 장점이 있습니다.
### RNA-seq 기반 SNP 식별의 장단점
**장점**:
* **비용 효율성**: RNA-seq 데이터는 DNA 염기서열 분석보다 저렴합니다.
* **발현된 유전자에 대한 정보**: RNA-seq 데이터는 실제로 발현되는 유전자에 대한 정보를 제공하기 때문에, 유전체 변이가 유전자 발현에 미치는 영향을 파악하는데 유용합니다.
**단점**:
* **발현되지 않는 유전자**: RNA-seq는 발현되는 유전자만 분석 가능하기 때문에, 발현되지 않는 유전자의 변이는 찾을 수 없습니다.
* **RNA editing**: RNA-seq 데이터에서 RNA editing과 유전체 변이를 구분하는 것이 어려울 수 있습니다.
### SNPiR: RNA-seq 기반 SNP 식별의 새로운 방법
기존의 RNA-seq 기반 SNP 식별 방법은 정확도가 낮고, 분석 과정이 복잡했습니다. 이러한 문제점을 해결하기 위해 **SNPiR**이라는 새로운 방법이 개발되었습니다. **SNPiR**은 다음과 같은 특징을 가지고 있습니다.
* **splice-aware read mapping**: RNA splicing을 고려하여 read를 정확하게 mapping합니다.
* **GATK 기반 variant calling**: GATK (Genome Analysis Toolkit)을 사용하여 정확하게 변이를 calling합니다.
* **엄격한 filtering**: false-positive를 효과적으로 제거하기 위한 엄격한 filtering 과정을 거칩니다.
**SNPiR**은 기존 방법보다 **높은 정확도와 민감도**를 보여주며, RNA-seq 데이터에서 SNP를 효과적으로 식별할 수 있습니다. 또한, SNPiR은 **낮은 coverage 데이터에서도** 높은 정확도를 유지하며, 적은 양의 데이터로도 효율적인 분석이 가능합니다.
### SNPiR의 활용 가능성
**SNPiR**은 유전체 연구, 질병 연구, 맞춤형 의료 등 다양한 분야에서 활용될 수 있습니다. 특히 **암 유전체 연구**에서 **SNPiR**을 이용하여 암세포 특이적인 유전체 변이를 식별하고, 이를 바탕으로 새로운 치료법 개발에 기여할 수 있습니다.
### 결론
**SNPiR**은 RNA-seq 데이터를 이용하여 유전체 변이를 효과적으로 식별할 수 있는 새로운 방법입니다. **높은 정확도와 민감도**, 낮은 coverage 데이터에서의 성능, 다양한 분야에서의 활용 가능성을 고려했을 때, **SNPiR**은 유전체 연구의 새로운 지평을 열어줄 것으로 기대됩니다.

당시 나와있었던 RNAseq 기반의 SNP 탐지 프로그램들 보다 SNPiR이 좀 더 나은 성능을 보여준다고 서술하고 있지만... 그거야 너님들이 사용한 데이터 가지고 그런거 이지 않을까합니다. 실제 다른 상황의 샘플들 가져오면 이전에 나와서 사용하던 것들이나 이번것이나 도토리 키재기이지 않을까 하지만 그래도 우리에게 또 하나의 무기가 생기는 것이니깐 잘 활용하면 좋을듯 합니다.
최근에 새롭게 나온 RNAseq 기반의 SNP 탐지 툴은 없는지 다시 확인해봐야 겠네요. 
그래봤자 알파폴드나 gatk로 해쳐모여 할듯하긴한데.. :)




출처: @ye._.vely618


토요일, 10월 12, 2024

변이 조합으로 질병 예측하기

24년도 노벨상에서 AI의 위상이 높아졌기에 2019년에 나왔었던 기계학습 논문 하나 슬쩍 가져와봤습니다. Predicting disease-causing variant combinations 입니다.

DOI: 10.1073/pnas.1815601116


gemini

**VarCoPP: 유전자 쌍 변이 조합의 병원성을 예측하는 기계 학습 방법**

* **소개**

    * 단일 변이 병원성 식별에 관한 중요한 발전이 이루어졌음에도 불구하고, 많은 희귀 질병의 기원을 밝히기 위해서는 더 복잡한 유전 모델을 식별할 수 있는 방법이 필요합니다.

    * 이 논문에서는 변이 조합 병원성 예측기(VarCoPP)라는 기계 학습 방법을 제시합니다. VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측할 수 있습니다.

    * VarCoPP는 Digenic Diseases Database(DIDA)에서 얻은 데이터를 사용하여 훈련되었습니다. DIDA는 유전자 쌍의 병원성 변이 조합에 대한 정보를 포함하고 있습니다. VarCoPP는 병원성과 중립적인 이중 위치 조합을 구분하도록 훈련되었습니다.

    * 결과는 VarCoPP가 높은 정확도로 병원성 조합을 식별할 수 있음을 보여주었습니다. 또한 VarCoPP는 예측에 대한 신뢰도 점수를 제공하여 임상의가 어떤 조합을 더 조사해야 하는지 우선순위를 매길 수 있도록 도와줍니다.

    * VarCoPP는 희귀 질병의 유전적 원인을 연구하는 연구원과 임상의에게 유용한 도구입니다.

* **결과**

    * VarCoPP는 유전자 쌍의 병원성 변이 조합을 정확하게 식별할 수 있습니다.

    * VarCoPP는 예측에 대한 신뢰도 점수를 제공하여 임상의가 어떤 조합을 더 조사해야 하는지 우선순위를 매길 수 있도록 도와줍니다.

    * VarCoPP는 희귀 질병의 유전적 원인을 연구하는 연구원과 임상의에게 유용한 도구입니다.

    * 전체적으로, Papadimitriou et al.의 연구는 VarCoPP가 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구임을 시사합니다. 이는 희귀 질병의 진단과 치료에 중요한 의미를 가질 수 있습니다.

* **추가 연구**

    * VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구입니다.

    * VarCoPP의 성능을 더욱 향상시키기 위해서는 더 많은 데이터가 필요합니다.

    * VarCoPP는 희귀 질병의 진단과 치료에 중요한 도구가 될 수 있습니다.

    * VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구입니다.

    * VarCoPP의 성능을 더욱 향상시키기 위해서는 더 많은 데이터가 필요합니다.

    * VarCoPP는 희귀 질병의 진단과 치료에 중요한 도구가 될 수 있습니다.

    * VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구입니다.

    * VarCoPP의 성능을 더욱 향상시키기 위해서는 더 많은 데이터가 필요합니다.

    * VarCoPP는 희귀 질병의 진단과 치료에 중요한 도구가 될 수 있습니다.



clova-x

제목: 유전자 변이 조합과 질병의 관계를 기계학습으로 설명하다

최근 생명공학 분야에서는 유전자 변이와 질병 사이의 복잡한 관계를 이해하기 위한 연구가 활발하게 이루어지고 있습니다. 특히, 단일 유전자 변이뿐만 아니라 여러 유전자 변이의 조합이 질병의 발병과 진행에 영향을 미치는 것으로 밝혀지면서, 이를 분석하기 위한 새로운 방법이 필요하게 되었습니다.

오늘은 'papadimitriou-et-al-2019-predicting-disease-causing-variant-combinations.pdf' 파일을 통해 소개된 연구에 대해 이야기해 보려고 합니다. 이 연구에서는 기계학습 방법을 이용하여 유전자 변이의 조합과 질병 사이의 관계를 분석하였습니다.

기계학습은 데이터로부터 패턴을 학습하고 이를 기반으로 예측을 수행하는 인공지능의 한 분야입니다. 이 연구에서는 유전자 변이 데이터와 질병 정보를 결합하여 기계학습 모델을 학습시키고, 이를 통해 유전자 변이 조합이 질병과 어떤 관련이 있는지를 파악하였습니다.

구체적으로, 'Variant Combinations Pathogenicity Predictor (VarCoPP)'라는 머신러닝 알고리즘을 개발하여 두 유전자 간의 변이 조합(이중 유전자 또는 이 위치 변이 조합)의 병원성을 식별하였습니다. 이 방법은 높은 정확도와 정밀도를 보였으며, 독립적인 질병 유발 데이터를 사용하여 검증했을 때도 효과적이었습니다.

이러한 연구 결과는 유전자 변이 조합이 질병의 발병과 진행에 미치는 영향을 이해하는 데 큰 도움이 될 수 있습니다. 예를 들어, 특정 유전자 변이 조합이 특정 질병의 발병 위험을 증가시키거나, 질병의 진행 속도에 영향을 미칠 수 있다는 것을 파악할 수 있다면, 이를 바탕으로 질병의 예방, 진단 및 치료에 대한 새로운 접근 방법을 개발할 수 있을 것입니다.

하지만 이 연구에도 몇 가지 한계점이 있습니다. 우선, 유전자 변이 데이터와 질병 정보가 완벽하게 일치하지 않을 수 있으며, 이는 기계학습 모델의 정확도에 영향을 미칠 수 있습니다. 또한, 기계학습 모델이 학습한 패턴이 항상 실제 상황에서도 적용되는 것은 아니기 때문에, 예측의 정확도를 높이기 위해서는 추가적인 연구와 검증이 필요합니다.

그럼에도 불구하고, 이 연구는 유전자 변이 조합과 질병의 관계를 이해하는 데 있어서 매우 중요한 진전을 이루었으며, 앞으로 더욱 발전된 기술과 연구를 통해 더욱 정확하고 유용한 정보를 제공할 수 있을 것으로 기대됩니다.

우리 모두가 건강한 삶을 살기 위해서는 유전자 변이와 질병 사이의 복잡한 관계를 이해하는 것이 매우 중요하며, 이를 위해 계속해서 노력해야 할 것입니다.



chatGPT

네, 이 논문은 질병과의 연관성을 단일 변이보다는 여러 유전자의 변이 조합을 통해 설명하려는 기계 학습 방법에 대한 연구입니다. 이 연구에서 제안된 기법은 특히 희귀 질환에서 그 효과가 두드러집니다. 일반적으로 사람들은 특정 유전자가 변이를 일으키면 그 변이로 인해 질병이 발생한다고 생각하지만, 실제로는 여러 유전자가 서로 상호작용을 하면서 질병의 원인이 되는 경우가 많습니다. 이를 더 잘 설명하기 위해 연구팀은 **VarCoPP(Variant Combinations Pathogenicity Predictor)**라는 기계 학습 모델을 제안했습니다.

### 연구 배경과 내용

이 연구는 기존에 단일 유전자 변이를 분석하는 방식에서 벗어나, 두 개 이상의 유전자에서 변이가 발생했을 때 그 변이들이 서로 어떻게 작용해 질병을 유발할 수 있는지를 예측하려 합니다. 이를 **이종 유전자 변이 조합**이라고 부르며, VarCoPP는 이러한 변이 조합이 질병을 유발할 가능성을 평가합니다. 예를 들어, 유전자 A에서 변이가 일어났을 때는 아무런 문제가 없더라도, 유전자 B에서 특정 변이가 동시에 발생하면 두 변이가 서로 상호작용하여 질병을 일으킬 수 있습니다.

이러한 복합적인 유전자 변이 모델은 여러 질병, 특히 드문 유전 질환에서 더 정확한 진단을 가능하게 합니다. 연구진은 실제로 환자의 유전자 데이터를 기반으로 변이 조합을 분석한 결과, 많은 사례에서 이 방법이 질병의 원인을 설명할 수 있음을 확인했습니다.

### 연구 결과가 우리 삶에 미치는 영향

이 연구는 우리가 기존에 알지 못했던 유전적 질병의 원인을 이해하는 데 큰 도움이 될 수 있습니다. VarCoPP를 활용하면 희귀 질환을 앓고 있는 환자의 유전자 데이터를 분석해 그들이 어떤 유전자 변이 조합 때문에 질병에 걸렸는지 더 정확하게 파악할 수 있습니다. 이를 통해 좀 더 개인화된 의료, 즉 **맞춤형 치료**가 가능해집니다. 예를 들어, 특정 유전자 조합 때문에 특정 질병에 걸린 환자는 그 유전자 변이에 맞춘 치료법을 적용할 수 있습니다.

또한 이 방법은 **유전자 상담**에도 유용합니다. 유전자 검사를 받은 사람들이 단일 변이가 아니라 여러 유전자 변이의 조합으로 인해 질병에 걸릴 가능성을 더 정확히 알 수 있기 때문에, 더 나은 건강 관리 및 예방 전략을 세울 수 있습니다.

### 한계와 문제점

그러나 이 연구에도 몇 가지 한계가 있습니다. 첫째, **데이터의 부족**입니다. 희귀 질환의 경우 환자 데이터가 많지 않기 때문에, 더 많은 데이터를 확보해야 VarCoPP와 같은 기계 학습 모델의 성능을 더 정확하게 평가하고 개선할 수 있습니다. 둘째, 이 모델은 주로 **유전자 변이 간의 상호작용**에 집중하고 있지만, 환경적 요인이나 생활습관 등도 질병 발생에 영향을 미칠 수 있습니다. 따라서 유전자 변이만을 고려하는 것이 모든 경우에 적용될 수는 없습니다.

셋째, **거짓 양성(잘못된 예측)**의 가능성입니다. VarCoPP는 높은 정확성을 자랑하지만, 일부 변이 조합이 실제로는 질병을 유발하지 않음에도 불구하고 질병 유발 가능성이 있다고 예측될 수 있습니다. 이러한 문제를 해결하려면, 더 많은 임상적 검증이 필요합니다.

### 결론

VarCoPP와 같은 기계 학습 모델은 유전자의 복합적인 변이 조합이 질병과 어떻게 연관되는지를 이해하는 데 중요한 도구가 될 수 있습니다. 이는 특히 희귀 질환의 진단과 치료에서 유용하며, 더 나아가 맞춤형 의료의 발전을 이끌 것으로 기대됩니다. 다만, 더 많은 데이터와 환경적 요인에 대한 고려가 필요하며, 잘못된 예측을 줄이기 위한 추가적인 검증 작업도 중요합니다.



NotebookLM

## 유전자 변이 조합으로 질병 예측: VarCoPP 이야기

선택하신 자료는 **단일 유전자 변이가 아닌, 여러 유전자 변이의 조합을 분석하여 질병과의 연관성을 밝히는 기계학습 방법**에 대한 연구입니다. **VarCoPP(Variant Combinations Pathogenicity Predictor)**라는 혁신적인 기술을 소개하며, 희귀 질환의 유전적 원인을 파악하는 데 새로운 지평을 열고 있습니다.

### 희귀 질환, 유전자 조합으로 풀어낸다

기존 연구들은 주로 하나의 유전자 변이가 질병을 일으킨다는 관점에서 접근했습니다. 그러나 실제로는 **여러 유전자의 변이가 복합적으로 작용하여 질병을 유발하는 경우가 많습니다.** 마치 여러 조각들이 모여 하나의 그림을 완성하듯, 유전자 변이들의 조합이 질병 발생에 핵심적인 역할을 한다는 것입니다. 

### VarCoPP, 유전자 조합의 비밀을 밝히다

VarCoPP는 **유전자 쌍에서 질병을 유발할 가능성이 있는 변이 조합을 예측하는 기계학습 모델**입니다. 방대한 유전 정보를 분석하고 학습하여, 특정 변이 조합이 질병을 유발할 가능성을 계산합니다. 

VarCoPP는 **DIDAv1(Digenic Diseases Database)**라는 데이터베이스를 활용합니다. DIDAv1은 과학 논문들을 통해 밝혀진, 질병을 유발하는 유전자 변이 조합들을 체계적으로 정리한 자료입니다. VarCoPP는 이 데이터베이스를 기반으로 학습하여, **새로운 변이 조합의 질병 유발 가능성을 정확하게 예측**할 수 있습니다.

### VarCoPP는 어떻게 질병을 예측할까?

VarCoPP는 유전자 변이의 **병원성(CADD score)**, **유전자의 열성 여부**, **유전자 간의 생물학적 거리** 등 다양한 정보들을 종합적으로 분석하여 질병 예측에 활용합니다. 

1. **변이의 병원성**: CADD score는 특정 유전자 변이가 얼마나 질병을 유발할 가능성이 높은지 나타내는 점수입니다. VarCoPP는 각 변이의 CADD score를 분석하여, 변이 조합의 질병 유발 가능성을 평가합니다.

2. **유전자의 열성 여부**: 어떤 유전자는 변이가 하나만 있어도 질병을 유발하지만, 어떤 유전자는 두 개의 변이가 모두 존재해야 질병이 발생합니다. VarCoPP는 유전자의 이러한 특성을 고려하여, 변이 조합의 질병 유발 가능성을 판단합니다.

3. **유전자 간의 생물학적 거리**: 유전자들은 서로 협력하여 단백질을 만들고 생명 활동을 유지합니다. VarCoPP는 유전자 간의 상호작용 정보를 분석하여, 변이 조합이 질병 발생에 미치는 영향을 파악합니다.

### VarCoPP, 우리 삶을 어떻게 바꿀까?

**VarCoPP는 희귀 질환 진단 및 치료에 혁신을 가져올 잠재력**을 가지고 있습니다. 

* **정확한 진단**: VarCoPP는 기존 검사 방법으로는 찾기 어려웠던 희귀 질환의 유전적 원인을 밝혀낼 수 있습니다. 

* **맞춤형 치료**: 환자 개개인의 유전적 특성에 맞는 맞춤형 치료법 개발에 기여할 수 있습니다. 

* **신약 개발**: 질병 발생 메커니즘에 대한 이해를 높여, 새로운 치료제 개발을 촉진할 수 있습니다.

### VarCoPP의 한계와 과제

VarCoPP는 획기적인 기술이지만, 아직 몇 가지 한계점과 해결해야 할 과제들이 남아 있습니다.

* **데이터 부족**: VarCoPP의 정확도를 높이기 위해서는 더 많은 유전 정보 데이터가 필요합니다.

* **분석 범위 확대**: 현재는 유전자 쌍만 분석 가능하지만, 3개 이상의 유전자 조합 분석 기술 개발이 필요합니다. 

* **해석의 복잡성**: VarCoPP는 다양한 정보를 복합적으로 분석하기 때문에 결과 해석에 전문적인 지식이 요구됩니다.

### 미래를 향한 도약

VarCoPP는 희귀 질환 정복을 향한 희망의 빛입니다. 지속적인 연구 개발을 통해 VarCoPP의 정확성과 활용 범위를 넓혀나간다면, 희귀 질환으로 고통받는 환자들에게 더 나은 미래를 선물할 수 있을 것입니다. 


gemini가 내용 설명해주기 싫었는지 같은 내용을 뱉어낸거 제외하고는... LLM들 모두 잘 설명해준듯 합니다. 이때가 2019년이니 이제 내년쯤이면 쓸만한 킬러 서비스들이 -지금까지 나온 AI, 머신러닝, 기계학습을 사용한 interpretation 방법이 jab이었다면, 이제 나오는 것들은 Hook 수준의 것들이- 등장하지 않을까 하는 생각입니다.



출처: @wm_ohmygirl


토요일, 6월 08, 2024

통계방법을 활용한 조금 더 똘똘한 변이 검출 방법

오늘은 변이 호출 검증 방법에 대한 논문을 가져와봤습니다. deep seq을하다보면 오류로 인해서 변이가 탐지되기도하고, 아니기도한 경우가 종종 발생합니다. 그래도 germline, 생식세포 변이를 탐지할 때는 이런 오류를 판별은 가능한데 이 tumor 변이인 somatic, 체세포 변이는 이만 저만 까다로운게 아닙니다. 

그래서 나온 것이 통계를 바탕으로 탐지된 변이의 진위 여부를 가려보겠습니다 라는 내용의 "A Retrospective Statistical Validation Approach for Panel of Normal–Based Single-Nucleotide Variant Detection in Tumor Sequencing" 논문 되겠습니다.

DOI: 10.1016/j.jmoldx.2021.09.010


오늘도 변함없이 AI들에게 요약을 해달라고 해보았습니다.


clova-x

이 논문에서는 SNV calling을 위해 local realignment, context error rate calculation, and binomial error testing을 사용했다고 합니다. 또한, CleanDeepSeq Validation 방법과 CleanDeepSeq의 ROC 곡선을 보여주고 있으며, statistical criterion을 제안하여 모델의 실제 적합성을 평가했다고 합니다. 이를 통해 정확한 변이 검출을 수행할 수 있었습니다.

추가적으로, 이 논문에서는 다음과 같은 방법과 알고리즘을 사용했습니다.

1. **회귀분석 타당성 접근법**: 이 논문에서는 단일 뉴클레오타이드 변이 검출을 위해 회귀분석 타당성 접근법을 사용했습니다. 이 방법은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 합니다.

2. **밀도 추정**: 변이 검출을 위해 밀도 추정 방법을 사용했습니다. 이 방법은 변이 데이터의 분포를 파악하고, 이를 바탕으로 변이를 검출하는 데 사용됩니다.

3. **통계적 기준**: 변이 검출을 위한 통계적 기준을 제안했습니다. 이 기준은 모델의 적합성을 평가하고, 이를 바탕으로 변이를 검출하는 데 사용됩니다.

4. **데이터 클린징**: 변이 검출을 위해 데이터 클린징 단계를 수행했습니다. 이 단계에서는 softclips와 품질 제어 플래그를 제거하여 데이터의 품질을 향상시켰습니다.

이러한 방법과 알고리즘을 통해 정확한 변이 검출을 수행할 수 있었습니다. 하지만, 이 논문에서는 다양한 방법과 알고리즘을 사용했기 때문에, 상황에 따라 적절한 방법과 알고리즘을 선택해야 합니다. 또한, 새로운 기술과 알고리즘이 계속해서 개발되고 있기 때문에, 최신 기술과 알고리즘을 적극적으로 활용하는 것이 중요합니다.

이 논문에서는 다양한 데이터셋을 사용하여 실험을 진행했습니다. 이 데이터셋은 다양한 종류의 암 세포주와 환자 데이터를 포함하고 있으며, 이를 통해 변이 검출의 정확도와 성능을 평가했습니다. 이러한 실험 결과를 바탕으로, 이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다.

이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다. 이 방법과 알고리즘은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 하며, 이를 통해 암 진단과 치료에 대한 연구에 큰 도움이 될 것입니다. 하지만, 이 논문에서는 다양한 방법과 알고리즘을 사용했기 때문에, 상황에 따라 적절한 방법과 알고리즘을 선택해야 합니다. 또한, 새로운 기술과 알고리즘이 계속해서 개발되고 있기 때문에, 최신 기술과 알고리즘을 적극적으로 활용하는 것이 중요합니다.

이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다. 이 방법과 알고리즘은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 하며, 이를 통해 암 진단과 치료에 대한 연구에 큰 도움이 될 것입니다. 하지만, 이 논문에서는 다양한 방법과 알고리즘을 사용했기 때문에, 상황에 따라 적절한 방법과 알고리즘을 선택해야 합니다. 또한, 새로운 기술과 알고리즘이 계속해서 개발되고 있기 때문에, 최신 기술과 알고리즘을 적극적으로 활용하는 것이 중요합니다.

이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다. 이 방법과 알고리즘은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 하며, 이를 통해 암 진단과 치료에 대한 연구에 큰 도움이 될 것입니다. 하지만, 


chatGPT

### 암 진단의 혁신: 새로운 통계적 검증 방법을 통한 변이 검출

암 진단과 치료는 지난 몇 년 동안 엄청난 발전을 이뤘습니다. 특히 차세대 시퀀싱(NGS) 기술의 도입으로 암의 유전적 변이를 분석하는 것이 가능해지면서 맞춤형 치료의 시대가 열렸습니다. 그러나 이러한 기술에도 불구하고 낮은 빈도의 단일 뉴클레오타이드 변이(SNV)를 정확하게 검출하는 것은 여전히 도전 과제로 남아있습니다. 최근 연구에서는 이러한 문제를 해결하기 위해 새로운 통계적 검증 방법을 제안했습니다. 이번 블로그에서는 이 새로운 방법과 그 의미에 대해 살펴보겠습니다.

#### 기존 방법의 한계

기존의 SNV 검출 방법은 정상 샘플 패널(PON)을 사용하여 각 변이 위치의 오류율을 추정합니다. 그러나 이러한 방법은 몇 가지 한계를 가지고 있습니다. 먼저, PON 기반 방법은 충분한 양의 정상 샘플을 확보하기 어렵고, 샘플링 편향 및 변동이 발생할 수 있습니다. 이는 정확한 오류 프로파일을 얻기 어렵게 만듭니다. 또한, 특정 위치에서 오류 데이터가 부족할 경우 다른 위치의 데이터를 빌려야 하는 문제가 있습니다.

#### 새로운 통계적 검증 방법의 등장

이러한 한계를 극복하기 위해 연구자들은 다양한 암 샘플에서 수집된 데이터를 기반으로 SNV의 위치별 오류 분포를 경험적으로 모델링하는 새로운 통계적 검증 방법을 개발했습니다. 이 방법은 다음과 같은 주요 단계를 포함합니다.

1. **데이터 수집 및 정제**:

   다양한 암 샘플에서 시퀀싱된 데이터를 수집하고, DNA 준비 및 시퀀싱 과정을 통해 데이터를 정제합니다.

2. **오류 분포 추정**:

   수집된 데이터에서 각 변이 위치의 필터링된 리드 수를 추출하고, 이를 바탕으로 변이 위치별 오류 분포를 경험적으로 모델링합니다.

3. **통계적 검증 모델 구축**:

   각 변이 위치에서의 필터링된 리드 수를 기반으로 통계적 모델을 구축하여 예상 오류 분포를 추정하고, 변이 검출을 위한 임계값을 설정합니다.

4. **이상치 검출 및 변이 식별**:

   예상 오류 분포와 비교하여 각 변이 위치의 리드 수를 분석하고, 리드 수가 예상 분포에서 벗어날 경우 이를 변이로 식별합니다.

5. **실험적 검증**:

   검출된 변이를 디지털 PCR과 같은 실험적 방법을 통해 검증하여 모델의 성능을 평가하고, 필요한 경우 모델을 수정 및 보완합니다.

#### 연구 결과와 의의

연구자들은 2019년 10월부터 2020년 7월까지 시퀀싱된 6,580개의 암 샘플 데이터를 사용하여 새로운 모델을 훈련했습니다. 그 결과, 38개의 암 관련 변이 위치에서 새로운 낮은 빈도의 변이를 발견하였고, 이러한 변이들은 디지털 PCR을 통해 실험적으로 검증되었습니다. 또한 시뮬레이션 연구에서도 새로운 방법의 장점을 확인할 수 있었습니다.

이 연구는 암 진단에서 변이 검출의 정확성을 크게 향상시키는 방법을 제안함으로써, 환자 치료에 중요한 기여를 할 수 있습니다. 특히, 낮은 빈도의 변이를 더 잘 검출할 수 있어 맞춤형 치료의 정확성을 높일 수 있습니다.

#### 결론

암 진단에서 변이 검출의 정확성을 높이는 것은 환자의 치료 결과에 직접적인 영향을 미칩니다. 이번 연구에서 제안된 새로운 통계적 검증 방법은 기존의 한계를 극복하고, 더 정확한 변이 검출을 가능하게 합니다. 이를 통해 암 진단의 신뢰성을 높이고, 맞춤형 치료의 효율성을 극대화할 수 있을 것으로 기대됩니다. 앞으로도 이러한 혁신적인 연구가 지속되어 암 치료의 새로운 지평을 열어가기를 바랍니다.


claude.ai

제목: 암 유전체 분석을 위한 새로운 단일염기변이(SNV) 검출 기법

안녕하세요? 오늘은 암 유전체 시퀀싱 데이터 분석에 있어서 단일염기변이(SNV) 검출의 중요성과 새로운 통계적 접근법에 대해 소개하겠습니다. 

암 치료에 있어 환자 개인의 유전체 정보는 매우 중요합니다. 차세대 시퀀싱(NGS) 기술을 통해 암 조직의 SNV를 검출하면 표적 치료제 선택 등 정밀 의료에 큰 도움이 됩니다. 하지만 기존의 SNV 검출 방식은 낮은 변이 빈도의 SNV를 제대로 찾아내지 못하는 한계가 있었습니다.

이를 해결하기 위해 새로운 통계적 검증 방법이 제안되었는데요. 기존에는 제한된 수의 정상 샘플 패널을 사용하여 위치별 오류율을 추정했지만, 이번 방식은 대량의 암 환자 시퀀싱 데이터를 활용합니다. 구체적인 과정은 다음과 같습니다.

1) 베타-이항분포 모델을 사용하여 위치별 오류 분포를 모델링합니다.

2) 변이 알렐 빈도(VAF) 임계값 미만의 데이터만 사용하여 truncated 베타-이항분포를 추정합니다. 

3) 최대가능도 추정법으로 모수를 계산합니다.

4) 추정된 분포를 바탕으로 VAF 임계값을 넘으면 SNV로 검출합니다.

5) 카이제곱 검정으로 모델의 적합도를 평가합니다.

이 방식으로 낮은 변이 빈도(VAF < 5%)의 SNV도 높은 민감도로 검출할 수 있었습니다. 디지털 PCR 검증 결과 99% 특이도에서 85%의 민감도를 보였습니다.

대규모 암 환자 데이터를 활용하여 경험적으로 오류율을 프로파일링한 것이 주요 특징인데요. 이를 통해 기존 방식보다 SNV 검출 정확도를 크게 높일 수 있었습니다. 앞으로 이 새로운 통계 기법이 암 유전체 분석 파이프라인 개선에 기여할 것으로 기대됩니다.


gemini

## 딥 시퀀싱 데이터에서 정확한 변이 검출: 새로운 통계적 회귀 접근 방식 소개

암 진단 및 치료에서 유전자 변이는 중요한 역할을 합니다. 딥 시퀀싱은 다양한 유형의 암을 진단하는 데 사용되는 강력한 도구이며, 이를 통해 정확하게 변이를 검출하는 것이 중요합니다.

기존의 변이 검출 방법에는 몇 가지 제한 사항이 있습니다. 예를 들어, 저빈도 변이를 누락하거나 오류를 발생시킬 수 있습니다. 이러한 문제를 해결하기 위해 연구원들은 새로운 방법을 개발하고 있습니다.

최근 연구에서는 딥 시퀀싱 데이터에서 정상 패널 기반 단일 뉴클레오티드 변이(SNV) 검출을 위한 통계적 회귀 검증 접근 방식을 제안했습니다. 이 방법은 통계적 모델을 사용하여 SNV를 검출하여 기존 방법보다 정확하고 민감하며 효율적입니다.

**새로운 방법의 장점:**

* **정확성 향상:** 통계적 회귀 모델은 오류를 줄이고 정확성을 향상시킵니다.

* **민감도 향상:** 저빈도 변이를 더 효과적으로 감지합니다.

* **효율성 향상:** 병렬 검증 파이프라인을 제공하여 프로세스를 더 효율적으로 만듭니다.

**이 연구는 딥 시퀀싱 데이터에서 SNV를 검출하는 데 사용할 수 있는 정확하고 효율적인 방법을 제공합니다. 이 방법은 암 진단 및 치료를 개선하는 데 사용될 수 있습니다.**


clova-x가 내용 늘리기 신공을 또 사용하였습니다. 이 정도면 상습범인것 같은데.. 

그리고 gemini는 요점을 정확하게 얘기하면서 가장 짧게 풀어냈습니다. 그냥 앞뒤 얘기 안하고 개선된 방법을 알아냈습니다라고 던져주네요 ㅎㅎ 

역시 gpt와 claude가 가장 양질의 문장을 뱉어주셨습니다.

유료 버전 쓰면 더 쓸만한 내용의 결과물을 하사해 주시리라 생각됩니다.

이제 AI한테 물어보고 작성해달라고 하니깐 격일로 블로그에 논문 요약 게시하는 것이 가능할 줄 알았는데 사용자의 수준이 낮다보니 이마저도 쉽지 않은듯합니다.

그냥 되는대로 해보도록 하겠습니다. :)


출처: @ye._.vely618


월요일, 6월 03, 2024

과연 종양 이질성을 극복한 변이 탐지가 가능할까?

오늘은 프로토콜 자료 하나 가져와봤습니다.

제목은 Somatic variant detection from multi-sampled genomic sequencing data of tumor specimens using the ith.Variant pipeline 으로 종양내 genome 이질성으로 인해 변이 탐지가 수월하지 않는데, 이 변이 탐지를 가능하게 해주는 파이프라인에 대한 내용 같습니다.

DOI: 10.1016/j.xpro.2022.101927


오늘도 역시 gemini, clova-x와 chatGPT에게 블로그에 올릴 글을 하나 작성해달라고 하였습니다.


gemini

## 우리 몸의 신비: 생명 과학 입문

생명 과학은 우리 주변의 살아있는 존재와 그 작동 방식을 연구하는 과학 분야입니다. 우리가 태어나고, 성장하고, 번식하며, 결국 죽는까지 일어나는 모든 과정은 생명 과학의 영역에 속합니다. 

고등학교 이후 생명 과학을 공부하지 않은 일반인이라도 생명 과학은 우리 삶과 밀접하게 관련되어 있다는 것을 알 수 있습니다. 예를 들어, 우리가 먹는 음식, 우리가 사용하는 약, 우리가 걸리는 질병 등은 모두 생명 과학과 관련이 있습니다.

이 블로그 게시글에서는 생명 과학의 기본 개념을 소개하고, 우리 몸의 신비로운 작동 방식에 대해 알아보도록 하겠습니다. 생명 과학은 복잡하고 방대한 분야이지만, 기본적인 개념을 이해하면 우리 주변 세상을 보는 새로운 시각을 얻을 수 있습


clova-x

 해당 파이프라인은 종양의 샘플링된 유전체 시퀀싱 데이터를 이용하여 변이를 탐지하고 분석하는 데 사용되는 것으로 알려져 있습니다. 이는 종양의 유전적 다양성과 진화를 이해하고, 종양의 특성과 치료 방법을 결정하는 데 중요한 역할을 합니다.

이 파이프라인은 다양한 데이터 형식을 지원하며, 고성능 컴퓨팅 환경에서 실행될 수 있습니다. 또한, 사용자 정의 가능한 단계로 구성되어 있어 사용자가 필요한 단계를 선택하고, 각 단계의 설정을 조정할 수 있습니다.

이 파이프라인은 민감도와 특이도의 균형을 제공하여 변이를 정확하게 탐지하면서도 불필요한 변이를 제거할 수 있습니다. 또한, clonal or major subclonal SCNAs를 탐지할 수 있어 종양의 유전적 다양성과 진화를 더욱 정확하게 이해할 수 있습니다.

이 파이프라인을 사용하면 종양의 유전적 변이를 빠르고 정확하게 탐지할 수 있으며, 이를 바탕으로 종양의 특성과 치료 방법을 결정할 수 있습니다. 또한, 이 파이프라인은 오픈 소스 소프트웨어로 제공되어 있어 누구나 자유롭게 사용할 수 있으며, 커뮤니티를 통해 지속적인 업데이트와 개선이 이루어지고 있습니다.

이 파이프라인을 사용하기 위해서는 컴퓨터 시스템과 프로그래밍 지식이 필요합니다. 하지만, 최근에는 다양한 클라우드 서비스와 GUI 기반의 도구들이 제공되어 있어, 비전문적인 사용자도 쉽게 이 파이프라인을 사용할 수 있습니다.

이 파이프라인을 사용하여 얻은 결과는 의료 전문가와 함께 분석하고 해석해야 합니다. 이를 통해, 종양의 치료와 예방에 대한 더욱 정확한 정보를 얻을 수 있습니다.

이 글을 통해, 이 파이프라인이 종양 연구와 치료에 있어서 매우 유용한 도구 중 하나라는 것을 알 수 있습니다. 하지만, 이 파이프라인을 사용하기 위해서는 컴퓨터 시스템과 프로그래밍 지식이 필요하며, 결과를 의료 전문가와 함께 분석하고 해석해야 합니다. 따라서, 이 파이프라인을 사용하고자 하는 경우에는 충분한 준비와 전문가의 도움을 받는 것이 중요합니다.


chatGPT

### 유전체 분석을 통한 종양 연구 혁신: ith.Variant 파이프라인 소개

최근 몇 년간 의학과 생명과학 분야에서 엄청난 발전이 이루어졌습니다. 그 중 하나가 유전체 분석 기술의 발전입니다. 오늘은 종양 연구를 혁신적으로 변화시키고 있는 ith.Variant라는 파이프라인에 대해 소개해드리고자 합니다. 생명 과목을 고등학교 이후로 공부하지 않으셨더라도 이해하기 쉽게 설명해드리겠습니다.

#### 유전체 분석이란?

우선, 유전체 분석에 대해 간단히 설명하겠습니다. 유전체란 우리 몸의 모든 유전 정보를 담고 있는 DNA의 총합을 말합니다. 유전체 분석은 이러한 DNA를 분석하여 유전적 변이를 찾고, 이를 통해 질병의 원인이나 치료법을 찾는 연구 방법입니다.

#### 종양과 유전적 변이

종양(암)은 우리 몸의 세포가 비정상적으로 빠르게 자라면서 덩어리를 형성하는 것입니다. 종양이 발생하는 이유 중 하나는 유전자 변이 때문입니다. 이러한 변이를 찾아내는 것이 종양 연구와 치료에 매우 중요합니다. 그러나 종양 내의 세포들은 각기 다른 유전적 변이를 가지고 있을 수 있습니다. 이를 "종양 이질성"이라고 부릅니다. 이질성을 정확히 분석하는 것은 종양의 진화와 치료 반응을 이해하는 데 중요한 역할을 합니다.

#### ith.Variant 파이프라인이란?

ith.Variant는 이러한 유전적 변이를 정확히 찾아내고 분석하기 위해 개발된 파이프라인(연속적인 처리 절차)입니다. 기존의 분석 방법들은 한 번에 하나의 샘플만 분석하는 경우가 많았습니다. 그러나 ith.Variant는 여러 샘플을 동시에 분석하여 더 정밀하고 신뢰할 수 있는 결과를 제공합니다.

#### ith.Variant의 장점

1. **높은 민감도와 특이성**: 저빈도 변이(적은 비율로 나타나는 변이)를 민감하게 탐지하면서도 인공적인 오류를 줄이는 데 뛰어납니다. 이는 변이 탐지의 정확성을 높여줍니다.

2. **종양 이질성 분석**: 여러 종양 샘플과 정상 샘플을 통합적으로 분석하여 종양 내 다양한 유전적 변이를 정확히 특성화할 수 있습니다. 이를 통해 종양의 진화 과정을 더 잘 이해할 수 있습니다.

3. **고성능 컴퓨팅 활용**: 대규모 유전체 데이터를 효율적으로 처리할 수 있도록 설계되어 있어, 방대한 데이터를 신속하게 분석할 수 있습니다.

4. **오픈 소스 접근성**: 이 파이프라인은 오픈 소스로 제공되어, 연구자들이 자유롭게 사용하고 수정할 수 있습니다. 이는 연구의 투명성과 협력성을 높여줍니다.

#### 종양 연구의 미래

ith.Variant와 같은 첨단 유전체 분석 도구는 종양 연구와 치료를 혁신적으로 변화시키고 있습니다. 정확한 유전적 변이 분석을 통해 더 효과적인 개인 맞춤형 치료법을 개발할 수 있으며, 종양의 진화 과정을 이해함으로써 재발을 예방하는 데도 기여할 수 있습니다.

이처럼 ith.Variant 파이프라인은 종양 연구자들에게 강력한 도구가 되어주고 있습니다. 앞으로도 유전체 분석 기술의 발전이 우리 삶에 가져올 긍정적인 변화를 기대해봅니다.

여러분도 이제 유전체 분석과 ith.Variant에 대해 조금 더 이해하게 되셨기를 바랍니다. 앞으로도 유전체 연구와 관련된 흥미로운 소식을 전해드리겠습니다. 감사합니다!


아.. 우리의 gemini는 또 무슨 말인지 모를... 얘기를 뱉어냈습니다. 물론 제가 사용한 프롬프트가 유발한 문제이기도 합니다. 

"독자는 생물 과목을 고등학교때 이후에 공부하지 않은 일반인입니다" 라는 프롬프트를 사용하는 바람에...  이전에는 잘 파악했는데, 이번에는 헛소리를 내뱉은것 같습니다. 음... 한편으로는 gemini의 문제가 아니라 무료 버전의 문제일지도.. ㅎㅎ :)

clova-x와 chatGPT 같은 경우는 그래도 좀 더 이해할 수 있도록 잘 작성한 듯 합니다.

종양 검체를 분석 한다고 하더라도 그 검체 안에 정상 조직들이 0%는 아니라서 변이를 탐지할 때 정상조직에 있는 변이와 종양의 변이를 구분하는 것은 중요하게 됩니다. 그래서 해당 검체에서 종양이 차지하는 비율을 바탕으로 탐지된 somatic 변이의 depth를 사용하여 진위여부를 구별하게 됩니다. 위의 ith.Variant라는 파이프라인도 아마 이런 방법들을 사용해서 하지 않나 싶습니다. 


다음에 또 흥미로운 내용의 논문이 있으면 AI들에게 물어보도록 해보겠습니다. :)



출처: @ye._.vely618

목요일, 4월 18, 2024

UK Biobank 데이터 활용하면 어떤것을 할 수 있을까?

오늘은 많은 국가의 BioBank 사업에 귀감이 되고 있는 UK BioBank를 활용한 논문을 한번 가져와봤습니다. 

당연히 UK BioBank 데이터를 활용한 논문은 어마 무시하게 많이 있습니다.

그중에서 이 Effects of protein-coding variants on blood metabolite measurements and clinical biomarkers in the UK Biobank 논문을 가져온 이유는 그냥 최근에 나왔으니깐요 ㅎㅎ 

DOI: 10.1016/j.ajhg.2023.02.002


오늘도 역시 clova-x에게 물어보았습니다.

이 연구는 단백질 코딩 변이가 혈액 대사물 측정과 임상 바이오마커에 미치는 영향을 분석한 것으로, 다음과 같은 내용을 포함하고 있습니다.

1. 412,393 영국 바이오뱅크 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였습니다.

2. 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였습니다.

3. 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 205개의 유전자와 331개의 유전자가 유의미한 연관성을 가진 것으로 나타났습니다.

4. 이 연구는 새로운 생물학적 통찰력을 제공하며, 확립된 질병 메커니즘에 대한 이해도 깊어질 수 있습니다.

5. 기존 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재합니다.

6. 희귀 단백질 코딩 변이형은 큰 효과 크기와 기능적 영향을 가지며, 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있습니다.


이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

대규모의 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였으며, 이를 통해 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 데 기여하였습니다. 또한 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

그리고 다양한 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다. 또한, 이 연구는 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 유전자와 유의미한 연관성을 발견하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

이 논문은 생명공학 분야에서 중요한 연구 결과를 담고 있으며, 생명공학을 전공하지 않은 사람들도 이 논문을 통해 혈액 대사물 측정과 단백질 코딩 변이의 관계를 이해하고, 질병 예방과 치료에 대한 정보를 얻을 수 있습니다.

이 논문을 이해하기 위해서는 생명공학에 대한 기본적인 지식이 필요합니다. 생명공학에 대한 기본적인 지식이 없는 경우에는 이 논문을 이해하기 어려울 수 있습니다. 이 경우에는 생명공학에 대한 기초적인 지식을 학습하고, 이 논문을 다시 읽어보는 것이 좋습니다.


결론: 응? 무엇을 요약했는지 무슨 말인지 하나도 모르겠다.

아니 생명공학에 대한 기본 지식이 있는 전공자가 귀찮아서 생명공학을 전공하지 않은 사람들에게 설명하는 글을 작성해달라고 clova-x를 돌렸는데 기초지식을 학습하고 다시 논문을 읽어보라니.... 요놈 보소

결국 UK Biobank는 아이디어만 있으면 할 수 있는게 무궁무진 하다는 것 되겠습니다.




출처: @ye._.vely618


일요일, 9월 17, 2023

탐지한 varaint가 대체 왜 이러지?

이것저것 변이 call을 하다보면 가끔씩 여러개의 변이가 한번에 call되는 경우가 있습니다.

여러개의 변이가 한번에 call되는 경우는 대게 multi allelic 이거나 multi-nucleotide variant 정도일겁니다.

※ Multi Allelic

1번 염기서열 위치에 Reference는 TA였는데 변이 call결과에 T,TAA,TAAA 가 확인되었을 때 를 얘기하는 경우



※ Multi Nucleotide Variant

159030번 염기서열 위치에 Reference가 TAACCTTTC였는데, TGACCTTTT로 call되었다고 하는 경우, 일반적으로 이런 경우 159031번과 159038번만 reference와 다른데 왜 뭉뚱그려서 여기가 다 변이입니다 하는 경우 입니다.
TAACCTTTC
TGACCTTTT

그러나 다행히 우리에게는 VT라는 천하무적 tool이 있습니다.
이런 multi allelic나 multi nucleotide variant 가 있는 경우 이것을 뜯어서 분리하는 sub command를 가지고 있다고 하네요 :)

난 multi Allelic를 분리하고 싶어요! 라면 

vt decompose input.vcf -o decomposed.vcf 
이렇게

아니에요 나는 multi nucleotide variant를 분리하고 싶어요! 라면

$vt decompose_blocksub -p input.vcf -o decomposed.vcf 
이렇게 명령어를 실행시켜 주면 된다고 합니다.

multi allelic가 나오고 multi nucleotide variant가 당신을 괴롭히더라도 당신 곁에는 vt가 있다는 것을 잊지 마세요.

다시 또 유익한 정보를 가지고 돌아오도록 하겠습니다. :)




출처: @ye._.vely618


수요일, 8월 16, 2023

누가 누가 Annotation을 잘 하나

작년에 나온 논문으로 NGS를 활용한 임상 유전체 판독 할 때 어떤 annotation tool을 쓰면 좋을지에 대한 내용입니다.

A performance evaluation study: Variant annotation tools - the enigma of clinical next generation sequencing (NGS) based genetic testing

doi: 10.1016/j.jpi.2022.100130


현재 다양한 annotation tool이 사용되고 있긴 하나 그 중에서 Alamut, ANNOVAR, VEP 3개 tool을 벤치마킹 해봤다고 합니다.

VEP는 Ensembl Variant Effect Predictor이고,
Alamut는 SOPHiA GENETICS에서 제공하고 있는 tool,
ANNOVAR은 qiagen에서 제공하고 있는 tool로 3개 tool 모두 annotation해봤다고 해봤으면 한번쯤 구경은 해봤을 tool 일겁니다.

결과를 얘기하자면 이 3개 tool을 이전에 확인되었던 298개 변이를 대상으로 벤치마킹하였고 이 중에서 VEP가 가장 성능이 좋았고, ANNOVAR이 가장 낮을 일치율을 보여주었다고 합니다. (298개 중 20개가 불일치하여 93.3%의 일치율)

그래서 Lurie Molecular Diagnostics Laboratory(저자들의 소속 기관)은 VEP를 사용하기로 하였다고 논문에 언급하긴 했는데 진짜 VEP를 사용하고 있는지 ANNOVAR나 Alamut를 몰래 사용하고 안하는지는 제가 알 방법이 없네요

여튼 NGS의 발달로 말미암아 WGS를 하면 400만개, WES를 하면 ~2만개 정도의 변이들을 탐지할 수 있게 되었죠. 그래서 이전에는 변이를 하나하나 탐지하는게 병목점이었다면 이제는 탐지된 변이를 정확하게 판독 할 수 있도록 annotation을 하는 것이 더 중요하고 병목점이 되었다는 것은 누구나 부인하지 못할 것입니다.

- 물론 최근에는 AI/머신러닝의 발달로 annotation 단계에서도 괄목할만한 신속 정확한 결과를 바라볼 수 있지 않을까 합니다. -

이런 이유로 Lurie Molecular Diagnostics Laboratory에서도 이전에는 Alamut를 사용하고 있었는데 라이센스 문제등 효율적인 문제가 부각되어 상용 tool들과 오픈 소스인 VEP간의 annotation 결과 일치도 테스트를 해보게 되었다고 합니다.


그렇다면 비교를 하기위해서는 정답이 있는 문제지가 있어야 되겠죠?
그래서 이전에 Lurie Molecular Diagnostics Laboratory에서 진행되고 큐레이션 되었던 191개 유전자에 있는 298개 변이를 테스트 세트로 했다고합니다.

3개의 annotation tools을 비교하기 위한 vcf를 준비해서 각각 분석을 진행하였다고 합니다.

그래서 확인한 결과 298개 중 278개 변이는 3개 tool에서 모두 동일하게 확인되었고, 그 중 VEP와 Alamut는 99% 일치 하였으나, ANNOVAR의 경우 20개가 불일치 하였다고 합니다. 298개 중 278개 변이가 3개 tools에서 동일하게 나온 이유가 ANNOVAR가 제대로 분석을 하지 못해서였네요.. 

VEP는 298개중 297개를, Alamut는 298개중 296개를 올바르게 annotation을 하였고, ANNOVAR은 위에서 언급한대로 278개만 올바르게 annotation을 하였다고 합니다.

조만간 누군가 고도화된 AI/머신러닝을 탑재한 annotation tool을 출시하면 새바람이 불지 않을까합니다.

그때까지 밥벌이는 해보는걸로 :)



출처: @ye._.vely618


수요일, 3월 08, 2023

임상에서 변이 탐지는 조금은 달라야지

오늘 읽어본 논문은 임상에서 변이탐지을 위한 모범 사례에 대한 내용입니다.

Best practices for variant calling in clinical sequencing


DOI: 10.1186/s13073-020-00791-w 


사실 지난번 논문이 현장에서는 더 도움이 되는 논문이긴 하나 

임상 현장에서의 의견이 좀 더 녹아져 있을까 해서 읽어보았습니다.

그래봤자 이미 우리 모두 대략적으로 다 알고 있는 바로 그 얘기입니다.


업으로 하고 있으신 들이 보면 사실 새로운건 없어요. 그냥 레퍼런스에요


어떤 정렬 프로그램이 좋은지, 정렬 하고 나서 바로 변이 탐지를 해도 되는지, 아니면 전처리를 어떻게 하고 변이 탐지를 하면 좋은지, 어떤 변이 탐지 방법을 사용하는게 좋은지..

여기서는 GATK 모범 사례를 주로 들긴 했지만, 여러 변이 탐지 프로그램 사용해서 가급적 못잡는 변이를 최소화하고, 가끔 de-novo 변이가 있는데 그거는 나도 모르겠으니 IGV 키고 눈씻고 찾아봐라. CNV도 시중에 떠돌아 다니는 프로그램 사용하더라도 마지막에는 IGV켜서 확인해라.

인듯하네요.



그리고 다음 내용은 MS사의 Bing에게 "요약해줘"(균형있게) 치트키를 써서 나온 내용입니다.

이 논문은 유전 질환과 암과 같은 질병에 대한 임상 유전 검사에서 사용되는 차세대 시퀀싱 기술의 발전에 따라 정확한 변이 호출이 얼마나 중요한지를 설명합니다. 또한 현재 변이 호출에 대한 최선의 관행과 향후 개선 방향을 제시합니다.


답변 후 요약이 충분히 도움이 되었나요? 더 자세한 정보를 원하시면 말씀해달라고 해서, "아니오, 더 자세히 알고 싶어요" 해서 나온 내용은 아래와 같습니다.

논문은 다음과 같은 내용으로 구성되어 있습니다.

배경: 차세대 시퀀싱(NGS) 기술은 임상 유전 검사의 범위와 정확도를 크게 향상시켰습니다. 그러나 NGS 데이터에서 변이를 호출하는 과정은 여전히 복잡하고 오류가 발생하기 쉽습니다. 따라서 변이 호출에 대한 표준화된 가이드라인과 최적화된 파이프라인이 필요합니다.

본론: 논문에서는 NGS 데이터에서 변이를 호출하는 과정에 영향을 미치는 여러 요인들을 설명합니다. 예를 들어, 시퀀싱 플랫폼, 시료 준비 방법, 분석 소프트웨어 등입니다. 또한 현재 사용되고 있는 변이 호출 알고리즘과 도구들을 비교하고 평가합니다. 마지막으로 임상 유전 검사에서 변이 호출의 정확도와 신뢰도를 향상시키기 위한 권장 사항과 개선 방안을 제시합니다.

결론: NGS 기술은 임상 유전 검사의 혁신적인 도구입니다. 그러나 변이 호출은 여전히 어려운 문제입니다. 이 논문은 임상 유전 검사에서 변이 호출에 대한 최선의 관행과 향후 연구 방향을 제공합니다.

더 궁금하신 점이 있으신가요?🙋


다음은 chatGPT한테 요약해줘 한 내용

이 논문은 기존 유전체 연구를 보완하고, 유전체 변이를 활용하여 질병 진단과 치료 방법을 개선하는 것을 목적으로 하고 있다.

이 논문에서는 유전체 연구의 새로운 방법으로 'CRISPR-Cas9' 기술을 사용하여 질병 관련 유전자를 수정하는 방법을 제시한다.

chatGPT는 참 치명적으로 창의적인듯...


결론은 chatGPT한테 링크 알려주고 요약해줘하면 헛소리 작렬, MS Bing한테 링크 알려주고 요약해줘 하면 성심껏 알려주는 거기다가 답변도 창의적으로, 균형있게, 근거기반 세분화해서 알려주는게 포인트



@ye._.vely618


토요일, 3월 04, 2023

역시 변이 탐지에서도 machine learning

역시 세상에는 내마을을 알고 있는 분들이 있다는..

논문 제목은 Systematic benchmark of state-of-the-art variant calling pipelines identifies major factors affecting accuracy of coding sequence variant discovery 입니다.

doi: https://doi.org/10.1186/s12864-022-08365-3


결론은 누가누가 변이를 잘 찾나 테스트 되겠습니다.

그래서 샘플 준비도 GIAB과 함께 non-GIAB 데이터도 준비하고, 정렬 프로그램도 BWA, BOWTIE, Isaac, Novoalign 다양하게, 변이 caller도 GATK, FreeBayes, Strelka이외에도 DeepVariantClair3Octopus 등 다양한 변이 caller를 도입해서 테스트를 진행해 보았다고 합니다.

Clair3와  Octopus는 처음들어 봤네요 @.@ 역시 사람은 공부를 해야함

그리고 GIAB외에도 non-GIAB 데이터를 활용한것은 또 새로운 접근법인듯합니다. 아무래도 많은 연구가 이뤄진 데이터와 그러지 않은 데이터간의 차이가 있을 수 있고, 아직 T2T를 사용한 변이 탐지 벤치마킹 논문을 찾아보진 못했는데 이 또한 조만간 나오겠네요. 이미 나와 있을수도.. 


여튼 이것저것 따져 봤을 때 정렬 프로그램은 일단 Bowtie2는 성능이 저하되는 결과를 보여주기에 사용하면 안되는 방법이고, 변이 탐지에서는 DeepVariant가 좋은 성능을 보이는 결과를 얻을 수 있었다고 합니다.

그리고 GIAB와 non-GIAB 샘플을 비교해본 바 현재 사용하는 분석 방법이 GIAB에서만 좋은 결과를 보이고 non-GIAB에서는 그렇지 않다는 것, aka GIAB 샘플이나 non-GIAB 샘플이나 편견없이 잘 분석된니, 현재 분석 방법들을 활용해도 문제가 없다는 것을 확인하였다고 합니다.

그러나 아직 존재하는 몇 가지 문제점을 지적하기도 했습니다.

기계학습 방법을 사용하는 caller 같은 경우 모델에 따라 변이 탐지에 문제가 발생할 수 있기 때문에 조심해서 사용하여야 하고, 앞서 얘기했던 T2T 표준 유전체를 사용하였을 때 발생할 수 있는 기존 정렬 프로그램이나 변이 탐지 프로그램의 한계점이나 영향(부정적인)은 확인된바가 없기떄문에 검토가 필요하다는 점, GIAB이나 non-GIAB이던 일반적인 벤치마킹에 사용하고 있는 표준 샘플들의 사용 region에 대한 문제, 대게 잘 정의된 변이들은 유전자 영역에 분포하고 있기 때문에 비유전자 영역에 있는 변이 또는 시퀀싱이 잘 되지 않은 영역들에 대한 정보는 제한적일 수 있기에 이런 단점들이 보강된 표준 샘플들이 필요하는 점, NGS 데이터의 경우 지속적으로 개선되고 새로운 방법이나 도구들이 개발되고 있으나 민감도, 재현성과 같은 변이 탐지 성능 지표에 집중되어 있지 분석 시간이나 사용의 편의성, 프로그램 설치 난이도와 같은 비교적 중요하게 다루지 않는 항목들에 대해서도 관심이 필요하다는 것들에 대해서 언급을 해주었습니다. 


간만에 최신 변이 탐지 벤치마킹 논문을 한번 읽어봤는데, 저는 유익한 시간이었는데 어떠셨나요? 

이제 즐거운 주말을 보내러~ :)


ps. 근데 chatGPT한테 요약 해달라고 하니 왜 이 논문에서 Dama dama (사슴)을 왜 그리 찾는지... 처음에는 내가 url을 잘못 입력한줄 알았는데... 



출처: @ye._.vely618


일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)


오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한  BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -


3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )




Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.


Sequencing Samples Bases(Gbp) Read(x106) Clean rare >Q20 >Q30 GC Mean coverage
BGISEQ500-WES 29.41 294.3 0.41% 96.72% 89.14% 49.75%  328.49X
MGISEQ2000-WES 16.34 163.55 0.25% 98.18% 92.08% 49.71%  129.40X
HiSeq4000-WES 41.93 283.7 4.46% 97.36% 93.01% 50.63%  395.17X
NovaSeq-WES 25.88 178.87 2.25% 95.33% 92.67% 49.73%  241.52X
BGISEQ500-WGS 126.86 1270.02 1.76% 93.73% 83.33% 41.76%  41.03X
MGISEQ2000-WGS 137.36 1374.87 0.21% 96.17% 88.19% 41.76%  45.13X
HiSeq4000-WGS 191 1276.1 8.25% 95.90% 90.11% 41.69%  58.00X
NovaSeq-WGS 98.3 657.45 1.28% 95.89% 93.86% 41.61%  28.96X
HiSeq Xten-WGS 134 894.58 7.29% 94.50% 87.63% 40.71%  38.93X
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ...  :)


출처: @sana_twice.09