월요일, 10월 28, 2024

RNA-Seq 데이터로 SNP를 찾아내보자

오늘은 오랜만에 예전에(10년이 넘었네요;;;) 출판된 RNA-seq에서 SNP를 식별하는 논문을 가져와봤습니다. 제목은 Reliable Identification of Genomic Variants from RNA-Seq Data 입니다. RNA-seq 데이터가지고 SNP를 식별하는 것을 좀 거부감이 있었... 혹시 나만 그런거였나.. 
그러나 요즘엔 RNA-seq 가지고 SNP를 탐지하는 것이 이상하지 않죠.
그래서 옛날옛적엔 어떤 아이디어로 접근했었는지 확인해보려고 한번 가져와봤습니다




gemini
## RNA-seq 데이터로 유전체 변이 찾기: SNPiR 이야기
### 우리 몸의 설계도, 유전체
우리 몸은 하나의 정교한 기계와 같습니다. 이 기계를 만드는 설계도가 바로 유전체(genome)입니다. 유전체는 A, T, G, C 네 가지 염기로 이루어진 긴 염기 서열로, 이 서열의 차이가 사람마다 다른 특징을 만들어냅니다. 이러한 염기 서열의 차이 중 하나가 바로 SNP(Single Nucleotide Polymorphism)입니다. SNP는 단 하나의 염기가 다른 사람과 다르게 나타나는 현상을 말하며, 이러한 SNP들이 질병 발생이나 특정 형질에 영향을 미칠 수 있습니다.
### 유전체 분석 방법: WGS, WES, 그리고 RNA-seq
유전체를 분석하는 방법에는 여러 가지가 있습니다. 대표적인 방법으로는 Whole Genome Sequencing(WGS), Whole Exome Sequencing(WES), 그리고 RNA Sequencing(RNA-seq)이 있습니다.
* **WGS (Whole Genome Sequencing):** 유전체 전체를 낱낱이 해독하는 방법입니다. 가장 많은 정보를 얻을 수 있지만, 비용이 많이 들고 분석 시간이 오래 걸리는 단점이 있습니다.
* **WES (Whole Exome Sequencing):** 유전체 중에서 단백질을 만드는 데 직접적인 역할을 하는 부분인 엑솜만을 해독하는 방법입니다. WGS에 비해 비용이 적게 들고 분석 시간이 짧지만, 엑솜 이외의 부분에 있는 유전 변이는 찾아낼 수 없습니다.
* **RNA-seq (RNA Sequencing):** 유전체 정보가 실제로 어떻게 활용되는지를 분석하는 방법입니다. 유전체 정보는 RNA라는 중간 매개체를 거쳐 단백질로 만들어지는데, RNA-seq은 이러한 RNA를 직접 분석하여 어떤 유전자가 활성화되어 있는지, 어떤 유전자에 변이가 있는지를 파악합니다.
### 왜 RNA-seq으로 SNP를 찾을까?
일반적으로 SNP를 찾을 때는 WGS나 WES를 많이 사용합니다. 그런데 왜 RNA-seq으로 SNP를 찾으려고 할까요? 그 이유는 다음과 같습니다.
* **특정 조건에서 발현되는 유전자의 변이를 찾을 수 있다:** RNA-seq은 특정 조건에서 활성화되는 유전자의 변이를 찾는 데 유리합니다. 예를 들어, 특정 질병에 걸린 환자의 RNA-seq 데이터를 분석하면, 질병과 관련된 유전자의 변이를 더 정확하게 찾아낼 수 있습니다.
* **비용 효율적이다:** WGS나 WES에 비해 비용이 적게 듭니다.
* **발현되는 변이에 집중할 수 있다:** RNA-seq은 실제로 단백질로 만들어지는 부분의 변이에 집중하기 때문에, 질병과의 연관성을 밝히는 데 더 효과적일 수 있습니다.
### SNPiR: RNA-seq 데이터에서 SNP를 더 정확하게 찾는 방법
SNPiR은 RNA-seq 데이터에서 SNP를 찾는 새로운 방법입니다. 기존의 방법보다 더 정확하게 SNP를 찾아낼 수 있다는 장점이 있습니다. SNPiR이 기존 방법보다 좋은 이유는 다음과 같습니다.
* **더 높은 정확도:** SNPiR은 기존 방법보다 더 높은 정확도로 SNP를 찾아냅니다.
* **더 많은 발현된 변이 발견:** SNPiR은 기존 방법보다 더 많은 발현된 변이를 찾아냅니다.
* **비용 효율적:** SNPiR은 WGS나 WES에 비해 비용이 적게 듭니다.
### 결론
RNA-seq 데이터를 이용하여 SNP를 찾는 것은 유전체 연구의 새로운 가능성을 열어줍니다. 특히 SNPiR과 같은 새로운 방법의 개발은 더욱 정확하고 효율적인 유전체 분석을 가능하게 합니다. 이러한 연구는 질병의 원인 규명, 새로운 치료법 개발 등 다양한 분야에 활용될 수 있을 것으로 기대됩니다.
**핵심 정리**
* SNP는 유전체 염기 서열의 차이를 의미하며, 질병 발생과 관련이 있을 수 있습니다.
* RNA-seq은 유전체 정보가 실제로 어떻게 활용되는지를 분석하는 방법입니다.
* SNPiR은 RNA-seq 데이터에서 SNP를 더 정확하게 찾는 새로운 방법입니다.
* SNPiR은 기존 방법보다 더 높은 정확도로 SNP를 찾아내고, 비용 효율적입니다.


clova-x
제목: RNA-seq 데이터에서 SNP를 식별하는 SNPiR 방법이란?
생명공학 분야에서는 유전자 변이를 파악하는 것이 중요한데, 이를 위해 그동안은 비용이 많이 드는 Whole Genome Sequencing(WGS), Whole Exome Sequencing(WES) 방법을 주로 사용해왔습니다. 하지만 최근에는 RNA 시퀀싱 데이터를 활용하여 유전자 변이를 파악하는 연구가 활발하게 이루어지고 있습니다.
RNA-seq 데이터에서 SNP를 식별하는 이유는 크게 두 가지입니다. 첫째, RNA-seq은 유전자의 발현량을 측정할 수 있을 뿐만 아니라, 변이를 동시에 파악할 수 있어 유용합니다. 둘째, RNA-seq은 WGS나 WES에 비해 비용이 저렴하고, 다양한 생물종에서 적용할 수 있습니다.
하지만 RNA-seq 데이터에서 SNP를 식별하는 것은 전사체의 복잡성으로 인해 쉽지 않은 일입니다. 이러한 문제를 해결하기 위해 SNPiR이라는 방법이 개발되었습니다. SNPiR은 splice-aware 방식으로 RNA-seq 데이터를 매핑하고, 변이를 호출한 후, false-positive를 강력하게 필터링하는 방법입니다.
기존의 RNA-seq 데이터에서 SNP를 식별하는 방법에 비해 SNPiR은 다음과 같은 장점이 있습니다. 먼저, splice-aware 방식을 사용하여 정확한 매핑이 가능합니다. 그리고 변이 호출 및 필터링 과정에서 false-positive를 효과적으로 제거하여 높은 정확도를 보장합니다. 마지막으로, RNA-seq 데이터의 특성을 고려하여 개발되었기 때문에, 다른 방법에 비해 더욱 효율적입니다.
이러한 SNPiR 방법을 통해 RNA-seq 데이터에서 SNP를 식별함으로써, 유전자 변이 연구에 큰 도움이 될 것으로 기대됩니다.


chatGPT
### RNA-Seq 데이터로 유전자 변이를 찾아내는 새로운 방법: SNPiR
유전자와 질병의 관계를 이해하는 중요한 방법 중 하나는 **단일염기 다형성(SNP, Single Nucleotide Polymorphism)**을 찾아내는 것입니다. SNP는 유전자 서열의 작은 변화로, 개개인의 차이를 만들어내고 질병의 원인이 될 수 있습니다. 기존에는 주로 **전체 유전체 시퀀싱(Whole Genome Sequencing, WGS)**이나 **전체 엑솜 시퀀싱(Whole Exome Sequencing, WES)** 같은 DNA 기반 기술을 통해 SNP를 찾아냈습니다. 하지만 이번 연구는 **RNA 시퀀싱(RNA-seq)** 데이터를 활용해 SNP를 더 효율적으로 찾아내는 방법을 제안합니다. 여기서 사용된 방법이 바로 **SNPiR**라는 기술입니다.
#### 1. 연구 배경
왜 우리는 RNA 시퀀싱을 통해 SNP를 찾아내려고 할까요? 전통적인 WGS나 WES는 이미 잘 알려진 방법인데도 말이죠. 그 이유는 RNA-seq가 몇 가지 독특한 장점을 가지고 있기 때문입니다.
- **비용 효율성**: RNA-seq는 WGS에 비해 비용이 저렴합니다. 많은 연구에서 이미 RNA-seq 데이터를 수집한 상태이기 때문에, 별도의 비용 없이 추가 분석을 통해 SNP를 찾아낼 수 있습니다.
- **유전자 발현 분석**: RNA-seq는 어떤 유전자가 활성화되고 있는지 보여주기 때문에, 변이가 실제로 발현되는 유전자에 있는지 알 수 있습니다. 이는 질병 연구에서 중요한 정보입니다.
#### 2. RNA-seq를 통한 SNP 탐지의 장점과 단점
RNA-seq를 통해 SNP를 찾아내는 것에는 분명한 장점이 있지만, 단점도 존재합니다.
##### 장점:
- **기존 데이터 활용**: 많은 질병 샘플에 대해 이미 RNA-seq 데이터를 가지고 있는 경우, 추가로 WGS나 WES를 수행하지 않고도 변이를 찾아낼 수 있습니다.
- **유전자 발현 정보**: RNA-seq 데이터는 발현 중인 유전자에서만 변이를 탐지할 수 있기 때문에, 기능적으로 중요한 변이를 더 쉽게 찾을 수 있습니다.
##### 단점:
- **전체 유전체 커버리지 부족**: RNA-seq는 발현 중인 유전자에서만 변이를 찾을 수 있기 때문에, 발현되지 않은 유전자나 비암호화 영역에서는 변이를 탐지할 수 없습니다.
- **기술적 복잡성**: RNA는 전사체의 복잡성(예: 스플라이싱) 때문에 분석이 더 어렵습니다. 잘못된 위치에 읽힘이 매핑되면 거짓 양성 결과가 나올 수 있습니다.
#### 3. SNPiR: RNA-seq 데이터를 활용한 SNP 탐지 방법
이번 연구에서 제안된 **SNPiR** 방법은 RNA-seq 데이터를 활용해 고도로 정확하게 SNP를 찾아낼 수 있는 알고리즘입니다. 이 방법의 핵심은 다음과 같습니다:
- **스플라이싱 인식 매핑**: RNA-seq 데이터는 유전자가 어떻게 조합되어 발현되는지 보여주기 때문에, SNPiR은 이러한 스플라이싱 정보를 인식하면서 매핑을 진행합니다.
- **GATK를 통한 변이 탐지**: Genome Analysis Toolkit(GATK)를 활용해 변이를 탐지하고, 엄격한 필터링 과정을 통해 잘못된 결과를 걸러냅니다.
SNPiR은 WGS 또는 WES 데이터와 비교했을 때 98% 이상의 정확도를 기록하며, 매우 높은 민감도를 보여줍니다.
#### 4. 다른 방법과의 비교: SNPiR vs. RNASEQR
SNPiR은 기존의 **RNASEQR**이라는 RNA-seq 변이 탐지 방법보다 더 나은 성능을 보였습니다. RNASEQR은 많은 거짓 양성 결과를 생성했지만, SNPiR은 더 적은 오류로 더 높은 정확도를 보여주었습니다. 특히 **코딩 영역**에서의 변이 탐지 민감도가 SNPiR이 RNASEQR보다 훨씬 높았습니다. 따라서 RNA-seq 데이터를 사용해 SNP를 찾는다면 **SNPiR**이 더 나은 선택입니다.
#### 5. 결론
RNA-seq 데이터를 통해 SNP를 찾는 방법은 기존의 WGS나 WES 방법을 보완할 수 있는 중요한 도구입니다. 특히 비용 효율성과 발현 유전자에서의 변이 탐지라는 장점 덕분에 RNA-seq를 통한 SNP 탐지는 앞으로도 더 많이 활용될 가능성이 큽니다. **SNPiR**은 그 중에서도 높은 정확성과 민감도를 자랑하는 방법으로, 유전체 연구나 질병 연구에 매우 유용할 것입니다.


NotebookLM
## RNA Sequencing 데이터를 이용한 SNP 식별: SNPiR 소개
**유전체 변이는 개인의 특징을 결정하는 중요한 요소**이며, 질병 발생과도 밀접한 관련이 있습니다. 이러한 유전체 변이를 정확하게 식별하는 것은 질병 메커니즘 이해, 진단 및 치료법 개발에 필수적입니다. 기존에는 **WGS (Whole Genome Sequencing)** 나 **WES (Whole Exome Sequencing)** 와 같은 DNA 염기서열 분석 방법을 통해 유전체 변이를 식별해왔습니다. 하지만 이러한 방법은 **비용이 많이 들고**, 분석 과정이 복잡하다는 단점이 있습니다.
최근에는 RNA Sequencing 데이터를 이용하여 유전체 변이를 식별하는 **RNA-seq** 방법이 주목받고 있습니다. **RNA-seq**는 DNA 염기서열 분석보다 **저렴**하며, 유전자 발현량, alternative splicing, allele-specific expression 등 다양한 정보를 얻을 수 있다는 장점이 있습니다.
### RNA-seq 기반 SNP 식별의 장단점
**장점**:
* **비용 효율성**: RNA-seq 데이터는 DNA 염기서열 분석보다 저렴합니다.
* **발현된 유전자에 대한 정보**: RNA-seq 데이터는 실제로 발현되는 유전자에 대한 정보를 제공하기 때문에, 유전체 변이가 유전자 발현에 미치는 영향을 파악하는데 유용합니다.
**단점**:
* **발현되지 않는 유전자**: RNA-seq는 발현되는 유전자만 분석 가능하기 때문에, 발현되지 않는 유전자의 변이는 찾을 수 없습니다.
* **RNA editing**: RNA-seq 데이터에서 RNA editing과 유전체 변이를 구분하는 것이 어려울 수 있습니다.
### SNPiR: RNA-seq 기반 SNP 식별의 새로운 방법
기존의 RNA-seq 기반 SNP 식별 방법은 정확도가 낮고, 분석 과정이 복잡했습니다. 이러한 문제점을 해결하기 위해 **SNPiR**이라는 새로운 방법이 개발되었습니다. **SNPiR**은 다음과 같은 특징을 가지고 있습니다.
* **splice-aware read mapping**: RNA splicing을 고려하여 read를 정확하게 mapping합니다.
* **GATK 기반 variant calling**: GATK (Genome Analysis Toolkit)을 사용하여 정확하게 변이를 calling합니다.
* **엄격한 filtering**: false-positive를 효과적으로 제거하기 위한 엄격한 filtering 과정을 거칩니다.
**SNPiR**은 기존 방법보다 **높은 정확도와 민감도**를 보여주며, RNA-seq 데이터에서 SNP를 효과적으로 식별할 수 있습니다. 또한, SNPiR은 **낮은 coverage 데이터에서도** 높은 정확도를 유지하며, 적은 양의 데이터로도 효율적인 분석이 가능합니다.
### SNPiR의 활용 가능성
**SNPiR**은 유전체 연구, 질병 연구, 맞춤형 의료 등 다양한 분야에서 활용될 수 있습니다. 특히 **암 유전체 연구**에서 **SNPiR**을 이용하여 암세포 특이적인 유전체 변이를 식별하고, 이를 바탕으로 새로운 치료법 개발에 기여할 수 있습니다.
### 결론
**SNPiR**은 RNA-seq 데이터를 이용하여 유전체 변이를 효과적으로 식별할 수 있는 새로운 방법입니다. **높은 정확도와 민감도**, 낮은 coverage 데이터에서의 성능, 다양한 분야에서의 활용 가능성을 고려했을 때, **SNPiR**은 유전체 연구의 새로운 지평을 열어줄 것으로 기대됩니다.

당시 나와있었던 RNAseq 기반의 SNP 탐지 프로그램들 보다 SNPiR이 좀 더 나은 성능을 보여준다고 서술하고 있지만... 그거야 너님들이 사용한 데이터 가지고 그런거 이지 않을까합니다. 실제 다른 상황의 샘플들 가져오면 이전에 나와서 사용하던 것들이나 이번것이나 도토리 키재기이지 않을까 하지만 그래도 우리에게 또 하나의 무기가 생기는 것이니깐 잘 활용하면 좋을듯 합니다.
최근에 새롭게 나온 RNAseq 기반의 SNP 탐지 툴은 없는지 다시 확인해봐야 겠네요. 
그래봤자 알파폴드나 gatk로 해쳐모여 할듯하긴한데.. :)




출처: @ye._.vely618


댓글 없음: