레이블이 RNAseq인 게시물을 표시합니다. 모든 게시물 표시
레이블이 RNAseq인 게시물을 표시합니다. 모든 게시물 표시

수요일, 12월 04, 2024

엑소좀 RNA 시퀀싱으로 암 바이오마커를 찾아보자

오늘 좀 생소한 녀석을 가져와봤습니다. Exosome RNA Sequencing as a Tool in the Search for Cancer Biomarkers 라고 해서 엑소좀 RANseq을 활용해서 암 바이오마커를 찾는 것에 대한 내용입니다.


gemini

## 엑소좀 RNA 시퀀싱: 암을 정복할 새로운 열쇠?

### 엑소좀이란 무엇일까요?

우리 몸은 수많은 세포로 이루어져 있습니다. 이 세포들은 서로 소통하며 우리 몸을 유지하는데, 그 중 하나가 바로 **엑소좀**이라는 작은 주머니를 이용한 소통 방식입니다. 엑소좀은 세포 안에서 만들어져 밖으로 분비되는 아주 작은 입자로, 마치 편지를 담은 봉투처럼 다양한 정보를 담고 있습니다. 이 정보에는 세포의 상태, 질병 여부 등 다양한 정보가 포함될 수 있습니다.

### 엑소좀 RNA 시퀀싱이란?

**엑소좀 RNA 시퀀싱**은 이러한 엑소좀 안에 담긴 RNA를 분석하는 기술입니다. RNA는 유전 정보를 단백질로 전달하는 데 중요한 역할을 하는 생체 분자입니다. 엑소좀 안의 RNA를 분석하면 어떤 종류의 세포에서 엑소좀이 만들어졌는지, 그리고 그 세포의 상태가 어떠한지 알 수 있습니다. 마치 엑소좀이라는 편지를 읽고 내용을 해석하는 것과 같습니다.

### 암 바이오마커 발굴, 어떻게 가능할까요?

암세포는 정상 세포와는 다른 특징을 가지고 있습니다. 이러한 특징을 반영하여 암세포에서 만들어진 엑소좀 안의 RNA는 정상 세포의 엑소좀 RNA와 다를 수 있습니다. 엑소좀 RNA 시퀀싱을 통해 이러한 차이를 분석하면 암세포만 가지고 있는 특징적인 RNA를 찾아낼 수 있습니다. 이렇게 찾아낸 RNA를 **암 바이오마커**라고 합니다.

암 바이오마커는 마치 암세포의 지문과 같습니다. 혈액이나 소변 등 쉽게 채취할 수 있는 검체에서 암 바이오마커를 찾아내면 암을 조기에 발견하고 진행 정도를 파악하는 데 큰 도움이 될 수 있습니다.

### 엑소좀 RNA 시퀀싱 분석 방법

엑소좀 RNA 시퀀싱은 크게 다음과 같은 단계로 이루어집니다.

1. **엑소좀 분리:** 혈액이나 조직 등에서 엑소좀을 순수하게 분리합니다.

2. **RNA 추출:** 분리된 엑소좀에서 RNA를 추출합니다.

3. **cDNA 합성 및 증폭:** 추출된 RNA를 cDNA로 변환하고 증폭시킵니다.

4. **시퀀싱:** 증폭된 cDNA를 시퀀싱하여 염기 서열을 읽어냅니다.

5. **데이터 분석:** 얻어진 염기 서열 데이터를 분석하여 암 바이오마커를 찾아냅니다.

데이터 분석에는 다양한 생물정보학 프로그램이 사용됩니다. 대표적인 프로그램으로는 R, Python, 그리고 상용 프로그램인 DESeq2, edgeR 등이 있습니다.

### 엑소좀 RNA 시퀀싱의 한계와 미래

엑소좀 RNA 시퀀싱은 암 연구에 새로운 가능성을 열었지만, 아직 해결해야 할 과제들이 많습니다. 

* **표준화된 분석 방법 부재:** 아직까지 엑소좀 RNA 시퀀싱 분석에 대한 표준화된 방법이 없어 연구 결과의 비교가 어렵습니다.

* **높은 비용:** 시퀀싱 비용이 높아 대규모 연구에 어려움이 있습니다.

* **생물학적 해석의 어려움:** 찾아낸 암 바이오마커의 생물학적 의미를 해석하는 것이 쉽지 않습니다.

하지만 엑소좀 RNA 시퀀싱 기술은 빠르게 발전하고 있으며, 앞으로 더욱 정확하고 저렴한 분석 방법이 개발될 것으로 기대됩니다. 또한, 인공지능 기술을 활용하여 데이터 분석의 효율성을 높이고 생물학적 의미를 더욱 정확하게 해석하려는 노력이 이루어지고 있습니다.

**결론적으로, 엑소좀 RNA 시퀀싱은 암 진단과 치료에 새로운 패러다임을 제시하는 유망한 기술입니다.** 앞으로 엑소좀 RNA 시퀀싱 연구가 더욱 활발하게 진행된다면, 우리는 암을 정복하는 날이 더욱 가까워질 것입니다.



clova-x

제목: 세포의 메신저, 엑소좀 RNA 시퀀싱으로 암 바이오마커 찾기

안녕하세요, 여러분! 오늘은 최근 생명과학 분야에서 큰 주목을 받고 있는 엑소좀과 엑소좀 RNA 시퀀싱에 대해 이야기해 보려고 해요.

**엑소좀이란 무엇일까요?**

엑소좀은 세포에서 분비되는 작은 소포체로, 세포 간 통신에 중요한 역할을 합니다. 우리 몸의 모든 세포는 엑소좀을 분비하며, 이 엑소좀은 세포 내부의 다양한 정보를 담고 있어요. 단백질, RNA, 성장 인자, 사이토카인 등을 포함하고 있으며, 이를 통해 주변 또는 멀리 떨어진 세포에 정보를 전달합니다.

**엑소좀 RNA 시퀀싱이란 무엇일까요?**

엑소좀 RNA 시퀀싱은 엑소좀 내부의 RNA를 분석하는 기술입니다. RNA 시퀀싱 기술의 발전으로 엑소좀의 내용물을 보다 정확하게 분석할 수 있게 되었어요. 이를 통해 엑소좀에서 발견되는 마이크로RNA 등의 변화를 관찰하여 질병의 진행을 모니터링 할 수 있습니다.

**어떻게 암 바이오마커를 찾을 수 있을까요?**

엑소좀은 세포의 상태를 반영하는 내용물을 포함하고 있어요. 그래서 엑소좀 RNA 시퀀싱을 사용하면 암과 같은 질병을 진단할 수 있는 바이오마커를 찾을 수 있답니다. 기존의 암 바이오마커보다 민감도와 특이도가 높은 엑소좀 기반 바이오마커가 연구되고 있어요.

현재 많은 연구자들이 엑소좀 RNA 시퀀싱을 통해 암 바이오마커를 발굴하고 있습니다. 예를 들어, 유방암 환자의 혈액에서 추출한 엑소좀을 분석하여 특정 마이크로RNA의 발현량이 유방암의 진행 단계와 밀접한 관련이 있다는 것을 발견하기도 했어요. 이런 연구들은 암의 조기 진단과 치료에 큰 도움이 될 것으로 기대됩니다.

**분석 방법과 사용하는 프로그램은 무엇인가요?**

엑소좀 RNA 시퀀싱을 위해서는 먼저 엑소좀을 분리해야 합니다. 그리고 분리한 엑소좀에서 RNA를 추출한 후, RNA 시퀀싱을 수행합니다. 현재 다양한 분석 프로그램이 사용되고 있는데, 대표적으로는 Illumina의 HiSeq, NovaSeq 등이 있습니다.

**현재 엑소좀 RNA 시퀀싱의 한계와 미래는 무엇인가요?**

아직은 기술적인 한계와 비용적인 문제가 존재합니다. 하지만, 기술의 발전과 함께 이러한 문제들은 점차 해결될 것으로 예상됩니다. 또한, 엑소좀 RNA 시퀀싱을 통해 다양한 질병의 바이오마커를 발굴할 수 있기 때문에, 앞으로 더욱 많은 분야에서 활용될 것으로 기대됩니다.

지금까지 엑소좀과 엑소좀 RNA 시퀀싱에 대해 간단히 알아봤어요. 더 궁금한 점이 있다면 언제든지 물어보세요!



chatGPT

**엑소좀 RNA 시퀀싱을 활용한 암 바이오마커 발견 – 미래의 질병 예측과 진단 도구**

암과 같은 복잡한 질환을 조기에 발견하고, 치료 가능성을 높이기 위한 진단 도구에 대한 수요가 증가하고 있습니다. 이러한 배경에서, 엑소좀과 엑소좀 RNA 시퀀싱이 주목받고 있는데요, 오늘은 생소할 수 있는 이 개념들을 쉽게 풀어보고 암 진단에 어떻게 활용될 수 있는지 설명드리고자 합니다.

### 엑소좀과 엑소좀 RNA 시퀀싱이란?

엑소좀은 거의 모든 세포가 분비하는 아주 작은 크기의 세포 외 소포입니다. 크기는 약 50-170 나노미터(nm) 정도로, 세포 내에서 생성된 뒤 분비되어 다른 세포로 전달됩니다. 엑소좀은 내부에 유전 정보인 RNA와 단백질 같은 다양한 분자를 포함하고 있어 세포 간 정보를 전달하고 세포의 기능을 조절하는 데 중요한 역할을 합니다.

특히, 암세포에서 분비되는 엑소좀은 주변 세포에 영향을 미쳐 암의 전이나 성장에 관여할 수 있습니다. 따라서 암 세포에서 분비된 엑소좀 속 RNA의 특성을 분석하면 암 발생이나 진행에 관여하는 특정 RNA를 발견할 수 있습니다. 이러한 엑소좀 RNA를 분석하는 과정이 엑소좀 RNA 시퀀싱입니다.

### 엑소좀 RNA 시퀀싱을 통해 암 바이오마커를 찾는 방법

엑소좀 RNA 시퀀싱은 엑소좀에 포함된 RNA 중 특정한 암과 관련된 RNA(바이오마커)를 찾기 위한 과정입니다. 연구자들은 암 환자와 건강한 사람의 엑소좀 RNA를 비교해 암 환자의 엑소좀에서 특이적으로 나타나는 miRNA, lncRNA 등을 찾습니다. 예를 들어, 대장암의 경우 miR-146a-5p와 miR-155-5p라는 miRNA가 특정 신호 경로를 통해 암 전이를 촉진하는 것이 밝혀졌습니다. 이처럼 특정 RNA가 암에서만 활성화되는 패턴을 확인해 진단에 활용할 수 있는 바이오마커로 개발합니다.

### 분석 방법과 사용되는 분석 프로그램

엑소좀 RNA 시퀀싱의 과정은 크게 RNA 추출, 시퀀싱, 데이터 분석의 세 단계로 나뉩니다.

1. **RNA 추출**: 혈액, 소변 등에서 엑소좀을 분리하여 RNA를 추출합니다.

2. **시퀀싱**: 추출된 RNA를 DNA로 전환한 후, 시퀀싱 장비로 분석하여 엑소좀 RNA의 유전적 정보를 해독합니다.

3. **데이터 분석**: 시퀀싱 결과를 분석하여 암과 관련된 RNA를 식별하는 과정입니다.

데이터 분석을 위해 사용되는 프로그램에는 대표적으로 STAR, Bowtie2, 그리고 분석된 데이터를 시각화하는 R 기반의 다양한 프로그램이 포함됩니다. 이들 프로그램은 엑소좀 RNA 시퀀싱의 데이터를 처리하여 특정 RNA의 발현 양상을 파악하고 암과 관련된 바이오마커 후보를 식별하는 데 중요한 역할을 합니다.

### 엑소좀 RNA 시퀀싱의 현재 한계와 미래 전망

엑소좀 RNA 시퀀싱은 혁신적인 방법이지만 몇 가지 해결해야 할 과제들이 있습니다. 첫째, 엑소좀을 순수하게 분리하기 위한 표준화된 방법이 아직 부족합니다. 또한, 엑소좀 RNA의 발현 양이 낮아 분석 감도가 떨어질 수 있습니다. 마지막으로, 비용과 시간이 많이 소요되는 문제도 해결이 필요합니다.

미래에는 엑소좀 RNA 시퀀싱의 효율성이 높아지고 비용이 절감되면 암을 포함한 다양한 질병의 조기 진단 도구로 활용될 가능성이 큽니다. 이를 통해 개인 맞춤형 정밀의료가 더욱 확산되며, 나아가 환자의 예후를 정확히 예측하는 데에도 중요한 역할을 할 것입니다.

엑소좀 RNA 시퀀싱을 통한 암 바이오마커 연구는 앞으로 더욱 발전하여 질병을 조기 진단하고 환자의 생존율을 높이는 데 기여할 수 있는 도구가 될 것입니다.



NotebookLM

## 암의 비밀을 밝히는 열쇠: 엑소좀 RNA 시퀀싱

**엑소좀**은 우리 몸의 세포들이 서로 소통하기 위해 사용하는 작은 운반체입니다. 마치 택배 상자처럼 세포들은 엑소좀 안에 다양한 물질들을 담아 다른 세포들에게 보냅니다. 이 물질들 중에는 **RNA**라는 유전 정보를 담은 분자도 포함되어 있습니다. 암세포도 예외는 아니어서 엑소좀을 통해 주변 세포나 멀리 떨어진 세포들과 소통하며 암의 진행과 전이에 영향을 미칩니다. 

**엑소좀 RNA 시퀀싱**은 이 엑소좀 안에 담긴 RNA들을 분석하는 기술입니다. 차세대 염기서열 분석(NGS)이라는 기술을 사용하여 RNA의 종류와 양을 정확하게 파악할 수 있습니다. 이를 통해 암세포가 어떤 RNA를 이용하여 주변 환경을 조작하고 암을 악화시키는지 알아낼 수 있습니다. 

**엑소좀 RNA 시퀀싱으로 암 바이오마커를 찾는 방법**

엑소좀 RNA 시퀀싱을 통해 **암 바이오마커**를 찾을 수 있습니다. 바이오마커는 암의 존재 여부, 진행 단계, 치료 반응 등을 예측하는 데 사용되는 지표입니다. 암세포에서 유래된 엑소좀은 특정 RNA들을 많이 포함하고 있는데, 이러한 RNA들은 혈액, 소변 등 체액에서 검출될 수 있으며 암 진단 및 예후 판정에 유용한 바이오마커가 될 수 있습니다.

* **예를 들어, 대장암 환자의 혈액에서 특정 miRNA(miR-146a-5p, miR-155-5p)가 증가하는 것을 엑소좀 RNA 시퀀싱을 통해 확인했습니다.** 이 miRNA들은 암세포의 전이를 촉진하는 역할을 하는 것으로 알려져 있습니다.

* **난소암 환자의 경우, 혈액 엑소좀에서 miR-6780b-5p라는 miRNA가 증가하는 것이 관찰되었습니다.** 이 miRNA는 암세포의 상피-중간엽 전이 (EMT)를 촉진하여 암의 전이를 유발하는 것으로 알려져 있습니다.

* **전립선암에서는 miR-217의 증가와 miR-23b-3p의 감소가 암 진행과 관련 있다는 사실이 밝혀졌습니다.**

**엑소좀 RNA 시퀀싱 분석 방법**

엑소좀 RNA 시퀀싱 분석 과정은 다음과 같습니다.

1. **엑소좀 분리**: 혈액, 소변 등 체액에서 엑소좀을 분리합니다.

2. **RNA 추출**: 분리된 엑소좀에서 RNA를 추출합니다.

3. **라이브러리 제작**: 시퀀싱에 적합하도록 RNA를 cDNA로 변환하고 필요한 염기서열을 추가합니다.

4. **차세대 염기서열 분석 (NGS)**: 제작된 라이브러리를 NGS 장비를 이용하여 염기서열을 분석합니다.

5. **데이터 분석**: 분석된 염기서열 데이터를 생물정보학 도구를 이용하여 분석합니다. 

**분석 프로그램**

엑소좀 RNA 시퀀싱 데이터 분석에는 다양한 생물정보학 도구와 프로그램이 사용됩니다. 

* **RNA 발현량 분석**:  Cufflinks, DESeq2, edgeR 등의 프로그램을 사용하여 암 환자와 정상인의 엑소좀 RNA 발현량 차이를 분석합니다.

* **miRNA 타겟 유전자 예측**: TargetScan, miRDB, miRTarBase 등의 데이터베이스를 이용하여 암 진행과 관련된 miRNA의 타겟 유전자를 예측합니다.

* **유전자 온톨로지 및 경로 분석**: DAVID, GOseq, KEGG 등의 도구를 사용하여 암 관련 유전자들의 기능과 관련된 생물학적 경로를 분석합니다.

**엑소좀 RNA 시퀀싱의 한계와 미래**

엑소좀 RNA 시퀀싱은 암 바이오마커 발굴에 혁신적인 도구이지만, 아직 몇 가지 한계점들이 존재합니다.

* **표준화된 엑소좀 분리 및 분석 방법 부재**: 현재 다양한 엑소좀 분리 방법이 사용되고 있으며, 각 방법마다 장단점이 있습니다.

* **정상 세포 유래 엑소좀과 암세포 유래 엑소좀 구별의 어려움**: 엑소좀은 모든 세포에서 분비되기 때문에 암세포 유래 엑소좀만을 특이적으로 분리하는 것이 어렵습니다. 

* **초기 암에서 엑소좀 RNA 발현량이 낮은 문제**: 암 초기 단계에서는 엑소좀 RNA 발현량이 적어 검출이 어려울 수 있습니다. 

하지만 엑소좀 연구 분야는 빠르게 발전하고 있으며, 미래에는 이러한 한계점들이 극복될 것으로 기대됩니다. 

* **엑소좀 분리 및 분석 기술의 발전**:  더욱 효율적이고 표준화된 엑소좀 분리 및 분석 기술 개발이 진행 중입니다.

* **엑소좀 RNA 데이터베이스 구축**: 엑소좀 RNA 정보를 체계적으로 정리하고 공유하기 위한 데이터베이스 구축 노력이 이루어지고 있습니다.

* **엑소좀 RNA 기반 치료제 개발**: 엑소좀 RNA를 이용하여 암세포를 표적하는 치료제 개발 연구가 활발하게 진행 중입니다. 

**결론**

엑소좀 RNA 시퀀싱은 암 진단 및 치료에 혁신을 가져올 잠재력이 큰 분야입니다. 앞으로 엑소좀 RNA 시퀀싱 기술이 더욱 발전하고 한계점들이 극복된다면 암 정복에 한 걸음 더 다가갈 수 있을 것입니다. 


엑소좀 RNAseq으로 재미난 것들을 하고들 있어보여 생소하지만 한번 가져와봤는데, 역시나 잘 모르기에 엑소좀부터 먼저 공부해야 겠네요 :)



출처: @ye._.vely618


목요일, 11월 14, 2024

RNA-Seq 데이터로 SNP를 찾아내보자 -2-

오늘 논문은 2019년에 출판된 RNA-seq데이터로 SNP를 발굴하는 방법에 대한 논문입니다. 제목은 A high-throughput SNP discovery strategy for RNA-seq data 으로 이전에 포스팅은 새로운 tool을 만들어서 자랑을 했다면 이번 논문은 기존에 사용하던 tool들을 조합해서 식물에서 생산한 RNA-seq 데이터에서 SNP를 발굴하는 방법을 테스트 한 논문되겠습니다.

DOI: 10.1186/s12864-019-5533-4



gemini
## RNA-seq 데이터로 유전자의 차이를 찾는 방법
이 파일은 RNA-seq 데이터에서 SNP를 찾는 효율적인 방법을 제시하는 논문입니다. 좀 더 쉽게 말하면, 유전자 활동 정보를 이용해 사람들 간의 유전적 차이를 정확하게 찾아내는 방법을 연구한 것이죠. 마치 돋보기로 숨은 그림을 찾는 것처럼, RNA-seq 데이터를 활용하면 DNA 염기서열의 미세한 차이까지 찾아낼 수 있습니다.
### SNP가 뭐길래? 🤔
사람마다 얼굴 생김새가 다르듯, 유전 정보도 조금씩 다릅니다. 이러한 차이를 만드는 요인 중 하나가 바로 **SNP(단일 염기 다형성)**입니다. SNP는 DNA 염기서열에서 단 하나의 염기가 다른 것을 말하는데, 이 작은 차이가 키, 눈 색깔, 질병 발생 가능성 등 다양한 특징을 만듭니다.
### RNA-seq 데이터로 SNP를 찾는 방법 🧐
* **RNA-seq**: 세포 내에서 활동하는 유전자 정보를 담고 있는 RNA를 분석하는 기술입니다.
* **어셈블러**: RNA-seq 데이터를 조각조각 모아서 전체 유전 정보를 재구성하는 프로그램입니다. 마치 퍼즐 조각을 맞추는 것과 같습니다.
* **SNP 콜러**: 재구성된 유전 정보에서 SNP를 찾아내는 프로그램입니다. 숨은 그림 찾기 전문가라고 할 수 있죠.
### 이 논문에서 무엇을 했나요? 🤔
* **다양한 조합을 테스트**: 연구진들은 여러 종류의 어셈블러와 SNP 콜러를 조합하여 어떤 조합이 SNP를 가장 정확하게 찾아내는지 실험했습니다.
* **최적의 조합 발견**: 실험 결과, **Trinity 어셈블러**와 **GATK SNP 콜러**를 함께 사용하는 것이 가장 정확했습니다. 특히, 150bp 길이의 paired-end read를 사용했을 때 복숭아와 귤에서 100% 정확도로 SNP를 찾아냈습니다.
* **새로운 가능성 제시**: 이 연구는 RNA-seq 데이터를 이용하여 SNP를 정확하게 찾아내는 효율적인 방법을 제시했습니다. 이는 다양한 생물의 유전 정보를 분석하고, 질병 예측 및 개인 맞춤형 치료 등에 활용될 수 있습니다.
### 왜 이 연구가 중요한가요? 🤔
* **질병 예측 및 맞춤형 치료**: SNP는 질병 발생 가능성이나 약물 반응성과 관련이 있습니다. SNP 정보를 활용하면 개인별 질병 위험도를 예측하고, 가장 효과적인 치료법을 선택할 수 있습니다.
* **유전자 연구 발전**: RNA-seq 데이터를 이용한 SNP 분석은 유전자 연구의 새로운 도구가 될 수 있습니다. 이를 통해 유전자의 기능과 질병과의 관계를 밝혀내고, 새로운 치료법 개발에 기여할 수 있습니다.
### 결론
이 논문은 RNA-seq 데이터를 이용하여 SNP를 효율적으로 찾아내는 방법을 제시하는 중요한 연구입니다. 이 연구는 유전자 연구의 발전과 개인 맞춤형 의료 시대를 앞당기는 데 크게 기여할 것으로 기대됩니다.



clova-x
생명체의 유전 정보는 DNA에 저장되어 있으며, 이 DNA는 A, T, C, G라는 네 가지 염기로 구성되어 있습니다. 이 중에서 하나의 염기가 다른 염기로 바뀌는 것을 SNP(단일 염기 변이)라고 하며, 이는 유전적 다양성을 만들어내는 원인 중 하나입니다.
SNP는 유전 질환, 암, 당뇨병 등 다양한 질병과 관련이 있으며, 작물의 생산량, 품질, 병 저항성 등에도 영향을 미칩니다. 따라서, SNP를 탐지하고 분석하는 것은 생명공학 분야에서 매우 중요한 과제 중 하나입니다.
최근에는 NGS(차세대 시퀀싱) 기술이 발전하면서, 빠르고 대규모로 SNP를 탐지할 수 있게 되었습니다. 대표적인 NGS 기술로는 Illumina Genome Analyzer, Roche/454 FLX, ABI SOLiD 등이 있으며, 각각의 플랫폼은 민감도, 정확도, 재현성, 처리량 등에서 차이가 있습니다.
RNA-seq(RNA 시퀀싱)는 유전자의 발현을 분석하는 데 사용되는 기술로, 이를 통해 SNP를 탐지할 수도 있습니다. RNA-seq 데이터를 분석하여 얻은 서열 정보를 바탕으로 SNP를 찾아내고, 이를 통해 유전자의 기능과 발현 패턴을 이해할 수 있습니다.
하지만, RNA-seq 데이터에서 SNP를 탐지하는 것은 여러 가지 어려움이 있습니다. 데이터의 양이 많고 복잡하며, 누락되거나 오류가 있는 데이터가 있을 수 있습니다. 또한, SNP를 탐지하는 데 사용되는 알고리즘과 도구도 다양하며, 각각의 장단점이 있습니다.
따라서, RNA-seq 데이터에서 SNP를 탐지할 때는 적절한 알고리즘과 도구를 선택하고, 데이터를 정제하고 검증하는 과정이 필요합니다. 이를 위해 다양한 어셈블러와 SNP 콜러를 비교하고, 최적의 조합을 찾아내야 합니다.
예를 들어, Trinity와 GATK는 RNA-seq 데이터에서 SNP를 탐지하는 데 널리 사용되는 어셈블러와 SNP 콜러입니다. 이들은 높은 정확도와 재현성을 제공하며, 다양한 생물종에서 성공적으로 사용되었습니다.
또한, read 길이도 SNP 탐지의 정확도에 영향을 미치는 중요한 요소입니다. 긴 read 길이는 더 많은 정보를 제공하여 SNP 탐지의 정확도를 높일 수 있습니다.
이러한 기술과 전략을 활용하여 RNA-seq 데이터에서 SNP를 탐지하고 분석함으로써, 유전자의 기능과 생물학적 과정을 이해하고, 질병의 진단과 치료, 작물의 육종 등에 활용할 수 있습니다.



chatGPT
**고빈도 RNA-seq 데이터에서 SNP 탐지 방법**
### 1. SNP란 무엇인가요?
SNP(단일 염기 다형성)는 DNA 서열에서 하나의 염기가 다른 염기로 바뀐 유전자 변이를 뜻합니다. 예를 들어, DNA 서열 중 특정 위치에서 원래 ‘A’(아데닌)였던 염기가 ‘G’(구아닌)로 변한 경우가 있습니다. 이러한 변이들이 여러 곳에서 쌓이면, 개체들 간의 유전자 차이를 형성하고, 생물의 특징이나 질병 발생과 연관될 수 있습니다.
SNP는 유전적 다양성을 나타내는 중요한 지표로, 유전자 연구와 질병 진단 및 예측, 품종 개량 등의 연구에서 널리 사용됩니다.
### 2. RNA-seq 데이터로 SNP를 탐지하는 이유는 무엇인가요?
RNA-seq는 RNA(전사체)를 시퀀싱하여 유전자 발현 수준을 파악하는 기술입니다. 이 데이터는 많은 양의 변이를 포함하고 있어 SNP를 찾는 데 적합합니다. RNA-seq 데이터로 SNP를 분석하면 단백질 생성에 영향을 미치는 유전자 변이를 발견할 수 있어, 농업, 질병 연구, 신약 개발 등에서 활용도가 큽니다.
### 3. RNA-seq 데이터에서 SNP를 찾는 과정
SNP를 발견하는 과정은 RNA-seq 데이터에서 원시 데이터를 수집하고 이를 분석해 유의미한 변이를 찾는 절차로 이루어집니다. 이번 연구에서는 다음과 같은 조합으로 RNA-seq 데이터를 분석하여 가장 높은 정확도의 SNP 탐지 방법을 찾았습니다:
- **리드 길이:** 125 bp 또는 150 bp
- **조립 프로그램(Assembler):** Trinity, IDBA, oases, SOAPdenovo, Trans-abyss
- **SNP 탐지 프로그램(SNP Caller):** GATK, GBS
### 4. 연구에서 발견한 최적의 방법
이 연구는 복숭아와 귤의 유전자를 대상으로 실험하여 가장 높은 정확도를 보이는 방법을 찾아냈습니다. 특히, **150 bp의 리드 길이, Trinity 조립 프로그램, GATK 탐지 프로그램**을 사용할 때 SNP 탐지 정확도가 100%에 이르렀습니다. 이 조합이 다른 조합들에 비해 훨씬 높은 정확도를 나타내어, 다양한 식물과 생물의 SNP 연구에 사용할 수 있는 이상적인 방법으로 제시되었습니다.
### 5. 연구 결과와 의미
이 연구의 결과는 특정 조합을 사용했을 때 SNP를 빠르고 정확하게 찾을 수 있음을 보여주었으며, 특히 RNA-seq 데이터를 이용해 유전자 변이를 분석하는 과정에서 큰 도움을 줄 수 있습니다. 이는 향후 품종 개량, 질병 유전자 연구 등에서 효과적인 방법으로 활용될 수 있을 것입니다.



NotebookLM
## RNA 염기서열 데이터에서 SNP를 찾는 방법: 복숭아와 귤을 이용한 연구
안녕하세요, 저는 RNA 염기서열 데이터에서 SNP를 찾는 방법을 연구하는 전문가입니다. 오늘은 생명공학을 전공하지 않은 일반인 분들을 위해 "s12864-019-5533-4.pdf" 파일의 내용을 쉽게 설명해 드리려고 합니다. 복숭아와 귤의 RNA 염기서열 데이터를 이용한 이 연구는 어떻게 하면 **SNP를 정확하게 찾아낼 수 있는지**에 대한 흥미로운 결과를 보여줍니다.
### 1. SNP란 무엇인가요?
**SNP는 '단일 염기 다형성'의 약자로, DNA 염기서열에서 단 하나의 염기가 다른 것을 의미합니다.** 마치 길고 복잡한 문장에서 한 글자만 다른 것과 같죠. 사람마다 DNA 염기서열이 조금씩 다른데, 이러한 차이를 만들어내는 주요 요인 중 하나가 바로 SNP입니다. SNP는 유전형질, 질병 발생 가능성, 약물 반응 등에 영향을 줄 수 있습니다.
### 2. RNA 염기서열 데이터를 이용하면 왜 SNP를 찾기 쉬울까요?
**RNA 염기서열 분석(RNA-seq) 기술**은 DNA 염기서열 분석보다 저렴하면서도 유전자의 기능과 발현에 대한 정보를 풍부하게 제공합니다. RNA-seq를 통해 **수천 개의 SNP를 한 번에 발견**할 수 있으며, **특정 유전자의 발현량**까지 알 수 있다는 장점이 있습니다.
### 3. 연구는 어떻게 진행되었나요?
* **복숭아** 품종 'Hujingmilu'와 'Yulu', **귤** 품종 'Ponkan'과 'Yellowish-peeled Ponkan'의 껍질 조직에서 RNA를 추출하여 RNA-seq 데이터를 얻었습니다.
* **두 가지 길이의 염기서열 데이터(125 bp, 150 bp)**, **다섯 가지 조합기(Trinity, IDBA, Oases, SOAPdenovo, Trans-ABySS)**, **두 가지 SNP 호출기(GATK, GBS)**를 다양하게 조합하여 SNP를 예측했습니다.
* 예측된 SNP를 **PCR 증폭, 유전자 클로닝 및 염기서열 분석**을 통해 얻은 실제 SNP와 비교하여 정확도를 평가했습니다.
### 4. 연구 결과는 무엇인가요?
* **150 bp 길이의 염기서열 데이터를 사용했을 때 125 bp에 비해 잘못된 SNP(false positive SNP)를 찾는 비율이 훨씬 낮았습니다**.
* **조합기 중에서는 Trinity**가 가장 우수한 성능을 보였고, **SNP 호출기 중에서는 GATK**가 GBS보다 실제 SNP를 놓치는 비율이 낮아 훨씬 우수했습니다.
* **150 bp 길이의 염기서열 데이터, Trinity 조합기, GATK SNP 호출기**를 함께 사용했을 때 복숭아와 귤에서 모두 **100%의 정확도**로 SNP를 찾아낼 수 있었습니다.
### 5. 이 연구가 왜 중요한가요?
이 연구는 **RNA-seq 데이터에서 SNP를 정확하고 효율적으로 찾아내는 최적의 방법을 제시**했다는 점에서 큰 의미가 있습니다. 150 bp 길이의 염기서열 데이터, Trinity 조합기, GATK SNP 호출기 조합은 복숭아와 귤뿐만 아니라 다른 생물에도 적용 가능할 것으로 기대됩니다.
### 6. 이 연구 결과는 어떻게 활용될 수 있을까요?
**SNP는 유전적 다양성 분석, 품종 개량, 유전체 연관 분석 등 다양한 분야에서 활용될 수 있습니다.** 예를 들어, 특정 질병에 대한 저항성을 가진 품종을 개발하거나 개인별 맞춤형 의료 서비스를 제공하는 데 유용하게 활용될 수 있습니다.

식물 중에 복숭아와 귤(만다린)을 가지고 테스트 했을 때 Trinity와 GATK로 SNP를 탐지하면 가장 좋은 결과 (확인된 280개 SNP 모두 탐지!!)를 보여줬고, 그 외 조합으로는 정확도가 100%에 도달하지 못했다고 하니, Reference Genome가 없는 경우 Paired-end RNA-seq 데이터만 있다면 Trinity와 GATK로 SNP를 탐지하면 쓸만한 결과를 얻을 수 있지 않을까 합니다. ;)

요즘엔 걍 이런 논문 찾지 말고 perplexity, chatGPT, gemini 한테 분석 전략을 문의하는게 더 정확하고 빠를지도.. 물론 팩트체크는 필수입니다만 ㅎㅎ


출처: @ye._.vely618


월요일, 10월 28, 2024

RNA-Seq 데이터로 SNP를 찾아내보자

오늘은 오랜만에 예전에(10년이 넘었네요;;;) 출판된 RNA-seq에서 SNP를 식별하는 논문을 가져와봤습니다. 제목은 Reliable Identification of Genomic Variants from RNA-Seq Data 입니다. RNA-seq 데이터가지고 SNP를 식별하는 것을 좀 거부감이 있었... 혹시 나만 그런거였나.. 
그러나 요즘엔 RNA-seq 가지고 SNP를 탐지하는 것이 이상하지 않죠.
그래서 옛날옛적엔 어떤 아이디어로 접근했었는지 확인해보려고 한번 가져와봤습니다




gemini
## RNA-seq 데이터로 유전체 변이 찾기: SNPiR 이야기
### 우리 몸의 설계도, 유전체
우리 몸은 하나의 정교한 기계와 같습니다. 이 기계를 만드는 설계도가 바로 유전체(genome)입니다. 유전체는 A, T, G, C 네 가지 염기로 이루어진 긴 염기 서열로, 이 서열의 차이가 사람마다 다른 특징을 만들어냅니다. 이러한 염기 서열의 차이 중 하나가 바로 SNP(Single Nucleotide Polymorphism)입니다. SNP는 단 하나의 염기가 다른 사람과 다르게 나타나는 현상을 말하며, 이러한 SNP들이 질병 발생이나 특정 형질에 영향을 미칠 수 있습니다.
### 유전체 분석 방법: WGS, WES, 그리고 RNA-seq
유전체를 분석하는 방법에는 여러 가지가 있습니다. 대표적인 방법으로는 Whole Genome Sequencing(WGS), Whole Exome Sequencing(WES), 그리고 RNA Sequencing(RNA-seq)이 있습니다.
* **WGS (Whole Genome Sequencing):** 유전체 전체를 낱낱이 해독하는 방법입니다. 가장 많은 정보를 얻을 수 있지만, 비용이 많이 들고 분석 시간이 오래 걸리는 단점이 있습니다.
* **WES (Whole Exome Sequencing):** 유전체 중에서 단백질을 만드는 데 직접적인 역할을 하는 부분인 엑솜만을 해독하는 방법입니다. WGS에 비해 비용이 적게 들고 분석 시간이 짧지만, 엑솜 이외의 부분에 있는 유전 변이는 찾아낼 수 없습니다.
* **RNA-seq (RNA Sequencing):** 유전체 정보가 실제로 어떻게 활용되는지를 분석하는 방법입니다. 유전체 정보는 RNA라는 중간 매개체를 거쳐 단백질로 만들어지는데, RNA-seq은 이러한 RNA를 직접 분석하여 어떤 유전자가 활성화되어 있는지, 어떤 유전자에 변이가 있는지를 파악합니다.
### 왜 RNA-seq으로 SNP를 찾을까?
일반적으로 SNP를 찾을 때는 WGS나 WES를 많이 사용합니다. 그런데 왜 RNA-seq으로 SNP를 찾으려고 할까요? 그 이유는 다음과 같습니다.
* **특정 조건에서 발현되는 유전자의 변이를 찾을 수 있다:** RNA-seq은 특정 조건에서 활성화되는 유전자의 변이를 찾는 데 유리합니다. 예를 들어, 특정 질병에 걸린 환자의 RNA-seq 데이터를 분석하면, 질병과 관련된 유전자의 변이를 더 정확하게 찾아낼 수 있습니다.
* **비용 효율적이다:** WGS나 WES에 비해 비용이 적게 듭니다.
* **발현되는 변이에 집중할 수 있다:** RNA-seq은 실제로 단백질로 만들어지는 부분의 변이에 집중하기 때문에, 질병과의 연관성을 밝히는 데 더 효과적일 수 있습니다.
### SNPiR: RNA-seq 데이터에서 SNP를 더 정확하게 찾는 방법
SNPiR은 RNA-seq 데이터에서 SNP를 찾는 새로운 방법입니다. 기존의 방법보다 더 정확하게 SNP를 찾아낼 수 있다는 장점이 있습니다. SNPiR이 기존 방법보다 좋은 이유는 다음과 같습니다.
* **더 높은 정확도:** SNPiR은 기존 방법보다 더 높은 정확도로 SNP를 찾아냅니다.
* **더 많은 발현된 변이 발견:** SNPiR은 기존 방법보다 더 많은 발현된 변이를 찾아냅니다.
* **비용 효율적:** SNPiR은 WGS나 WES에 비해 비용이 적게 듭니다.
### 결론
RNA-seq 데이터를 이용하여 SNP를 찾는 것은 유전체 연구의 새로운 가능성을 열어줍니다. 특히 SNPiR과 같은 새로운 방법의 개발은 더욱 정확하고 효율적인 유전체 분석을 가능하게 합니다. 이러한 연구는 질병의 원인 규명, 새로운 치료법 개발 등 다양한 분야에 활용될 수 있을 것으로 기대됩니다.
**핵심 정리**
* SNP는 유전체 염기 서열의 차이를 의미하며, 질병 발생과 관련이 있을 수 있습니다.
* RNA-seq은 유전체 정보가 실제로 어떻게 활용되는지를 분석하는 방법입니다.
* SNPiR은 RNA-seq 데이터에서 SNP를 더 정확하게 찾는 새로운 방법입니다.
* SNPiR은 기존 방법보다 더 높은 정확도로 SNP를 찾아내고, 비용 효율적입니다.


clova-x
제목: RNA-seq 데이터에서 SNP를 식별하는 SNPiR 방법이란?
생명공학 분야에서는 유전자 변이를 파악하는 것이 중요한데, 이를 위해 그동안은 비용이 많이 드는 Whole Genome Sequencing(WGS), Whole Exome Sequencing(WES) 방법을 주로 사용해왔습니다. 하지만 최근에는 RNA 시퀀싱 데이터를 활용하여 유전자 변이를 파악하는 연구가 활발하게 이루어지고 있습니다.
RNA-seq 데이터에서 SNP를 식별하는 이유는 크게 두 가지입니다. 첫째, RNA-seq은 유전자의 발현량을 측정할 수 있을 뿐만 아니라, 변이를 동시에 파악할 수 있어 유용합니다. 둘째, RNA-seq은 WGS나 WES에 비해 비용이 저렴하고, 다양한 생물종에서 적용할 수 있습니다.
하지만 RNA-seq 데이터에서 SNP를 식별하는 것은 전사체의 복잡성으로 인해 쉽지 않은 일입니다. 이러한 문제를 해결하기 위해 SNPiR이라는 방법이 개발되었습니다. SNPiR은 splice-aware 방식으로 RNA-seq 데이터를 매핑하고, 변이를 호출한 후, false-positive를 강력하게 필터링하는 방법입니다.
기존의 RNA-seq 데이터에서 SNP를 식별하는 방법에 비해 SNPiR은 다음과 같은 장점이 있습니다. 먼저, splice-aware 방식을 사용하여 정확한 매핑이 가능합니다. 그리고 변이 호출 및 필터링 과정에서 false-positive를 효과적으로 제거하여 높은 정확도를 보장합니다. 마지막으로, RNA-seq 데이터의 특성을 고려하여 개발되었기 때문에, 다른 방법에 비해 더욱 효율적입니다.
이러한 SNPiR 방법을 통해 RNA-seq 데이터에서 SNP를 식별함으로써, 유전자 변이 연구에 큰 도움이 될 것으로 기대됩니다.


chatGPT
### RNA-Seq 데이터로 유전자 변이를 찾아내는 새로운 방법: SNPiR
유전자와 질병의 관계를 이해하는 중요한 방법 중 하나는 **단일염기 다형성(SNP, Single Nucleotide Polymorphism)**을 찾아내는 것입니다. SNP는 유전자 서열의 작은 변화로, 개개인의 차이를 만들어내고 질병의 원인이 될 수 있습니다. 기존에는 주로 **전체 유전체 시퀀싱(Whole Genome Sequencing, WGS)**이나 **전체 엑솜 시퀀싱(Whole Exome Sequencing, WES)** 같은 DNA 기반 기술을 통해 SNP를 찾아냈습니다. 하지만 이번 연구는 **RNA 시퀀싱(RNA-seq)** 데이터를 활용해 SNP를 더 효율적으로 찾아내는 방법을 제안합니다. 여기서 사용된 방법이 바로 **SNPiR**라는 기술입니다.
#### 1. 연구 배경
왜 우리는 RNA 시퀀싱을 통해 SNP를 찾아내려고 할까요? 전통적인 WGS나 WES는 이미 잘 알려진 방법인데도 말이죠. 그 이유는 RNA-seq가 몇 가지 독특한 장점을 가지고 있기 때문입니다.
- **비용 효율성**: RNA-seq는 WGS에 비해 비용이 저렴합니다. 많은 연구에서 이미 RNA-seq 데이터를 수집한 상태이기 때문에, 별도의 비용 없이 추가 분석을 통해 SNP를 찾아낼 수 있습니다.
- **유전자 발현 분석**: RNA-seq는 어떤 유전자가 활성화되고 있는지 보여주기 때문에, 변이가 실제로 발현되는 유전자에 있는지 알 수 있습니다. 이는 질병 연구에서 중요한 정보입니다.
#### 2. RNA-seq를 통한 SNP 탐지의 장점과 단점
RNA-seq를 통해 SNP를 찾아내는 것에는 분명한 장점이 있지만, 단점도 존재합니다.
##### 장점:
- **기존 데이터 활용**: 많은 질병 샘플에 대해 이미 RNA-seq 데이터를 가지고 있는 경우, 추가로 WGS나 WES를 수행하지 않고도 변이를 찾아낼 수 있습니다.
- **유전자 발현 정보**: RNA-seq 데이터는 발현 중인 유전자에서만 변이를 탐지할 수 있기 때문에, 기능적으로 중요한 변이를 더 쉽게 찾을 수 있습니다.
##### 단점:
- **전체 유전체 커버리지 부족**: RNA-seq는 발현 중인 유전자에서만 변이를 찾을 수 있기 때문에, 발현되지 않은 유전자나 비암호화 영역에서는 변이를 탐지할 수 없습니다.
- **기술적 복잡성**: RNA는 전사체의 복잡성(예: 스플라이싱) 때문에 분석이 더 어렵습니다. 잘못된 위치에 읽힘이 매핑되면 거짓 양성 결과가 나올 수 있습니다.
#### 3. SNPiR: RNA-seq 데이터를 활용한 SNP 탐지 방법
이번 연구에서 제안된 **SNPiR** 방법은 RNA-seq 데이터를 활용해 고도로 정확하게 SNP를 찾아낼 수 있는 알고리즘입니다. 이 방법의 핵심은 다음과 같습니다:
- **스플라이싱 인식 매핑**: RNA-seq 데이터는 유전자가 어떻게 조합되어 발현되는지 보여주기 때문에, SNPiR은 이러한 스플라이싱 정보를 인식하면서 매핑을 진행합니다.
- **GATK를 통한 변이 탐지**: Genome Analysis Toolkit(GATK)를 활용해 변이를 탐지하고, 엄격한 필터링 과정을 통해 잘못된 결과를 걸러냅니다.
SNPiR은 WGS 또는 WES 데이터와 비교했을 때 98% 이상의 정확도를 기록하며, 매우 높은 민감도를 보여줍니다.
#### 4. 다른 방법과의 비교: SNPiR vs. RNASEQR
SNPiR은 기존의 **RNASEQR**이라는 RNA-seq 변이 탐지 방법보다 더 나은 성능을 보였습니다. RNASEQR은 많은 거짓 양성 결과를 생성했지만, SNPiR은 더 적은 오류로 더 높은 정확도를 보여주었습니다. 특히 **코딩 영역**에서의 변이 탐지 민감도가 SNPiR이 RNASEQR보다 훨씬 높았습니다. 따라서 RNA-seq 데이터를 사용해 SNP를 찾는다면 **SNPiR**이 더 나은 선택입니다.
#### 5. 결론
RNA-seq 데이터를 통해 SNP를 찾는 방법은 기존의 WGS나 WES 방법을 보완할 수 있는 중요한 도구입니다. 특히 비용 효율성과 발현 유전자에서의 변이 탐지라는 장점 덕분에 RNA-seq를 통한 SNP 탐지는 앞으로도 더 많이 활용될 가능성이 큽니다. **SNPiR**은 그 중에서도 높은 정확성과 민감도를 자랑하는 방법으로, 유전체 연구나 질병 연구에 매우 유용할 것입니다.


NotebookLM
## RNA Sequencing 데이터를 이용한 SNP 식별: SNPiR 소개
**유전체 변이는 개인의 특징을 결정하는 중요한 요소**이며, 질병 발생과도 밀접한 관련이 있습니다. 이러한 유전체 변이를 정확하게 식별하는 것은 질병 메커니즘 이해, 진단 및 치료법 개발에 필수적입니다. 기존에는 **WGS (Whole Genome Sequencing)** 나 **WES (Whole Exome Sequencing)** 와 같은 DNA 염기서열 분석 방법을 통해 유전체 변이를 식별해왔습니다. 하지만 이러한 방법은 **비용이 많이 들고**, 분석 과정이 복잡하다는 단점이 있습니다.
최근에는 RNA Sequencing 데이터를 이용하여 유전체 변이를 식별하는 **RNA-seq** 방법이 주목받고 있습니다. **RNA-seq**는 DNA 염기서열 분석보다 **저렴**하며, 유전자 발현량, alternative splicing, allele-specific expression 등 다양한 정보를 얻을 수 있다는 장점이 있습니다.
### RNA-seq 기반 SNP 식별의 장단점
**장점**:
* **비용 효율성**: RNA-seq 데이터는 DNA 염기서열 분석보다 저렴합니다.
* **발현된 유전자에 대한 정보**: RNA-seq 데이터는 실제로 발현되는 유전자에 대한 정보를 제공하기 때문에, 유전체 변이가 유전자 발현에 미치는 영향을 파악하는데 유용합니다.
**단점**:
* **발현되지 않는 유전자**: RNA-seq는 발현되는 유전자만 분석 가능하기 때문에, 발현되지 않는 유전자의 변이는 찾을 수 없습니다.
* **RNA editing**: RNA-seq 데이터에서 RNA editing과 유전체 변이를 구분하는 것이 어려울 수 있습니다.
### SNPiR: RNA-seq 기반 SNP 식별의 새로운 방법
기존의 RNA-seq 기반 SNP 식별 방법은 정확도가 낮고, 분석 과정이 복잡했습니다. 이러한 문제점을 해결하기 위해 **SNPiR**이라는 새로운 방법이 개발되었습니다. **SNPiR**은 다음과 같은 특징을 가지고 있습니다.
* **splice-aware read mapping**: RNA splicing을 고려하여 read를 정확하게 mapping합니다.
* **GATK 기반 variant calling**: GATK (Genome Analysis Toolkit)을 사용하여 정확하게 변이를 calling합니다.
* **엄격한 filtering**: false-positive를 효과적으로 제거하기 위한 엄격한 filtering 과정을 거칩니다.
**SNPiR**은 기존 방법보다 **높은 정확도와 민감도**를 보여주며, RNA-seq 데이터에서 SNP를 효과적으로 식별할 수 있습니다. 또한, SNPiR은 **낮은 coverage 데이터에서도** 높은 정확도를 유지하며, 적은 양의 데이터로도 효율적인 분석이 가능합니다.
### SNPiR의 활용 가능성
**SNPiR**은 유전체 연구, 질병 연구, 맞춤형 의료 등 다양한 분야에서 활용될 수 있습니다. 특히 **암 유전체 연구**에서 **SNPiR**을 이용하여 암세포 특이적인 유전체 변이를 식별하고, 이를 바탕으로 새로운 치료법 개발에 기여할 수 있습니다.
### 결론
**SNPiR**은 RNA-seq 데이터를 이용하여 유전체 변이를 효과적으로 식별할 수 있는 새로운 방법입니다. **높은 정확도와 민감도**, 낮은 coverage 데이터에서의 성능, 다양한 분야에서의 활용 가능성을 고려했을 때, **SNPiR**은 유전체 연구의 새로운 지평을 열어줄 것으로 기대됩니다.

당시 나와있었던 RNAseq 기반의 SNP 탐지 프로그램들 보다 SNPiR이 좀 더 나은 성능을 보여준다고 서술하고 있지만... 그거야 너님들이 사용한 데이터 가지고 그런거 이지 않을까합니다. 실제 다른 상황의 샘플들 가져오면 이전에 나와서 사용하던 것들이나 이번것이나 도토리 키재기이지 않을까 하지만 그래도 우리에게 또 하나의 무기가 생기는 것이니깐 잘 활용하면 좋을듯 합니다.
최근에 새롭게 나온 RNAseq 기반의 SNP 탐지 툴은 없는지 다시 확인해봐야 겠네요. 
그래봤자 알파폴드나 gatk로 해쳐모여 할듯하긴한데.. :)




출처: @ye._.vely618


일요일, 2월 11, 2024

WGS 데이터를 활용하여 어떤 방법이 환자에게 보다 효과적인지 확인해보자

바다 건너 영국에서 진행하고 있는 WGS를 활용한 암환자들에 대한 치료 기회에 대한 내용에 대한 논문을 한번 bar..아니 gemini에게 물어봤습니다.

논문 제목은 "Insights for precision oncology from the integration of genomic and clinical data of 13,880 tumors from the 100,000 Genomes Cancer Programme"

doi: 10.1038/s41591-023-02682-0

입니다.


이번 프롬프트는 간결하게 "https://www.nature.com/articles/s41591-023-02682-0 이 연구를 하게 된 이유와 연구에 사용된 분석 방법, 그리고 결과에 대한 내용에 대해서 블로그에 게시할 수 있도록 정리해서 작성해줘" 라고 넣어봤습니다.


제목: 암 치료를 위한 개인화된 접근 방식

요약:

암은 전 세계적으로 사망 원인 1위입니다. 암 치료는 종종 화학 요법, 방사선 요법 및 수술을 포함하는 복잡한 과정입니다. 그러나 이러한 치료법은 모든 환자에게 효과적이지 않으며 종종 부작용을 유발할 수 있습니다.

연구 배경:

최근 몇 년 동안 암 치료에 대한 개인화된 접근 방식에 대한 관심이 높아졌습니다. 개인화된 치료는 환자의 특정 유전적 특성에 맞게 조정된 치료법입니다.

연구 방법:

이 연구는 100,000 게놈 프로젝트의 암 프로그램의 데이터를 사용했습니다. 이 프로젝트는 암 환자의 전체 게놈을 시퀀싱하는 것을 목표로 합니다. 연구원들은 33가지 암 유형의 13,880개 종양을 분석했습니다. 그들은 이 데이터를 실제 치료 및 결과 데이터와 연결했습니다.

연구 결과:

연구 결과는 WGS가 많은 암 유형에서 유용한 도구가 될 수 있음을 보여줍니다. WGS는 환자의 치료 반응에 영향을 미칠 수 있는 유전적 변화를 식별하는 데 사용할 수 있습니다. 이 정보는 더 개인화된 암 치료법을 개발하는 데 사용될 수 있습니다.

연구 결론:

이 연구는 WGS가 암 치료를 위한 개인화된 접근 방식을 개발하는 데 중요한 도구가 될 수 있음을 보여줍니다. WGS는 환자의 치료 반응을 예측하고 더 효과적이고 안전한 치료법을 개발하는 데 도움이 될 수 있습니다.

이 연구가 암 치료에 미치는 잠재적 영향:
- WGS는 암 치료의 성공률을 높이고 부작용을 줄이는 데 도움이 될 수 있습니다.
- WGS는 암 환자에게 더 나은 치료 옵션을 제공할 수 있습니다.
- WGS는 암 치료의 비용을 절감하는 데 도움이 될 수 있습니다.

이 연구의 한계:
이 연구는 100,000 게놈 프로젝트의 데이터를 사용했습니다. 이 데이터는 영국과 미국의 환자를 대상으로 합니다. 다른 국가의 환자에게도 WGS가 유용한 도구가 될지는 확실하지 않습니다.
이 연구는 WGS가 암 치료에 미치는 잠재적 영향을 평가했습니다. 그러나 WGS가 실제로 암 치료의 성공률을 높이고 부작용을 줄이는 데 도움이 되는지 여부는 더 많은 연구가 필요합니다.

 

개별 암종별 변이 종류에 따른 설명이 많이 생략되어 있긴하지만, 프롬프트를 잘 작성하면 필요에 맞는 내용을 잘 요약해서 정리해 줄 것으로 생각되고, 결국 깨작깨작 패널대신 걍 WGS를 하고 더불어 methylation, proteomics, RNAseq 등의 정보들도 조합하면 우리가 꿈꾸는 예후 예측이나 더 나은 환자의 치료를 제공할 수 있지 않겠냐고 잘 마무리하고 있는 논문 되겠습니다.

그리고 물론 위에 것을 하려면 아직 돈은 많이 든다. 언젠가 그렇듯이 이 또한 해결 할 수 있는 그 날이 오면 좋겠다. 라고 합니다. 


그럼 설 연휴 잘 마무리하는 걸로 :)




출처: @ye._.vely618


일요일, 3월 10, 2019

간만에 denovo RNA-Seq 해보기 -설치편-

최근 간만에 해보기가 올라가고 있는데...
진짜 2년만에 RNA-seq 분석을 해봐서..

걍 분석하는 단계나 프로그램 사용법 정리 차원에서 글을 올리고 있습니다.

4짜 산업 시대에 발맞춰 유전체 데이터 전문 설거지팀 하나 꾸리는것도 나쁘지 않을듯.... (대신 건당 비용때문에 수주가 안들어올 것 같다는게 함정 ㅎㅎ )

여튼 오늘은 de novo RNA-Seq 분석입니다.

일단 de novo RNAseq 시장을 석권했던.. 지금도 지배하고 있는 것으로 보이는데..
제가 사용했던 버전은 2.0.6이었는데.. ㄷㄷㄷ 벌써 2.8.4네요..
다들 아시는 삼위일체 Trinity 입니다.

지금 사용하는 서버에서는 cmake버전이 2.x라서 2.8.4대신 낮은 버전인 2.6.6버전으로 테스트를 수행하고 있습니다.
같은 input에 옵션이 비슷한데 2.6과 2.8의 결과가 많이 달라질지는 잘 모르겠습니다.
버전별 output 비교는 나중에 한번 기회되면 도전해보는것으로!!

$ wget https://github.com/trinityrnaseq/trinityrnaseq/archive/Trinity-v2.6.6.tar.gz
$ tar zxf Trinity-v2.6.6.tar.gz
$ cd trinityrnaseq-Trinity-v2.6.6/
$ make && make install

참고로 make했을때 어쩌구 저쩌구 /usr/local/bin 권한없다라는 메세지를 보여주고 에러를 밷어낸다면 trinityrnaseq-Trinity-v2.6.6/util/support_scripts/ 밑에 있는 trinity_installer.py 파일의 destination_package_dir 변수명의 내용을 수정해주시면됩니다.
(제 경우 make할때 DESTDIR 설정을 해주어도 계속 /usr/local/bin을 요구해서... trinity_install.py 파일을 직접 수정했습니다. ㅎㅎ 다른 방법이 분명 있을거 같은데.. )

여튼 에러가 발생한다면 해당 에러를 잡고 설치하면(당연한 소리를..) 문제 없을것이라고 말씀드릴 수 있습니다!!



출처: SM 



월요일, 8월 27, 2012

Tophat을 run할 때의 마음가짐

RNA-Seq 작업을 하면서 빈번하게 사용하는 Alignment tool로 TopHat을 꼽을 수 있다.
(나의 경우 그렇다. 아니면 말고.. 쳇~)

본인의 경우 대부분의 프로그램들의 default값을 사용하기 좋아라 하지만
최근 NGS관련 tool을 다루면서부터 default값은 신뢰하지 않기로 했다.
왜냐?

최근 각광받는 NGS 분석 tool들의 대부분의 default값들은 Human, Mouse같은 Model 종들에 대해서 적합한 것 들이지 내가 다루는 곰팡이나 식물은 전혀 Out of 안중이기 때문이다.

그래서 아주 죽을맛이다라는거다 ㅋㅋ
성능 짱 좋은 서버로 테스트 해보고 싶은 경우의 수를 모두 다 해보면 좋겠지만
논문내는건 시간싸움이다 보니 해보고 싶은 모든 경우에 대해서 테스트 못할 수 도 있다.

그래서 옵션 중에서 Key가 될만한 옵션들만 본인의 종에 맞게 조정해서 분석을 해야 그나마 시간 대비 분석 결과에 만족 할 수 있을 것으로 생각한다.

그 중 TopHat의 경우 intron-length를 분석하고자 하는 종에 맞춰서 값을 사용하기 바라는 바이다.
TopHat의 --max-intron-length의 경우 500,000bp인데 상식적으로 곰팡이 같은 종의 경우 한 유전자안에 500kbp짜리 intron이 있을리 만무하지 않겠는가?

그래서 이런 종 특이적인 정보를 사용하는 경우 본인이 분석하는 종을 대표할 수 있는 값을 사용하는 것이 보다 좋은 결과를 얻을 수 있을것이다.
(강릉 교육에서 들어서 요건 확인하고 한다는거.. ㅋㅋ)

사람이나 마우스 하는 분들은 걍 default 값 사용하면됩니다. (요건 좀 부럽습네다. ㅎㅎ)

아... intron길이 구하는건 스스로, 그걸 누가 매번 알려줄수는 없잖아~
구글링하면 어느정도 커버 할수 있을 자료 찾을 수 있습니다.
요즘 NGS때문에 denovo도 꽤나 하는듯 하니..
-대신 없으면 추가로 denovo하시면 될듯... 전략만 잘 짜면... 괜찮을듯한데.. ㅎㅎ


그래서 NGS 작업을 위해선..
스크립트언어라도 배우는게 좋다는 점~
간단한 코드는 짤 수 있어야 한다는 점~
텍스트 파싱은 할 줄 알아야 한다는 점~




화요일, 8월 21, 2012

Tophat2에서 libz.so.1 에러에 대처하는 우리들의 자세

RNA-Seq 작업을 하시는 분들의 경우
많은 분들께서 TopHat과 Cufflinks 조합으로 분석을 진행하리라 생각합니다.

본 글은 좀 old한 리눅스 시스템에서
TopHat 그것도 TopHat2의 바이너리를 사용하여 작업을 하실 때
libz.so.1 관련 에러가 나는 문제가 발생했을 때 대응 할 수 있게 해줍니다.
(경험치 +1)

기존 시스템에서 사용하고 있는 libz.so.1의 버전이 옛날것이라
이미 컴파일 되어 있는 Tophat의 바이너리파일에 저장되어 있는 정보랑 맞지 않아
발생 하는 것으로 보입니다.
fc12에서 TopHat-1.4.0에서는 전혀 문제가 없었는데..
fc12에서 TopHat2에서는 문제가 발생해버렸네요.
(그리고 fc14에서는 문제가 발생하지 않습니다.)

그러므로 다른 에러는 저도 모르겠습니다. ㅋ

/lib64/libz.so.1: no version information available

위의 에러를 만나시게 된다면
다음 링크에 있는 파일(fc14의 파일입니다.)을
리눅스의 /lib64/폴더 밑에 다운로드 받아 저장하시고,
링크를 새로 만들어 주시면 됩니다. :)


파일 다운로드 libz.so.1.2.5

원래 시스템에 있는 libz.so.1 링크는 삭제

>ln -s /lib64/libz.1.2.5 /lib64/libz.so.1

이렇게 하면 다음부터는 위의 libz.so.1 에러는 발생하지 않을 것입니다. :)

Good luck.