레이블이 Trinity인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Trinity인 게시물을 표시합니다. 모든 게시물 표시

목요일, 11월 14, 2024

RNA-Seq 데이터로 SNP를 찾아내보자 -2-

오늘 논문은 2019년에 출판된 RNA-seq데이터로 SNP를 발굴하는 방법에 대한 논문입니다. 제목은 A high-throughput SNP discovery strategy for RNA-seq data 으로 이전에 포스팅은 새로운 tool을 만들어서 자랑을 했다면 이번 논문은 기존에 사용하던 tool들을 조합해서 식물에서 생산한 RNA-seq 데이터에서 SNP를 발굴하는 방법을 테스트 한 논문되겠습니다.

DOI: 10.1186/s12864-019-5533-4



gemini
## RNA-seq 데이터로 유전자의 차이를 찾는 방법
이 파일은 RNA-seq 데이터에서 SNP를 찾는 효율적인 방법을 제시하는 논문입니다. 좀 더 쉽게 말하면, 유전자 활동 정보를 이용해 사람들 간의 유전적 차이를 정확하게 찾아내는 방법을 연구한 것이죠. 마치 돋보기로 숨은 그림을 찾는 것처럼, RNA-seq 데이터를 활용하면 DNA 염기서열의 미세한 차이까지 찾아낼 수 있습니다.
### SNP가 뭐길래? 🤔
사람마다 얼굴 생김새가 다르듯, 유전 정보도 조금씩 다릅니다. 이러한 차이를 만드는 요인 중 하나가 바로 **SNP(단일 염기 다형성)**입니다. SNP는 DNA 염기서열에서 단 하나의 염기가 다른 것을 말하는데, 이 작은 차이가 키, 눈 색깔, 질병 발생 가능성 등 다양한 특징을 만듭니다.
### RNA-seq 데이터로 SNP를 찾는 방법 🧐
* **RNA-seq**: 세포 내에서 활동하는 유전자 정보를 담고 있는 RNA를 분석하는 기술입니다.
* **어셈블러**: RNA-seq 데이터를 조각조각 모아서 전체 유전 정보를 재구성하는 프로그램입니다. 마치 퍼즐 조각을 맞추는 것과 같습니다.
* **SNP 콜러**: 재구성된 유전 정보에서 SNP를 찾아내는 프로그램입니다. 숨은 그림 찾기 전문가라고 할 수 있죠.
### 이 논문에서 무엇을 했나요? 🤔
* **다양한 조합을 테스트**: 연구진들은 여러 종류의 어셈블러와 SNP 콜러를 조합하여 어떤 조합이 SNP를 가장 정확하게 찾아내는지 실험했습니다.
* **최적의 조합 발견**: 실험 결과, **Trinity 어셈블러**와 **GATK SNP 콜러**를 함께 사용하는 것이 가장 정확했습니다. 특히, 150bp 길이의 paired-end read를 사용했을 때 복숭아와 귤에서 100% 정확도로 SNP를 찾아냈습니다.
* **새로운 가능성 제시**: 이 연구는 RNA-seq 데이터를 이용하여 SNP를 정확하게 찾아내는 효율적인 방법을 제시했습니다. 이는 다양한 생물의 유전 정보를 분석하고, 질병 예측 및 개인 맞춤형 치료 등에 활용될 수 있습니다.
### 왜 이 연구가 중요한가요? 🤔
* **질병 예측 및 맞춤형 치료**: SNP는 질병 발생 가능성이나 약물 반응성과 관련이 있습니다. SNP 정보를 활용하면 개인별 질병 위험도를 예측하고, 가장 효과적인 치료법을 선택할 수 있습니다.
* **유전자 연구 발전**: RNA-seq 데이터를 이용한 SNP 분석은 유전자 연구의 새로운 도구가 될 수 있습니다. 이를 통해 유전자의 기능과 질병과의 관계를 밝혀내고, 새로운 치료법 개발에 기여할 수 있습니다.
### 결론
이 논문은 RNA-seq 데이터를 이용하여 SNP를 효율적으로 찾아내는 방법을 제시하는 중요한 연구입니다. 이 연구는 유전자 연구의 발전과 개인 맞춤형 의료 시대를 앞당기는 데 크게 기여할 것으로 기대됩니다.



clova-x
생명체의 유전 정보는 DNA에 저장되어 있으며, 이 DNA는 A, T, C, G라는 네 가지 염기로 구성되어 있습니다. 이 중에서 하나의 염기가 다른 염기로 바뀌는 것을 SNP(단일 염기 변이)라고 하며, 이는 유전적 다양성을 만들어내는 원인 중 하나입니다.
SNP는 유전 질환, 암, 당뇨병 등 다양한 질병과 관련이 있으며, 작물의 생산량, 품질, 병 저항성 등에도 영향을 미칩니다. 따라서, SNP를 탐지하고 분석하는 것은 생명공학 분야에서 매우 중요한 과제 중 하나입니다.
최근에는 NGS(차세대 시퀀싱) 기술이 발전하면서, 빠르고 대규모로 SNP를 탐지할 수 있게 되었습니다. 대표적인 NGS 기술로는 Illumina Genome Analyzer, Roche/454 FLX, ABI SOLiD 등이 있으며, 각각의 플랫폼은 민감도, 정확도, 재현성, 처리량 등에서 차이가 있습니다.
RNA-seq(RNA 시퀀싱)는 유전자의 발현을 분석하는 데 사용되는 기술로, 이를 통해 SNP를 탐지할 수도 있습니다. RNA-seq 데이터를 분석하여 얻은 서열 정보를 바탕으로 SNP를 찾아내고, 이를 통해 유전자의 기능과 발현 패턴을 이해할 수 있습니다.
하지만, RNA-seq 데이터에서 SNP를 탐지하는 것은 여러 가지 어려움이 있습니다. 데이터의 양이 많고 복잡하며, 누락되거나 오류가 있는 데이터가 있을 수 있습니다. 또한, SNP를 탐지하는 데 사용되는 알고리즘과 도구도 다양하며, 각각의 장단점이 있습니다.
따라서, RNA-seq 데이터에서 SNP를 탐지할 때는 적절한 알고리즘과 도구를 선택하고, 데이터를 정제하고 검증하는 과정이 필요합니다. 이를 위해 다양한 어셈블러와 SNP 콜러를 비교하고, 최적의 조합을 찾아내야 합니다.
예를 들어, Trinity와 GATK는 RNA-seq 데이터에서 SNP를 탐지하는 데 널리 사용되는 어셈블러와 SNP 콜러입니다. 이들은 높은 정확도와 재현성을 제공하며, 다양한 생물종에서 성공적으로 사용되었습니다.
또한, read 길이도 SNP 탐지의 정확도에 영향을 미치는 중요한 요소입니다. 긴 read 길이는 더 많은 정보를 제공하여 SNP 탐지의 정확도를 높일 수 있습니다.
이러한 기술과 전략을 활용하여 RNA-seq 데이터에서 SNP를 탐지하고 분석함으로써, 유전자의 기능과 생물학적 과정을 이해하고, 질병의 진단과 치료, 작물의 육종 등에 활용할 수 있습니다.



chatGPT
**고빈도 RNA-seq 데이터에서 SNP 탐지 방법**
### 1. SNP란 무엇인가요?
SNP(단일 염기 다형성)는 DNA 서열에서 하나의 염기가 다른 염기로 바뀐 유전자 변이를 뜻합니다. 예를 들어, DNA 서열 중 특정 위치에서 원래 ‘A’(아데닌)였던 염기가 ‘G’(구아닌)로 변한 경우가 있습니다. 이러한 변이들이 여러 곳에서 쌓이면, 개체들 간의 유전자 차이를 형성하고, 생물의 특징이나 질병 발생과 연관될 수 있습니다.
SNP는 유전적 다양성을 나타내는 중요한 지표로, 유전자 연구와 질병 진단 및 예측, 품종 개량 등의 연구에서 널리 사용됩니다.
### 2. RNA-seq 데이터로 SNP를 탐지하는 이유는 무엇인가요?
RNA-seq는 RNA(전사체)를 시퀀싱하여 유전자 발현 수준을 파악하는 기술입니다. 이 데이터는 많은 양의 변이를 포함하고 있어 SNP를 찾는 데 적합합니다. RNA-seq 데이터로 SNP를 분석하면 단백질 생성에 영향을 미치는 유전자 변이를 발견할 수 있어, 농업, 질병 연구, 신약 개발 등에서 활용도가 큽니다.
### 3. RNA-seq 데이터에서 SNP를 찾는 과정
SNP를 발견하는 과정은 RNA-seq 데이터에서 원시 데이터를 수집하고 이를 분석해 유의미한 변이를 찾는 절차로 이루어집니다. 이번 연구에서는 다음과 같은 조합으로 RNA-seq 데이터를 분석하여 가장 높은 정확도의 SNP 탐지 방법을 찾았습니다:
- **리드 길이:** 125 bp 또는 150 bp
- **조립 프로그램(Assembler):** Trinity, IDBA, oases, SOAPdenovo, Trans-abyss
- **SNP 탐지 프로그램(SNP Caller):** GATK, GBS
### 4. 연구에서 발견한 최적의 방법
이 연구는 복숭아와 귤의 유전자를 대상으로 실험하여 가장 높은 정확도를 보이는 방법을 찾아냈습니다. 특히, **150 bp의 리드 길이, Trinity 조립 프로그램, GATK 탐지 프로그램**을 사용할 때 SNP 탐지 정확도가 100%에 이르렀습니다. 이 조합이 다른 조합들에 비해 훨씬 높은 정확도를 나타내어, 다양한 식물과 생물의 SNP 연구에 사용할 수 있는 이상적인 방법으로 제시되었습니다.
### 5. 연구 결과와 의미
이 연구의 결과는 특정 조합을 사용했을 때 SNP를 빠르고 정확하게 찾을 수 있음을 보여주었으며, 특히 RNA-seq 데이터를 이용해 유전자 변이를 분석하는 과정에서 큰 도움을 줄 수 있습니다. 이는 향후 품종 개량, 질병 유전자 연구 등에서 효과적인 방법으로 활용될 수 있을 것입니다.



NotebookLM
## RNA 염기서열 데이터에서 SNP를 찾는 방법: 복숭아와 귤을 이용한 연구
안녕하세요, 저는 RNA 염기서열 데이터에서 SNP를 찾는 방법을 연구하는 전문가입니다. 오늘은 생명공학을 전공하지 않은 일반인 분들을 위해 "s12864-019-5533-4.pdf" 파일의 내용을 쉽게 설명해 드리려고 합니다. 복숭아와 귤의 RNA 염기서열 데이터를 이용한 이 연구는 어떻게 하면 **SNP를 정확하게 찾아낼 수 있는지**에 대한 흥미로운 결과를 보여줍니다.
### 1. SNP란 무엇인가요?
**SNP는 '단일 염기 다형성'의 약자로, DNA 염기서열에서 단 하나의 염기가 다른 것을 의미합니다.** 마치 길고 복잡한 문장에서 한 글자만 다른 것과 같죠. 사람마다 DNA 염기서열이 조금씩 다른데, 이러한 차이를 만들어내는 주요 요인 중 하나가 바로 SNP입니다. SNP는 유전형질, 질병 발생 가능성, 약물 반응 등에 영향을 줄 수 있습니다.
### 2. RNA 염기서열 데이터를 이용하면 왜 SNP를 찾기 쉬울까요?
**RNA 염기서열 분석(RNA-seq) 기술**은 DNA 염기서열 분석보다 저렴하면서도 유전자의 기능과 발현에 대한 정보를 풍부하게 제공합니다. RNA-seq를 통해 **수천 개의 SNP를 한 번에 발견**할 수 있으며, **특정 유전자의 발현량**까지 알 수 있다는 장점이 있습니다.
### 3. 연구는 어떻게 진행되었나요?
* **복숭아** 품종 'Hujingmilu'와 'Yulu', **귤** 품종 'Ponkan'과 'Yellowish-peeled Ponkan'의 껍질 조직에서 RNA를 추출하여 RNA-seq 데이터를 얻었습니다.
* **두 가지 길이의 염기서열 데이터(125 bp, 150 bp)**, **다섯 가지 조합기(Trinity, IDBA, Oases, SOAPdenovo, Trans-ABySS)**, **두 가지 SNP 호출기(GATK, GBS)**를 다양하게 조합하여 SNP를 예측했습니다.
* 예측된 SNP를 **PCR 증폭, 유전자 클로닝 및 염기서열 분석**을 통해 얻은 실제 SNP와 비교하여 정확도를 평가했습니다.
### 4. 연구 결과는 무엇인가요?
* **150 bp 길이의 염기서열 데이터를 사용했을 때 125 bp에 비해 잘못된 SNP(false positive SNP)를 찾는 비율이 훨씬 낮았습니다**.
* **조합기 중에서는 Trinity**가 가장 우수한 성능을 보였고, **SNP 호출기 중에서는 GATK**가 GBS보다 실제 SNP를 놓치는 비율이 낮아 훨씬 우수했습니다.
* **150 bp 길이의 염기서열 데이터, Trinity 조합기, GATK SNP 호출기**를 함께 사용했을 때 복숭아와 귤에서 모두 **100%의 정확도**로 SNP를 찾아낼 수 있었습니다.
### 5. 이 연구가 왜 중요한가요?
이 연구는 **RNA-seq 데이터에서 SNP를 정확하고 효율적으로 찾아내는 최적의 방법을 제시**했다는 점에서 큰 의미가 있습니다. 150 bp 길이의 염기서열 데이터, Trinity 조합기, GATK SNP 호출기 조합은 복숭아와 귤뿐만 아니라 다른 생물에도 적용 가능할 것으로 기대됩니다.
### 6. 이 연구 결과는 어떻게 활용될 수 있을까요?
**SNP는 유전적 다양성 분석, 품종 개량, 유전체 연관 분석 등 다양한 분야에서 활용될 수 있습니다.** 예를 들어, 특정 질병에 대한 저항성을 가진 품종을 개발하거나 개인별 맞춤형 의료 서비스를 제공하는 데 유용하게 활용될 수 있습니다.

식물 중에 복숭아와 귤(만다린)을 가지고 테스트 했을 때 Trinity와 GATK로 SNP를 탐지하면 가장 좋은 결과 (확인된 280개 SNP 모두 탐지!!)를 보여줬고, 그 외 조합으로는 정확도가 100%에 도달하지 못했다고 하니, Reference Genome가 없는 경우 Paired-end RNA-seq 데이터만 있다면 Trinity와 GATK로 SNP를 탐지하면 쓸만한 결과를 얻을 수 있지 않을까 합니다. ;)

요즘엔 걍 이런 논문 찾지 말고 perplexity, chatGPT, gemini 한테 분석 전략을 문의하는게 더 정확하고 빠를지도.. 물론 팩트체크는 필수입니다만 ㅎㅎ


출처: @ye._.vely618


금요일, 10월 25, 2019

간만에 denovo RNA-Seq 해보기 -유전자구조예측편-

denovo RNA-Seq를 사용해서 조립을 했다면
조립된 서열들은 어떤 유전자인지 궁금해 지겠쥬?

안 궁금하면 그냥 끝! 하고
서열을 NCBI에 fastq파일 디파짓하고 Bye さようなら하면
그냥 남 좋은일 하는 겁니다.
(나는 대인배다 나는 시퀀싱 비용이 아깝지 않다 하시는 분이라면
친하게 지내요!! 제발~ )

여튼 RNA-Seq을 했고, 생산된 RNA-Seq을 가지고 조립까지 했다면
조립된 서열들은 어떤 유전자들일까 궁금한게 인지사정!

그러면 그런 tool에서는 어떤 것들이 있을까?

바로 이런게 있습니다.
TransDecoder

TransDecoder Wiki

조립된 RNA-Seq서열 에서 coding 서열을 찾아주는 프로그램 입니다.
(현재 버전이 5.5.0이네요.. 다행히 어떤 업데이트도 일어나지 않았네요..)

풋 아마추어같이 RNA-Seq서열이니깐 ATG로 시작하는 것 찾으면 되지 무슨 프로그램이야 프로그램은 아마추어 같으니라고!!
라고 하신다면 당신은 느응력자!

다들 알고계시다 싶이 ATG로 시작하는 것들 major긴 하지만 RNA-Seq을 해서 조립하게되면 ATG로 시작하지 않은 partial로 어딘가가 짤려진 gene 서열들이 존재하기 때문에 그런것들도 잘 알아서(모 대략, 못찾는것도다는) 찾아주는 녀석이 바로 이녀석 되겠습니다.

-사실 이거 말고 다른것도 많이 있을겁니다. 제가 이것밖에 안써서 이거 소개합니다. ㅎㅎ


그냥 위에 파일 다운 받아서 압축 풀고 trinity로 조립한 fasta파일을 넣고 돌리면

$ ~/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t Trinity.fasta --gene_trans_map Trinity.fasta.gene_trans_map

(근데 저 --gene_trans_map이 무슨 옵션이었는지 까먹었네요...)

여튼 이렇게 돌리면 대략적인 결과 나오고 그 결과가지고 연구하면됩니다.
이거가지고 부족해!! 하시면 genome project 진행하시면되겠습니다!!

ps. 위의 글은 유전자 예측이 아닌 유전자 구조 예측이 맞는 표현입니다. Orz


출처: SM

금요일, 3월 15, 2019

간만에 de novo RNA-Seq 해보기 -조립편-

Trinity를 사용한 de novo RNA-seq은 별거없습니다.

다음과 같은 명령어를 사용하면 끝!

기본 Assembly 방법:
$ ~/trinityrnaseq-Trinity-v2.6.6/Trinity --seqType fq --max_memory <memory_size> --samples_file <sample.txt> --SS_lib_type <library type> --CPU <thread_num> --full_cleanup
$ ~/trinityrnaseq-Trinity-v2.6.6/Trinity --seqType fq --max_memory <memory_size> --left <left.fq.gz> --right <right.fq.gz> --SS_lib_type <library type> --CPU <thread_num> --full_cleanup



Genome Guide Assembly 방법:
$ ~/trinityrnaseq-Trinity-v2.6.6/Trinity --seqType fq --max_memory <memory_size> --samples_file <sample.txt> --SS_lib_type <library type> --CPU <thread_num> --genome_guided_bam <align.bam> --genome_guided_max_intron <max_intron> --full_cleanup


유경험자면 아시겠지만 RNA-Seq 데이터만 있으면 걍 default assembly방법을 사용하시는게 제일 좋은 결과를 얻으실 수 있으실겁니다.
어설프지만 genome 데이터가 있는데 그냥 하는것 보다 어설프더라도 genome을 활용하는게 좋지 않을까? 응 하지 마세요
어설픈 input은 어설픈 output을 너님의 손에 가져다 줍니다.

하실꺼면 Reference Genome 만드실때 genome을 탄탄하게 만들고 다양한 단계의 RNA-Seq을 하셔서 gene prediction할 때 RNA-Seq 데이터를 활용하세요
그게 맞는 방법입니다. :)

그리고 --SS_lib_type에 어떤 걸 넣어야 할지 난 모르겠다 하시는분은 여기 biostars를 참고하세요 :)

좀 더 자세한 wiki >여기<



출처: JYP



일요일, 3월 10, 2019

간만에 denovo RNA-Seq 해보기 -설치편-

최근 간만에 해보기가 올라가고 있는데...
진짜 2년만에 RNA-seq 분석을 해봐서..

걍 분석하는 단계나 프로그램 사용법 정리 차원에서 글을 올리고 있습니다.

4짜 산업 시대에 발맞춰 유전체 데이터 전문 설거지팀 하나 꾸리는것도 나쁘지 않을듯.... (대신 건당 비용때문에 수주가 안들어올 것 같다는게 함정 ㅎㅎ )

여튼 오늘은 de novo RNA-Seq 분석입니다.

일단 de novo RNAseq 시장을 석권했던.. 지금도 지배하고 있는 것으로 보이는데..
제가 사용했던 버전은 2.0.6이었는데.. ㄷㄷㄷ 벌써 2.8.4네요..
다들 아시는 삼위일체 Trinity 입니다.

지금 사용하는 서버에서는 cmake버전이 2.x라서 2.8.4대신 낮은 버전인 2.6.6버전으로 테스트를 수행하고 있습니다.
같은 input에 옵션이 비슷한데 2.6과 2.8의 결과가 많이 달라질지는 잘 모르겠습니다.
버전별 output 비교는 나중에 한번 기회되면 도전해보는것으로!!

$ wget https://github.com/trinityrnaseq/trinityrnaseq/archive/Trinity-v2.6.6.tar.gz
$ tar zxf Trinity-v2.6.6.tar.gz
$ cd trinityrnaseq-Trinity-v2.6.6/
$ make && make install

참고로 make했을때 어쩌구 저쩌구 /usr/local/bin 권한없다라는 메세지를 보여주고 에러를 밷어낸다면 trinityrnaseq-Trinity-v2.6.6/util/support_scripts/ 밑에 있는 trinity_installer.py 파일의 destination_package_dir 변수명의 내용을 수정해주시면됩니다.
(제 경우 make할때 DESTDIR 설정을 해주어도 계속 /usr/local/bin을 요구해서... trinity_install.py 파일을 직접 수정했습니다. ㅎㅎ 다른 방법이 분명 있을거 같은데.. )

여튼 에러가 발생한다면 해당 에러를 잡고 설치하면(당연한 소리를..) 문제 없을것이라고 말씀드릴 수 있습니다!!



출처: SM