Lee Gir-Won (Lee Gil-Won): bwa

레이블이 bwa인 게시물을 표시합니다. 모든 게시물 표시

월요일, 7월 14, 2025

RNA-seq 분석 할때 어떤 서열 정렬 프로그램을 쓸까? (2021년)

오늘은 21년도에 출판된 좀시간이 됐지만 그렇다고 막 너무 오래되지는 않은 것을 하나 가져와봤습니다. 요즘 NGS 다루지 않은 연구자가 없으니 정기적으로 한번 씩 이런 논문들이 나와줘서 좋기는 합니다. 다만 아직은 Short read 대부분이라서 Short read 정렬 tool만 많이 나오는게 살짝 아쉽긴하죠

오늘 가져온 논문 제목은 Comparison of Short-Read Sequence Aligners Indicates Strengths and Weaknesses for Biologists to Consider 으로 제목 그대로 어떤 정렬 tool을 사용하면될지에 대한 내용에 대해서 살펴보겠습니다.

DOI: 10.3389/fpls.2021.657240

clova-x

다양한 short-read sequence aligners의 성능을 비교 분석하여 생물학자들이 선택할 때 고려해야 할 장단점을 제시합니다.
1. **Short-Read Sequence Aligners**
- Short-read sequence aligners는 유전체 및 전사체 분석의 기초 단계로, 다양한 도구가 존재합니다.
- 각 aligner는 고유의 알고리즘과 데이터 구조를 사용하여 성능 차이를 보입니다.
2. **비교 연구 방법론**
- 48개의 지리적으로 다양한 포도나무 흰가루병 균주 샘플의 RNA-seq 데이터를 사용하여 aligners를 비교하였습니다.
- 각 aligner의 기본 설정으로 E. necator 참조 게놈에 정렬하였으며, 정렬률과 유전자 커버리지를 평가하였습니다.

3. **Aligners의 성능 지표**
- 정렬률과 유전자 커버리지는 aligner의 성능을 평가하는 주요 지표입니다.
- 일부 aligner는 다중 위치에 정렬되는 '다중리드'를 처리하는 방식에서 차이를 보입니다.
4. **Indexing 기법과 메모리 사용량**
- aligner의 성능은 인덱스 데이터 구조에 크게 영향을 받습니다.
- 현대 aligners는 FM-Index를 사용하여 메모리 사용량을 줄이고 성능을 향상시킵니다.
5. **속도와 병렬화**
- HISAT2는 가장 빠른 aligner로, 평균 런타임이 8.28ms/read로 나타났습니다.
- 대부분의 aligner는 선형 속도 향상을 보였으며, 일부는 슈퍼선형 속도 향상을 보였습니다.

gemini

## 내 유전자 정보, 어떻게 분석할까? 최고의 '유전자 지도 맞추기' 도구 찾기
안녕하세요! 오늘은 조금은 생소하지만 우리 삶과 아주 밀접한, '유전체 분석'에 대한 흥미로운 연구 이야기를 들려드리려고 합니다. 유전 정보를 분석해서 질병을 진단하고, 새로운 약을 개발하는 시대, 그 가장 첫 단추는 어떻게 끼워지는 걸까요? 바로 '서열 정렬기(Sequence Aligner)'라는 프로그램이 그 주인공입니다. [cite_start]2021년, Frontiers in Plant Science 저널에 발표된 한 연구는 바로 이 프로그램들의 성능을 비교 분석했습니다. [cite: 2, 13] 이 연구를 통해 유전자 분석의 숨은 공신, 서열 정렬기에 대해 쉽고 재미있게 알아보겠습니다.
### **연구 배경: 왜 이런 연구가 필요했을까요?**
우리 몸의 설계도인 DNA, 즉 유전체는 어마어마하게 깁니다. [cite_start]그래서 현대 과학 기술은 이 설계도를 한 번에 통째로 읽지 못하고, 잘게 잘라서 수많은 조각(short-read)으로 읽어냅니다. [cite: 19] 마치 거대한 책을 수천, 수만 페이지로 찢어서 섞어놓은 것과 같죠.
[cite_start]'서열 정렬기'는 바로 이 흩어진 책 조각들을 원래의 완성본 설계도(참조 유전체)와 비교하며 제자리를 찾아주는 프로그램입니다. [cite: 30] [cite_start]이 과정은 유전체나 유전 정보 분석에서 가장 기본적이고 중요한 첫 단계입니다. [cite: 19]
[cite_start]문제는 이 '서열 정렬기' 프로그램의 종류가 너무나도 많다는 것입니다. [cite: 31] 새로 개발된 프로그램도 계속 쏟아져 나오죠. [cite_start]컴퓨터 전문가가 아닌 생물학자 입장에서는 어떤 프로그램을 써야 내 연구에 가장 적합한지, 어떤 게 더 빠르고 정확한지 알기 어려워 선택의 어려움을 겪습니다. [cite: 19, 20] 마치 맛집 앱이 너무 많아서 어디가 진짜 맛집인지 고르기 힘든 상황과 비슷합니다. [cite_start]잘못된 도구를 선택하면 연구 전체의 신뢰도가 떨어질 수 있기 때문에, 이 도구들의 장단점을 명확히 비교해 줄 '가이드'가 필요했습니다. [cite: 272]
### **연구 목적: 무엇을 알고 싶었을까요?**
이 연구의 목적은 명확했습니다. [cite_start]현재 널리 사용되는 여러 서열 정렬기들을 직접 비교해서, 각각의 강점과 약점이 무엇인지 명확하게 보여주는 것이었죠. [cite: 14, 15, 16] 연구팀은 특히 두 가지 핵심 성능에 주목했습니다.
1. **정확도 (Accuracy):** 얼마나 많은 유전자 조각을 정확하게 제자리에 찾아 붙이는가?
2. [cite_start]**실행 속도 (Runtime):** 작업을 마치는 데 시간이 얼마나 걸리는가? [cite: 210]
[cite_start]이를 통해 궁극적으로 생물학자들이 자신의 연구 목적과 데이터 특성에 맞는 최적의 도구를 선택할 수 있도록 실질적인 정보를 제공하고자 했습니다. [cite: 26]
### **연구 방법: 어떻게 비교했을까요?**
연구팀은 공정한 비교를 위해 동일한 재료와 조건에서 실험을 진행했습니다.
* [cite_start]**실험 재료:** 포도나무에 흰가루병을 일으키는 곰팡이(*Erysiphe necator*)의 유전 정보(RNA)를 사용했습니다. [cite: 22] [cite_start]특히 지리적으로 다양한 48개 지역에서 채취한 샘플을 이용해 데이터의 다양성을 확보했습니다. [cite: 275]
* [cite_start]**비교 대상:** 널리 쓰이는 6개의 서열 정렬기(Bowtie2, BWA, HISAT2, MUMmer4, STAR, 그리고 구버전인 TopHat2)를 비교 대상으로 삼았습니다. [cite: 22]
* **측정 항목:** 각 프로그램을 사용해 48개 곰팡이 샘플의 유전자 조각들을 이미 완성된 곰팡이 참조 유전체에 정렬시킨 후, 다음을 측정했습니다.
* [cite_start]**정렬률 (%):** 전체 유전자 조각 중 몇 퍼센트가 성공적으로 제자리를 찾았는지. [cite: 309]
* [cite_start]**유전자 커버리지:** 알려진 유전자 영역을 얼마나 잘 덮는지(찾아내는지). [cite: 225]
* [cite_start]**실행 시간:** 작업을 완료하는 데 걸리는 시간. [cite: 238]
### **연구 결과: 어떤 도구가 최고였을까요?**
[cite_start]결론부터 말하자면, '모든 면에서 완벽한 만능 도구'는 없었습니다. [cite: 27] 각 도구는 뚜렷한 장단점을 보이며, 정확도와 속도 사이의 트레이드오프 관계가 나타났습니다.
* [cite_start]**정확도의 승자, BWA & Bowtie2:** `BWA`와 `Bowtie2 (Local 모드)`는 가장 높은 정렬률(평균 약 87%)을 기록하며 '가장 꼼꼼하고 정확한 도구'로 나타났습니다. [cite: 312] 유전자 조각 하나하나를 놓치지 않고 최대한 많이 찾아내는 데 강점을 보인 것입니다.
* [cite_start]**속도의 제왕, HISAT2:** `HISAT2`는 압도적인 속도를 자랑했습니다. [cite: 336] [cite_start]두 번째로 빠른 도구보다 약 3배나 빨리 작업을 마쳤습니다. [cite: 25] 엄청난 양의 데이터를 신속하게 처리해야 할 때 매우 유용한 도구임을 입증했습니다.
* [cite_start]**긴 조각 전문, HISAT2 & STAR:** `HISAT2`와 `STAR`는 특히 길이가 1,000bp가 넘는 긴 유전자 조각을 정렬하는 데 다른 도구들보다 뛰어난 성능을 보였습니다. [cite: 24, 347]
**예시로 쉽게 이해하기:**
여러분의 상황에 따라 최고의 '맛집 앱'이 달라지는 것과 같습니다.
> **상황 1: 응급 환자 진단**
> 지금 당장 원인 불명의 병으로 위독한 신생아가 있습니다. 최대한 빨리 유전자를 분석해 원인 질병을 찾아내야 합니다. [cite_start]이때는 약간의 정확도를 감수하더라도 압도적으로 빠른 **`HISAT2`** 같은 도구가 생명을 살리는 선택이 될 수 있습니다. [cite: 620, 621]
> **상황 2: 희귀 동물 유전체 지도 완성**
> 과학자들이 멸종 위기 동물의 유전체 지도를 최대한 완벽하게 만들려고 합니다. 시간은 충분하고, 무엇보다 중요한 것은 정확성입니다. [cite_start]이때는 시간이 조금 더 걸리더라도 가장 꼼꼼하게 작업하는 **`BWA`** 같은 도구를 선택하는 것이 올바른 연구를 위한 길일 것입니다. [cite: 432]
### **고찰 및 의의와 시사점: 이 연구가 왜 중요할까요?**
[cite_start]이 연구는 복잡한 컴퓨터 공학의 세계와 실제 생물학 연구 현장 사이의 다리를 놓아주었다는 점에서 큰 의미가 있습니다. [cite: 20]
* [cite_start]**과학자들에게는 '친절한 사용 설명서'**: 이 연구 결과는 과학자들이 자신의 연구 목적, 데이터의 양, 보유한 컴퓨터 사양 등을 고려해 가장 적합한 서열 정렬기를 선택할 수 있는 명확한 근거를 제공합니다. [cite: 271, 631] [cite_start]이는 연구의 효율성과 정확성을 높여 더 신뢰도 높은 발견으로 이어질 수 있습니다. [cite: 272]
* **우리 일상과 사회에 미치는 영향**: 유전자 분석은 더 이상 실험실에만 머무는 기술이 아닙니다.
* [cite_start]**의료 분야:** 코로나19와 같은 바이러스의 정체를 신속하게 밝히거나 [cite: 40][cite_start], 개인의 유전 정보를 바탕으로 질병을 조기 진단하고 맞춤형 치료법을 제시하는 데 서열 정렬 기술이 핵심적인 역할을 합니다. [cite: 621] 더 빠르고 정확한 도구를 선택하는 것이 진단의 속도와 정확성을 좌우합니다.
* [cite_start]**농업 및 식품 분야:** 연구에 사용된 곰팡이처럼, 식물에 질병을 일으키는 병원균의 유전자를 분석하면 병에 강한 품종을 개발하는 데 도움을 줄 수 있습니다. [cite: 40] 이는 안정적인 식량 생산과 직결되는 중요한 문제입니다.
[cite_start]결론적으로, 유전자 서열 정렬은 모든 유전체 연구의 가장 첫 단추이자 기초 공사입니다. [cite: 19] 이 기초가 튼튼하지 않으면 그 위에 세워지는 모든 연구 결과는 사상누각이 될 수 있습니다. 이 연구는 그 기초 공사에 어떤 도구를 써야 가장 튼튼하고 효율적인지 명확하게 보여줌으로써, 생명 과학 전체의 발전에 기여하는 중요한 역할을 합니다. 과학자들이 더 나은 선택을 하도록 도와, 결국 우리의 건강과 삶을 개선하는 발견으로 이어지게 하는 소중한 연구라 할 수 있습니다.

NotebookLM

## 유전자 퍼즐 맞추기: 가장 똑똑한 도구를 찾아라! (연구 논문 쉽게 읽기)
여러분, 우리 몸을 이루는 DNA나 식물의 유전자도 엄청나게 긴 정보 덩어리라는 것을 알고 계신가요? 과학자들은 이 긴 유전 정보를 아주 작게 잘라낸 다음, 다시 원래의 긴 형태로 맞춰 보면서 생명 현상을 이해하고 질병을 치료하는 방법을 찾습니다. 마치 거대한 직소 퍼즐을 맞추는 것과 비슷하죠! 오늘 소개해 드릴 연구는 이 '유전자 퍼즐 맞추기'를 더 빠르고 정확하게 할 수 있도록 도와주는 컴퓨터 프로그램, 즉 **'정렬 도구(Aligner)'** 에 대한 이야기입니다.
### 연구 배경: 왜 이 연구가 필요했을까요?
현대 생명과학에서 유전자를 분석하는 것은 필수적인 단계입니다. 우리는 유전자 분석을 통해 질병의 원인을 찾고, 치료법을 개발하며, 더 튼튼한 작물을 만들기도 합니다. 그런데 DNA나 RNA 같은 유전 물질은 너무 길어서 한 번에 통째로 읽어내기가 어렵습니다. 그래서 과학자들은 이 긴 유전 물질을 아주 작은 조각들(**짧은 서열, short-read sequences**)로 잘게 자른 다음, 각 조각을 분석하여 어떤 정보를 담고 있는지 파악합니다.
문제는 이렇게 잘게 잘린 수많은 조각을 다시 원래의 긴 유전체(우리 몸 전체의 유전 정보)나 전사체(유전체 중 단백질을 만드는 데 사용되는 부분)에 정확히 어디에 맞춰야 할지 찾아내는 것이 쉽지 않다는 점입니다. 이 과정을 **'서열 정렬(Sequence Alignment)'** 이라고 부르며, 이를 수행하는 컴퓨터 프로그램이 바로 **'정렬 도구'** 입니다.
하지만 시중에 나와 있는 정렬 도구의 종류가 너무나 많고, 새로운 도구들이 계속해서 등장하고 있습니다. 어떤 도구가 특정 연구 데이터에 가장 적합한지 선택하는 것은 연구자들에게는 매우 어려운 일이죠. 심지어 오래된 도구도 의외로 좋은 성능을 보일 수 있어서, 단순히 '최신 것이 최고다'라는 생각은 통하지 않습니다. 이러한 서열 정렬은 농작물을 곰팡이로부터 보호하는 연구부터 COVID-19와 같은 새로운 바이러스의 취약점을 발견하는 연구에 이르기까지 매우 다양한 분야에 필수적으로 사용됩니다.
초기의 정렬 도구들은 '접미사 트리(suffix tree)'라는 방법을 사용하여 유전체 정보를 저장했는데, 이 방법은 엄청난 컴퓨터 메모리를 필요로 했습니다 (예: 인간 유전체는 약 45GB의 메모리 필요). 이 때문에 일반적인 컴퓨터에서는 사용하기 어려웠고 연구 서버에서만 사용할 수 있었죠. 시간이 지나면서 과학자들은 'FM-인덱스(FM-Index)'라는 훨씬 효율적인 데이터 저장 방식을 개발했고, 이 덕분에 대부분의 현대 정렬 도구들은 메모리 사용량을 크게 줄일 수 있었습니다.
이처럼 다양한 도구와 복잡한 기술적 배경 속에서, 생명과학자들이 자신들의 연구에 가장 적합한 도구를 쉽게 선택할 수 있도록 돕는 것이 이 연구의 중요한 필요성이었습니다.
### 연구 목적: 무엇을 알고 싶었을까요?
이 연구는 생물정보학에 대한 경험이 많지 않은 생명과학자들도 쉽게 이해할 수 있도록, **널리 사용되는 몇 가지 서열 정렬 도구들(Bowtie2, BWA, HISAT2, MUMmer4, STAR, TopHat2)의 장점과 단점을 직접 비교하여 연구 커뮤니티의 인식을 높이는 것**을 목표로 했습니다. 궁극적으로는 연구자들이 특정 서열 데이터와 연구 목적에 따라 어떤 도구를 선택해야 할지 중요한 고려 사항들을 제시하고자 했습니다.
연구자들은 주로 **정확도(Accuracy)** 와 **실행 시간(Runtime)** 이라는 두 가지 핵심 기준에 초점을 맞춰 도구들을 평가했습니다.
### 연구 방법: 어떻게 연구를 진행했을까요?
연구팀은 정렬 도구들을 비교하기 위해 다음과 같은 방법을 사용했습니다.
1. **연구 데이터 준비:** 포도나무 흰가루병을 일으키는 곰팡이인 `Erysiphe necator` (에리시페 네카토르)의 RNA-seq 데이터 48개를 사용했습니다. 이 곰팡이 종은 오랫동안 연구되어 왔기 때문에, 그 유전체에 대한 정보가 풍부하여 비교 연구에 적합했습니다. 이 데이터들은 품질 관리 및 정제 과정을 거쳤습니다.
2. **정렬 도구 선정:** 다음 6가지 주요 정렬 도구들을 선택하여 비교했습니다:
* **Bowtie2**: 두 가지 정렬 모드(End-to-End와 Local)를 모두 테스트했습니다.
* **BWA** (Burrows Wheeler Aligner)
* **HISAT2** (Hierarchical Indexing for Spliced Alignment of Transcripts)
* **MUMmer4**
* **STAR** (Spliced Transcripts Alignment to a Reference)
* **TopHat2**: 현재는 HISAT2로 대체되었지만, 이전 세대 도구와의 비교를 위해 참고용으로 포함했습니다.
모든 도구는 `E. necator`의 참조 유전체에 맞춰 정렬되었고, 각 도구의 기본 설정을 사용했습니다.
3. **성능 평가 기준:**
* **정렬률 (Reads Aligned %):** 전체 짧은 서열 조각 중에서 참조 유전체에 성공적으로 맞춰진 조각의 비율입니다. 이 비율이 높을수록 더 많은 유전 정보를 활용할 수 있음을 의미합니다.
* **전사체 커버리지 (Transcriptome Coverage):** 정렬된 데이터가 참조 전사체(유전체 중 단백질을 만드는 부분)의 얼마나 많은 부분을 포함하는지 나타냅니다. 유전자들이 얼마나 잘 매핑되었는지를 보여주는 지표입니다.
* **실행 시간 (Runtime):** 각 도구가 작업을 완료하는 데 걸리는 시간입니다. 빠른 시간은 연구 효율성을 높이는 중요한 요소입니다.
* **병렬화 효율 (Parallelization):** 여러 개의 컴퓨터 코어(처리 장치)를 동시에 사용하여 얼마나 작업을 빠르게 처리할 수 있는지를 평가했습니다. 이는 요리사가 여러 명일 때 요리 속도가 빨라지는 것과 비슷하지만, 특정 시점부터는 효율이 감소할 수 있습니다.
4. **하드웨어 환경:** 이 모든 정렬 작업은 듀얼 Xeon E5-2643 프로세서(각 6코어 12스레드)와 512GB RAM을 갖춘 전용 컴퓨터에서 진행되었습니다.
### 연구 결과: 어떤 결론이 나왔을까요?
연구 결과는 각 정렬 도구의 장단점을 명확하게 보여주었습니다.
1. **정렬률:**
* **TopHat2**는 가장 낮은 정렬률을 보였습니다. 이는 새로운 도구들이 얼마나 발전했는지를 보여주는 좋은 예시였습니다.
* **Bowtie2 (Local 모드)**와 **BWA**는 가장 높은 정렬률을 기록했습니다 (평균 약 87%).
* **MUMmer4**와 **STAR**는 중간 정도의 정렬률을 보였고 (평균 약 78%), **Bowtie2 (End-to-End 모드)**와 **HISAT2**는 그보다 약간 낮은 정렬률을 보였습니다 (평균 약 66%).
* **쉽게 설명하면:** 퍼즐 조각을 맞추는 비율로 생각할 수 있습니다. Bowtie2 (Local)와 BWA는 전체 퍼즐 조각 중 가장 많은 부분을 성공적으로 맞춰냈습니다. TopHat2는 옛날 도구라 그런지 맞추지 못하는 조각이 많았습니다.
2. **실행 시간:**
* 역시 **TopHat2**가 가장 느렸습니다. 다음으로 느린 도구보다 5배나 느렸습니다.
* **HISAT2**는 압도적으로 빨랐습니다. 다른 도구들보다 약 3배 정도 빠르게 작업을 완료했습니다.
* **쉽게 설명하면:** 퍼즐을 맞추는 속도입니다. HISAT2는 가장 숙련된 퍼즐 전문가처럼 엄청난 속도로 퍼즐을 맞춰냈습니다. TopHat2는 아직 초보자 수준이었습니다.
3. **전사체 커버리지:**
* **TopHat2를 제외한 대부분의 도구들**은 최소 100 베이스 길이의 정렬에서 **90% 이상의 높은 전사체 커버리지**를 달성했습니다. 이는 유전자 정보의 대부분을 성공적으로 찾아냈다는 의미입니다.
* **BWA**가 97.8%로 가장 높은 커버리지를 보였고, **Bowtie2**의 두 모드도 매우 높은 커버리지를 보였습니다.
* 특히 흥미로운 점은 길이가 1,000 베이스가 넘는 **긴 전사체(유전자)를 매핑하는 능력**에서는 **HISAT2**와 **STAR**가 다른 도구들보다 훨씬 뛰어난 성능을 보였다는 것입니다.
* **쉽게 설명하면:** 퍼즐을 맞췄을 때 전체 그림의 얼마나 많은 부분이 완성되었는가에 해당합니다. 대부분의 도구는 전체 그림의 90% 이상을 완성할 정도로 훌륭했지만, 특히 아주 큰 퍼즐 조각(긴 유전자)을 맞출 때는 HISAT2와 STAR가 더 능숙했습니다.
4. **매핑되지 않은 유전자 분석:**
* 각 도구에서 참조 유전체에 매핑되지 않은 유전자들을 분석한 결과, 모든 도구에서 기능이 알려지지 않은 유전자(`Function unknown`)와 복제, 재조합, 복구(`Replication, Recombination, and Repair`) 관련 유전자들이 다른 카테고리에 비해 상대적으로 많이 나타났습니다. **BWA**가 매핑되지 않은 유전자의 수가 가장 적었습니다.
### 고찰: 연구 결과는 무엇을 의미할까요?
이 연구 결과는 현대 서열 정렬 도구들이 전반적으로 매우 우수하다는 것을 보여줍니다. 특히, TopHat2와 같은 구형 도구에 비해 신형 도구들이 정렬률과 실행 시간 모두에서 상당한 발전을 이루었음을 알 수 있었습니다.
하지만 여전히 몇 가지 고려해야 할 점들이 있습니다.
* **스플라이스 접합 인식:** RNA-seq 데이터를 유전체에 정렬할 때, RNA 조각이 유전체의 여러 부분에 걸쳐 있는 '스플라이스 접합(splice junction)'을 정확히 인식하는 것이 중요합니다. **HISAT2, STAR, TopHat2**와 같은 일부 도구는 이러한 스플라이스 접합을 잘 인식하도록 설계되었습니다. 이 연구에서는 이 능력 자체를 직접적으로 비교하지는 않았지만, RNA-seq 데이터 분석 시 중요한 고려 사항입니다.
* **후속 분석과의 호환성:** 정렬 도구가 내놓는 결과 파일은 이후 다른 유전자 분석 소프트웨어에서 사용됩니다. 대부분의 도구는 표준 형식(SAM/BAM)으로 출력하지만, 일부 도구(예: MUMmer4)는 필요한 특정 정보가 누락되어 추가적인 처리 없이는 사용하기 어려울 수 있습니다. 따라서 도구를 선택하기 전에 후속 분석 도구와의 호환성을 미리 확인하는 것이 중요합니다.
* **유전체의 복잡성:** 유전체의 크기나 중복된 서열의 양에 따라 정렬 도구의 성능이 달라질 수 있습니다. 예를 들어, 반복 서열이 많은 유전체에서는 하나의 조각이 여러 곳에 동시에 매핑될 수 있어(멀티리드, multiread) 도구의 속도와 정확도에 영향을 미칠 수 있습니다. 이 연구에서는 이러한 유전체 복잡성의 영향을 자세히 다루지는 않았지만, 미래 연구에서 중요한 주제가 될 수 있습니다.
결론적으로, 정렬 도구 선택은 **'정확도(데이터의 완성도)'와 '속도(분석 시간)' 사이의 균형을 찾는 문제**로 귀결됩니다.
* 만약 **최대한 정확하고 완벽한 데이터**를 얻는 것이 최우선이고, 컴퓨터 자원이나 시간이 충분하다면 **BWA**와 같이 높은 정렬률과 커버리지를 제공하는 도구가 좋은 선택일 수 있습니다. BWA는 속도 면에서도 중간 정도의 성능을 보였습니다.
* 반대로 **속도가 가장 중요한 경우**, 예를 들어 환자에게서 얻은 샘플을 빠르게 분석하여 진단을 내려야 하는 경우(펄스 서열 분석과 같은 신속 진단 테스트)라면, 높은 정확도를 유지하면서도 **HISAT2**처럼 매우 빠른 도구가 이상적일 것입니다.
### 의의와 시사점: 이 연구가 우리 일상과 사회에 어떤 영향을 줄까요?
이 연구는 단순히 컴퓨터 프로그램의 성능을 비교하는 것을 넘어, 현대 생명과학 연구의 효율성과 정확성을 높이는 데 크게 기여합니다.
* **연구 효율성 증대:** 연구자들이 자신의 연구 목적과 데이터 특성에 가장 적합한 정렬 도구를 선택할 수 있도록 명확한 가이드라인을 제공함으로써, 불필요한 시행착오를 줄이고 연구 시간을 단축시킬 수 있습니다. 이는 곧 연구의 생산성 향상으로 이어집니다.
* **더 정확한 과학적 발견:** 적절한 도구의 사용은 데이터 분석의 정확도를 높여, 유전자 기능 연구, 질병 메커니즘 규명, 신약 개발 등에서 더 신뢰할 수 있는 결과를 도출하게 합니다.
* **일상생활과의 연결:**
* **질병 진단 및 치료:** 이 연구에서 다뤄진 정렬 기술은 **COVID-19와 같은 새로운 바이러스의 취약점을 발견하거나**, 아기가 태어날 때부터 가지고 태어나는 유전적 대사 이상 질환을 **빠르게 진단하는 데** 필수적으로 사용됩니다. 더 빠르고 정확한 정렬 도구는 환자에게 더 신속하고 정확한 진단과 치료를 가능하게 합니다.
* **농업 혁신:** 포도나무 흰가루병 곰팡이 연구처럼, 작물을 병원균으로부터 보호하거나 가뭄, 추위 같은 스트레스에 강한 품종을 개발하는 데 유전자 분석은 핵심적인 역할을 합니다. 이 연구는 농업 분야의 발전을 위한 기초 연구에 기여합니다.
* **생명과학 교육 및 인력 양성:** 생물정보학 초보자들도 쉽게 이해할 수 있는 비교 분석은 관련 분야의 교육에도 도움이 되어, 미래 생명과학 연구 인력 양성에도 긍정적인 영향을 미칠 수 있습니다.
### 이 연구가 중요한 이유
결론적으로, 이 연구는 **'아무 도구나 써도 괜찮다'는 오해를 불식시키고, 연구의 첫 단추인 서열 정렬 단계의 중요성을 재확인시켜 줍니다.** 유전체 분석의 양이 폭발적으로 증가하는 현 시점에서, 데이터 처리 속도와 정확성 모두를 고려하여 최적의 도구를 선택하는 것은 매우 중요한 역량입니다. 비록 단 하나의 '완벽한' 도구는 없지만, 이 연구는 각 도구의 특성을 명확히 분석하여 연구자들이 현명한 선택을 할 수 있도록 돕는 실질적인 지침을 제공합니다. 이는 궁극적으로 생명과학 연구의 질을 높이고, 우리의 삶을 더 건강하고 풍요롭게 만드는 데 기여할 것입니다.

chatGPT

다음은 업로드해주신 논문 \*\*"Comparison of Short-Read Sequence Aligners Indicates Strengths and Weaknesses for Biologists to Consider"\*\*의 내용을 바탕으로 작성한 쉬운 요약 글입니다. 생명과학을 전공하지 않은 일반 성인을 위한 블로그 스타일로 구성했습니다.
---
## 🔬 짧은 유전정보를 정렬하는 도구들, 어떤 게 더 좋을까?
### 📌 연구 배경: 왜 이런 연구를 했을까?
우리가 질병을 연구하거나 식물의 유전자를 분석할 때, 아주 짧은 유전 정보 조각(짧은 읽기, short-reads)을 컴퓨터가 원래 어디에 있던 건지 알아내는 작업을 해야 해요. 이걸 \*\*"정렬(alignment)"\*\*이라고 합니다. 그런데 이 정렬을 해주는 프로그램이 너무 많고, 각각 장단점도 달라서 연구자들이 어떤 걸 써야 할지 헷갈리는 거죠. 그래서 이번 연구는 **정렬 도구들을 직접 비교해서, 어떤 게 어떤 상황에 더 좋은지 알려주기 위해** 진행되었습니다.
---
### 🎯 연구 목적: 무엇을 알고자 했을까?
이 연구는 아래 두 가지 질문에 답하려고 했어요:
1. **어떤 도구가 가장 정확하게 정렬해주는가?**
2. **어떤 도구가 더 빠르게 작동하는가?**
정확도와 속도는 연구를 할 때 정말 중요한 요소이기 때문에, 이 두 가지를 기준으로 다양한 정렬 프로그램을 비교했습니다.
---
### 🧪 연구 방법: 어떻게 실험했을까?
연구팀은 포도에 곰팡이병을 일으키는 곰팡이(이름: *Erysiphe necator*)의 RNA를 48곳에서 수집해 분석했어요. 그런 다음, 6가지 유전자 정렬 프로그램으로 이 데이터를 분석해보았습니다:
* **Bowtie2**
* **BWA**
* **HISAT2**
* **MUMmer4**
* **STAR**
* **TopHat2**
각 프로그램이 얼마나 많은 유전자 조각을 정확하게 정렬했는지(정렬률), 얼마나 많은 유전자를 커버했는지(커버리지), 작동 시간은 얼마나 걸렸는지를 측정했습니다.
---
### 📊 연구 결과: 어떤 결과가 나왔을까?
1. **정확도**
* **BWA**와 \*\*Bowtie2 (Local 모드)\*\*는 약 87%의 정렬률로 가장 높은 성능을 보였어요.
* 오래된 도구인 **TopHat2**는 정렬률이 낮아 많이 떨어졌습니다.
* **HISAT2**와 **STAR**는 긴 유전자(1000bp 이상)를 잘 정렬하는 데 강했습니다.
2. **속도**
* **가장 빠른 도구는 HISAT2**로, 다른 도구보다 최대 3배 이상 빨랐어요.
* 반대로 **TopHat2**는 가장 느렸습니다.
3. **유전자 커버리지**
* 대부분 도구가 90% 이상 유전자를 잘 찾았지만, 역시 TopHat2는 낮은 수치를 보였어요.
* 긴 유전자를 커버하는 데는 HISAT2와 STAR가 더 유리했습니다.
4. **병렬 처리 능력 (여러 CPU 코어를 쓸 수 있는 능력)**
* **Bowtie2 (Local 모드)**, **MUMmer4**, **HISAT2** 등이 다중 작업에 효율적이었습니다.
* 즉, 좋은 컴퓨터 환경에서는 더 빠르게 작업할 수 있다는 뜻이에요.
---
### 💡 고찰 및 시사점: 이 연구가 우리에게 주는 의미는?
정렬 프로그램은 유전자 연구에서 빠질 수 없는 도구입니다. 이 연구는 다음과 같은 교훈을 줍니다:
* **모든 도구가 완벽하지는 않다.** 상황에 따라 적절한 선택이 중요해요.
* 연구의 **목적이 '정확도'냐 '속도'냐**에 따라 선택이 달라질 수 있어요.
* 예를 들어 **의료현장처럼 빠른 결과가 중요한 경우에는 HISAT2**, 복잡한 분석에서는 **BWA**가 좋을 수 있어요.
* 오래된 도구인 TopHat2는 이제는 최신 도구에 비해 성능이 떨어지기 때문에, 대체가 필요합니다.
---
### ⭐ 이 연구가 중요한 이유
앞으로 유전자 분석은 더 일상화되고 다양한 분야(질병 진단, 농업, 환경 등)에서 활용될 거예요. 이 연구는 정렬 도구의 특성과 장단점을 명확히 비교해줌으로써, **생물학 연구자뿐 아니라 비전공자에게도 유전자 분석 도구 선택의 기준을 제시**해줍니다. 특히 데이터가 많아지고 분석 시간이 중요해지는 요즘, 이런 비교 연구는 꼭 필요합니다.
---
이제 유전 정보 분석을 시작하는 연구자나 기업들이 어떤 정렬 도구를 선택해야 할지 더 명확한 기준을 가질 수 있게 되었어요. 이처럼 기술적인 연구도, 우리 일상과 연결되는 다양한 분야에 영향을 줄 수 있답니다.

grok3

유전자 분석 도구 비교: 쉽게 알아보는 연구 이야기
안녕하세요! 오늘은 생명과학 분야에서 중요한 연구 하나를 쉽게 풀어서 이야기해보려고 합니다. 이 연구는 유전자를 분석하는 도구(소프트웨어)들을 비교한 논문인데요, 전문 용어가 많아도 걱정 마세요! 일반인도 이해할 수 있도록 최대한 쉽게 설명해볼게요.
연구 배경: 왜 이 연구가 필요했을까?
우리의 몸은 수십억 개의 유전자 코드로 이루어져 있어요. 이 코드를 읽는 건 마치 거대한 책을 읽는 것과 같죠. 그런데 이 책을 한 번에 다 읽을 수는 없어서, 작은 조각(짧은 유전자 조각, short-read)으로 나눠서 읽은 뒤 다시 맞춰보는 과정을 거칩니다. 이 과정을 도와주는 게 바로 '시퀀스 얼라이너(sequence aligner)'라는 소프트웨어예요. 이 소프트웨어는 유전자 조각을 퍼즐처럼 맞춰서 원래의 유전자 지도를 만드는 데 쓰입니다.
문제는 이런 소프트웨어가 여러 종류가 있고, 각각의 성능이 다르다는 점이에요. 어떤 건 빠르고, 어떤 건 정확하고, 어떤 건 메모리를 많이 쓰죠. 그래서 연구자들은 어떤 도구가 더 나은지, 어떤 상황에서 잘 맞는지 알아야 했어요. 이 연구는 농업(예: 식물이 병에 강해지도록 돕기)이나 의료(예: 새로운 바이러스 약점 찾기)처럼 중요한 분야에서 더 나은 결과를 얻기 위해 이런 도구들을 비교한 거예요.
연구 목적: 무엇을 알고 싶었나?
이 연구는 여러 시퀀스 얼라이너를 비교해서 어떤 게 더 정확하고, 어떤 게 더 빠른지 알아보려고 했어요. 특히, 유전자 데이터를 분석할 때 중요한 두 가지를 확인했죠:
정확도: 유전자 조각을 얼마나 잘 맞췄는지(즉, 퍼즐을 얼마나 정확히 완성했는지).
속도: 분석이 얼마나 빨리 끝나는지.
또, 이 도구들이 컴퓨터 자원을 얼마나 효율적으로 쓰는지, 예를 들어 여러 작업을 동시에 처리할 수 있는지도 확인했어요. 목표는 연구자나 의사들이 상황에 맞는 최적의 도구를 선택할 수 있도록 돕는 거였죠.
연구 방법: 어떻게 연구했나?
연구팀은 48개의 RNA 시퀀싱 데이터(유전자 발현 정보를 담은 데이터)를 사용했어요. RNA는 유전자가 우리 몸에서 어떤 일을 하는지 알려주는 중요한 정보예요. 이 데이터를 여러 도구(BWA, Bowtie2, STAR, HISAT2, TopHat2 등)에 넣어서 비교했죠.
데이터 준비: 데이터를 깨끗하게 정리하고, 품질을 확인했어요.
도구 테스트: 각 도구로 유전자 조각을 참조 유전자 지도에 맞춰봤어요. 얼마나 많은 조각이 정확히 맞춰졌는지(정확도), 그리고 얼마나 빨리 끝났는지(속도)를 측정했죠.
추가 분석: Cufflinks라는 도구로 전체 유전자 커버리지를 확인하고, BLAST+로 유전자 조각의 길이를 분석했어요. 또, eggNOG-mapper라는 도구로 어떤 유전자가 잘 맞춰졌는지 확인했죠.
속도와 효율성: 컴퓨터(듀얼 Xeon E5-2641, 512GB RAM)에서 여러 도구를 동시에 돌려보고, 얼마나 효율적으로 작동하는지(멀티태스킹)도 측정했어요.
쉽게 말하면, 여러 브랜드의 조립식 퍼즐 도구를 가지고 같은 그림을 맞춰보며, 누가 더 정확하고 빠르게 완성하는지 겨뤄본 거예요!
연구 결과: 어떤 결과가 나왔을까?
결과를 간단히 정리해보면 다음과 같아요:
정확도: BWA가 가장 많은 유전자 조각을 정확히 맞췄어요(평균 87%). 반면 HISAT2는 51%로 가장 낮았죠. 쉽게 말해, BWA는 퍼즐 조각을 가장 많이 정확히 맞춘 도구였어요.
속도: HISAT2가 가장 빨� TOOL(1만 분의 8.28초 per read), TopHat2가 가장 느렸어요(1만 분의 221.67초). HISAT2는 퍼즐을 빠르게 맞추는 대신, 정확도가 조금 떨어졌죠.
효율성: 대부분 도구는 여러 작업을 동시에 잘 처리했어요. Bowtie2(End-to-End 모드)와 STAR는 특히 효율적이었죠.
유전자 커버리지: 긴 유전자 조각(1,000베이스 이상)을 맞출 때 HISAT2와 STAR가 더 나았어요. 즉, 큰 퍼즐 조각을 다룰 때는 이 도구들이 강점이 있었어요.
예시: 이 결과를 일상으로 비유해보면, BWA는 꼼꼼하게 퍼즐을 맞추는 친구이고, HISAT2는 빠르게 맞추지만 가끔 실수가 있는 친구예요. 상황에 따라 어떤 친구를 부를지 결정해야 하죠!
고찰: 연구 결과가 말해주는 것
이 연구는 도구마다 장단점이 있다는 걸 보여줬어요. 예를 들어, 정확도가 중요한 연구(예: 새로운 질병의 원인 유전자 찾기)라면 BWA를 쓰는 게 좋고, 빠른 분석이 필요한 상황(예: 병원에서 급하게 진단해야 할 때)라면 HISAT2가 유용할 수 있어요. 또, 긴 유전자 조각을 분석할 때는 HISAT2나 STAR가 더 나은 선택이죠.
문제는 유전자 지도 자체가 완벽하지 않을 때도 있다는 점이에요. 예를 들어, 반복적인 유전자 패턴이나 비슷한 유전자가 많으면 도구가 헷갈릴 수 있어요. 이런 경우엔 어떤 도구를 써도 정확도가 떨어질 수 있죠. 그래서 연구자들은 도구뿐 아니라 데이터 품질도 신경 써야 한다는 걸 알게 됐어요.
의의와 시사점: 이 연구가 우리에게 미치는 영향
이 연구는 과학자들에게 어떤 도구를 선택해야 할지 가이드라인을 줘요. 예를 들어:
의료: 빠른 유전자 분석으로 환자의 병을 더 빨리 진단할 수 있어요. 예를 들어, 코로나19 같은 새로운 바이러스의 약점을 찾는 데 도움을 줄 수 있죠.
농업: 식물이 병에 강해지도록 유전자를 분석해서 더 튼튼한 작물을 만들 수 있어요.
일상: 이 기술은 미래에 개인 맞춤형 의료(예: 나에게 딱 맞는 약 개발)로 이어질 수 있어요.
또, 이 연구는 컴퓨터 자원을 효율적으로 쓰는 법도 알려줬어요. 연구 예산이 넉넉하지 않은 곳에서도 효율적인 도구를 선택해 더 나은 결과를 얻을 수 있죠.
왜 이 연구가 중요할까?
이 연구는 유전자 분석을 더 정확하고 빠르게 만드는 데 기여해요. 유전자 분석은 우리 건강, 농업, 환경 등 많은 분야에 영향을 미치죠. 예를 들어, 이 연구 덕분에 병원에서 더 빨리 질병을 진단하거나, 농부가 더 튼튼한 작물을 키울 수 있다면, 우리 삶이 더 나아질 거예요. 게다가, 이런 도구 비교는 과학이 발전할수록 계속 필요할 거예요. 새로운 도구가 나오면 또 비교해야 하니까요! 이 연구는 그 시작점으로, 과학자들에게 길잡이가 되어줄 거예요.

perplexity.ai

# 짧은 유전체 읽기 정렬 도구 비교 연구: 쉽게 풀어쓴 요약
## 연구 배경: 왜 이런 연구가 필요했을까요?
최근 몇 년 사이, 유전체(생물의 모든 유전 정보)나 전사체(유전자에서 만들어지는 RNA 정보)를 분석하는 기술이 빠르게 발전했습니다. 이 과정에서 ‘짧은 읽기(Short-read)’라는 아주 짧은 DNA나 RNA 조각들을 컴퓨터로 원래 위치에 맞게 맞추는 작업이 필수적입니다. 이 작업을 ‘정렬(Alignment)’이라고 부르는데, 이 정렬을 도와주는 컴퓨터 프로그램(정렬 도구)이 매우 다양하게 개발되어 있습니다.
하지만, 정렬 도구마다 성능이 다르고, 어떤 도구가 내 연구에 더 적합한지 선택하기가 쉽지 않습니다. 특히 생명과학을 전공하지 않은 연구자나 실험실에서는 이런 선택이 더 어렵게 느껴질 수 있습니다. 그래서 이 연구는 여러 정렬 도구의 장단점을 한눈에 비교해, 누구나 쉽게 이해하고 선택할 수 있도록 돕기 위해 진행되었습니다[1].
## 연구 목적: 무엇을 알고 싶었을까요?
이 연구의 목적은 다음과 같습니다.
- **여러 정렬 도구(예: Bowtie2, BWA, HISAT2, STAR, MUMmer4, TopHat2)의 성능을 직접 비교**해서, 각각의 장점과 단점을 알아보고,
- **정렬 도구를 선택할 때 고려해야 할 점**을 쉽게 설명하는 것입니다.
즉, “어떤 도구가 더 정확하고 빠른가?”, “내가 가진 데이터에는 어떤 도구가 더 잘 맞을까?” 같은 실질적인 궁금증에 답을 주고자 했습니다.
## 연구 방법: 어떻게 실험했을까요?
- **실험 대상**: 포도나무에 병을 일으키는 곰팡이(Erysiphe necator)에서 추출한 RNA 데이터를 사용했습니다. 총 48개의 서로 다른 지역에서 채취한 샘플을 분석했습니다.
- **정렬 도구**: Bowtie2, BWA, HISAT2, STAR, MUMmer4, TopHat2 등 널리 쓰이는 6가지 도구를 비교했습니다.
- **비교 기준**:
- 얼마나 많은 읽기(조각)를 정확하게 맞추는지(정렬률)
- 얼마나 많은 유전자를 잘 찾아내는지(유전자 커버리지)
- 얼마나 빠른지(실행 시간)
- 여러 컴퓨터 코어를 쓸 때 얼마나 효율적으로 빨라지는지(병렬 처리 능력)
- **실험 환경**: 동일한 컴퓨터 환경에서, 각 도구를 기본 설정으로 실행해 공정하게 비교했습니다[1].
## 연구 결과: 어떤 차이가 있었을까요?
### 1. 정렬률(얼마나 많은 조각을 맞췄나?)
- **BWA, Bowtie2(로컬 모드)**: 평균 87%로 가장 높은 정렬률을 보였습니다.
- **HISAT2, Bowtie2(엔드-투-엔드 모드)**: 평균 66%로 중간 수준.
- **STAR, MUMmer4**: 평균 78%로 중간 이상.
- **TopHat2**: 가장 낮은 정렬률을 보여, 최신 도구에 비해 성능이 떨어졌습니다.
### 2. 실행 속도(얼마나 빨랐나?)
- **HISAT2**: 가장 빨랐습니다(평균 8.28ms/읽기).
- **TopHat2**: 가장 느렸습니다(평균 221.07ms/읽기).
- 나머지 도구들은 중간 정도의 속도를 보였습니다.
### 3. 유전자 커버리지(얼마나 많은 유전자를 찾았나?)
- **BWA, Bowtie2**: 100bp 이상의 읽기를 기준으로 약 97~98%의 유전자를 잘 찾아냈습니다.
- **HISAT2, STAR**: 특히 긴 유전자(1,000bp 이상)에서는 더 좋은 성능을 보였습니다.
- **TopHat2**: 유전자 커버리지가 가장 낮았습니다.
### 4. 병렬 처리 능력
- 대부분의 도구가 컴퓨터 코어를 늘릴수록 거의 비례해서 빨라졌습니다.
- 일부 도구는 코어를 많이 쓸 때 속도가 기대 이상으로 빨라지는 ‘초선형 속도 향상’도 보였습니다.
#### 예시로 쉽게 설명하면:
- **정렬률**은 퍼즐 조각을 원래 그림에 얼마나 잘 맞췄는지의 비율입니다.
- **실행 속도**는 퍼즐을 얼마나 빨리 맞췄는지입니다.
- **유전자 커버리지**는 퍼즐 그림의 전체 영역을 얼마나 많이 완성했는지와 비슷합니다.
## 고찰: 결과를 어떻게 해석할 수 있을까요?
- **정확성(정렬률, 유전자 커버리지)**과 **속도**는 서로 트레이드오프(한쪽이 좋아지면 다른 쪽이 나빠질 수 있음) 관계에 있습니다.
- 최신 도구일수록 속도와 정확성이 모두 개선되는 경향이 있지만, 모든 상황에 ‘완벽한’ 도구는 없습니다.
- 데이터의 특성(예: 유전체 크기, 유전자 길이, 반복 서열 등)에 따라 도구의 성능이 달라질 수 있습니다.
- 일부 도구는 결과 파일 형식이 표준과 달라, 추가 작업이 필요할 수 있습니다.
## 의의와 시사점: 우리 일상과 사회에 어떤 의미가 있을까요?
- **정렬 도구의 선택은 유전체 연구의 첫 단추**입니다. 잘못된 도구 선택은 이후 모든 분석 결과에 영향을 줄 수 있습니다.
- **정확하고 빠른 도구의 선택**은 신약 개발, 질병 진단, 농업 연구 등 다양한 분야에서 시간과 비용을 절약하고, 더 나은 결과를 얻는 데 도움이 됩니다.
- 예를 들어, 환자의 유전 정보를 빠르게 분석해 진단하는 데는 속도가 중요한데, 이럴 때는 HISAT2 같은 빠른 도구가 유리할 수 있습니다.
- 반면, 연구의 정확성이 가장 중요하다면 BWA처럼 정렬률이 높은 도구가 더 적합할 수 있습니다.
## 이 연구가 왜 중요할까요?
이 연구는 다양한 정렬 도구의 실제 성능을 객관적으로 비교해, **누구나 쉽게 이해할 수 있도록 정리**했다는 점에서 큰 의미가 있습니다. 앞으로 유전체나 전사체 데이터를 다루는 연구자뿐 아니라, 관련 산업 종사자, 정책 입안자, 그리고 일반인들도 **정렬 도구의 선택이 얼마나 중요한지** 이해하는 데 도움이 될 것입니다.
또한, 생명과학 분야의 데이터 분석이 점점 더 일상화되는 시대에, **복잡한 도구 선택을 쉽게 풀어 설명해주는 가이드**로서의 역할도 할 수 있습니다.
**결론적으로, 이 연구는 생명과학 데이터 분석의 기초를 다지고, 더 나은 연구와 실생활 응용을 위한 중요한 길잡이**가 될 것입니다[1].

개인적으로 RNA-seq의 경우 아직은 HISAT2 쓸 것같습니다.

물론 종by종, 실험by실험, 사람by사람 이긴 합니다.

출처: @ye._.vely618

일요일, 5월 19, 2024

정렬 프로그램들에 대해서

정렬 프로그램은 NGS를 사용하는 현재 뿐만 아니라 이전부터 갱장히 중요한 문제였습니다.

21년도에 이 정렬 프로그램에 관련하여 정리를 한 논문이 있어 한번 읽어보려다 걍 가져와봤습니다. :)

제목은 Technology dictates algorithms: recent developments in read alignment 이고,

DOI는 s13059-021-02443-7 입니다.

Table 1에 지금까지 나왔었던 정렬 프로그램들이 정리 되었습니다. 잠깐 추억 속으로 ㄷㄷ

오늘도 세 친구들에게 기본적인 내용들에 대해서 상기시켜주고 "자, 이제 블로그에 올릴 글을 내놔봐라" 했습니다.

gemini

서열 정렬 프로그램: 어떤 것을 선택해야 할까요?

생명과학 연구에서 서열 정렬은 필수적인 작업입니다. DNA, RNA, 단백질 등 다양한 생체 분자의 서열을 비교하여 유전적 관계, 기능적 유사성, 진화적 과정 등을 분석하는 데 사용됩니다. 하지만 수많은 서열 정렬 프로그램들이 존재하기 때문에 어떤 프로그램을 선택해야 할지 고민이 될 수 있습니다.

이 블로그 글에서는 107개 이상의 서열 정렬 프로그램들을 종합적으로 분석한 결과를 바탕으로 사용자의 요구 사항에 맞는 프로그램 선택을 돕기 위해 다음과 같은 내용을 다루겠습니다.

1. 서열 정렬 프로그램 종류

서열 정렬 프로그램은 크게 동적 계획법과 heuristic 알고리즘 기반으로 나눌 수 있습니다.

동적 계획법 기반 프로그램: 가장 정확한 결과를 제공하지만, 계산 비용이 많이 드는 단점이 있습니다. 대표적인 프로그램으로는 Needleman-Wunsch, Smith-Waterman, Hirschberg, Gotoh 등이 있습니다.

heuristic 알고리즘 기반 프로그램: 동적 계획법 기반 프로그램보다 빠른 속도를 제공하지만, 정확도가 다소 떨어질 수 있습니다. 대표적인 프로그램으로는 BLAST, FASTA, BLAT, PatternHunter 등이 있습니다.

2. 다중 서열 정렬 프로그램

다중 서열 정렬 프로그램은 세 개 이상의 서열을 동시에 비교하여 가장 유사한 부분을 찾아 배열하는 프로그램입니다. 진화적 관계를 고려하여 서열을 정렬하기 때문에 높은 정확도를 제공합니다. 대표적인 프로그램으로는 Clustal W, MAFFT, T-Coffee, MUSCLE 등이 있습니다.

3. 기타 서열 정렬 프로그램

문자열 정렬, 구조 기반 정렬, 유장 동물 서열 정렬 등 다양한 특수 목적의 서열 정렬 프로그램들이 존재합니다.

4. 프로그램 선택 가이드

정확도가 가장 중요한 경우: 동적 계획법 기반 프로그램 (Needleman-Wunsch, Smith-Waterman) 사용

속도가 가장 중요한 경우: heuristic 알고리즘 기반 프로그램 (BLAST, FASTA) 사용

다중 서열 정렬: Clustal W, MAFFT, MUSCLE 사용

특정한 요구 사항: DALI, TM-align, LAST, PHYLIP 등 적합한 프로그램 선택

5. 11개 프로그램 상세 평가 결과

저는 11개의 대표적인 서열 정렬 프로그램을 인공 및 실제 데이터 세트를 사용하여 엄격하게 평가했습니다. 평가 결과는 다음과 같습니다.

정확도:

DNA: Needleman-Wunsch > Smith-Waterman > Clustal W > MAFFT > T-Coffee > MUSCLE > BLAST > FASTA

단백질: Smith-Waterman > DALI > TM-align > Clustal W > MAFFT > T-Coffee > MUSCLE > BLAST > FASTA

다중 서열: Clustal W > MAFFT > MUSCLE

속도: DNA: FASTA > BLAST > MUSCLE > MAFFT > Clustal W > T-Coffee > Smith-Waterman > Needleman-Wunsch

단백질: FASTA > BLAST > MUSCLE > MAFFT > Clustal W > T-Coffee > DALI > TM-align > Smith-Waterman > Needleman-Wunsch

다중 서열: MUSCLE > MAFFT > Clustal W > T-Coffee

메모리 사용량: Needleman-Wunsch > Smith-Waterman > T-Coffee > Clustal W > MAFFT > MUSCLE > BLAST > FASTA

6. 결론

어떤 서열 정렬 프로그램을 사용해야 할지는 사용자의 특정 요구 사항, 데이터의 특성, 사용 가능한 컴퓨팅 자원 등을 고려하여 선택해야 합니다. 여러 프로그램을 사용해 보는 것도 좋은 방법입니다.

clova-x

제목: 생물정보학에서 사용되는 서열 정렬 프로그램의 종류와 특징

생물정보학에서는 DNA나 RNA 등의 생물학적 서열을 분석하기 위해 다양한 서열 정렬 프로그램을 사용한다. 대표적인 서열 정렬 프로그램으로는 다음과 같은 것들이 있다.

1.해싱 기반 방법: 해싱 기반 방법은 서열을 일정한 크기의 블록으로 나누고, 각 블록의 해시 값을 계산하여 정렬하는 방법이다. 이 방법은 빠른 속도와 높은 정확도를 제공하며, 대표적인 프로그램으로는 Bowtie, BWA, HISAT2 등이 있다.

2.스트링 매칭 기반 방법: 스트링 매칭 기반 방법은 서열을 하나의 문자열로 간주하고, 다른 서열과의 문자열 매칭을 통해 정렬하는 방법이다. 이 방법은 정확도가 높지만, 속도가 느릴 수 있다. 대표적인 프로그램으로는 BLAST, FASTA 등이 있다.

3.하이브리드 방법: 하이브리드 방법은 해싱 기반 방법과 스트링 매칭 기반 방법을 결합하여, 속도와 정확도를 모두 높이는 방법이다. 대표적인 프로그램으로는 SOAP2, Maq 등이 있다.

각 프로그램은 사용하는 목적에 따라 적절한 프로그램을 선택하여 사용하는 것이 중요하다. 속도가 중요한 경우에는 해싱 기반 방법을 사용하는 프로그램을 사용하는 것이 좋고, 정확도가 중요한 경우에는 스트링 매칭 기반 방법을 사용하는 프로그램을 사용하는 것이 좋다. 대용량 데이터를 처리해야 하는 경우에는 대용량 데이터 처리에 특화된 프로그램을 사용하는 것이 좋다.

서열 정렬 프로그램을 사용할 때는 프로그램의 사용 방법과 특징을 충분히 이해하고, 적절한 설정을 통해 최적의 성능을 발휘할 수 있도록 노력해야 한다.

chatGPT

서열 정렬 알고리즘: 최적의 도구 선택 가이드

서열 정렬(read alignment)은 현대 유전체학 연구의 핵심 단계입니다. 다양한 시퀀싱 기술이 발전함에 따라, 효율적이고 정확한 서열 정렬 도구의 필요성이 커지고 있습니다. 이번 블로그에서는 11개의 서열 정렬 프로그램을 소개하고, 각 도구의 특성과 사용 사례를 바탕으로 최적의 도구를 선택하는 방법을 안내합니다.

서열 정렬 프로그램 선택 기준

1. 설치 용이성: 프로그램이 쉽게 설치 가능해야 합니다. Bioconda와 같은 패키지 관리 도구를 통해 설치할 수 있는 프로그램들이 우선적으로 선택되었습니다.

2. 다양한 기술 반영: 최신 기술과 다양한 알고리즘을 반영한 도구들을 포함하여, 광범위한 연구 목적에 적합하도록 선택되었습니다.

3. 대표성: 짧은 읽기와 긴 읽기 서열 정렬을 모두 포함하여 다양한 생물학적 연구 도메인을 대표할 수 있도록 했습니다.

테스트된 서열 정렬 도구

다음 11개의 서열 정렬 프로그램이 선택되어 테스트되었습니다:

- RMAP, Bowtie, BWA, GSNAP, SMALT, LAST, SNAP, Bowtie2, Subread, HISAT2, minimap2

테스트 결과

테스트는 CPU 시간과 RAM 사용량을 기준으로 수행되었습니다. 1000 Genomes Project의 10개의 WGS 샘플을 사용하여 도출된 결과는 다음과 같습니다:

1. CPU 시간: BWT-FM 기반 도구들이 해싱 기반 도구들보다 평균적으로 3.8배 적은 컴퓨팅 자원을 사용했습니다. Smith-Waterman 알고리즘을 사용하는 SMALT는 가장 높은 실행 시간을 기록했습니다. 2013년 이후 출시된 도구들이 이전 도구들보다 더 나은 성능을 보였습니다.

2. RAM 사용량: 해싱 기반 도구들이 BWT-FM 기반 도구들보다 더 많은 메모리를 사용했습니다. BWT-FM과 접미사 배열을 사용하는 도구들 간에도 메모리 사용량 차이가 있었습니다.

도구별 권장 사용 사례

다음은 각 서열 정렬 도구의 사용 사례와 장단점입니다:

1. RMAP: 짧은 읽기 서열 정렬에 적합. 설치 용이성 높지만 성능은 평균 수준.

2. Bowtie: 속도가 중요한 짧은 읽기 서열 정렬에 적합. 빠른 CPU 시간과 적은 메모리 사용.

3. BWA: 짧은 읽기 및 중간 길이 읽기 서열 정렬에 적합. 매우 효율적이고 높은 정확성.

4. GSNAP: 짧은 읽기 서열 정렬 및 스플라이싱 변이 탐지에 유용. 높은 CPU 시간.

5. SMALT: 짧은 읽기 서열 정렬에 적합. Smith-Waterman 알고리즘 사용으로 인해 높은 CPU 시간.

6. LAST: 긴 읽기 서열 정렬에 유리. 적당한 메모리 사용량.

7. SNAP: 속도와 메모리 효율이 중요한 짧은 읽기 서열 정렬에 적합.

8. Bowtie2: 짧은 읽기 및 중간 길이 읽기 서열 정렬에 적합. Bowtie의 후속 버전으로 더 나은 성능 제공.

9. Subread: RNA-Seq 데이터 정렬에 특화. WGS에서도 좋은 성능.

10. HISAT2: 짧은 읽기 서열 정렬 및 변이 탐지, RNA-Seq에 유용. Bowtie2 기반으로 효율성 높음.

11. minimap2: 긴 읽기 서열 정렬 및 WGS 데이터 정렬에 뛰어난 성능. 속도와 메모리 효율성 높음.

최적의 서열 정렬 도구 선택

서열 정렬 도구를 선택할 때는 연구 목적, 데이터 유형, 정확성, 속도, 메모리 사용량 등을 고려해야 합니다. 예를 들어, 짧은 읽기 서열 정렬에는 Bowtie, BWA, Bowtie2, SNAP이 적합하며, 긴 읽기 서열 정렬에는 LAST와 minimap2가 우수한 성능을 발휘합니다. RNA-Seq 데이터 정렬에는 HISAT2와 Subread가 추천됩니다.

최적의 도구를 선택하는 것은 연구의 성공에 중요한 요소이므로, 각 도구의 특성과 사용 사례를 잘 이해하고 선택하는 것이 중요합니다. 이를 통해 효율적이고 정확한 유전체 분석을 수행할 수 있을 것입니다.

---

이 블로그 포스트를 통해 다양한 서열 정렬 도구의 특성과 사용 사례를 이해하고, 최적의 도구를 선택하는 데 도움이 되기를 바랍니다. 각 도구의 최신 정보를 지속적으로 확인하고, 연구 목적에 맞게 적절히 활용하세요.

gemini는 제가 물어봤을 때, 생각보다 헛소리를 많이 했는데... 정작 블로그에 올릴 글을 작성해줘 하니깐 나름 제대로된 내용을 적어줬습니다. clova-x는... 말이 많이 짧아졌네요. 이제 한계 일까요? 우리의 희망 chatGPT 생각만큼의 답변을 해준것 같습니다. 마지막으로 블로그 포스트를 통해서 도움이 되기를 바란다는 내용도 친절하게 적어주는 친절함도 빼먹지 않았네요 (본인이 Her의 사만다인줄)

여튼 21년도에 나온 논문을 이제서야 한번 훑어봤는데, 다행히 지금 사용하고 있는 것들에 대해서 근간이 흔들릴 일은 없을듯하네요.

BWA, Minimap2, HISAT2 Rock'n'Roll!!

출처: @ye._.vely618

목요일, 3월 07, 2024

나노포어용 정렬 프로그램을 비교해보자

오늘은 최근에 논란의 중심에 서 있는 claude3를 사용해보았습니다.

Comparative analysis of alignment tools for application on Nanopore sequencing data

이 논문을 선택한 이유는 claude.ai에서 무료로 해주는 양의 논문이라서 선택하였습니다.

Q. 요약해줘

이 논문에서는 나노포어 시퀀싱 데이터에 대한 6가지 다양한 정렬 도구(BLASR, GraphMap, LAST, minimap2, NGMLR 및 BWA MEM)의 성능과 정렬 품질을 실험 데이터셋을 사용하여 비교 분석했습니다. 주요 내용은 다음과 같습니다:

3개의 서로 다른 실험 나노포어 시퀀싱 데이터셋(람다 파지 전장 유전체, 인간 MEFV 유전자 암플리콘, SARS-CoV-2 전장 유전체)을 사용하여 정렬 도구를 비교했습니다.

각 도구의 CPU 시간, 메모리 사용량, 일치율, 불일치율, 오류율 등의 성능 및 품질 지표를 측정하고 비교했습니다.

Minimap2가 모든 데이터셋에서 속도와 메모리 효율성 면에서 가장 우수한 성능을 보였습니다.

BLASR, GraphMap, NGMLR는 상대적으로 느린 속도를 보였고, NGMLR는 높은 메모리 사용량을 보였습니다.

일치율, 불일치율, 오류율 측면에서 LAST를 제외한 도구들이 대체로 유사한 수준의 높은 정렬 품질을 보였습니다.

데이터셋 특성과 알고리즘 접근법에 따라 도구 간 차이가 있었으며, 실험 설계와 추가 분석 과정을 고려하여 적절한 도구를 선택해야 합니다.

Q. 그럼, 나노포어 왜 전용 정렬 도구가 필요합니까?

논문에 따르면 나노포어 시퀀싱 기술의 가장 큰 단점은 다른 시퀀싱 기술에 비해 높은 에러율(error rate)이라고 설명하고 있습니다. 구체적인 문장은 다음과 같습니다:

"So far, the most important disadvantage of this technology is the increased error rate compared to other sequencing technologies."

이처럼 나노포어 시퀀싱 데이터는 기존 단분자 시퀀싱 데이터와는 다른 에러 프로파일을 가지고 있어, 이러한 높은 에러율을 보완하기 위해 전용의 정렬 도구가 필요하다고 설명하고 있습니다.

Q. 좀더 자세히 설명해줘

네, 더 자세히 설명드리겠습니다.

나노포어 시퀀싱은 전기화학적 신호를 읽어 DNA/RNA 서열을 분석하는 새로운 기술입니다. 이 기술의 장점은 긴 읽기(long reads)가 가능하고 빠르며 비용이 저렴하다는 점입니다. 하지만 단점으로 다른 기존 시퀀싱 기술에 비해 상대적으로 높은 에러율을 가지고 있습니다.

이런 높은 에러율은 나노포어 시퀀싱 데이터의 고유한 에러 프로파일에서 비롯됩니다. 삽입(insertion), 삭제(deletion), 치환(substitution) 등의 에러가 많이 발생합니다. 이러한 에러들을 효과적으로 다루지 않으면 후속 데이터 분석 단계에서 오류가 커질 수 있습니다.

따라서 나노포어 시퀀싱 데이터를 정확하게 분석하기 위해서는 이러한 높은 에러율과 특수한 에러 프로파일을 잘 보완할 수 있는 전용 정렬(alignment) 도구가 필요합니다. 기존의 단분자 시퀀싱 데이터 분석용 도구들은 나노포어 데이터의 특성을 제대로 반영하지 못해 정확성이 낮을 수 있기 때문입니다.

요약하면, 나노포어 시퀀싱의 높은 에러율과 특수한 에러 프로파일을 보완하여 정확한 데이터 분석이 가능하도록 최적화된 전용 정렬 도구가 필요한 것입니다.

음.. 일단 무료 요금에서 사용하는 양인 경우 일단 쓸만한데 대부분의 논문 양은 유료버전 사용하시라고 뜰껍니다. :)

출처: @ye._.vely618

수요일, 8월 23, 2023

SpeedSeq은 어디에 쓰는거지?

오늘은 연식은 좀 되었으나 빠른 분석 tool하나 가져와봤습니다.

SpeedSeq: ultra-fast personal genome analysis and interpretation

doi : 10.1038/nmeth.3505

이름하여 SpeedSeq!! 그래서 제목에 ultra-fast, 초고속이 들어갑니다.
근데... 분석시간이 얼마나 걸렸었는지는.. 기억이 잘..

논문에서는 저렴한 서버에서 50x WGS데이터를 13시간만에 align을 했다고하는데...
(저렴한서버의 정의는 CPU 16core에 128GB RAM이 장착된 서버라고 하네요)

여튼 논문에서는 50x WGS 데이터를 저렴한 서버를 사용해서 분석을 진행할 때 정렬 작업을 시간단위에서 끝냈다.. 라는 소식을 솔직히 DRAGEN 제외하고서는 들어본적이 없어서 조금 갸우뚱 하긴 합니다.

여하튼 논문에서 13시간만에 정렬을 끝냈다고 했다니!! 그렇다고 믿는게 인지상정 아니겠습니까?

근데 정렬 속도가 빠른건 큰 장점이지만 단순히 속도만 빠르면... 그건 아무짝에도 쓸모없는거죠

그래서 SpeedSeq와 기라성같은 변이 탐지 툴들과도 비교 해봤습니다.

somatic/germline 분석 툴들을 가리지 않고 모두 비교해봤습니다. GATK의 Haplotype Caller, Mutect, VarScan2와 같은... 기존에 너님들이 많이 쓰던 툴들이랑 비교해서 결과 다르지 않아. 라고 얘기하고 있습니다.

그런데 사실 저는 SpeedSeq을 사용한 이유가 속도가 빠르면서 bwa와 같은 기존 정렬 프로그램 대비 결과가 정확해서 사용한것이 아닌 그냥 LUMPY tool을 사용하기 위해서 였다는게 함정

사실 이 정렬 tool이 nature에 출판되었는지도 몰랐다는..

LUMPY사용하려고 메뉴얼보니 SpeedSeq 결과 사용하세요 라고 적혀 있어서 단지 사용 했었을뿐... 그 후에 나도 몰라 하고 있었는데...

그냥 한번 들쳐봤는데 다시 검토해볼만한 tool일거 같긴한데..

"Reference Sample 백만번 돌려서 결과 동일해요" 하는것보다 임상 샘플 10개만 분석해봐도 그 진가를 알아볼수 있으니...

만약에 제가 사용하게 된다면 다음에 다시 글하나 올려보도록 하죠 :)

출처: @ye._.vely618

토요일, 3월 04, 2023

역시 변이 탐지에서도 machine learning

역시 세상에는 내마을을 알고 있는 분들이 있다는..

논문 제목은 Systematic benchmark of state-of-the-art variant calling pipelines identifies major factors affecting accuracy of coding sequence variant discovery 입니다.

doi: https://doi.org/10.1186/s12864-022-08365-3

결론은 누가누가 변이를 잘 찾나 테스트 되겠습니다.

그래서 샘플 준비도 GIAB과 함께 non-GIAB 데이터도 준비하고, 정렬 프로그램도 BWA, BOWTIE, Isaac, Novoalign 다양하게, 변이 caller도 GATK, FreeBayes, Strelka이외에도 DeepVariant나 Clair3와 Octopus 등 다양한 변이 caller를 도입해서 테스트를 진행해 보았다고 합니다.

Clair3와 Octopus는 처음들어 봤네요 @.@ 역시 사람은 공부를 해야함

그리고 GIAB외에도 non-GIAB 데이터를 활용한것은 또 새로운 접근법인듯합니다. 아무래도 많은 연구가 이뤄진 데이터와 그러지 않은 데이터간의 차이가 있을 수 있고, 아직 T2T를 사용한 변이 탐지 벤치마킹 논문을 찾아보진 못했는데 이 또한 조만간 나오겠네요. 이미 나와 있을수도..

여튼 이것저것 따져 봤을 때 정렬 프로그램은 일단 Bowtie2는 성능이 저하되는 결과를 보여주기에 사용하면 안되는 방법이고, 변이 탐지에서는 DeepVariant가 좋은 성능을 보이는 결과를 얻을 수 있었다고 합니다.

그리고 GIAB와 non-GIAB 샘플을 비교해본 바 현재 사용하는 분석 방법이 GIAB에서만 좋은 결과를 보이고 non-GIAB에서는 그렇지 않다는 것, aka GIAB 샘플이나 non-GIAB 샘플이나 편견없이 잘 분석된니, 현재 분석 방법들을 활용해도 문제가 없다는 것을 확인하였다고 합니다.

그러나 아직 존재하는 몇 가지 문제점을 지적하기도 했습니다.

기계학습 방법을 사용하는 caller 같은 경우 모델에 따라 변이 탐지에 문제가 발생할 수 있기 때문에 조심해서 사용하여야 하고, 앞서 얘기했던 T2T 표준 유전체를 사용하였을 때 발생할 수 있는 기존 정렬 프로그램이나 변이 탐지 프로그램의 한계점이나 영향(부정적인)은 확인된바가 없기떄문에 검토가 필요하다는 점, GIAB이나 non-GIAB이던 일반적인 벤치마킹에 사용하고 있는 표준 샘플들의 사용 region에 대한 문제, 대게 잘 정의된 변이들은 유전자 영역에 분포하고 있기 때문에 비유전자 영역에 있는 변이 또는 시퀀싱이 잘 되지 않은 영역들에 대한 정보는 제한적일 수 있기에 이런 단점들이 보강된 표준 샘플들이 필요하는 점, NGS 데이터의 경우 지속적으로 개선되고 새로운 방법이나 도구들이 개발되고 있으나 민감도, 재현성과 같은 변이 탐지 성능 지표에 집중되어 있지 분석 시간이나 사용의 편의성, 프로그램 설치 난이도와 같은 비교적 중요하게 다루지 않는 항목들에 대해서도 관심이 필요하다는 것들에 대해서 언급을 해주었습니다.

간만에 최신 변이 탐지 벤치마킹 논문을 한번 읽어봤는데, 저는 유익한 시간이었는데 어떠셨나요?

이제 즐거운 주말을 보내러~ :)

ps. 근데 chatGPT한테 요약 해달라고 하니 왜 이 논문에서 Dama dama (사슴)을 왜 그리 찾는지... 처음에는 내가 url을 잘못 입력한줄 알았는데...

출처: @ye._.vely618

토요일, 12월 26, 2020

Long read는 Long read alignment로....

간만에 글 투척합니다.

오늘은 Long read align관련된 내용 투척 하도록 하겠습니다.

시퀀싱 기술이 좋아져서 PacBio와 함께 nanopore가 (최근 covid도 있었고) 함께 많이 이용되고 있는데 질좋은 long read를 생산하셨다면 bwa/bowtie와 같은 short read alignment보다는 long read에 최적화된 long read alignment인 minimap2같은 tool를 사용하시는게 정신건강에 좋을 것 같습니다.

최근 제가 별생각없이 long read서열을 human genome에 aling할때 bwa mem의 -x ont2d옵션을 사용하여 진행했었는데...

통수를 후려 갈기는... (원래 통수는 후려 갈기는 맛이 좋다능)

bwa mem -x ont2d를 사용하는 경우 원래 생산된 read(raw read 개수)보다 더 많은 read 들이 aligned되는 것 처럼 보인다는... (?? 생산된게 100개 read인데 align된 read는 200개라고?)

근데 minimap2를 사용하였을 때에는 reference에 align된 read의 개수와 생산된 read 개수(raw 리드 개수)가 유사한(aka 생산된 read 개수보다 적은) read 개수를 확인 할 수 있었습니다.

개발자도 같고(Heng Li), 같은 align하는 tool인데 왜 이렇게 차이가 나느냐

음... bwa와 minimap2를 자세히 까보지는 않았지만(못하지만) bwa의 경우 mem -x ont2d를 사용한다고 하더라도 태생부터가 short read를 위해서 만들어진 alginment이고 nanopore의 경우 마음먹고 시퀀싱이 된다면 수십 kb의 길이가 나오는 관계로 bwa mem에서 seed를 기준으로 align할때 mismatch나 error에 대해서 관대하게 조건을 잡으면서 확장을 한다로 하더라도 수십 kb까지 확장하지 못하는 경우가 발생 하고 그 경우 split이 되어 다른 reference에 align되는 경우가 발생하는것으로 보였습니다.

대신 minimap2의 경우 long read를 고려해서 만들다 보니 확장이 비상식적으로 read가 길더라도 확장을 하지 split하지 않아서 bwa의 경우와 같이 생산된 read보다 많은 read가 align된 것 처럼 보이는 이상한 문제는 발생하지 않는 것 처럼 보였습니다.

결론은 내 데이터에 맞는 mapper를 사용해서 분석하자 되겠습니다. ㅠ.ㅜ

추신: 2018년도 이런 글(Minimap2 and the future of BWA)도 있었군요;;

출처: @ye._.vely618

금요일, 3월 01, 2019

간만에 RNAseq 분석 해보기 -Reference편-

Alignment를 수행하기 위해서는 reference가 필요합니다.
모 어떤 alignment 툴에서는 그냥 genome 서열만 있어도 되지만
하이 쓰루풋 시퀀싱 데이터를 다룰 때는 대부분 genome 서열을
나름의 index를 새로 생성하게 됩니다.

앞에서 설치했던 aligner들의 index를 만드는 작업의 로그를 남겨보도록 하겠습니다.

BWA

$ ~/bwa/bwa index -p index_name genome.fa

hisat2

$ ~/hisat2/hisat2_extract_exons.py genome.gtf > genome.exon
$ ~/hisat2/hisat2_extract_splice_sites.py genome.gtf > genome.ss
$ ~/hisat2/hisat2-build -f genome.fa --ss genome.ss --exon genome.exon genome_index_base

STAR

$ ~/STAR/STAR --runThreadN 16 --runMode genomeGenerate --genomeDir genomeOutFolder --genomeFastaFiles genome.fa --genomeSAindexNbases index_base --sjdbGTFfile genome.gtf --sjdbOverhang 99

Kallisto

$ ~/tophat/gtf_to_fasta genome.gtf genome.fa genome.gtf2fa.fa
$ ~/kallisto/kallisto index --index=index_name genome.gtf2fa.fa

Salmon

$ ~/salmon/bin/salmon index -t genome.gtf2fa.fa -i genome_idx --type quasi -k 31

이렇게 하면 각 align tool을 사용하기 위한 reference는 준비되었습니다.

출처: SM

수요일, 2월 27, 2019

간만에 RNAseq 분석 해보기 -설치편-

근 몇년 만인가요..
간만에 RNAseq을 손에 뭍혀봅니다.!! :)

여러가지 Tool을 조합해서 일단 해보고 좋은 놈 골라 쓸 생각이라서
여러 aligner와 abundance tool을 사용할 예정입니다.
그래서 오늘은 서버에 설치된 프로그램 유무 확인 및 업데이트를 해봐야겠습니다. Orz

그래서 오늘 설치편되겠습니다.

오랜만에 작업하는것이라 잘 될지 모르겠습니다. ㅋ

사실 이건 그냥 스킵하셔도 됩니다.
그냥 제 작업 로그 남기는 거거든요 ㅎㅎ :)

bwa (https://github.com/lh3/bwa, 2019.02.27 기준 0.7.17)

$ git clone https://github.com/lh3/bwa.git
$ cd bwa
$ make

hisat2 (https://ccb.jhu.edu/software/hisat2/index.shtml, 2019.02.27 기준 2.1.0)

$ wget http://ccb.jhu.edu/software/hisat2/dl/hisat2-2.1.0-Linux_x86_64.zip
$ unzip isat2-2.1.0-Linux_x86_64.zip

STAR (https://github.com/alexdobin/STAR, 때마침 2019.02.25일에 업데이트 ㄷㄷ)

$ wget https://github.com/alexdobin/STAR/archive/2.7.0e.tar.gz
$ tar -xzf 2.7.0e.tar.gz
$ cd STAR-2.7.0e

StringTie (https://ccb.jhu.edu/software/stringtie/ 2019.02.27 기준 1.3.5)

$ wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-1.3.5.Linux_x86_64.tar.gz
$ tar zxf stringtie-1.3.5.Linux_x86_64.tar.gz
$ cd stringtie-1.3.5.Linux_x86_64

HT-Seq (https://github.com/simon-anders/htseq, 2019.02.27 기준 0.11.0)

$ pip install HTSeq

혹은

$ pip install 'HTSeq==0.11.0'

혹은

$ easy_install 'HTSeq==0.11.0'

잘 안되시면 주위에 리눅스에 HTSeq를 설치할 줄 아는 친구를 찾으십시요! :)

Kallisto (https://pachterlab.github.io/kallisto/, 2019.02.27 기준 0.45.0)

$ wget https://github.com/pachterlab/kallisto/releases/download/v0.45.0/kallisto_linux-v0.45.0.tar.gz
$ tar zxf kallisto_linux-v0.45.0.tar.gz
$ cd kallisto_linux-v0.45.0

Salmon (https://combine-lab.github.io/salmon/, 2019.03.04 기준 0.12.0)

$ wget https://github.com/COMBINE-lab/salmon/releases/download/v0.12.0/salmon-0.12.0_linux_x86_64.tar.gz
$ tar zxf salmon-0.12.0_linux_x86_64.tar.gz
$ cd salmon-0.12.0_linux_x86_64/bin

일단 설치는 여기까지,
옛날에는 컴파일하느라 설치가 반이었는데
요즘은 걍 컴파일이 잘 되어 있어서 ㅎㅎ :)

다음 포스팅은 reference 생성 내용입니다. ㅋ
-별거 없습니다. :)

출처: JYP

Pages

월요일, 7월 14, 2025

일요일, 5월 19, 2024

목요일, 3월 07, 2024

수요일, 8월 23, 2023

토요일, 3월 04, 2023

토요일, 12월 26, 2020

금요일, 3월 01, 2019

수요일, 2월 27, 2019