레이블이 transcriptome인 게시물을 표시합니다. 모든 게시물 표시
레이블이 transcriptome인 게시물을 표시합니다. 모든 게시물 표시

화요일, 10월 07, 2025

NGS를 활용하여 암에서 gene fusion 발견하기

연휴를 맞아 이번주는 매일 글을 올려보도록 하겠습니다. 오늘은 전사체 시퀀싱을 사용해서 암에서 유전자 융합(gene-fusion)을 탐지하는 내용의 논문을 가져와봤습니다. 제목은 Transcriptome sequencing to detect gene fusions in cancer 으로 2009년도에 나왔던 논문으로 시퀀싱 기술이 454와 일루미나에 대해서만 나왔습니다. 요즘 나왔으면 적어도 PacBio 얘기가 나왔을 텐데 당시에는 롱리드로 대접받던 454와 숏리드의 대명사 일루미나를 이용한 방법에 대해서만 논하고 있는데 NGS를 이용해서 다양한 유전자 융합에 대해서 얘기하고 있습니다.

가장 유명한 염색체간의 gene fusion인 BCR-ABL1을 비롯해서 염색체내 결실, 복합 재배열, 인접 유전자의 읽힘(?)같은 다양한 gene fusion을 확인했다고 합니다. 15년전 논문이지만 읽어볼만 할 겁니다. :)

DOI: 10.1038/nature07638



clova-x

이 연구는 암세포에서 발생하는 유전자 융합을 탐지하기 위해 하이 throughput 전사체 시퀀싱을 사용한 방법을 개발하였습니다. 이를 통해 기존에 알려진 유전자 융합뿐만 아니라 새로운 융합도 발견하였으며, 이러한 융합은 암 치료의 표적으로 주목받고 있습니다.

1. **연구 배경**

   - 유전자 융합은 혈액암 및 희귀 뼈 및 연조직 종양과 연관이 있었으나, 최근 일반 고체 종양에서도 발견되고 있습니다.

   - 유전자 융합은 암 발생에 원인이 될 수 있는 돌연변이로 간주되며, 항암 치료의 표적이 될 수 있습니다.

2. **방법론**

   - 하이 throughput 전사체 시퀀싱을 통해 암세포의 유전자 융합을 탐지하였으며, long-read와 short-read 데이터를 통합하여 분석하였습니다.

   - cDNA 라이브러리의 정규화 여부에 따른 융합 탐지 효과를 비교하였으며, 정규화가 불필요함을 확인하였습니다.

3. **결과 및 의의**

   - 기존에 알려진 BCR–ABL1과 TMPRSS2–ERG 유전자 융합을 재발견하였고, 새로운 유전자 융합을 발견하여 실험적으로 검증하였습니다.

   - 발견된 유전자 융합은 암세포 특이적이며, 진단 마커 및 치료 표적으로서의 가능성을 제시합니다.


gemini

이 연구는 암세포에서 발생하는 유전자 융합을 탐지하기 위해 하이 throughput 전사체 시퀀싱을 사용한 방법을 개발하였습니다. 이를 통해 기존에 알려진 유전자 융합뿐만 아니라 새로운 융합도 발견하였으며, 이러한 융합은 암 치료의 표적으로 주목받고 있습니다.

1. **연구 배경**

   - 유전자 융합은 혈액암 및 희귀 뼈 및 연조직 종양과 연관이 있었으나, 최근 일반 고체 종양에서도 발견되고 있습니다.

   - 유전자 융합은 암 발생에 원인이 될 수 있는 돌연변이로 간주되며, 항암 치료의 표적이 될 수 있습니다.

2. **방법론**

   - 하이 throughput 전사체 시퀀싱을 통해 암세포의 유전자 융합을 탐지하였으며, long-read와 short-read 데이터를 통합하여 분석하였습니다.

   - cDNA 라이브러리의 정규화 여부에 따른 융합 탐지 효과를 비교하였으며, 정규화가 불필요함을 확인하였습니다.

3. **결과 및 의의**

   - 기존에 알려진 BCR–ABL1과 TMPRSS2–ERG 유전자 융합을 재발견하였고, 새로운 유전자 융합을 발견하여 실험적으로 검증하였습니다.

   - 발견된 유전자 융합은 암세포 특이적이며, 진단 마커 및 치료 표적으로서의 가능성을 제시합니다.


chatGPT

다음은 업로드하신 논문 **〈Transcriptome sequencing to detect gene fusions in cancer〉 (Maher et al., Nature, 2009)**의 내용을, 전문 지식이 없는 일반 독자도 이해할 수 있도록 쉽게 풀어 쓴 요약입니다.

---

## 🔬 연구 배경

암은 유전자의 돌연변이로 인해 생기는 질병입니다. 특히, **두 개의 서로 다른 유전자가 비정상적으로 결합해 새로운 ‘융합 유전자(gene fusion)’가 만들어지는 현상**이 여러 암에서 발견되어 왔습니다. 대표적인 예로 백혈병의 **BCR–ABL1** 융합 유전자, 전립선암의 **TMPRSS2–ERG** 유전자가 있습니다.

이러한 유전자 융합은 암을 유발할 뿐 아니라, 특정 약물의 표적이 되기도 합니다. 예를 들어, 백혈병 치료제 ‘글리벡(Imatinib)’은 바로 BCR–ABL1 유전자를 표적으로 합니다.

하지만 지금까지는 주로 혈액암이나 드문 암에서만 이런 유전자 융합이 연구되었고, **일반적인 고형암(예: 전립선암, 폐암 등)** 에서는 아직 밝혀지지 않은 융합 유전자가 많았습니다. 연구진은 **새로운 융합 유전자를 체계적으로 찾아낼 방법**이 필요하다고 보았습니다.

---

## 🎯 연구 목적

이 연구의 목표는 **최신 유전체 분석 기술(전사체 시퀀싱, transcriptome sequencing)** 을 이용해

1. 암세포 속에 존재하는 새로운 융합 유전자를 찾아내고,

2. 이를 실험적으로 검증하여,

3. 암의 원인과 진단·치료 타깃을 밝히는 기반을 마련하는 것입니다.

---

## ⚙️ 연구 방법

연구진은 **두 가지 시퀀싱 기술**을 결합했습니다.

1. **롱리드(long-read) 시퀀싱 (Roche 454 기술)**

   * 긴 염기서열을 한 번에 읽을 수 있어, 유전자가 어디서 어디로 연결되는지를 확인할 수 있습니다.

2. **숏리드(short-read) 시퀀싱 (Illumina 기술)**

   * 매우 많은 양의 짧은 염기서열 데이터를 빠르게 얻어 통계적 신뢰도를 높입니다.

두 기술을 **통합 분석**하여, 서로 다른 유전자의 엑손(exon)이 비정상적으로 연결된 ‘키메라 전사체(chimaeric transcript)’를 찾았습니다.

이후, 실제 암세포와 환자 조직에서 이들이 존재하는지 **qRT-PCR**과 **FISH(형광염색)** 실험으로 검증했습니다.

대상은

* **백혈병 세포주(K562)**,

* **전립선암 세포주(VCaP, LNCaP)**,

* **양성 전립선세포(RWPE)**,

* 그리고 실제 **전이성 전립선암 환자 조직**이었습니다.

---

## 🧬 주요 결과

1. **기존에 알려진 융합 유전자 재발견 성공**

   * 백혈병 세포에서 **BCR–ABL1**,

   * 전립선암 세포에서 **TMPRSS2–ERG** 유전자를 찾아내면서, 이 방법의 정확성을 입증했습니다.

2. **새로운 융합 유전자 발견**

   * 전립선암 세포에서 **USP10–ZDHHC7**, **HJURP–INPP4A**, **MIPOL1–DGKB** 등 여러 새로운 유전자 결합을 찾아냈습니다.

   * 특히 **MIPOL1–DGKB 융합**은 암세포의 **ETV1** 유전자 발현과 관련이 있음을 확인했습니다.

3. **특이한 형태의 융합: SLC45A3–ELK4**

   * 전립선암 조직 중 일부에서 **SLC45A3와 ELK4**라는 인접한 두 유전자가 RNA 수준에서 연결된 새로운 형태의 키메라 전사체가 발견되었습니다.

   * 놀랍게도 DNA 염기서열에는 변화가 없었는데, 이는 **‘DNA 이상 없이 RNA 단계에서 발생하는 융합’** 이라는 점에서 매우 독특했습니다.

   * 이 융합은 **남성 호르몬(안드로겐)** 에 의해 발현이 증가했으며, 여러 전립선암 환자에서 반복적으로 나타났습니다.

4. **암세포 전용 특성 확인**

   * 융합 유전자는 정상세포에서는 발견되지 않았고, 오직 암세포에서만 나타났습니다.

   * 이는 융합 유전자가 암 진단이나 치료 표적으로 사용될 수 있음을 의미합니다.

---

## 💡 고찰 및 의의

* 이 연구는 **차세대 시퀀싱 기술을 융합해 암의 유전자 융합을 탐색하는 새로운 분석 체계**를 제시했습니다.

* 과거에는 개별 유전자만을 검사해 융합을 찾았지만, 이제는 **암 전체 전사체를 한 번에 읽어 융합을 포괄적으로 탐색할 수 있는 시대**를 열었습니다.

* 특히 RNA 수준의 융합(SLC45A3–ELK4)은 **기존의 DNA 검사로는 놓치던 암 관련 변화**를 포착했다는 점에서 의미가 큽니다.

* 연구진은 이러한 융합을 유형별로 정리해 **유전자 융합 분류 체계(5가지 유형)** 를 제안했습니다.

  1. 염색체 간 전위 (BCR–ABL1)

  2. 복합 전위 (MIPOL1–DGKB)

  3. 염색체 내 결실 (TMPRSS2–ERG)

  4. 복합 재배열 (HJURP 관련)

  5. 인접 유전자의 읽힘 연결(read-through, SLC45A3–ELK4)

---

## 🌍 연구의 시사점과 중요성

이 연구는 **암 연구의 새로운 지평을 연 전환점**으로 평가됩니다.

* 암의 원인이 되는 유전자 융합을 체계적으로 찾는 기술을 확립함으로써,

  → 암의 **개인 맞춤형 진단**과 **표적치료 개발**에 직접적인 기반을 마련했습니다.

* 실제로 이후 많은 연구들이 이 논문을 기반으로 폐암의 **ALK 융합**, 유방암의 **EML4-ALK**, 등 수많은 융합유전자를 발견했습니다.

* 또한 DNA 변이가 없는 RNA 융합의 존재는 **‘유전자 발현 조절 이상도 암을 일으킨다’**는 새로운 패러다임을 제시했습니다.

즉, 이 연구는 단순히 기술적 성과를 넘어서,

> “암을 단일 유전자 돌연변이의 결과가 아니라, 복잡한 유전자 간 네트워크의 재배열로 이해해야 한다”는 인식을 확산시킨 결정적 계기였습니다.


grok3

### 암에서 유전자 융합을 찾아내는 새로운 방법: 2009년 Nature 논문 요약

#### 연구 배경

암은 유전자의 변이로 인해 발생하는데, 그중 '유전자 융합'은 두 유전자가 비정상적으로 붙어 새로운 유전자를 만드는 현상입니다. 과거에는 혈액암이나 희귀 종양에서 주로 발견됐지만, 최근 전립선암이나 폐암 같은 흔한 고형암에서도 확인됐어요. 예를 들어, BCR-ABL1 융합은 만성 골수성 백혈병의 원인으로 알려져 치료 타겟이 됐죠. 이 융합들은 암 세포에만 나타나 진단과 치료에 유용하지만, 기존 방법으로는 발견하기 어려웠습니다. 연구팀은 고속 DNA 시퀀싱 기술이 발전한 점을 활용해 더 많은 융합을 찾고자 했어요.

#### 연구 목적

이 논문의 목표는 고속 전사체(유전자 발현 정보) 시퀀싱을 통해 새로운 유전자 융합을 발견하는 '파이프라인'을 만드는 거예요. 증명으로 기존 융합(BCR-ABL1과 TMPRSS2-ERG)을 재발견하고, 전립선암 세포주와 조직에서 새로운 융합을 찾아 검증하는 데 초점을 맞췄습니다. 궁극적으로 암 관련 변이를 포괄적으로 이해하려는 거죠.

#### 연구 방법

연구팀은 두 가지 시퀀싱 기술을 결합했어요. 먼저, 긴 읽기(Roche 454 플랫폼)로 유전자 융합 후보를 찾고, 짧은 읽기(Illumina 플랫폼)로 깊이를 더해 거짓 양성을 줄였습니다. 대상은 만성 골수성 백혈병 세포주(K562), 전립선암 세포주(VCaP, LNCaP)와 정상 세포주(RWPE), 그리고 전립선암 조직(VCaP-Met, Met 3, Met 4)이었어요. 융합 후보는 qRT-PCR(발현량 측정)과 FISH(염색체 시각화)로 검증했습니다. cDNA 라이브러리는 정규화 없이 사용해 자연스러운 발현을 반영했어요.

#### 연구 결과

먼저, K562에서 BCR-ABL1, VCaP에서 TMPRSS2-ERG을 성공적으로 재발견했어요. VCaP에서는 USP10-ZDHHC7(16번 염색체), HJURP 관련 두 융합(EIF4E2-HJURP, INPP4A-HJURP, 2번 염색체)이 새로 발견됐습니다. LNCaP에서는 MIPOL1-DGKB(14번과 7번 염색체, ETV1 과발현 관련)가 확인됐어요. 조직에서는 STRN4-GPSN2(Met 3, 안드로겐 관련), RC3H2-RGS3(VCaP-Met), LMAN2-AP3S1이 나왔습니다. 특히 SLC45A3-ELK4(1번 염색체, read-through 타입)는 LNCaP와 Met 4에서 재발성으로 나타났고, 20개 전립선암 조직 중 7개에서 검출됐어요. 이 융합은 안드로겐 자극으로 유도됐습니다. read-through은 DNA 변화 없이 RNA 수준에서 발생하는 것으로 밝혀졌어요.

#### 고찰과 시사점

연구팀은 융합을 5가지 클래스로 분류했어요: I(염색체 간 전좌, e.g. BCR-ABL1), II(복잡 재배열, e.g. MIPOL1-DGKB), III(염색체 내 결실, e.g. TMPRSS2-ERG), IV(복잡 재배열, e.g. HJURP 관련), V(read-through, e.g. SLC45A3-ELK4). 한 암 세포에 여러 융합이 존재할 수 있으며, 대부분 'private'(개별적) 변이지만, 재발성 융합(SLC45A3-ELK4)은 ETS 가족(암 유발 유전자)과 협력할 수 있어요. 시사점으로는 DNA 변화 없는 RNA 융합이 암에 기여할 수 있다는 점으로, 기존 방법의 한계를 넘어선 발견입니다. 이는 암 유전자를 카탈로그화해 개인화 치료를 촉진할 수 있어요.

이 연구가 중요한 이유는 고속 시퀀싱으로 암의 '숨겨진' 유전자 융합을 대량 발견할 수 있게 해, 암 진단과 표적 치료의 새 시대를 열었기 때문이에요. 과거 포인트 변이 중심에서 융합 같은 구조 변이로 시야를 넓혀 더 정확한 암 이해를 돕습니다.


NotebookLM

**제목: 차세대 유전자 분석 기술을 활용하여 암 유전자 융합을 발견하다**

(Transcriptome Sequencing을 이용한 암에서의 유전자 융합 발견 연구 요약)

---

### 연구 배경: 암의 숨겨진 원인, '유전자 융합'을 찾아서

최근까지 유전자 융합(Gene Fusions)—두 개의 다른 유전자가 합쳐져 비정상적인 하나의 유전자가 되는 현상—은 주로 백혈병 같은 혈액암이나 드문 뼈 및 연조직 종양에서 발견되는 것으로 알려져 있었습니다. 그러나 최근 연구들은 이러한 유전자 융합이 **전립선암이나 폐암과 같은 일반적인 고형암에서도 반복적으로 발생**한다는 사실을 보여주었습니다 [2, 5–9].

이러한 유전자 융합은 염색체 재배열로 인해 발생하며, 암을 유발하는 유전자 범주 중 가장 흔한 형태 중 하나로 여겨집니다. 예를 들어, BCR–ABL1 융합처럼 새로운 융합 단백질을 만들거나, TMPRSS2–ERG 융합처럼 한 유전자의 조절 요소가 암 유전자(종양 유전자)의 비정상적인 발현을 유도하기도 합니다.

암 연구의 주요 목표는 암을 유발하는 유전적 변이(원인 유전체 이상)를 식별하는 것입니다. 유전자 융합은 암세포에만 국한되어 나타나기 때문에, **이상적인 진단 마커이자 합리적인 치료 표적**이 될 수 있다는 점에서 매우 중요합니다.

### 연구 목적: 새로운 유전자 융합을 빠르고 정확하게 찾아낼 통합 분석 파이프라인 구축

본 연구는 **고속 대용량 전사체 시퀀싱(high-throughput transcriptome sequencing)** 기술을 통합적으로 분석하는 방법을 사용하여 암세포에서 이전에 알려지지 않았던 **새로운 유전자 융합을 발견**하는 것을 목표로 했습니다. 궁극적으로는 이러한 새로운 유전자 키메라(chimaeras)를 발견하기 위한 **견고한 분석 파이프라인**을 확립하고자 했습니다.

### 연구 방법: 장독해 및 단독해 시퀀싱의 통합

연구팀은 유전자 융합을 탐지하기 위해 **롱 리드(Long-read, Roche 454)** 기술과 **숏 리드(Short-read, Illumina Genome Analyser)** 기술을 통합하는 접근 방식을 사용했습니다.

1.  **시퀀싱 및 개념 증명:** 만성 골수성 백혈병 세포주(K562)에서 이미 알려진 **BCR–ABL1** 융합을, 전립선암 세포주(VCaP)와 조직에서 **TMPRSS2–ERG** 융합을 성공적으로 '재발견'함으로써 이 통합 분석 방식의 유효성을 입증했습니다.

2.  **통합의 필요성:** 짧은 길이의 시퀀싱 데이터(숏 리드)만으로는 많은 수의 잠재적인 키메라(가짜 양성) 중에서 실제 융합 유전자를 정확히 집어내기 어려웠습니다. 롱 리드는 후보 융합 유전자를 매핑할 수 있는 참조 서열을 제공하고, 숏 리드는 깊이 있는 시퀀스 데이터를 제공합니다.

3.  **결과 개선:** 숏 리드와 롱 리드 데이터를 통합적으로 사용하자, **가짜 후보의 총수가 크게 감소**하고 실험적으로 검증된 후보의 비율이 극적으로 증가했습니다.

4.  **후보 우선순위 부여:** 두 시퀀싱 플랫폼에서 얻은 키메라 리드 수(읽힌 횟수)를 곱하여 점수를 매기는 기능(Scoring function)을 고안함으로써 후보 유전자의 우선순위를 체계적으로 결정했습니다.

### 연구 결과: 암 특이적 융합 유전자 다수 발견 및 분류 체계 확립

연구팀은 통합 분석 파이프라인을 통해 여러 가지 새로운 유전자 융합을 발견하고 실험적으로 검증했습니다.

1.  **주요 발견 (VCaP):** 전립선암 세포주 VCaP에서 TMPRSS2–ERG가 가장 높은 순위를 차지한 유전자 융합으로 확인되었습니다. 이 외에도 **USP10–ZDHHC7** 융합과 **EIF4E2–HJURP, HJURP–INPP4A** 융합과 같이 염색체 내에서 발생하는 새로운 융합 유전자들을 발견했습니다.

2.  **ETV1과 관련된 융합 (LNCaP):** LNCaP 세포주에서는 염색체 간 융합인 **MIPOL1–DGKB**를 확인했습니다. 이는 종양 유전자인 ETV1의 염색체 이상을 간접적으로 나타내는 것으로 보입니다.

3.  **암 조직에서의 발견:** 전이성 전립선암 조직에서도 TMPRSS2–ERG 융합 외에 **STRN4–GPSN2** 같은 새로운 융합을 발견했습니다.

4.  **재발성 '읽어 넘기기(Read-through)' 키메라:** 인접한 유전자 사이에서 발생하는 키메라 전사체(read-through)인 **SLC45A3–ELK4**를 LNCaP 세포주와 전이성 전립선암 조직(Met 4)에서 발견했습니다. 이 융합은 조사된 20개 전이성 전립선암 조직 중 7개에서 발현되었으며, 놀랍게도 **DNA 수준에서 검출 가능한 유전체 이상(DNA aberration)이 없음에도 불구하고** 암 특이적으로 재발하는 RNA 키메라 전사체의 첫 사례일 수 있습니다.

5.  **체세포 돌연변이 입증:** 발견된 키메라들은 환자의 정상 조직(germline tissues)이 아닌 **암 조직에만 국한**되어 나타나는 체세포 돌연변이(somatic mutations)임을 확인했습니다.

### 고찰 및 의의: 암 유전자 융합의 복잡성 이해

본 연구는 전사체 시퀀싱이 유전자 융합을 발견하는 데 매우 강력한 도구임을 입증했습니다.

이 연구를 통해 유전자 융합 전사체를 다음의 다섯 가지 클래스로 분류하는 체계가 제안되었습니다:

*   **Class I (염색체 간 전좌):** 서로 다른 염색체의 유전자 융합 (예: BCR–ABL1).

*   **Class II (염색체 간 복합 재배열):** 서로 다른 염색체의 두 유전자가 융합하고 세 번째 유전자가 활성화되는 경우 (예: MIPOL1–DGKB).

*   **Class III (염색체 내 결실):** 유전체 영역의 결실로 인접 유전자가 융합되는 경우 (예: TMPRSS2–ERG).

*   **Class IV (염색체 내 복합 재배열):** 하나의 유전자의 절단점이 여러 영역과 융합되는 경우 (예: HJURP 융합).

*   **Class V (읽어 넘기기 키메라):** 인접한 유전자 사이의 전사체 (예: ZNF649–ZNF577, SLC45A3–ELK4).

가장 중요한 통찰 중 하나는 **하나의 암세포주 또는 조직이 다수의 유전자 융합을 보유**할 수 있다는 점이며, 이들 중 다수는 재발성이 아닐 수 있습니다 ('사적(private) 유전자 융합'). 이러한 사적 융합이 악성 변형에 직접적인 역할을 하는지는 불분명하지만, 주요 운전자 돌연변이(driver mutation)와 **협력하여 작용할 가능성**이 있습니다.

### 이 연구의 중요성

이 연구는 암 유전체학 분야에 혁신적인 발전을 가져왔습니다.

**첫째, 새로운 유전자 융합 탐색의 표준을 제시했습니다.** 롱 리드와 숏 리드 시퀀싱 데이터를 결합하여 유전자 융합을 정확하고 효율적으로 찾아내는 통합 분석 파이프라인을 확립함으로써, 광범위한 암 관련 변이를 종합적으로 특성화할 수 있는 기반을 마련했습니다.

**둘째, 암 진단 및 치료 표적 발굴에 필수적인 정보를 제공했습니다.** 유전자 융합은 암세포에만 엄격하게 국한되므로, 이들을 체계적으로 목록화하고(cataloguing) 기능을 연구하는 것은 암 연구의 주요 목표입니다. 이 연구는 암 관련 유전자 융합이 얼마나 다양하고 복잡한 형태로 존재할 수 있는지(다양한 5가지 클래스)를 보여주었으며, **SLC45A3–ELK4**와 같이 DNA 이상이 검출되지 않는 재발성 RNA 키메라의 발견은 차세대 시퀀싱 기술과 분석 도구의 정교화가 발암 과정의 전체 범위(‘위험한 관계들’)를 밝혀내는 데 핵심적임을 시사합니다. 이러한 지식은 궁극적으로 새로운 암 진단법 개발과 합리적인 치료 전략 수립에 기여할 것입니다.


perplexity.ai

업로드한 논문은 암세포에서 나타나는 유전자 융합체(유전자 합병, gene fusion)을 차세대 전사체 시퀀싱 기법으로 탐지하고, 이를 통해 새로운 유전자 융합체들을 발굴 및 검증한 연구입니다. 전문 지식이 없는 일반 독자도 이해할 수 있도록 연구의 배경, 목적, 방법, 결과, 고찰, 의의와 중요성까지 쉽게 정리해드립니다.

## 연구 배경

유전자 융합체는 두 개의 서로 다른 유전자가 비정상적으로 결합하여 새로운 융합 유전자가 만들어지는 현상으로, 주로 혈액암과 희귀 암에서 발견되어 왔습니다. 최근에는 전립선암, 폐암 같은 흔한 고형암에서도 반복적으로 유전자 융합체가 발견되어 이들이 암 발생에 중요한 역할을 하는 것으로 판단되고 있습니다. 유전자 융합체는 암세포에만 존재하며 진단 및 치료 타깃으로 매우 유망한 대상입니다.

## 연구 목적

기존에는 특정 유전자 융합체만 주로 알려져 있었기에, 본 연구는 고성능 전사체 시퀀싱 기술을 통합해 암세포 내에서 발생하는 다양한 신규 유전자 융합체를 대규모로 발견하고, 그 특성을 밝히는 데 목적이 있습니다.

## 연구 방법

1. 암세포주 및 전립선암 환자 조직에서 RNA(유전자 발현 정보)를 분리해 두 가지 최첨단 시퀀싱 방법으로 분석함:

  - 긴 염기서열 읽기(long-read sequencing, Roche 454)

  - 짧은 염기서열 읽기(short-read sequencing, Illumina Genome Analyzer)

2. 두 시퀀싱 결과를 통합 분석해 유전자 융합체 후보를 선정하고, 실험적 방법(정량적 PCR, 형광 in situ 하이브리다이제이션(FISH))으로 융합체 존재를 검증.

3. 정상 세포 및 암 조직과 비교해 융합체가 암 특이적임을 확인.

## 주요 결과

- 기존에 알려진 대표적 융합체인 BCR-ABL1(만성골수성백혈병)과 TMPRSS2-ERG(전립선암)를 성공적으로 재발견.

- 전립선암 세포주에서 새로운 여러 유전자 융합체를 발견하고 그 중 상당수가 실험적으로 확증됨.

- 융합체의 유형을 체계적으로 분류(염색체 간 전위, 염색체 내 복잡 변이, 인접 유전자 간 읽기 연속체 등).

- SLC45A3-ELK4라는 재발성 읽기 연속체(RNA 융합체)를 발견했으며, 이는 DNA 수준의 변이는 동반하지 않는 최초의 사례로 추정됨.

- 환자 전립선암 조직에서도 여러 융합체가 발견되어 임상적 의미가 클 가능성이 제시됨.

## 고찰 및 의의

- 전사체 전반을 심층 분석하는 차세대 시퀀싱 기법은 암에서 다양한 유전자 융합체를 효과적으로 탐지하는 강력한 도구임이 입증됨.

- 다수의 유전자 융합체가 하나의 암세포 내에 존재할 수 있어, 이들이 암 발생과 진행에 어떻게 기여하는지 연구가 필요.

- 융합체는 암세포 특이성 때문에 진단마커 및 맞춤형 치료 타깃으로 활용 가능성이 매우 높음.

- 특히 DNA 변이가 검출되지 않는 RNA 융합체까지 찾아낼 수 있어 전통적인 유전체 연구의 한계를 극복하는 중요 단서를 제공.

## 연구 중요성

이 연구는 암 연구에서 유전자 융합체가 가지는 역할을 확대하고, 고성능 시퀀싱 기술로 암 특이적 융합 유전자들의 전체 지도를 구축할 수 있음을 보여줍니다. 이는 암 진단 및 치료법 개발에 새로운 방향을 제시하며, 특히 개인 맞춤형 치료제 개발과 예후 예측에 중요한 기초 자료가 됩니다. 현대 암치료의 혁신에 기여하는 핵심 연구로 평가됩니다.[1]





출처: @ye._.vely618


금요일, 7월 11, 2025

전자체 분석, 어떤 방법이 좋을까?

오늘도 먼지가 수북하게 쌓인 논문하나 가져와봤습니다. 제목은 A comparison of transcriptome analysis methods with reference genome으로 참조유전체를 활용할 수 있는 전사체 분석 방법에 대해서 어떤 tool들이 더 좋은 성과를 내는지 확인하고 평가하는 논문되겠습니다.

DOI: 10.1186/s12864-022-08465-0

사용하는 컴퓨터의 사양이 낮다면 Kallisto를, 꼼꼼한 결과를 원한다면 Cuffdiff를

DESeq2, edgeR, limma는 결과들이 서로 비슷한 분석 Tool로 단 하나의 완벽한 방법은 없다가 정답인듯 합니다.


clova-x

RNA-seq 분석 방법의 비교 연구에서는 다양한 절차가 유전자 발현 값, fold change, 통계적 유의성 측면에서 어떻게 성능을 발휘하는지 평가하였습니다. 

1. **연구 배경**

   - RNA-seq 기술의 적용이 확대되면서 적절한 워크플로우 선택이 중요해졌습니다.

   - 여러 소프트웨어 프로그램이 존재하며, 연구 목적과 컴퓨팅 자원에 따라 적합한 프로그램을 선택해야 합니다.

2. **연구 방법**

   - 여섯 가지 인기 있는 분석 절차를 네 개의 RNA-seq 데이터 세트(마우스, 인간, 쥐, 마카크)를 사용하여 비교하였습니다.

   - 유전자 발현 값, fold change, 통계적 유의성을 평가하여 절차 간 유사성과 차이를 비교하였습니다.

3. **결과 및 결론**

   - Cufflinks-Cuffdiff는 가장 높은 컴퓨팅 리소스를 요구하며, Kallisto-Sleuth는 가장 적게 요구합니다.

   - HTseq을 사용한 절차는 유전자 발현 값, fold change, p 및 q 값이 높게 상관관계를 보입니다.

   - 중간 발현 수준의 유전자에 대한 생물학적 검증률은 모든 절차에서 유사합니다.

   - 연구자는 가용 컴퓨터 자원과 관심 있는 유전자의 발현 수준에 따라 분석 절차를 선택할 수 있습니다.



연구 논문의 내용을 바탕으로 다음과 같은 구성을 가진 쉬운 요약 글을 한국어로 작성해 주세요

대상 독자: 생명과학을 전공하지 않은 일반 성인 독자

A4용지 두 장 이내로 연구 배경(이 연구가 왜 필요했는지), 목적(연구를 통해 알고자 했던 것), 방법(연구가 어떻게 진행했는지), 결과(어떤 연구결과가 나왔고, 일반인들이 이해할 수 있는 예시가 있다면 함께 설명), 고찰, 의의와 시사점(이 연구가 다른 연구나 우리 일상과 사회에 어떤 영향을 줄 지에 대한 내용)까지 포함해서 쉽게 써 주세요. 마지막에는 이 연구가 왜 중요한지도 덧붙여 주세요.

타겟 독자는 전공자가 아닌 일반 대중이며, 글은 블로그처럼 친절하고 이해하기 쉽게 작성해 주세요.



gemini

물론입니다. 제공해주신 연구 논문의 내용을 바탕으로, 일반 독자분들이 이해하기 쉽게 블로그 글처럼 요약해 드리겠습니다.

***

### 내 몸속 유전자 데이터, 어떤 분석 방법이 가장 좋을까요?

안녕하세요! 오늘 우리가 함께 살펴볼 이야기는 조금 전문적이지만, 우리 몸의 비밀을 파헤치는 생명과학 연구가 어떻게 이루어지는지에 대한 흥미로운 내용입니다.

혹시 'RNA 시퀀싱(RNA-seq)'이라는 기술을 들어보셨나요? [cite_start]간단히 말해, 우리 몸의 설계도인 DNA 중에서 실제로 어떤 유전자들이 '켜져' 있고, 또 얼마나 활발하게 활동하는지를 알아보는 최첨단 기술입니다[cite: 32]. [cite_start]이 기술은 이제 매우 광범위하게 사용되고 있습니다[cite: 10]. 이 기술 덕분에 과학자들은 질병의 원인을 찾거나 신약을 개발하는 데 중요한 단서를 얻을 수 있습니다.

그런데 문제가 하나 있습니다. [cite_start]이 기술로 얻은 방대한 데이터를 분석하는 소프트웨어와 절차(파이프라인)의 종류가 지난 몇 년간 크게 늘어났다는 점입니다[cite: 10]. 마치 같은 사진을 보고도 어떤 앱으로 보정하느냐에 따라 결과물이 달라지는 것처럼, 어떤 분석 방법을 쓰느냐에 따라 연구 결과가 달라질 수 있습니다. [cite_start]특히 이 분야를 처음 접하는 연구자들에게는 수많은 선택지 앞에서 어떤 것을 골라야 할지 결정하는 것이 중요한 문제가 되었습니다[cite: 11, 41].

#### **이 연구는 왜 필요했을까요? (연구 배경 및 목적)**

[cite_start]이 논문의 연구자들은 바로 이 문제에 주목했습니다[cite: 11]. "수많은 RNA 데이터 분석 방법 중에 과연 어떤 것이 가장 효율적이고 믿을 만한 결과를 줄까?" [cite_start]하는 궁금증에서 연구를 시작한 것이죠[cite: 11].

[cite_start]이들의 목표는 현재 가장 널리 쓰이는 6가지 대표적인 분석 절차를 직접 비교하고 평가하는 것이었습니다[cite: 12]. [cite_start]각 방법이 유전자의 활동량(유전자 발현 값), 그룹 간 활동량의 차이(폴드 변화), 그리고 통계적 중요도를 얼마나 비슷하게 또는 다르게 분석하는지 평가하고자 했습니다[cite: 13]. [cite_start]더 나아가, 컴퓨터 분석으로 찾은 '차이가 나는 유전자(DEG)'들이 실제 실험(qRT-PCR)에서도 확인되는지 검증했습니다[cite: 14]. [cite_start]궁극적으로는 다른 연구자들이 자신의 연구 목적, 보유한 컴퓨터 사양, 시간 제약 등에 맞는 최적의 분석 방법을 선택할 수 있도록 실용적인 가이드를 제공하는 것이 이 연구의 최종 목표였습니다[cite: 26, 197].

#### **연구는 어떻게 진행됐나요? (연구 방법)**

연구팀은 마치 요리 경연 대회처럼 6가지 분석 방법을 동일한 조건에서 테스트했습니다.

* [cite_start]**6가지 대표 선수 선정:** 현재 가장 많이 사용되는 6가지 분석 절차를 정했습니다[cite: 193, 195]. [cite_start]이들은 데이터 분석의 각 단계(정렬, 정량화, 통계 분석 등)에서 조금씩 다른 소프트웨어 조합을 사용합니다[cite: 44, 45, 161].

* [cite_start]**다양한 데이터로 검증:** 한 종류의 데이터만 사용하면 결과가 편향될 수 있으므로, 생쥐, 인간, 쥐, 그리고 마카크 원숭이로부터 얻은 4가지 다른 RNA 데이터를 사용해 분석의 신뢰도를 높였습니다[cite: 12, 196].

* [cite_start]**성능 비교:** 각 분석 방법이 데이터를 처리하는 데 걸리는 **시간**과 필요한 **컴퓨터 메모리(RAM)** 같은 컴퓨팅 자원을 측정했습니다[cite: 15, 240, 241].

* [cite_start]**결과 비교:** 6가지 방법이 내놓은 최종 결과물, 즉 '어떤 유전자가 얼마나 더 활발한가'에 대한 답(유전자 발현 값, 폴드 변화, p값, q값 등)을 서로 비교하여 얼마나 일치하는지 확인했습니다[cite: 13, 221].

* [cite_start]**실험실 검증:** 컴퓨터 분석 결과가 실제 생물학적 현상과 얼마나 일치하는지 알아보기 위해, 'qRT-PCR'이라는 정밀한 실험 기법으로 컴퓨터가 찾아낸 '차이가 나는 유전자'들을 직접 검증했습니다[cite: 14, 718].

#### **놀라운 결과들 (연구 결과)**

여러 데이터를 6가지 방법으로 분석해보니 흥미로운 결과들이 나왔습니다.

* [cite_start]**속도와 효율성 챔피언:** `Kallisto-Sleuth`라는 방법이 가장 적은 컴퓨터 자원을 필요로 했습니다[cite: 15]. [cite_start]반면 `Cufflinks-Cuffdiff`는 가장 많은 시간과 자원을 필요로 하는 것으로 나타났습니다[cite: 15, 249]. 마치 경차와 대형 트럭의 연비와 속도 차이 같네요!


* [cite_start]**결과는 대부분 비슷했다?:** 놀랍게도, 유전자 활동이 '중간' 정도인 대부분의 유전자에 대해서는 여러 다른 절차로 분석해도 비슷한 발현 값을 보였습니다[cite: 17, 25, 271]. [cite_start]특히 `HTseq`라는 도구를 사용한 3가지 방법(절차 1, 2, 3)은 서로 매우 높은 상관관계를 보였습니다[cite: 16, 23].

* [cite_start]**차이는 어디서 왔을까?:** 분석 방법 간의 주된 차이는 유전자 활동이 '아주 높거나' '아주 낮은' 유전자들에서 나타났습니다[cite: 18, 24, 268, 270]. 사진에서 아주 밝은 부분과 아주 어두운 부분의 디테일이 잘 보이지 않는 것과 비슷하다고 생각할 수 있습니다. [cite_start]예를 들어, `HISAT2-StringTie-Ballgown` 방법은 활동량이 적은 유전자에 더 민감했고 [cite: 19][cite_start], `Kallisto-Sleuth`는 중간에서 높은 활동량을 가진 유전자를 평가하는 데 더 유용할 수 있었습니다[cite: 19].

* [cite_start]**'중요 유전자' 찾기:** 같은 기준을 적용했을 때, `StringTie-Ballgown` 절차는 가장 적은 수의 '차이 나는 유전자(DEG)'를 찾아냈고, `HTseq`를 기반으로 한 방법들(`DESeq2`, `edgeR`, `limma`)은 일반적으로 더 많은 DEG를 찾아냈습니다[cite: 20].

* [cite_start]**결과의 신뢰도:** 컴퓨터 분석으로 찾아낸 유전자들을 실험실에서 직접 검증해보니, 6가지 방법 모두 중간 발현 수준의 유전자에 대해 비슷한 검증 성공률을 보였습니다[cite: 22, 25].

#### **그래서 어떤 방법을 써야 할까? (고찰 및 의의)**

[cite_start]이 연구는 "완벽하게 우월한 단 하나의 방법은 없다"는 중요한 사실을 알려줍니다[cite: 729]. [cite_start]대신, 각 방법의 장단점을 명확히 보여주어 연구자가 상황에 맞게 최적의 도구를 선택할 수 있게 돕습니다[cite: 729].

* [cite_start]**시간이 없고 컴퓨터 사양이 낮다면?** 가장 적은 컴퓨팅 자원을 소비하는 `Kallisto-Sleuth`를 추천할 수 있습니다[cite: 776].

* [cite_start]**가장 믿을 만한 결과를 원한다면?** 만약 컴퓨터 자원이 충분하다면, 여러 분석 방법을 동시에 사용하고 그 결과들에서 **공통으로 나타나는 유전자**들을 추려내는 것이 가장 신뢰도 높은 결과를 얻는 방법이라고 제안합니다[cite: 27, 785, 790]. [cite_start]또는 여러 결과를 조합하여 더 포괄적인 프로필을 얻을 수도 있습니다[cite: 27, 790].

[cite_start]이 연구는 과학자들이 RNA 데이터라는 복잡한 정보를 더 정확하고 효율적으로 다룰 수 있도록 돕는 '친절한 안내서'와 같습니다[cite: 774]. [cite_start]연구자들이 자신의 컴퓨터 자원이나 높은 또는 낮은 발현 유전자에 대한 관심 여부에 따라 분석 절차를 선택할 수 있게 합니다[cite: 26, 789]. 이는 결국 생명과학 연구 전체의 신뢰도를 높이고, 질병 연구나 신약 개발 같은 중요한 분야의 발전을 가속하는 데 기여합니다.

우리가 접하는 수많은 과학 뉴스의 이면에는 이처럼 더 정확하고 믿을 수 있는 결과를 얻기 위한 연구자들의 숨은 노력이 있다는 점을 기억해주시면 좋겠습니다. 방대한 데이터의 시대에, 데이터를 수집하는 것만큼이나 '어떻게 분석하는지'가 중요합니다. [cite_start]이 연구는 그 중요성을 다시 한번 일깨워주는 의미 있는 작업이라 할 수 있습니다[cite: 189].


chatGPT

물론입니다! 아래는 논문 \*\*"A comparison of transcriptome analysis methods with reference genome"\*\*의 내용을 바탕으로 **생명과학을 전공하지 않은 일반 성인 독자**를 위한 쉬운 요약글입니다. 블로그 형식으로 친절하고 이해하기 쉽게 작성했습니다. (※ 제목은 더 쉽게 바꾸었습니다.)

---

# RNA 유전자 분석, 어떤 방법이 좋을까?

## - 다양한 분석법 비교 연구 이야기

### 🧬 연구 배경: 왜 이런 연구가 필요했을까?

최근에는 우리 몸속 유전자 정보(RNA)를 분석해서 어떤 유전자가 얼마나 활동하고 있는지를 알아보는 기술, \*\*RNA 시퀀싱(RNA-seq)\*\*이 활발히 사용되고 있습니다. 이 기술은 암 연구, 희귀병 연구, 약물 반응 분석 등 정말 다양한 분야에 쓰이고 있죠.

문제는, 이 데이터를 분석하는 방법이 너무 많다는 겁니다. 연구자마다 사용하는 소프트웨어가 다르고, 사용하는 분석 방법에 따라 결과도 달라지곤 합니다. 그래서 과학자들은 **"어떤 분석 방법이 가장 적절할까?"** 라는 고민을 계속 해왔습니다.

### 🎯 연구 목적: 이 연구는 뭘 알아보려 했을까?

이 연구의 목표는 **RNA 유전자 데이터를 분석할 때 자주 사용되는 6가지 분석 방법**을 비교해서, 각각의 장단점을 파악하고 어떤 상황에 어떤 방법이 적절한지 가이드를 제공하는 것이었습니다.

### 🧪 연구 방법: 어떻게 비교했을까?

연구팀은 다음과 같은 순서로 연구를 진행했습니다.

1. **인간, 생쥐, 쥐, 원숭이** 등 4가지 생물에서 유전자 데이터를 모았습니다.

2. 6가지 RNA 분석 방법을 사용해 유전자 활동량을 측정했습니다.

3. 각각의 방법이 결과를 내는 데 걸리는 **시간**, **컴퓨터 자원 사용량**, **정확도**, **검증 성공률** 등을 비교했습니다.

4. **실제로 실험을 통해** 유전자 활동 결과가 맞는지도 검증했습니다 (qRT-PCR 기법).

> 사용된 대표 분석 방법들은:

>

> * DESeq2, edgeR, limma (많이 쓰이는 통계 기반 방법들)

> * Ballgown, Cuffdiff, Sleuth (다른 수학 모델 기반)

### 🔬 연구 결과: 어떤 차이점이 있었을까?

#### 1. **속도와 자원 사용량**

* **가장 빠르고 가벼운 방법**: Kallisto-Sleuth

* **가장 느리고 많은 자원이 필요한 방법**: Cufflinks-Cuffdiff

#### 2. **유전자 분석 결과의 차이**

* **표현량이 중간 수준인 유전자**의 경우, 대부분의 방법에서 비슷한 결과가 나왔습니다.

* 그러나 **활동이 매우 많거나 적은 유전자**는 방법에 따라 결과가 크게 달랐습니다.

#### 3. **차이가 나는 이유**

* 분석 방법마다 유전자 활동을 계산하는 방식이 다릅니다. 예를 들어, 어떤 방법은 활동이 적은 유전자에도 민감하고, 어떤 방법은 그걸 무시하기도 합니다.

* 통계 계산 방식이 달라서 어떤 유전자를 '차이 있음(변화 있음)'으로 판단하는 기준이 다르기도 했습니다.

#### 4. **실제 실험으로 검증**

* 생쥐 뇌에서 유전자 활동량을 측정한 21개 유전자를 따로 실험해 본 결과, **모든 분석법이 중간 활동량 유전자에 대해서는 비슷한 정확도를 보였습니다.**

### 🧠 고찰: 일반인에게 중요한 의미는?

이 연구는 RNA 분석 결과가 **분석 방법에 따라 달라질 수 있다**는 점을 보여주었습니다. 이는 곧, **우리가 보고 듣는 유전자 연구 결과도 사용하는 방법에 따라 다를 수 있다**는 걸 의미합니다.

예를 들어, 어떤 논문에서 “암 환자에게서 이 유전자가 많이 활동한다”고 나와 있어도, 사용된 분석법이 다르면 그 결과가 다를 수 있다는 것이죠. 이는 신약 개발, 질병 진단, 유전자 치료 분야에서 **데이터 해석의 신중함**이 필요하다는 것을 말해줍니다.

### 🌱 이 연구가 중요한 이유

1. **객관적 비교**: 자주 쓰이는 분석법 6가지를 실제 데이터로 정밀하게 비교해준 점에서 매우 유용한 기준이 됩니다.

2. **실용적 가이드 제공**: 연구자들이 **자신의 상황에 맞는 분석법을 선택할 수 있도록 도와줍니다.**

   예: 시간이 없거나 컴퓨터 성능이 낮을 때는 Kallisto-Sleuth 추천

3. **신뢰성 향상**: 중요한 유전자 연구를 할 때, **여러 방법을 병행하거나, 적절한 도구를 선택함으로써 더 정확한 결론**을 이끌 수 있다는 사실을 보여줍니다.

---

### ✨ 결론

유전자 분석 결과는 분석 방법에 따라 달라질 수 있으며, 특히 극단적으로 활동이 많거나 적은 유전자는 해석에 주의가 필요합니다. 이 연구는 다양한 분석법을 비교해 그 특징과 활용 상황을 제시함으로써, 생명과학 연구의 신뢰성과 효율성을 높이는 데 중요한 발판이 되었습니다.


NotebookLM

안녕하세요, 여러분! 우리 몸을 이루는 세포 속에는 우리의 특징을 결정하는 수많은 유전자들이 존재해요. 이 유전자들은 필요에 따라 켜지거나(발현) 꺼지면서 특정 단백질을 만들고, 우리 몸의 다양한 기능을 조절하죠. 마치 복잡한 오케스트라에서 악기들이 때로는 크게, 때로는 작게 소리를 내는 것과 같아요.

최근 생명과학 분야에서는 이 유전자들의 발현 정도를 매우 정밀하게 측정하는 **'RNA 시퀀싱(RNA-seq)'**이라는 기술이 널리 사용되고 있어요. 특정 질병이 있는 사람과 없는 사람, 혹은 약물 처리 전후의 세포에서 어떤 유전자들의 '소리'가 크게 달라졌는지(발현에 차이가 있는지)를 찾아내는 데 이 기술이 핵심적인 역할을 합니다.

하지만 이 RNA 시퀀싱 데이터를 분석하는 과정은 생각보다 복잡해요. 비유하자면, 오케스트라의 모든 악기가 내는 소리를 녹음했는데, 어떤 악기가 어떤 소리를 얼마나 크게 냈는지, 그리고 특정 시점에 소리가 얼마나 크게 달라졌는지 정확히 파악해야 하는 상황과 비슷하다고 할 수 있습니다. 이 과정에서 사용할 수 있는 분석 프로그램이나 방법들이 너무나 많아서, 연구자들은 어떤 방법을 선택해야 할지 고민에 빠지곤 합니다.

**이 연구는 왜 필요했을까요? (연구 배경)**

RNA 시퀀싱 기술이 발전하면서, 유전자 발현 변화를 분석하는 소프트웨어의 수가 엄청나게 늘어났습니다. 수백 가지의 프로그램들이 각기 다른 특징과 적용 분야를 가지고 있다고 해요. 하지만 이렇게 많은 선택지는 초보 연구자들에게는 큰 부담이 될 수 있어요. 같은 데이터라도 어떤 분석 방법을 사용하느냐에 따라 결과가 다르게 나올 수 있기 때문에, 연구의 목적과 컴퓨터 자원 등 여러 요소를 고려하여 가장 적합한 분석 방법을 선택하는 것이 매우 중요합니다. 그래서 이 연구는 여러 분석 방법들을 직접 비교하여 연구자들이 올바른 선택을 할 수 있도록 돕고자 했습니다.

**이 연구는 무엇을 알아내고 싶었을까요? (목적)**

이 연구는 현재 가장 널리 사용되는 RNA 시퀀싱 데이터 분석 절차 중 **여섯 가지 대표적인 방법들**을 선정하여 비교 분석하는 것을 목표로 했습니다. 구체적으로는 다음과 같은 점들을 알고자 했습니다.

*   각 분석 절차가 **얼마나 많은 컴퓨터 자원(예: 메모리, 시간)을 소모하는지**.

*   각 절차가 도출하는 **유전자 발현 값(유전자의 '소리 크기'), 발현 변화율(유전자의 '소리 변화 폭'), 그리고 통계적 유의성(p값, q값)**이 서로 얼마나 비슷한지.

*   각 절차가 찾아낸 '발현 차이가 나는 유전자들(DEGs)'이 실제 생물학적으로도 검증 가능한지, 즉 **실험실에서 실제로 확인했을 때의 '정확도'는 어떤지**.

이를 통해 연구자들에게 자신에게 맞는 최적의 분석 절차를 선택할 수 있는 실용적인 가이드라인을 제공하고자 했습니다.

**이 연구는 어떻게 진행되었을까요? (방법)**

연구팀은 총 6가지의 인기 있는 RNA 시퀀싱 분석 절차/파이프라인을 비교했습니다. 이 절차들은 크게 네 단계를 거치며 진행되는데, 각 단계에서 사용되는 주요 프로그램들은 다음과 같아요:

1.  **정렬 및 조합 (Phase 1: Alignment & Assembly):** RNA 시퀀싱으로 얻은 수많은 유전자 조각들을 '참조 유전체(기준이 되는 유전자 지도)'에 정확히 맞추는 단계입니다. 쉽게 말해, 찢어진 종이 조각들을 원래의 그림에 맞춰 붙이는 작업과 같아요. 여기서는 **HISAT2**와 **Kallisto** 같은 프로그램이 사용되었습니다. 특히 Kallisto는 '가상 정렬(pseudo-alignment)'이라는 새로운 방식을 사용하여 더 빠르다고 합니다.

2.  **정량화 (Phase 2: Quantification):** 각 유전자가 얼마나 많이 발현되었는지, 즉 '소리 크기'를 수치화하는 단계예요. **HTseq**, **Cufflinks**, **StringTie**, **Kallisto** 등이 사용되었는데, 이들은 크게 '개수(counts)' 기반 또는 'FPKM(Fragments Per Kilobase of transcript per Million mapped reads)'이라는 값 기반으로 유전자 발현량을 측정합니다.

3.  **정규화 (Phase 3: Normalization):** 다양한 실험 조건이나 샘플 간의 편차를 보정하여 데이터를 비교 가능한 상태로 만드는 단계입니다. 마치 오케스트라에서 녹음된 소리들이 각각 다른 마이크로 녹음되어 음량이 들쭉날쭉할 때, 이를 균일하게 맞춰주는 작업과 같아요.

4.  **발현 차이 분석 (Phase 4: Differential Expression Analysis):** 마지막으로, 정규화된 데이터를 바탕으로 어떤 유전자들이 통계적으로 유의미한 발현량 차이를 보이는지 분석합니다. **DESeq2**, **edgeR**, **limma**, **Ballgown**, **Cuffdiff**, **Sleuth** 등의 프로그램이 사용되었습니다.

연구팀은 생쥐, 인간, 쥐, 그리고 원숭이의 RNA 시퀀싱 데이터를 사용하여 이 여섯 가지 절차를 비교했어요. 또한, 실제 세포에서 유전자 발현량을 측정하는 **qRT-PCR**이라는 실험 방법을 통해 분석 절차들이 찾아낸 유전자들의 정확도를 검증했습니다.

**이 연구의 결과는 무엇이었을까요? (결과)**

다양한 비교를 통해 각 분석 절차의 장단점이 명확하게 드러났습니다.

*   **컴퓨터 자원 소모:**

    *   **Kallisto-Sleuth (6번 절차)**는 컴퓨터 자원을 가장 적게 사용하고 분석 속도가 가장 빨랐습니다. 마치 연비가 좋은 경차처럼 빠르고 효율적이라고 할 수 있습니다.

    *   반면 **Cufflinks-Cuffdiff (5번 절차)**는 가장 많은 컴퓨터 자원과 시간을 필요로 했습니다. 이는 마치 고급 스포츠카처럼 성능은 좋지만 유지 비용이 많이 드는 것에 비유할 수 있습니다.

    *   흥미롭게도, 고성능 컴퓨터에서는 하드 디스크의 읽기/쓰기 속도가 전체 분석 속도를 좌우하는 중요한 요소임이 밝혀졌습니다.

*   **유전자 발현 값 및 발현 변화율:**

    *   **HTseq로 정량화하는 절차들 (1, 2, 3번 절차)**은 유전자 발현 값, 발현 변화율, 그리고 통계적 유의성(p값, q값) 모두에서 **서로 매우 높은 상관관계**를 보였습니다. 이는 이 절차들이 유사한 정량화 및 정규화 방법을 사용하기 때문입니다.

    *   하지만 **유전자 발현 값의 가장 큰 차이는 '매우 높거나(소리가 너무 크거나) 매우 낮은(소리가 너무 작거나) 발현 수준을 가진 유전자'에서 발생**했습니다. 마치 오디오 볼륨을 너무 높이거나 낮출 때 왜곡이 생기는 것과 비슷하다고 볼 수 있어요.

    *   반대로 **중간 정도의 발현 수준을 가진 유전자들**의 경우, 대부분의 분석 절차에서 **유사한 발현 값**을 보였습니다.

*   **발현 차이 유전자(DEGs) 발견:**

    *   **StringTie-Ballgown (4번 절차)**은 **낮은 발현 수준의 유전자들을 더 잘 감지**하는 것으로 나타났습니다. 마치 아주 미세한 소리까지 잡아내는 민감한 마이크와 같습니다. 하지만 이 절차는 전반적으로 **가장 적은 수의 발현 차이 유전자(DEGs)를 도출**했습니다.

    *   **Kallisto-Sleuth (6번 절차)**는 **중간에서 높은 발현 수준의 유전자 분석에만 적합**할 수 있습니다. 낮은 발현 수준의 유전자들은 잘 찾아내지 못했습니다.

    *   **HTseq-DESeq2, -edgeR, -limma (1, 2, 3번 절차)**는 일반적으로 **더 많은 수의 DEGs를 도출**했습니다. 이 세 절차는 서로 찾아낸 DEGs도 높은 비율로 겹쳤습니다.

    *   Cufflinks-Cuffdiff (5번 절차)와 Kallisto-Sleuth (6번 절차)의 성능은 분석 데이터셋에 따라 차이가 있었습니다.

*   **생물학적 검증 정확도:**

    *   가장 중요한 부분 중 하나인데요, qRT-PCR을 통한 실제 검증 결과, **중간 발현 수준의 유전자들에 대해서는 모든 6가지 분석 절차의 검증 성공률이 약 60%로 비슷**했습니다. 이는 각 절차가 찾아낸 유전자들이 실제 생물학적으로 의미 있을 가능성이 유사하다는 것을 의미합니다.

**이 연구의 분석과 통찰은 무엇이었을까요? (고찰)**

이 연구는 RNA 시퀀싱 데이터 분석에서 중요한 세 가지 측면(컴퓨터 자원, 정량화된 값의 특징, DEGs의 검증율)을 포괄적으로 비교했습니다.

*   **자원 효율성:** 가장 효율적인 Kallisto-Sleuth와 가장 많은 자원을 요구하는 Cufflinks-Cuffdiff의 차이를 명확히 보여주었습니다.

*   **데이터 일관성:** HTseq를 사용하는 절차들(1, 2, 3번)은 결과의 일관성이 높다는 것을 재확인했습니다. 유전자 발현 값의 차이는 주로 극단적인 발현 수준에서 발생하며, 중간 발현 수준 유전자들은 어떤 방법을 써도 신뢰할 수 있다는 점이 중요합니다.

*   **검증 가능성:** 모든 절차가 중간 발현 수준 유전자에 대해 비슷한 검증율을 보였다는 것은, 분석 방법론에 관계없이 '중간' 수준의 유전자들은 비교적 안정적으로 파악될 수 있음을 시사합니다.

**이 연구가 다른 연구나 우리 일상과 사회에 어떤 영향을 미칠까요? (의의와 시사점)**

이 연구는 RNA 시퀀싱 데이터를 분석하는 연구자들이 **자신의 연구 목표와 보유한 컴퓨터 자원에 맞춰 가장 현명한 분석 방법을 선택할 수 있도록 구체적인 가이드라인을 제공**합니다. 마치 여행자가 목적지와 예산, 선호하는 교통수단(기차, 비행기, 자동차 등)에 따라 최적의 경로를 선택할 수 있도록 도와주는 지도와 같아요.

*   **컴퓨터 자원이 부족하다면?** **Kallisto-Sleuth (6번 절차)**를 추천합니다. 가장 빠르고 자원 소모가 적기 때문이죠.

*   **매우 낮은 발현 수준의 유전자까지 놓치고 싶지 않다면?** **HISAT2-StringTie-Ballgown (4번 절차)**이 더 민감하게 탐지할 수 있습니다.

*   **더 넓은 범위의 발현 차이 유전자를 찾고 싶다면?** **HTseq-DESeq2 (1번 절차)**가 가장 많은 DEGs를 도출하는 경향이 있습니다.

*   **컴퓨터 자원이 충분하다면?** 가장 이상적인 방법은 **여러 분석 절차를 동시에 사용하여 결과를 비교**하는 것입니다.

    *   **여러 절차에서 공통적으로 발견되는 유전자들만 선택**한다면, 가장 신뢰할 수 있는(정확도가 높은) 발현 차이 유전자를 얻을 수 있습니다.

    *   **여러 절차의 결과들을 조합**한다면, 더 포괄적이고 다양한 발현 차이 프로필을 얻을 수 있습니다.

이러한 가이드라인은 생명과학 연구의 효율성과 정확성을 높이는 데 크게 기여할 것입니다. 질병의 원인을 규명하거나 새로운 치료법을 개발하는 과정에서, 어떤 유전자가 발현에 차이를 보이는지 정확하게 아는 것이 매우 중요하기 때문입니다.

**이 연구가 왜 중요할까요? (연구의 중요성)**

이 연구는 복잡하고 빠르게 변화하는 RNA 시퀀싱 분석 분야에서 연구자들이 혼란을 겪지 않고, **더욱 신뢰할 수 있고 효율적인 연구 결과를 얻을 수 있도록 실질적인 해결책을 제시**합니다. 유전자 발현 연구는 암, 신경 질환, 감염병 등 다양한 질병의 이해와 치료법 개발에 필수적인 기초 데이터가 됩니다. 따라서 이 연구는 RNA 시퀀싱 데이터 분석의 '베스트 프랙티스(최선의 방법)'를 제시함으로써, **궁극적으로는 질병 메커니즘을 더 깊이 이해하고, 진단 및 치료 기술 발전에 기여할 수 있는 중요한 발판**을 마련했다고 할 수 있습니다. 정확하고 효율적인 분석은 시간과 비용을 절약할 뿐만 아니라, 더 많은 과학적 발견으로 이어질 가능성을 높이기 때문입니다.


grok

RNA-seq 분석 방법 비교 연구 요약

연구 배경: 왜 이 연구가 필요했을까?

우리 몸은 수많은 유전자로 이루어져 있고, 이 유전자들은 우리가 살아가는 데 필요한 다양한 역할을 해요. 예를 들어, 어떤 유전자는 우리가 음식을 소화하게 돕고, 또 다른 유전자는 면역력을 높여 병에 걸리지 않도록 보호하죠. 이런 유전자들의 활동을 알아내는 기술이 바로 RNA-seq인데, 이 기술은 유전자가 얼마나 활발히 일하는지(유전자 발현)를 측정하는 방법이에요. 문제는 RNA-seq 데이터를 분석하는 방법이 워낙 다양해서, 어떤 방법이 더 정확하고 효율적인지 알아내는 게 어려웠어요. 특히 초보 연구자들에게는 어떤 도구를 선택해야 할지 고민이 많았죠. 그래서 이 연구는 다양한 RNA-seq 분석 방법을 비교해서, 어떤 방법이 어떤 상황에 적합한지 알려주고자 했답니다!

연구 목적: 무엇을 알아내려고 했을까?

이 연구는 RNA-seq 데이터를 분석하는 여섯 가지 인기 있는 방법(도구들)을 비교해서, 각각의 장단점을 알아내는 걸 목표로 했어요. 구체적으로는:

각 방법이 얼마나 컴퓨터 자원을 많이 사용하는지(예: 시간, 메모리),

유전자 발현량이나 차이(어떤 유전자가 더 활발히 일하는지)를 얼마나 정확히 측정하는지,

그리고 실제로 이 방법들이 찾아낸 유전자들(차등 발현 유전자, DEGs)이 실제로 신뢰할 만한지를 확인하고 싶었어요.

쉽게 말해, 이 연구는 여러 분석 도구를 놓고 “어느 게 제일 빠르고, 정확하고, 믿을 만한 결과를 주는지”를 알아보려고 했답니다.

연구 방법: 어떻게 연구했나?

연구팀은 쥐, 사람, 쥐(또 다른 데이터), 원숭이에서 얻은 네 가지 RNA-seq 데이터를 사용했어요. 이 데이터를 여섯 가지 분석 방법(도구 조합)으로 분석했죠. 분석 방법은 다음과 같아요:

DESeq2, edgeR, limma: 이들은 HTSeq라는 도구로 유전자 발현량을 세고, 통계적으로 차이를 분석해요.

Ballgown: StringTie로 유전자 발현을 측정한 뒤 차이를 분석.

Cuffdiff: Cufflinks로 발현량을 측정하고 차이를 분석.

Sleuth: Kallisto라는 빠른 도구로 발현량을 측정하고 차이를 분석.

이들은 각각 다른 방식으로 데이터를 처리하는데, 예를 들어 어떤 도구는 유전자 발현을 숫자(카운트)로 세고, 어떤 도구는 비율(FPKM)로 계산해요. 연구팀은 각 방법이 얼마나 시간이 걸리고, 컴퓨터 메모리를 얼마나 쓰는지 측정했어요. 또, 이들이 찾아낸 유전자 발현량과 차등 발현 유전자(DEGs)를 비교해서 얼마나 비슷하거나 다른지 확인했죠. 마지막으로, 쥐 데이터에서 21개의 유전자를 골라 qRT-PCR이라는 실험으로 결과를 검증했어요. 이건 RNA-seq 결과가 실제로 맞는지 확인하는 방법이에요.

연구 결과: 어떤 결과가 나왔을까?

이 연구에서 나온 주요 결과를 쉽게 정리해볼게요:

컴퓨터 자원 사용: Kallisto-Sleuth 방법이 가장 빠르고 메모리를 적게 썼어요. 반면, Cuffdiff는 시간이 오래 걸리고 메모리도 많이 필요했죠. 예를 들어, Cuffdiff는 큰 데이터를 처리할 때 컴퓨터가 “헉헉”대는 느낌이었어요!

유전자 발현량: 중간 정도 발현량을 가진 유전자들(너무 많지도, 적지도 않은 유전자)은 어떤 방법을 써도 비슷한 결과를 냈어요. 하지만 아주 많이 발현되거나 아주 적게 발현되는 유전자들에서는 결과가 달랐어요. 즉, 극단적인 경우에서 방법에 따라 차이가 컸답니다.

차등 발현 유전자(DEGs): DESeq2, edgeR, limma는 비슷한 유전자들을 많이 찾아냈고, 결과도 신뢰도가 높았어요. 반면, Ballgown과 Cuffdiff는 찾는 유전자 수가 적거나 달랐죠. Kallisto-Sleuth는 중간~높은 발현 유전자에서만 잘 작동했어요.

검증 결과: qRT-PCR로 확인한 결과, 중간 발현량 유전자들의 경우 모든 방법이 비슷한 신뢰도를 보였어요. 즉, 중간 정도 유전자라면 어떤 방법을 써도 믿을 만한 결과를 얻을 수 있다는 거예요!

예시를 들자면, 이건 마치 요리 레시피를 비교하는 것과 비슷해요. 같은 재료(데이터)로 김치찌개를 만들 때, 어떤 사람은 전통 냄비를 쓰고, 어떤 사람은 압력솥을 쓰죠. 결과물은 비슷하지만, 시간과 노력은 다를 수 있어요. 이 연구는 어떤 “냄비”가 더 빠르고 맛있는 김치찌개를 만드는지 비교한 셈이에요.

고찰: 연구에서 배운 점은?

이 연구를 통해 알게 된 건, RNA-seq 분석 방법마다 장단점이 뚜렷하다는 점이에요. 예를 들어:

Kallisto-Sleuth는 빠르고 간단하지만, 아주 적게 발현되는 유전자에는 약점이 있어요.

Cuffdiff는 꼼꼼하지만 컴퓨터 자원을 많이 잡아먹죠.

DESeq2, edgeR, limma는 결과가 서로 비슷하고 신뢰도가 높아서, 안정적인 선택지예요.

하지만 데이터의 특성에 따라 결과가 달라질 수 있다는 점도 중요했어요. 예를 들어, 쥐 데이터와 사람 데이터에서 같은 방법이 조금 다르게 작동했죠. 또, 중간 발현 유전자에서는 모든 방법이 비슷한 결과를 냈지만, 극단적인 유전자(아주 많거나 적은 발현)에서는 차이가 컸어요. 이건 마치 사람마다 입맛이 달라서 같은 요리도 다르게 느껴지는 것과 비슷해요!

의의와 시사점: 이 연구가 우리 삶에 미치는 영향

이 연구는 RNA-seq을 사용하는 연구자들에게 “가이드북” 같은 도움을 줘요. 예를 들어, 컴퓨터 성능이 약한 연구실에서는 Kallisto-Sleuth를 쓰는 게 좋고, 시간과 자원이 많다면 DESeq2나 edgeR로 꼼꼼히 분석할 수 있어요. 이건 연구자들에게 시간과 비용을 아끼게 해주는 길잡이 역할을 하죠.

일상생활에도 간접적인 영향을 줄 수 있어요. RNA-seq은 암, 당뇨병, 심장병 같은 질병의 원인을 찾거나 치료법을 개발하는 데 쓰여요. 이 연구 덕분에 더 정확한 유전자 분석이 가능해지면, 새로운 약이나 맞춤형 치료법이 더 빨리 나올 수 있어요. 예를 들어, 특정 유전자가 암을 일으킨다고 밝혀지면, 그 유전자를 타겟으로 한 약을 만들 수 있죠. 또, 이 연구는 우리가 먹는 음식이나 생활습관이 유전자에 어떻게 영향을 미치는지 이해하는 데도 도움을 줄 수 있어요.

이 연구가 왜 중요한가?

이 연구는 RNA-seq이라는 복잡한 기술을 더 쉽게, 더 정확하게 사용할 수 있게 해주는 길잡이예요. 유전자 연구는 우리 건강과 질병을 이해하는 데 핵심적인 역할을 하죠. 이 연구 덕분에 과학자들은 더 효율적으로 데이터를 분석하고, 더 신뢰할 만한 결과를 얻을 수 있어요. 이는 결국 더 나은 치료법, 더 건강한 삶으로 이어질 수 있죠. 예를 들어, 이 연구가 없었다면, 과학자들이 엉뚱한 분석 방법으로 시간과 돈을 낭비했을지도 몰라요. 이 연구는 그런 시행착오를 줄여주고, 우리 모두에게 더 나은 미래를 가져다줄 가능성을 열어줍니다!


perplexity.ai

# RNA-Seq 분석 방법 비교 연구: 일반인을 위한 쉬운 해설

## 연구 배경: 왜 이런 연구가 필요했을까요?

최근 생명과학 연구에서 **RNA 시퀀싱(RNA-Seq)** 기술이 널리 사용되고 있습니다. 이 기술은 세포 안에서 어떤 유전자들이 얼마나 활발하게 작동하는지(유전자 발현)를 한 번에 분석할 수 있게 해줍니다. 하지만 RNA-Seq 데이터를 분석하는 소프트웨어와 방법이 너무 많아, 연구자들이 어떤 방법을 선택해야 할지 고민이 많아졌습니다. 특히, 분석 방법에 따라 결과가 달라질 수 있기 때문에, 신뢰할 수 있는 분석법을 찾는 것이 중요해졌습니다[1].

## 연구 목적: 무엇을 알고자 했을까요?

이 연구는 **여러 가지 RNA-Seq 분석 방법(총 6가지)**을 실제 데이터에 적용해 비교함으로써, 각 방법의 장단점과 특징을 알아보고, 연구자들이 상황에 맞는 최적의 분석법을 선택할 수 있도록 돕는 데 목적이 있습니다.

## 연구 방법: 어떻게 연구를 진행했을까요?

- **여섯 가지 대표적인 분석 절차**(예: DESeq2, edgeR, limma, Ballgown, Cuffdiff, Sleuth)를 선정했습니다.

- **네 가지 동물(쥐, 인간, 쥐, 원숭이)의 RNA-Seq 데이터**를 사용해, 각 분석법을 실제로 적용해 보았습니다.

- 각 방법이 **얼마나 많은 컴퓨터 자원(시간, 메모리 등)**을 쓰는지, **유전자 발현 값과 차이**, **통계적 신뢰도** 등을 꼼꼼히 비교했습니다.

- 일부 결과는 **실험(qRT-PCR)**으로 실제로 검증해 신뢰성을 확인했습니다.

## 연구 결과: 어떤 흥미로운 사실이 밝혀졌을까요?

### 1. 분석 방법에 따라 결과가 다를 수 있다

- **DESeq2, edgeR, limma** 등 일부 방법은 서로 결과가 매우 비슷했습니다. 이들은 주로 **중간 정도로 발현되는 유전자**에서 신뢰할 만한 결과를 보여줬습니다.

- **Ballgown, Cuffdiff, Sleuth** 등은 결과가 다소 달랐고, 특히 **발현량이 매우 높거나 낮은 유전자**에서는 차이가 컸습니다.

- **컴퓨터 자원** 면에서는 Kallisto-Sleuth가 가장 빠르고 적은 메모리를 썼고, Cufflinks-Cuffdiff는 가장 많은 자원을 필요로 했습니다.

### 2. 실제 실험 검증 결과

- 중간 정도로 발현되는 유전자에 대해서는, 어떤 분석법을 쓰더라도 실제 실험(qRT-PCR) 결과와 비슷한 신뢰도를 보였습니다.

- 즉, **일반적으로 많이 연구되는 유전자**라면 분석법에 따라 결과가 크게 달라지지 않을 수 있습니다.

### 3. 예시로 쉽게 설명하면

- 만약 여러분이 **특정 질병에서 많이 변하는 유전자**를 찾고 싶다면, 여러 분석법 중 DESeq2, edgeR, limma를 사용해도 무방합니다.

- 하지만 **아주 희귀하거나, 극단적으로 많이/적게 발현되는 유전자**를 연구한다면, 분석법 선택에 더 신경을 써야 합니다.

## 고찰: 이 연구가 주는 교훈

- **분석법 선택이 중요하다**: 연구 목적(예: 어떤 유전자를 찾고 싶은지), 컴퓨터 환경(빠른 분석이 필요한지, 메모리가 충분한지)에 따라 적합한 분석법이 다릅니다.

- **여러 방법을 함께 쓰는 것도 방법**: 컴퓨터 자원이 충분하다면, 여러 분석법을 동시에 써서 공통적으로 나타나는 결과를 신뢰하는 것이 더 안전할 수 있습니다.

- **중간 발현 유전자는 대체로 신뢰할 수 있다**: 대부분의 분석법이 중간 정도로 발현되는 유전자에서는 비슷한 결과를 내므로, 이 부분은 비교적 안심할 수 있습니다.

## 의의와 시사점: 우리 일상과 사회에 어떤 영향을 줄까요?

- **정확한 유전자 분석이 신약 개발, 질병 진단, 맞춤의학 등에 직접적으로 연결**됩니다. 분석법의 선택이 곧 연구의 신뢰도와 직결되므로, 이 연구는 생명과학 연구의 기초를 다지는 데 큰 역할을 합니다.

- **일반인에게도 중요한 이유**는, 앞으로 여러분이 접하게 될 건강검진, 유전자 검사, 맞춤형 치료 등에서 이런 분석법이 실제로 활용되기 때문입니다.

- **연구자뿐 아니라, 의료 현장과 사회 전반에 걸쳐** 데이터 분석의 신뢰성을 높이는 데 기여할 수 있습니다.

## 결론: 이 연구가 왜 중요할까요?

이 연구는 **RNA-Seq 데이터 분석 방법의 차이와 특징을 실제 데이터와 실험을 통해 꼼꼼히 비교**했습니다. 그 결과, 연구 목적과 환경에 따라 적합한 분석법을 선택하는 것이 얼마나 중요한지, 그리고 여러 방법을 조합해 신뢰도를 높일 수 있다는 점을 보여줍니다. 앞으로 **정확하고 신뢰할 수 있는 유전자 분석**이 우리 건강과 사회에 미칠 긍정적인 영향이 크기 때문에, 이 연구는 생명과학 분야뿐 아니라 우리 모두에게 중요한 의미를 갖습니다[1].



출처: @ye._.vely618

일요일, 11월 12, 2023

Long Read Sequencing을 전적으로 믿으셔야 합니다.

항상 느끼는것이지만 사람들은 익숙한것에 익숙하다는...
물론 이 글을 쓰는 본인도 별반 차이 없다는게 현실
그럼에도 불구하고 세상에는 익숙한것을 거부하고 한 걸음 나아가는 분들이 있어서 발전한다는...

오늘은 유전체분야에서 다들 익숙한 짧은길이의 시퀀싱 플랫폼 대신 Long read 시퀀싱 플랫폼을 왜 써야하는지 보여주는 논문이 있어 들고와봤습니다.

The blooming of long-read sequencing reforms biomedical research

DOI: 10.1186/s13059-022-02604-2


Long read 시퀀싱의 대표주자인 PacBio와 Nanopore가 나온지도 꽤 된것 같으나, 아직 주류 시퀀싱 플랫폼으로서는 자리매김을 하지 못한... 조명받지 못하고 있지만.. 그 진가를 하나둘씩 알게되고 안쓸수 없지 않을까 합니다.

물론 이 Long read 플랫폼을 안 쓸수 없지만 PacBio/Nanopore 플랫폼을 이용해서 진단 키트를 개발하여 돈을 벌 수 있게 된다는 것은 아닙니다. 오해 없으시기 바랍니다. Long read 플랫폼에서 기존 NGS 시스템에서 해온 것 같이 하려고 하면 개인적인 생각으로는 그냥 하지 마세요 라고 말하고 싶네요. 그런 생각이라면..


여튼 Long read 플랫폼은 genome assembly과 transcriptome 분야에서 활약을 하고 있다고 하는데 이는 기존 NGS의 짧은 read로 인한 한계를 극복하였기 때문에 가능한 당연한 결과였을 듯 합니다.

genome assembly를 설명하면서 이런 저런 설명을 하였는데 사실 T2T genome이 세상에 나왔는데 무슨 설명이 더 필요할지... 물론 다배체면서, repeat 서열이 엄청 긴 식물과 같은 다양한 생물의 유전체 연구에서는 아직 할일이 많이 남아있을듯 합니다.

그리고 더불어 transcriptome, 전사체에서도 두각을 나타내고 있다고 합니다. 이전에 PcaBio사에서 나온 Iso-Seq이라는 플랫폼이 있었는데 기존 숏리드 플랫폼으로는 할 수 없었던 full-length 유전자 서열을 확인하여, 다양한 gene의 isoform 을 확인 할 수 있었는데, 이제는 이는 당연한것이고, read count를 활용하여 정확한 발현 측정까지도.. 가능하다고 합니다. 또한 이 논문에서 처음 보았는데 exitron이라는 것도 확인하였다고 하네요.

더불어 당연히 암연구에서도 long-read 플랫폼이 중요한 역할을 하고 있는데, 시퀀싱을 위해 dna나 rna가닥을 증폭시키지 않은 특징 때문에 가능 응용법이긴하죠. 특히 nanopre 플랫폼을 사용하여 급성 골수성 백혈병 (AML) 환자의 RNA변이와 fusion gene 구조를 확인하기도 하였고, 대장암 세포주에서 5mC 위치와 양을 정량하여 각각 AML와 대장암 연구에 도움이 되고 있다고 합니다.

이렇듯 Long Read Seq 플랫폼은 이제 쓰지 않을 이유가 없는 플랫폼으로 우리 곁에 생각보다 가깝게 다가왔으나 생각에는 Long이든 Short든 정확하게 내 병의 이유를 빠르고 "싸게" 알아낼 수 있으면 모두 행복한 것 아니겠습니까?

그럴 수 있는 방법이 어딘가에 있겠죠, 없으면, 언제나 그러했듯이 우리는 또 해답을 찾아내겠죠. :)




출처: @ye._.vely618