레이블이 Genome Build인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Genome Build인 게시물을 표시합니다. 모든 게시물 표시

금요일, 9월 05, 2025

genome build가 RNA-seq 분석에 미치는 영향

오늘은 RNA-seq 분석시 genome build, version이 왜 중요한지에 대한 내용의 논문을 가져와봤습니다. 사실 RNA-seq 분석 할 때만 genome build가 중요할까요? DNA 분석 할 때도 중요합니다.

논문 제목은 Impact of genome build on RNA-seq interpretation and diagnostics으로 RNA-seq 분석 할 때, 특히나 희귀질환자들의 샘플을 분석할 때 얼마나 달라지게 되는지에 대해서 얘기하고 있습니다.

DOI: doi.org/10.1016/j.ajhg.2024.05.005


clova-x

Genome build의 선택은 RNA-seq 해석과 진단에 큰 영향을 미치며, 특히 특정 유전자의 발현과 정량화에 차이를 초래합니다. 연구에서는 hg19, hg38, CHM13 세 가지 genome build를 비교하여 그 영향을 조사하였습니다.

1. **연구 배경**

   - Transcriptomics는 유전적 변이와 질병 진단의 분자적 효과를 밝히는 데 중요한 도구입니다.

   - Genome build의 선택은 전사체 분석의 기초를 형성하며, 이에 따른 영향은 잘 알려져 있지 않습니다.

2. **연구 방법**

   - 386명의 희귀 질환 및 가족 구성원으로부터 얻은 샘플을 이용하여 RNA-seq 데이터를 수집하였습니다.

   - hg19, hg38, CHM13 각각의 genome build에 대해 전사체 데이터를 정렬하고 분석하였습니다.

3. **결과**

   - 약 39%의 유전자가 genome build에 의해 해석에 영향을 받았으며, 61%는 영향을 받지 않았습니다.

   - 1,492개의 유전자가 build-dependent quantification을 보였고, 3,377개의 유전자가 build-exclusive expression을 보였습니다.

4. **임상적 의미**

   - Build-dependent effects는 전사체 기반 진단 해석에 영향을 미칠 수 있으므로, 이러한 데이터를 교차 참조하는 것이 권장됩니다.

   - Genome build 선택은 다양한 전사체 응용 분야에서의 결정 과정에 유용한 정보를 제공할 것입니다.



gemini

## 논문 요약: '유전체 기준서(Genome Build)가 RNA 염기서열 분석 결과 해석과 진단에 미치는 영향'

이 논문은 유전체 기준서의 선택이 유전체 분석 결과에 미치는 영향을 연구한 논문으로, 특히 희귀 질환 진단과 같이 정확한 유전자 발현량 측정이 중요한 분야에서 이 문제가 얼마나 심각한지를 보여줍니다.

---

### 연구 배경 및 목적

인간의 모든 유전 정보를 담고 있는 유전체는 수많은 염기서열로 이루어져 있습니다. 과학자들은 이 방대한 유전체 정보를 효율적으로 연구하고 해석하기 위해 일종의 **표준 지도**를 만드는데, 이를 **'유전체 기준서(Genome Build)'**라고 합니다. [cite_start]유전자 발현량을 측정하는 RNA 염기서열 분석(RNA-seq)은 이 기준서에 따라 데이터를 정렬하고 분석합니다[cite: 445]. 

문제는 여러 종류의 유전체 기준서(예: hg19, hg38, 그리고 최신 버전인 CHM13)가 존재하며, 연구자들은 각기 다른 기준서를 사용한다는 점입니다. [cite_start]기존 연구들은 기준서의 선택이 유전 정보 해석에 영향을 미친다는 것을 보여주었지만 [cite: 457][cite_start], RNA 분석 결과에 미치는 영향에 대해서는 제대로 알려지지 않았습니다[cite: 466]. 

[cite_start]이 논문은 유전체 기준서의 차이가 RNA 염기서열 분석 결과, 특히 유전자의 발현량과 이상 발현 유전자를 찾아내는 데 얼마나 큰 영향을 미치는지를 종합적으로 평가하는 것을 목표로 합니다[cite: 471].

---

### 연구 방법

[cite_start]연구팀은 원인 미상의 희귀 질환을 앓고 있는 환자들과 그 가족 316명으로부터 얻은 386개의 다양한 생체 시료(혈액, 섬유아세포 등)를 사용했습니다[cite: 473, 674]. 이 시료들에서 얻은 RNA 염기서열 데이터를 **hg19, hg38, CHM13** 세 가지 유전체 기준서에 각각 정렬하고 분석했습니다. [cite_start]이후 각 기준서에서 측정된 유전자 발현량과 이상 발현 유전자의 차이를 비교 분석했습니다[cite: 472].

---

### 연구 결과

[cite_start]연구 결과, 대부분의 유전자(61%)는 어떤 기준서를 사용하든 발현량에 큰 변화가 없었습니다[cite: 459]. [cite_start]그러나 나머지 약 **39%의 유전자는 기준서에 따라 결과가 달라졌습니다**[cite: 446].

* [cite_start]**발현량 차이:** 두 기준서 간에 유전자 발현량에 유의미한 차이를 보인 유전자는 총 1,492개였습니다[cite: 460].

* [cite_start]**특정 기준서에서만 발현:** 특정 기준서에서만 발현되거나, 다른 기준서에서는 발현되지 않는 유전자는 총 3,377개였습니다[cite: 460]. [cite_start]이는 주로 해당 유전자가 특정 기준서에만 아예 등록되어 있지 않거나, 유전자의 복제본이 여러 개 있는 경우에 발생했습니다[cite: 51].

* [cite_start]**오류가 있는 유전자:** 특히 hg38 기준서에 존재했던 **SIK1** 유전자는 실제로는 잘못 복제된 유전자였습니다[cite: 131]. [cite_start]최신 버전인 CHM13에서는 이 오류가 수정되었는데, SIK1을 분석할 경우 어떤 기준서를 쓰는지에 따라 결과가 완전히 달라졌습니다[cite: 134]. 이처럼 기준서의 차이는 단순히 발현량만 바꾸는 것이 아니라, 어떤 유전자가 발현되는지 여부 자체를 바꾸는 결과를 낳았습니다.

---

### 고찰, 의의 및 시사점

이 연구는 RNA 염기서열 분석에서 유전체 기준서의 선택이 분석 결과의 정확성에 중요한 영향을 미친다는 것을 증명했습니다. [cite_start]특히 연구팀은 이러한 영향이 희귀 질환 진단과 관련된 **566개의 유전자** [cite: 460][cite_start]와 암과 관련된 **68개의 유전자** [cite: 242]에서 나타난다는 것을 확인했습니다. [cite_start]예를 들어, 잘못된 기준서의 선택은 환자의 유전자를 '정상'으로 오진하거나, 반대로 '이상'으로 잘못 진단할 수 있습니다[cite: 137].

결론적으로, 이 논문은 유전체 분석을 수행하는 연구자나 임상의에게 다음과 같은 중요한 시사점을 제시합니다.

1.  [cite_start]**기준서 선택의 중요성:** 분석을 시작하기 전에 어떤 유전체 기준서를 사용할지 신중하게 결정해야 합니다. hg38은 hg19보다 개선되었지만, 오류가 존재하며, 최신 버전인 CHM13은 완벽하지 않으므로 분석 목적과 대상에 따라 적절한 기준서를 선택해야 합니다[cite: 244, 245].

2.  [cite_start]**분석 결과 재확인:** 논문 저자들은 유전체 기준서의 차이로 인해 결과가 달라질 수 있는 유전자 목록을 제공했습니다[cite: 462, 227]. [cite_start]이 목록을 활용하여 분석 결과에 포함된 유전자들 중 오류 가능성이 있는지 확인하고, 필요시 다른 기준서로 재분석하거나 다른 도구를 사용해 결과를 교차 검증해야 합니다[cite: 247].

3.  [cite_start]**정확한 진단에 기여:** 이 연구는 유전체 분석의 정확도를 높여 희귀 질환과 암과 같은 질병의 정확한 진단에 기여할 수 있는 방법을 제시합니다[cite: 242].

이 연구는 유전체 분석의 신뢰성을 높여 **보다 정확한 진단과 치료 방향을 제시하는 데 필수적인 기초 자료**를 제공했다는 점에서 매우 중요합니다.


chatGPT

좋습니다. 업로드하신 논문은 \*\*「Impact of genome build on RNA-seq interpretation and diagnostics」 (Ungar et al., 2024)\*\*입니다. 아래는 생명과학을 전공하지 않은 일반 독자도 이해할 수 있도록 풀어서 쓴 요약입니다. 블로그 글처럼 읽히도록 A4 두 장 분량 내외로 정리했습니다.

---

## 인간 유전체 지도의 버전이 진단 결과에 미치는 영향

### 1. 연구 배경

우리는 흔히 ‘유전자 지도(참조 유전체, genome build)’를 이용해 환자의 DNA나 RNA 데이터를 해석합니다. 그런데 이 유전체 지도도 시간이 흐르면서 업데이트됩니다.

* **hg19 (2009년)**

* **hg38 (2013년)**

* **CHM13 (2022년, 최초의 빈틈 없는 유전체)**

연구자와 병원은 이런 지도를 기준으로 RNA 데이터를 정렬해 환자의 유전자 발현을 분석하고, 질병과 관련된 단서를 찾습니다. 하지만 지도 버전이 달라지면 같은 환자의 RNA 데이터도 다르게 해석될 수 있다는 우려가 있었습니다. 특히 드문 유전 질환을 진단할 때는 아주 작은 차이가 중요한 의미를 가지므로, 이 차이가 실제로 얼마나 큰지 확인할 필요가 있었습니다.

---

### 2. 연구 목적

연구진은 “같은 RNA 데이터를 다른 유전체 지도(hg19, hg38, CHM13)에 맞추었을 때, 유전자 발현 해석이 얼마나 달라지는가?”를 체계적으로 조사했습니다. 목표는 **진단 과정에서 유전체 지도 선택이 결과에 어떤 영향을 주는지**를 밝히고, 임상의와 연구자가 참고할 수 있는 **‘영향받는 유전자 목록’을 만드는 것**이었습니다.

---

### 3. 연구 방법

* **분석 대상**: 미국 희귀질환 네트워크(UDN)와 GREGoR 컨소시엄에서 모집된 환자 및 가족 316명, 총 386개 샘플

* **샘플 종류**: 혈액, 피부세포(섬유아세포), 근육, 줄기세포(iPSC) 등 6가지

* **분석 방식**: 같은 RNA 데이터를 세 가지 유전체 지도(hg19, hg38, CHM13)에 각각 정렬한 후,

  * 유전자 발현량 차이

  * 특정 질병과 관련된 유전자의 ‘비정상 발현(outlier)’ 여부

  * 해석 결과가 달라지는 임상적 의미

    를 비교했습니다.

---

### 4. 주요 결과

1. **대부분의 유전자는 안정적**

   약 61%의 유전자는 어떤 지도에 맞추든 결과가 크게 달라지지 않았습니다.

2. **하지만 39%는 지도 버전에 따라 달라짐**

   * 1,492개 유전자는 발현량이 지도에 따라 크게 달랐고

   * 3,377개 유전자는 특정 지도에서만 나타났으며

   * 9,077개 유전자는 주석(annotation) 방식에 따라 달랐습니다.

     이 중 **566개는 임상적으로 중요한 유전자**였습니다.

3. **실제 사례**

   * *CFHR1, CFHR3*: 희귀 신장질환과 관련 있지만, 최신 CHM13에서는 아예 보이지 않음 → 잘못된 해석 가능성.

   * *SIK1 / SIK1B*: 이전 버전(hg38)에 중복 오류가 있어 발현 해석이 왜곡됨 → CHM13에서 수정됨.

   * *POLR3A*: 희귀 뇌질환 유전자. hg19, hg38에서는 이상 신호가 뚜렷했지만, CHM13에서는 신호가 희미해져 진단이 어려워짐.

4. **희귀질환 진단에 직접적 영향**

   어떤 유전체 지도를 쓰느냐에 따라 특정 환자에서 “이상 유전자”로 분류되거나, 그냥 정상으로 넘어가기도 했습니다. 즉, 지도 선택이 진단의 성패를 좌우할 수 있습니다.

---

### 5. 연구의 고찰

* **hg19 ↔ hg38**: 비교적 유사하여 결과 차이가 적음.

* **hg38 ↔ CHM13**: 차이가 크며, CHM13은 완전한 유전체라는 장점이 있지만 아직 다양한 집단의 유전적 다양성을 충분히 반영하지 못함.

* **실무적 현실**: 많은 연구실과 병원은 비용·시간 문제로 여전히 오래된 hg19를 사용하고 있음. 하지만 이는 일부 질환에서 잘못된 해석으로 이어질 수 있음.

---

### 6. 의의와 시사점

* 이 연구는 **유전체 지도 선택이 단순한 기술적 문제가 아니라, 환자의 진단과 치료 결정에 직결될 수 있다**는 점을 보여줍니다.

* 연구진은 **지도 버전에 영향을 받는 유전자 데이터베이스**를 공개해, 임상의와 연구자가 진단 시 참고할 수 있도록 했습니다.

* 향후에는 **개인 맞춤형·다인종 기반 유전체 지도(팬게놈, pangenome)** 개발이 필요합니다. 그래야 아시아, 아프리카 등 다양한 인구 집단에서도 오류 없는 진단이 가능해집니다.

---

### 7. 이 연구가 중요한 이유

RNA 분석은 희귀질환이나 암 진단에서 점점 더 중요한 도구가 되고 있습니다. 그런데 지금까지는 “어떤 유전체 지도를 쓰든 결과는 비슷할 것”이라고 막연히 믿는 경우가 많았습니다. 이 연구는 그 믿음이 틀릴 수 있으며, **잘못된 지도 선택이 곧 잘못된 진단으로 이어질 수 있다**는 사실을 명확히 보여주었습니다. 앞으로 연구자와 의사들은 유전체 지도의 선택을 신중히 고려해야 하며, 이 연구가 제공한 데이터는 그 길잡이가 될 것입니다.

---

👉 요약하면, 이 논문은 \*\*“같은 RNA 데이터라도 어느 유전체 지도를 쓰느냐에 따라 해석이 달라지고, 이는 희귀질환 진단에 큰 영향을 준다”\*\*는 사실을 밝혔습니다. 따라서 임상과 연구 모두에서 **유전체 지도 선택은 단순한 기술적 선택이 아니라 환자의 생명을 좌우하는 중요한 결정**임을 알려줍니다.


grok3

### RNA-seq 분석에서 게놈 빌드가 미치는 영향: 희귀 질환 진단의 함정

#### 연구 배경

인간의 유전 정보를 분석할 때, RNA-seq(유전자 발현을 측정하는 기술)는 희귀 질환의 원인을 밝히거나 진단하는 데 큰 역할을 합니다. 하지만 RNA-seq 데이터를 해석할 때 기반이 되는 '게놈 빌드'(인간 유전체의 표준 지도 버전)가 다르면 결과가 달라질 수 있다는 사실이 알려져 있었습니다. 예를 들어, hg19(2009년 버전), hg38(2013년 버전), CHM13(2022년 완전 버전)처럼 빌드가 업데이트될수록 지도의 정확도가 높아지지만, 기존 연구 대부분이 오래된 hg19를 사용하고 있어 문제로 지적됐습니다. 이 연구는 이러한 빌드 차이가 RNA-seq 결과에 구체적으로 어떤 영향을 미치는지 밝히려 했습니다.

#### 연구 목적

연구자들은 hg19, hg38, CHM13 세 빌드가 RNA-seq에서 유전자 발현량 측정과 이상(아웃라이어) 검출에 미치는 영향을 평가했습니다. 특히 희귀 질환 환자 샘플을 대상으로, 빌드 변경이 약 39%의 유전자 해석에 영향을 준다는 사실을 확인하고, 이를 진단에 활용할 수 있는 자원을 만들었습니다. 궁극적으로 RNA-seq 기반 진단의 신뢰성을 높이는 데 초점을 맞췄습니다.

#### 연구 방법

미국 미진단 질환 네트워크(UDN)와 GREGoR 컨소시엄에서 316명(희귀 질환 환자 204명 포함)의 386개 샘플을 수집했습니다. 샘플은 혈액, 섬유아세포, PBMC(말초혈액 단핵세포), 근육, iPSC(유도 만능 줄기세포), iPSC 유래 신경 전구세포 등 6가지 조직에서 왔습니다. RNA-seq를 수행해 각 샘플의 데이터를 세 빌드에 각각 정렬하고, 유전자 발현량(TPM 단위)을 측정했습니다. 빌드 간 차이를 분석하기 위해 차별 발현 분석(LIMMA-DREAM), 어노테이션 비교, 빌드 독점 발현 식별 등을 했습니다. 임상적으로 중요한 유전자는 OMIM, COSMIC, OpenTargets 같은 데이터베이스를 참조해 분류했습니다.

#### 연구 결과

전체 유전자의 61%는 빌드 변경에 영향을 받지 않았지만, 나머지 39%는 달랐습니다. 구체적으로:

- 1,492개 유전자가 빌드에 따라 발현량이 크게 달라졌습니다(예: hg38과 CHM13 비교에서 1,341개).

- 3,377개 유전자가 특정 빌드에서만 발현됐습니다(발현 기준: 샘플 30% 이상에서 TPM >0.1).

- 9,077개 유전자가 빌드 어노테이션(유전자 구조 설명)에 따라 다르게 나타났습니다.

이 중 566개는 임상적으로 중요한 유전자(희귀 질환 관련), 512개는 OMIM(멘델 유전병) 유전자로, 예를 들어 SIK1/SIK1B(뇌전증 관련)는 hg38에서 잘못 복제돼 발현이 분산됐지만 CHM13에서 정확히 측정됐습니다. 또 CFHR1/CFHR3(비전형 용혈성 요독증후군 관련)는 CHM13에서 누락돼 hg38 사용을 권장했습니다. 빌드 차이는 발현 이상 검출에도 영향을 주며, 큰 발현 차이가 큰 이상 변화로 이어졌습니다.

#### 고찰

빌드 차이는 주로 게놈 어셈블리의 오류(예: 중복 영역, 갭), 어노테이션 업데이트, 유전자 모델 변화에서 왔습니다. hg19는 오래돼 오류가 많아 hg38/CHM13으로 이동할수록 정확도가 높아지지만, CHM13은 Y 염색체처럼 일부 미완성 부분이 있어 주의가 필요합니다. 예를 들어 U2AF1(골수이형성증후군 관련)은 hg38에서 새 컨티그 추가로 발현이 증가했지만, 여전한 오류로 CHM13에서 1,000배 이상 높게 나왔습니다. 이는 RNA-seq 읽기가 빌드에 따라 다르게 매핑되기 때문으로, 특히 다중 매핑 지역(예: HLA 영역)에서 문제가 큽니다. 연구자들은 빌드 독점 발현의 90% 이상이 이러한 구조적 변화로 설명된다고 봤습니다.

#### 의의와 시사점

이 연구는 빌드 의존적 유전자 목록(테이블 S1~S4)을 제공해 RNA-seq 해석 시 교차 검증을 권장합니다. 희귀 질환 진단에서 빌드를 무시하면 오진 위험이 커지므로, 연구소나 병원은 hg38이나 CHM13으로 전환을 고려해야 합니다. 시사점으로는 비용과 시간 때문에 hg19를 고수하는 랩이 많지만, 이로 인한 오류가 진단 정확도를 떨어뜨릴 수 있으니 빌드 선택을 전략적으로 해야 한다는 점입니다.

이 연구가 중요한 이유는 RNA-seq가 점점 진단의 표준이 되는데, 빌드 차이를 무시하면 환자 39%의 유전자 해석이 왜곡될 수 있기 때문입니다. 정확한 게놈 지도를 바탕으로 한 진단이 더 많은 생명을 구할 수 있도록 돕는 기반이 됩니다. (약 750단어)


NotebookLM

## 유전체 '설계도' 선택이 RNA 분석 결과에 미치는 숨겨진 영향: 정확한 진단과 치료를 위한 필수 지식

우리 몸의 유전 정보는 생명의 설계도와 같습니다. 이 설계도에는 단백질을 만드는 방법이 담겨 있는데, RNA 시퀀싱(RNA-seq) 기술은 이 설계도 중 실제로 활성화되어 단백질을 만들고 있는 RNA의 종류와 양을 분석하는 강력한 도구입니다. 이 기술은 질병의 원인을 밝히고 진단하는 데 점점 더 중요해지고 있습니다.

하지만 이 연구는 RNA 시퀀싱 데이터를 분석할 때 우리가 사용하는 '유전체 설계도 버전(genome build)' 선택이 생각보다 훨씬 더 중요한 영향을 미친다는 사실을 밝혀냈습니다. 이는 마치 같은 도면을 보고도 어떤 기준으로 해석하느냐에 따라 전혀 다른 결론에 도달할 수 있는 것과 같습니다.

### 연구 배경: 유전체 설계도 버전, 왜 중요한가?

유전체 '빌드(build)'는 RNA 시퀀싱 데이터를 정렬하고 해석하는 데 사용되는 기준 염기서열을 의미합니다. 예를 들어, 현재 가장 널리 사용되는 인간 유전체 빌드로는 hg19 (2009년 출시)와 hg38 (2013년 출시)이 있으며, 최근에는 완전히 공백이 없는 새로운 빌드인 CHM13도 등장했습니다.

과거 연구들은 유전체 빌드 선택이 DNA 변이 해석에 영향을 미치며, 질병 진단율에도 영향을 줄 수 있음을 보여주었습니다. 하지만 RNA 분석, 즉 유전자의 발현량 측정이나 비정상적인 발현 유전자(outlier gene) 탐지에 유전체 빌드가 얼마나 큰 영향을 미 미치는지에 대한 연구는 상대적으로 부족했습니다. 현재 많은 연구실과 상업 기관들이 여전히 hg19 빌드를 사용하고 있는데, 이는 새로운 빌드로 전환하는 데 드는 시간, 비용, 인력 문제 때문입니다. 그러나 이러한 빌드 선택의 중요성이 제대로 이해되지 않으면, 중요한 RNA 분석 결과가 잘못 해석될 위험이 있습니다.

### 연구 목적: 유전체 빌드가 RNA 분석에 미치는 광범위한 영향 규명

이 연구의 주된 목적은 hg19, hg38, 그리고 CHM13이라는 세 가지 주요 인간 유전체 빌드가 **RNA 시퀀싱 데이터의 해석에, 특히 유전자 발현 정량화와 비정상 유전자 발현 탐지에 어떻게 영향을 미치는지 포괄적으로 평가하는 것**이었습니다. 특히 연구팀은 이러한 빌드 선택이 희귀 질환 진단에 어떤 영향을 미칠 수 있는지를 중점적으로 탐구했으며, 향후 연구와 진단을 돕기 위해 빌드에 따라 영향을 받는 유전자 목록을 제공하고자 했습니다.

### 연구 방법: 대규모 희귀 질환 환자 데이터를 활용한 다각도 분석

연구팀은 **미국 미진단 질환 네트워크(UDN) 및 희귀 질환 유전학 연구(GREGoR) 컨소시엄에 참여한 316명의 386개 샘플**을 분석했습니다. 이 중 204명은 신경학적, 근골격계 또는 면역 관련 증상을 보이는 다양한 희귀 질환 환자들이었습니다. 혈액, 섬유아세포, 단핵구, 근육 등 6가지 다양한 생체 시료에서 RNA 시퀀싱 데이터를 얻었고, 이 데이터를 각각 hg19, hg38, CHM13 빌드에 맞춰 정렬하고 분석했습니다.

핵심 분석은 다음과 같이 진행되었습니다:

*   **유전자 발현 정량화:** 각 빌드에서 유전자 발현량을 측정하고, 빌드 간 발현량 차이를 비교했습니다.

*   **비정상 유전자 발현 및 스플라이싱 탐지:** 유전자의 발현이 통계적으로 비정상적인지, 또는 RNA 스플라이싱 과정에 이상이 있는지를 각 빌드별로 분석하고, 그 일관성을 비교했습니다.

*   **어노테이션 및 유전자 모델 비교:** 각 빌드의 유전자 어노테이션(유전자 구조 정보)과 유전자 서열이 어떻게 다른지 상세히 분석했습니다.

*   **질병 관련 유전자 식별:** OMIM, COSMIC 등 여러 질병 데이터베이스를 활용하여 의학적으로 중요한 유전자들을 식별하고, 이들이 빌드 변경에 얼마나 영향을 받는지 평가했습니다.

이러한 포괄적인 접근 방식을 통해 연구팀은 유전체 빌드 선택이 RNA 시퀀싱 데이터 해석에 미치는 영향을 다각적으로 분석할 수 있었습니다.

### 연구 결과: 39%의 유전자 해석에 영향을 미치는 빌드 선택

이 연구의 가장 중요한 발견은 **일반적으로 수집되는 생체 시료에서 약 39%의 유전자 해석이 인간 유전체 빌드 변경에 따라 영향을 받는다는 것**입니다. 이 외에도 다음과 같은 구체적인 결과들이 도출되었습니다.

*   **유전자 정량화 및 어노테이션의 차이:**

    *   대부분의 유전자(61%)는 빌드 변경에 영향을 받지 않았지만, 1,492개의 유전자는 빌드에 따라 정량화 방식이 달랐고, 3,377개의 유전자는 특정 빌드에서만 발현되는(build-exclusive expression) 것으로 나타났으며, 9,077개의 유전자는 어노테이션(유전자 구조 정보)에 따라 발현이 달라졌습니다.

    *   특히, CHM13 빌드는 기존 빌드(hg19, hg38)보다 유전자 모델이나 유전체 서열에서 더 많은 차이를 보였습니다. 예를 들어, OMIM에 등재된 희귀 질환 관련 유전자 중 **hg38과 CHM13에서 51.1%가 유전자 모델의 차이**를 보인 반면, hg19와 hg38에서는 2.8%만이 차이를 보였습니다. 이는 CHM13이 기존 빌드보다 약 200Mb 더 많은 서열 정보를 포함하고 있기 때문입니다.

*   **의학적으로 중요한 유전자들의 오해석 가능성:**

    *   **CFHR1 및 CFHR3 유전자 (비정형 용혈성 요독 증후군 관련):** 이 유전자들은 hg19와 hg38에서 발현이 감지되었지만, CHM13 어노테이션에는 아예 존재하지 않았습니다. 이는 CHM13이 단일 세포주를 기반으로 구축되었기 때문에 발생한 문제로 보이며, 이 유전자군 평가 시에는 hg38 사용이 권장됩니다.

    *   **SIK1/SIK1B 유전자 (발달 및 간질성 뇌병증 관련):** hg38에는 SIK1과 SIK1B라는 유사 유전자 영역이 잘못 중복되어 있었습니다. 이 중복이 수정된 CHM13에서는 SIK1B의 발현이 더 높게 나타났습니다. hg38에서 SIK1을 평가하면 잘못된 중복으로 인해 판독값이 분산될 수 있으므로, 이 유전자 영역 평가 시에는 CHM13 사용이 권장됩니다.

    *   **U2AF1 유전자 (골수 이형성 증후군 관련 암 유전자):** hg19에 비해 hg38에서 7.83배, CHM13에서는 hg38에 비해 1033배나 높은 발현량 차이를 보였습니다. 이는 빌드마다 해당 유전자의 유전체 구조에 문제가 있었기 때문입니다.

    *   **POLR3A 유전자 (희귀 신경계 질환 관련):** 한 희귀 질환 환자의 경우, 진단 유전자인 POLR3A가 hg19와 hg38에서는 가장 비정상적으로 저발현된 유전자 상위 5위 안에 들었으나, CHM13에서는 41위로 크게 밀려났습니다. 이는 CHM13에서 이 유전자의 다중 매핑(multimapping, RNA 서열이 여러 위치에 정렬될 수 있는 현상) 비율이 높았기 때문입니다.

    *   **TERC 유전자 (텔로미어 질환 관련):** hg19에서만 발현이 감지되었는데, 이는 hg19에서는 온전히 매핑되었지만 hg38과 CHM13에서는 15%만 매핑되었기 때문입니다. 이로 인해 hg19에서 이 유전자가 최상위 비정상 유전자로 오인될 수 있었습니다.

    *   **HLA-DRB5 유전자 (류마티스 관절염 관련):** CHM13에서만 최상위 스플라이싱 비정상 유전자로 감지되었는데, 이 유전자가 CHM13에만 있는 새로운 서열 영역에 걸쳐 있었기 때문입니다. 이로 인해 CHM13에서 6.4배 높은 발현량을 보였습니다.

*   **비정상 유전자 탐지 및 진단 우선순위의 변화:**

    *   유전자 발현량이 빌드에 따라 크게 다를수록 비정상 유전자(outlier) 여부를 나타내는 Z 점수도 더 크게 변화하는 경향을 보였습니다.

    *   **총 68개의 OMIM 등재 유전자**에서 발현 비정상 유전자 상태가, **99개의 OMIM 등재 유전자**에서 스플라이싱 비정상 유전자 상태가 빌드에 따라 실질적으로 달라졌으며, 이는 희귀 질환 진단에 영향을 미칠 수 있음을 의미합니다.

    *   희귀 질환 환자의 상위 20개 비정상 유전자 목록은 hg19와 hg38 사이에서는 비교적 일관적이었지만, hg38과 CHM13 사이에서는 더 많은 변화를 보였습니다. 특히, 어노테이션 특정 유전자들이 상위 후보 유전자 목록에 나타나 진단 오류를 유발할 가능성도 확인되었습니다.

### 고찰 및 시사점: 정확한 진단을 위한 빌드 선택의 중요성

이 연구는 RNA 시퀀싱 데이터를 이용한 유전자 발현 및 스플라이싱 분석에서 유전체 빌드 선택이 매우 중요하며, 때로는 진단에 결정적인 영향을 미칠 수 있음을 강력히 시사합니다.

*   **빌드 간 일관성과 한계점:** 대부분의 유전자는 빌드 변경에 영향을 받지 않지만, 일부 핵심 유전자들은 발현량, 구조, 비정상 여부 등에서 상당한 차이를 보였습니다. 특히 CHM13은 가장 완벽한 유전체로 평가받지만, 기존 빌드에 비해 유전자 어노테이션 및 모델에서 더 많은 차이를 보여, 특정 유전자 분석에서는 오히려 혼란을 야기할 수 있음을 확인했습니다.

*   **어노테이션 특정 유전자 및 빌드 배타적 유전자:** 이 유전자들은 종종 오류가 있거나 배제된 영역과 겹치며, 비정상 유전자 목록에 나타나 잘못된 진단 후보가 될 수 있습니다. 복잡한 유전자 모델의 경우, 게놈 기반 정렬을 사용하는 정량화 방법이 정확도를 높일 수 있습니다.

*   **다양한 분야로의 확장:** 이러한 발견은 희귀 질환 진단뿐만 아니라 RNA 시퀀싱을 사용하는 모든 인간 유전학 연구에 광범위한 영향을 미칩니다. 예를 들어, **68개의 암 관련 유전자**가 빌드에 따라 발현량 예측치에 차이를 보였으며, 이는 암 진단 및 치료법 개발에도 빌드 선택의 중요성을 강조합니다.

*   **인종적 다양성 고려:** CHM13 빌드는 유럽계 유전적 배경을 가진 단일 세포주에서 유래했기 때문에, 비유럽계 조상을 가진 개인에게는 결과의 신뢰도가 낮을 수 있다는 점이 지적되었습니다. 이는 향후 판게놈 프로젝트와 같은 노력을 통해 개선될 것으로 기대됩니다.

### 이 연구가 중요한 이유

이 연구는 다음과 같은 이유로 매우 중요합니다.

첫째, **RNA 시퀀싱 데이터 해석에 있어 유전체 빌드 선택이 단순한 기술적 세부사항이 아니라, 데이터의 정확성과 임상 진단 결과에 직접적인 영향을 미치는 핵심 요소임을 분명하게 입증했습니다**. 이는 잘못된 빌드 선택이 오진 또는 진단 기회 상실로 이어질 수 있음을 경고합니다.

둘째, **빌드 변경에 따라 해석이 크게 달라지는 구체적인 유전자 목록과 사례를 제공하여, 연구자와 임상의가 RNA 시퀀싱 데이터를 보다 신뢰성 있고 견고하게 해석할 수 있도록 돕는 실질적인 자원(database)을 마련했습니다**. 이는 특히 희귀 질환 진단 분야에서 정확성을 높이고, 불필요한 시간과 자원 낭비를 줄이는 데 기여할 것입니다.

셋째, **빌드 간의 구조적 차이, 어노테이션의 변화, 그리고 이러한 차이가 유전자 발현 및 비정상 유전자 탐지에 미치는 영향을 생물학적 관점에서 명확히 밝힘으로써, RNA 시퀀싱 기술의 이해를 심화하고 향후 분석 파이프라인 개발의 기초를 제공합니다.** 또한, 새로운 빌드(CHM13)의 장점과 한계점을 동시에 제시하며, 특히 인종적 다양성을 고려한 유전체 연구의 필요성을 다시 한번 강조합니다.

결론적으로, 이 연구는 유전체 빌드 선택이 RNA 시퀀싱 기반의 모든 생명과학 연구와 임상 진단에 있어 필수적으로 고려해야 할 사항임을 강력하게 상기시켜 줍니다. **정확한 유전체 설계도 버전의 선택은 결국 환자 개개인에게 더욱 정확하고 개인화된 진단과 치료를 제공하는 데 필수적인 첫걸음이 될 것입니다.** 이는 우리가 유전 정보의 잠재력을 최대한 활용하고, 궁극적으로 질병과의 싸움에서 승리하는 데 중요한 발판이 될 것입니다.


perplexity.ai

이 논문은 ‘참고 유전체(Genome Build)’가 RNA 시퀀싱(RNA-seq) 연구와 유전자 진단 결과에 얼마나 큰 영향을 미치는지 밝혀낸 최신 연구입니다.[1]

## 연구 배경

최근에는 유전자 정보를 바탕으로 다양한 질병의 원인과 진단을 찾는 ‘전사체 분석(Transcriptomics)’이 활발히 사용되고 있습니다. 이 과정에서 RNA 시퀀싱 데이터를 어느 기준 유전체(예: hg19, hg38, CHM13)에 맞추어 해석할지가 매우 중요합니다. 기존 연구들은 선택한 유전체 기준이 변이 해석과 진단 결과에 영향을 준다는 사실을 일부 밝힌 바 있으나, 전사체 분석(RNA-seq)에서 기준 유전체 선택이 진단과 결과에 얼마나 영향을 주는지는 명확하지 않았습니다.[1]

## 연구 목적

이 논문은 다양한 인간 유전체 기준(hg19, hg38, CHM13)을 사용해서 RNA-seq 데이터를 분석할 때, 유전자 발현량 산출과 특이 발현(outlier) 유전자 탐지 결과가 어떻게 달라지는지 구체적으로 밝히는 것을 목표로 했습니다.[1]

## 연구 방법

연구진은 희귀질환 및 가족 구성원으로 이루어진 ‘희귀 질환 네트워크’ 코호트에서 386명의 샘플 RNA-seq 데이터를 모아, 세 가지 다른 유전체 기준(hg19, hg38, CHM13)을 사용해 각각 분석했습니다. 혈액, 피부세포, 뇌 전구세포 등 여러 조직에서 RNA-seq을 수행하고, 각 기준 유전체에 맞춰 분석했습니다. 모든 과정은 최대한 일관적으로 동일하게 진행해, 실질적으로 기준 유전체 선택만 바꾼 셈입니다.[1]

## 주요 결과

- 기준 유전체의 변화로 인해, 전체 유전자 중 약 39%에서 발현량 산출과 해석에 차이가 생겼습니다. 

- 대부분의 유전자(약 61%)는 기준 유전체가 달라져도 발현량에 큰 변화가 없었습니다. 하지만 1,492개의 유전자는 기준에 따라 발현량 자체가 달라졌고, 3,377개는 특정 기준에서만 검출됐습니다.[1]

- 의료적으로 중요한 유전자 그룹(OMIM에 수록된 유전자 등)에서도 566개의 유전자가 기준에 따라 해석이 달라졌습니다.

- 기준 사이에서 유전자 발현량의 차이가 크면, 특이 발현(outlier) 탐지에도 더 큰 변화가 생길 확률이 높았습니다.

- 예를 들어, CHM13 기준에서는 일부 유전자가 누락되거나 기존과 다른 형태로 검출됐고, 이로 인해 질병 진단에 영향을 줄 수 있습니다. 실례로, 드물게 나타나는 유전 질환이나 암을 유발하는 유전자군도 기준에 따라 표준 발현치나 이상치가 달라졌습니다.

## 주요 논의와 시사점

- 기준 유전체별로 ‘주로 검출되는 유전자’가 달라져, 특정 질환 관련 유전자가 아예 탐지되지 않을 수 있습니다. 예를 들어, 드물게 나타나는 혈액 관련 질환의 병인 유전자인 CFHR1, CFHR3는 CHM13 기준에서는 제대로 검출되지 않았고, 이에 따라 환자의 원인 유전자 진단이 달라질 수 있습니다.[1]

- 기준 유전체가 바뀌면 유전자 구조(트랜스크립트·엑손 등)가 변경되기도 하고, 유전자 해석에 쓰이는 “비정상 발현” 기준(outlier Z-score) 또한 달라져, 진단 우선순위(top 20 outlier)가 크게 변할 수 있습니다.

- 논문은 실질적으로 RNA-seq 기반 진단 및 연구 시, 반드시 ‘기준 유전체가 미치는 영향’을 검토할 것을 강력히 권고하며, 연구진이 직접 구축한 ‘기준 유전체별 영향받는 유전자 목록’을 공개해(논문 supplementary tables), 향후 혼란을 막고자 했습니다.[1]

- 최신 유전체 기준(CHM13)이 여러 면에서 완성도가 높지만, 일부 유전자는 기존 기준(hg38 등)에만 나타나므로, 한 가지 기준만 사용하는 경우 진단이 누락될 위험이 있습니다.

## 연구의 중요성

이 연구는 한 번 정해진 기준 유전체가 ‘불변의 해법’이 아니라, RNA-seq 해석과 질병 진단에 지속적으로 영향을 끼친다는 점을 실례와 통계적으로 입증했습니다. 이는 ‘1인 1유전체’, 유전체 표준화 논의, 희귀·복합질환 환자 진단, 맞춤형 치료·연구에까지 필수 정보를 제공합니다. 즉, RNA-seq이나 유전자 기반 진단 연구의 시작점에서 기준 유전체 선택과 재해석의 중요성을 실질적, 구체적으로 알려준 논문입니다.[1]

**이 논문은 RNA-seq 데이터 해석이나 유전체 기반 유전자 진단에서 기준 유전체 선택이 결정적인 역할을 한다는 것을 입증했으며, 앞으로 임상·연구 현장에서 표준 유전체 선정과 결과 검증이 필수임을 강조합니다**.[1]




출처: @ye._.vely618