레이블이 SV인 게시물을 표시합니다. 모든 게시물 표시
레이블이 SV인 게시물을 표시합니다. 모든 게시물 표시

월요일, 3월 02, 2026

통계적 확률을 넘어 개인의 정밀 의학으로: 유방암 환자를 위한 유전체 가이드

유방암은 전 세계 여성에게 가장 높은 발생율을 보이는 암이나, 생존율이 높은 편에 속한다고 하네요. 그러나 일부 나이도 젊고, 종양 크기도 작아 "저위험군"으로 분류되었던 환자가 예상보다 빨리 재발하거나 사망하는 경우가 있었다고 합니다. 그래서 이 공백에 대해서 연구한 내용을 가져와봤습니다.

제목은 Clinical potential of whole-genome data linked to mortality statistics in patients with breast cancer in the UK: a retrospective analysis으로 연구 결과 특정 유전적 패턴을 가지고 있던 환자의 경우 기존 임상 지표와는 상관없이 사망 위험이 높다는 것도 알게 되었다고 합니다.

DOI: 10.1016/S1470-2045(25)00400-0


clova-x

이 연구는 유방암 환자의 전체 유전체 데이터와 사망률 통계를 결합하여 기존 임상 지표에 비해 예후 예측과 표적 치료에 대한 반응을 더 잘 파악할 수 있는지 평가하고자 하였습니다.

1. **연구 배경**

   - 유방암은 여성에게 가장 흔하게 진단되는 암이며, 생존율은 일반적으로 긍정적이지만 일부 환자는 조기 사망 위험이 있습니다.

   - 기존 임상 지표 외에도 유전체 데이터를 통해 예후와 치료 반응을 더 정확히 예측하려는 노력이 필요합니다.

2. **연구 방법**

   - 2012년부터 2018년까지 영국의 13개 국립 의료 센터와 병원에서 모집된 유방암 환자 2,403명으로부터 총 2,445개의 종양 샘플을 수집하였습니다.

   - 종양과 정상 DNA의 고밀도 전체 유전체 시퀀싱을 통해 드라이버 돌연변이, 돌연변이 시그니처, 상동재조합 복구 결핍 등을 분석하였습니다.

3. **연구 결과**

   - 연구 대상 중 약 27%의 종양에서 정밀 의학 잠재력을 가진 유전체 특성을 발견하였으며, 이는 표적 치료 후보군 식별에 유용할 수 있습니다.

   - 구조적 변이 부담, APOBEC 시그니처 수준, TP53 드라이버는 ER 양성, HER2 음성 유방암 환자의 전통적 임상 지표와 독립적으로 예후 예측에 기여합니다.

4. **임상 적용 가능성**

   - 연구팀은 두 단계 모델을 제안하였는데, 첫 번째 단계는 개별화된 유전체 마커를 통해 표적 치료나 임상 시험 후보군을 식별하고, 두 번째 단계는 이러한 특징이 없는 환자에게는 기존 임상 결정 요인과 함께 유전체 특성을 활용한 향상된 예후 예측을 구현하는 것입니다.

5. **연구 의의**

   - 이번 연구는 유방암 환자의 유전체 데이터가 예후 예측과 치료 전략 수립에 큰 잠재력을 가지고 있음을 보여주며, 유전체 정보의 임상적 활용을 위한 새로운 접근 방식을 제시합니다.


gemini

## [블로그 포스팅] 유방암 치료의 혁신: '전장 유전체 분석(WGS)'으로 암을 더 정확하게 예측하다

---

안녕하세요, 독자 여러분.

전 세계 여성에게 가장 흔한 암인 유방암은 일반적으로 치료 결과가 좋다고 알려져 있지만, 여전히 일부 환자들은 조기에 사망할 위험에 놓여 있습니다. 의사들은 환자의 나이, 종양 크기, 병기 등 기존의 임상 정보를 바탕으로 치료 방향을 결정하지만, 이 정보만으로는 부족한 경우가 많았습니다.

오늘 소개해 드릴 논문은 영국에서 진행된 대규모 연구 결과를 담고 있으며, 최첨단 유전체 분석 기술이 어떻게 유방암 환자의 예후를 예측하고 치료법을 결정하는 데 혁신을 가져올 수 있는지 보여줍니다.

---

### 1. 연구 배경: 기존 진단의 한계 극복 (Background)

[cite_start]유방암 치료에서 가장 어려운 점은 **'겉으로 보기에 위험이 낮아 보이는 환자 중 왜 일부가 조기에 사망하는지'** [cite: 31][cite_start]와 **'어떤 환자가 특정 표적 치료제에 가장 효과적으로 반응할지'** [cite: 32][cite_start]를 정확하게 예측하는 것이었습니다[cite: 14].

[cite_start]그동안 유방암 세포의 모든 유전 정보를 해독하는 **전장 유전체 시퀀싱(WGS, Whole-Genome Sequencing)** 연구는 많았지만, 실제로 환자의 사망률과 같은 임상 결과와 체계적으로 연결된 데이터가 부족해 실제 치료에 활용하는 데 한계가 있었습니다[cite: 29, 30].

이 연구는 WGS 데이터에 임상 정보와 사망률을 연계하여, 기존의 진단 기준을 넘어설 수 있는 새로운 예측 도구를 개발하는 것을 목표로 했습니다.

### 2. 연구 목적: 유전체 정보로 예후 예측과 맞춤 치료 가능성 확인 (Purpose)

[cite_start]이 연구의 주된 목적은 다음과 같습니다[cite: 3, 43, 51].

1.  **WGS 데이터가 기존 임상 정보에 추가적인 예후 예측 가치를 제공하는지 평가**하는 것.

2.  **표적 치료제에 반응할 가능성이 높은 환자를 유전체 정보를 통해 식별**하여 유방암 치료를 개선하는 것.

### 3. 연구 방법: 대규모 유전체 분석과 사망률 데이터 연계 (Method)

[cite_start]연구진은 통합적인 후향적 분석을 수행했습니다[cite: 4, 52].

* [cite_start]**참가자:** 영국 **100,000 게놈 프로젝트(100kGP)**에 참여한 2,403명의 환자로부터 수집된 **2,445개**의 유방암 종양을 분석했습니다[cite: 4, 52].

* [cite_start]**핵심 데이터:** 특히, **1,188명**의 **호르몬 수용체 양성, HER2 음성** 유방암(가장 흔한 유형) 환자의 WGS 데이터를 영국의 국가 통계청(Office of National Statistics)을 통해 **암 특이 사망률(Cancer-specific mortality)**과 연계했습니다[cite: 5, 57].

* [cite_start]**분석 내용:** 종양과 정상 조직 DNA에 대해 고밀도 WGS를 수행하여, 단순히 단일 유전자 변이뿐만 아니라, 암 발생 과정의 흔적이라고 할 수 있는 **구조적 변이(SV)**, **변이 시그니처(Mutational Signatures)**, 그리고 DNA 손상 복구 결함 점수(HRD, MMRd 등)와 같은 **복합적인 유전체 특징**을 종합적으로 분석했습니다[cite: 5, 79].

* [cite_start]**검증:** 연구 결과의 신뢰도를 높이기 위해 스웨덴의 **SCAN-B** 코호트를 포함한 3개의 독립적인 코호트(총 1,803명) 데이터를 사용하여 주요 발견 사항과 예후 예측 모델을 검증했습니다[cite: 6, 61].

### 4. 연구 결과: 유전체 특징의 강력한 예측력 (Findings)

[cite_start]WGS 분석 결과, 유방암 유전체는 환자 개개인에게 맞춤 치료 가능성을 제시하는 풍부한 정보를 담고 있었습니다[cite: 10].

* [cite_start]**표적 치료 잠재력:** 전체 종양의 약 **26.8%**인 656개에서 즉각적인 맞춤 의학적 잠재력이 있는 유전체 특징(HRD, 특정 운전자 유전자 변이 등)이 발견되었습니다[cite: 8].

* [cite_start]**새로운 취약점 발견:** 호르몬 수용체 양성, HER2 음성 유방암의 경우, **DNA 복구 결함(MMRd)**이 있는 환자(0.7%)가 발견되었는데, 이들은 주로 초기 병기였고 기존의 면역치료 적응증에서는 제외되는 환자들이었기 때문에 **현재의 치료 기준으로는 놓칠 수 있는** 중요한 표적 치료 대상임을 시사했습니다[cite: 129, 130].

* [cite_start]**예후 예측의 혁신:** 기존 임상 지표(나이, 병기, 등급)와 독립적으로 암 특이 사망률을 예측하는 강력한 유전체 특징이 확인되었습니다[cite: 10, 66].

    | 유전체 특징 | 위험 증가 비율 (HR) | 중요도 (p-value) |

    | :--- | :--- | :--- |

    | **구조적 변이(SV) 부담이 높음** | **3.9배** (2.4-6.2) | p < 0.0001 |

    | **APOBEC 시그니처 수준이 높음** | **2.5배** (1.6-4.1) | p < 0.0001 |

    | ***TP53* 운전자 변이** | **3.9배** (2.4-6.2) | p < 0.0001 |

    [cite_start]특히, **구조적 변이 부담이 높거나 *TP53* 변이를 가진 환자**는 기존 임상 위험 요인과 관계없이 **사망 위험이 약 3.9배 증가**하는 것으로 나타났습니다[cite: 10, 66].

### 5. 고찰: 유전체 맞춤 예측 모델 제시 (Discussion)

[cite_start]이 연구는 유방암 게놈이 예측 및 예후적 가치가 풍부하다는 것을 명확히 보여줍니다[cite: 372]. [cite_start]연구팀은 이러한 유전체 특징들을 조합하여, **호르몬 수용체 양성, HER2 음성 유방암 환자**의 예후를 더 정확하게 예측하는 새로운 모델을 개발했습니다[cite: 10].

[cite_start]이 예측 모델은 기존 임상 지표를 보완하여 다음과 같은 환자군을 선별할 수 있습니다[cite: 43, 44].

* **임상적으로는 저위험이나 유전체적으로는 고위험인 환자:** 더 많은 개입과 모니터링이 필요함.

* **임상적/유전체적으로 모두 저위험인 환자:** 치료 강도를 낮추는 **치료 축소(de-escalation)**의 잠재적 대상이 될 수 있음.

[cite_start]또한, **유방암의 약 27%**에서 발견된 개별적인 유전체 마커들은 환자를 표적 치료 또는 임상 시험 모집을 위한 **트리아지(Triage, 선별)** 도구로 사용할 수 있음을 시사합니다[cite: 46, 47].

### 6. 의의 및 시사점: 치료 결정의 새로운 청사진 (Significance and Implications)

[cite_start]연구팀은 WGS 데이터를 효과적으로 임상에 적용하기 위한 **2단계 모델**을 제안합니다[cite: 11, 373, 374].

1.  **1단계: 표적 치료 후보 식별**

    * **개별화된 유전체 마커**를 사용하여 표적 치료제나 임상 시험 후보를 우선적으로 식별합니다. (예: HRD, MMRD, *ESR1* 변이 등)

2.  **2단계: 예후 예측 강화**

    * 표적 가능한 특징이 없는 환자의 경우, WGS 기반 **예후 예측 모델**을 기존 임상 정보와 함께 사용하여 더 정확한 예후 예측을 제공합니다.

[cite_start]이는 유방암 임상 진료에서 유전체 정보를 사용하는 방식에 대한 **'사고방식의 전환'**을 요구하는 청사진을 제시하며 [cite: 49, 50][cite_start], 단일 유전자 검사를 넘어선 **포괄적인 WGS 분석**이 환자 치료 결정의 첫 단계가 되어야 함을 시사합니다[cite: 49].

### 이 연구가 왜 중요한가요?

[cite_start]이 연구는 **영국에서 진행된 유방암 WGS 연구 중 가장 큰 규모**이며, 유전체 데이터를 환자의 **실제 사망률 결과**와 직접 연계하여 **WGS의 임상적 가치를 최초로 대규모로 입증**했다는 데 큰 의의가 있습니다[cite: 33, 48].

[cite_start]궁극적으로, 이 연구는 의사들이 **누가 어떤 약에 반응할지(예측)**, 그리고 **누가 더 강하거나 약한 치료를 받아야 할지(예후)**를 **하나의 포괄적인 유전체 검사**를 통해 결정할 수 있는 토대를 마련하여[cite: 47], 유방암 환자 개개인에게 가장 적합한 **정밀 의학**의 시대를 앞당기는 데 결정적인 역할을 할 것입니다. [cite_start]기존의 '저위험' 분류에 안주하지 않고 숨겨진 '유전체적 고위험' 환자를 식별하여 불필요한 사망을 막고, 동시에 저위험 환자에게는 불필요한 항암 부작용을 줄일 수 있는 길을 열어주었습니다[cite: 43, 44].


chatGPT

다음은 업로드하신 논문 **〈Clinical potential of whole-genome data linked to mortality statistics in patients with breast cancer in the UK〉 (Lancet Oncology, 2025)**의 내용을

전문 지식이 없는 일반 독자도 이해할 수 있도록 쉽게 풀어쓴 요약입니다.

(A4용지 2쪽 분량 기준)

---

## 🩺 연구 배경

유방암은 전 세계 여성에게 가장 흔히 진단되는 암으로, 대부분의 환자는 조기 발견과 치료 덕분에 생존율이 높습니다.

하지만 겉보기엔 ‘저위험군’으로 분류되어도 예상보다 빠르게 사망하는 환자들이 있습니다.

이런 차이를 설명하기 위해 과학자들은 유전자 전체를 분석하는 **‘전장유전체 염기서열 분석(Whole-Genome Sequencing, WGS)’**에 주목하고 있습니다.

기존의 유전자 검사는 특정 돌연변이(예: BRCA1, PIK3CA 등)만 확인했지만, 한 암세포에는 수천 개의 돌연변이가 존재합니다.

즉, 암의 발생과 진행에는 훨씬 더 복잡한 유전체 정보가 숨어 있으며, 이를 제대로 활용하면 환자마다 맞춤형 치료를 설계할 수 있습니다.

---

## 🎯 연구 목적

영국 케임브리지 대학과 NHS(국민보건서비스) 연구진은

“**유방암 환자의 전장유전체 데이터와 사망 통계를 연계하면, 기존 임상 정보보다 더 정확한 예후 예측이 가능할까?**”라는 질문에 답하고자 했습니다.

또한, 이 데이터가 향후 어떤 환자가 표적치료나 새로운 임상시험 대상이 될 수 있는지도 함께 탐구했습니다.

---

## 🔬 연구 방법

* **대상:** 영국 13개 병원에서 2012~2018년 사이 모집된 **2403명의 유방암 환자(2445개 종양 샘플)**

* **데이터:**

  * 종양과 정상조직의 DNA를 전장유전체 수준으로 분석

  * 임상 정보(암의 병기, 등급, ER/HER2 상태 등) 및 사망 통계(국가 통계청 자료)와 연계

* **분석 포인트:**

  * 유전자 변이(드라이버 돌연변이)

  * 유전체 손상 패턴(돌연변이 서명, mutational signatures)

  * 복제·수리 결함 지표(HRDetect, MMRd, APOBEC 등)

  * 전체 구조적 변이량(SV burden)

* **검증:**

  * 스웨덴 SCAN-B, 국제 유방암 유전체 컨소시엄(ICGC) 등 총 1800명 이상의 외부 코호트로 재확인

---

## 📈 주요 결과

### 1️⃣ 개인 맞춤 치료 가능성이 있는 유전체 특징

* 전체 환자의 **약 27%**에서 즉시 임상적으로 활용 가능한 유전적 특징이 발견됨.

  예:

  * **DNA 복구 결함(HRD)** → PARP 억제제 등 DNA 손상 기반 치료 가능성

  * **ESR1 변이** → 호르몬 치료 저항성 예측

  * **EGFR, BRAF, KRAS, CCNE1 등 다른 암에서도 표적치료 가능성이 있는 유전자**

즉, **4명 중 1명은 유전체 분석을 통해 치료 방향을 새로 정할 수 있었다**는 의미입니다.

---

### 2️⃣ 예후(생존률)를 예측하는 핵심 유전체 요인

연구진은 **ER 양성, HER2 음성(가장 흔한 아형)**의 환자 그룹에서 유전체가 생존에 미치는 영향을 집중 분석했습니다.

다음 3가지 요인이 ‘사망 위험’을 유의하게 높이는 독립적 요인으로 확인되었습니다.

| 예후 악화 요인                          | 위험비(HR) | 의미                       |

| --------------------------------- | ------- | ------------------------ |

| **TP53 유전자 변이**                   | 3.9배 ↑  | 암 억제 유전자 손실로 악성도 증가      |

| **구조적 변이(SV) 수가 많음**              | 3.9배 ↑  | 염색체 손상·불안정성이 높음          |

| **APOBEC 돌연변이 서명 고도 노출(SBS2/13)** | 2.5배 ↑  | 활성화된 돌연변이 효소로 인한 게놈 불안정성 |

반면, **SBS1·SBS5 유형의 안정적 돌연변이 패턴**과 **InD1 서명**을 가진 경우에는 **예후가 좋았습니다**.

이 정보를 조합해 연구진은 **‘유전체 기반 예후 분류모델’을 새로 개발**했습니다.

이 모델은 기존의 병기나 조직 등급과 함께 사용할 때, 어떤 환자는 치료 강도를 줄이고(저위험),

어떤 환자는 적극적인 치료가 필요함(고위험)을 더 정확히 예측할 수 있습니다.

이 모델은 스웨덴 SCAN-B 데이터에서도 유사한 결과를 보여 신뢰성을 입증했습니다.

---

## 💡 연구의 의의와 시사점

1. **유방암 예후 예측의 새로운 기준 제시**

   * WGS는 단순히 BRCA 변이 여부를 보는 것이 아니라,

     암 전체의 유전적 ‘지문’을 통해 사망 위험을 더 정확히 예측할 수 있음을 보여줍니다.

2. **임상 치료 전략의 2단계 모델 제안**

   * **1단계:** 개인 맞춤형 표적치료 가능성이 있는 환자 선별

   * **2단계:** 나머지 환자에게는 유전체 기반 예후평가를 적용해 치료 강도 결정

3. **‘한 번의 검사로 모든 정보’를 얻는 미래형 진단 모델**

   * 전장유전체분석(WGS)은 수천 개의 변이, 구조적 이상, 치료 반응성을 한 번에 평가할 수 있어

     효율적이고 통합적인 임상 의사결정을 가능하게 합니다.

---

## 🌍 왜 중요한가?

이 연구는 **세계 최대 규모(약 2500명)의 유방암 전장유전체 분석**으로,

“유전체 데이터가 실제 환자 치료와 생존 예측에 직결될 수 있다”는 것을 처음으로 명확히 보여주었습니다.

이는 단순한 연구를 넘어, **“진단 중심의 암 치료에서 데이터 기반의 맞춤 치료로”**

임상 패러다임이 전환되는 신호탄이라 할 수 있습니다.

앞으로 이런 분석이 표준 진료로 자리잡는다면,

각 환자의 유전체 정보에 따라 “누가 더 적극적인 치료가 필요한가, 누가 과잉치료를 피할 수 있는가”를 정확히 판단할 수 있을 것입니다.


grok3

### 유방암 환자의 전체 게놈 데이터가 가져올 임상적 가능성: 영국 연구 요약

#### 연구 배경

유방암은 여성에게 가장 흔한 암으로, 전 세계적으로 2022년에 230만 명이 진단받았고 67만 명이 사망했다. 대부분의 환자는 조기 단계에서 발견되어 생존율이 높지만, 일부 환자는 기존 임상 지표(예: 종양 크기, 등급, 단계, 호르몬 수용체 상태)에도 불구하고 조기 사망 위험이 있다. 기존 치료 결정은 이러한 임상 특성에 의존하지만, 유방암 게놈(유전자 전체 정보)에는 수천 개의 돌연변이가 포함되어 있어, 더 세밀한 예측이 가능하다. 그러나 지금까지 게놈 정보는 주로 특정 유전자 돌연변이(예: PIK3CA나 BRCA1/2)만 활용되었고, 전체 게놈 시퀀싱(WGS, 유전자 전체를 읽는 기술)의 잠재력이 제대로 사용되지 않았다. 이 연구는 영국 NHS(국민보건서비스)의 100,000 Genomes Project(100kGP)를 통해 수집된 대규모 데이터를 바탕으로, WGS를 사망 통계와 연계하여 유방암 관리의 한계를 보완하려 한다.

#### 연구 목적

연구자들은 WGS 데이터를 기존 임상 지표와 결합해 유방암 환자의 예후(생존 전망)를 더 정확히 예측하고, 표적 치료(특정 유전자 취약점을 노리는 약물)를 받을 수 있는 환자를 식별하는 것을 목표로 했다. 특히, ER-양성(에스트로겐 수용체 양성), HER2-음성(HER2 단백질 음성) 유방암 환자(가장 흔한 유형)에서 WGS가 추가적인 가치를 제공하는지 확인했다. 궁극적으로, WGS를 임상에서 실용적으로 사용하는 '블루프린트(청사진)'를 제안한다.

#### 연구 방법

이 연구는 후향적 분석(과거 데이터를 검토)으로, 2012~2018년 영국 13개 NHS 센터에서 모집된 2403명 유방암 환자의 2445개 종양 샘플을 대상으로 했다. 종양과 정상 DNA를 고해상도 WGS로 분석해 드라이버 돌연변이(암 유발 유전자 변화), 돌연변 시그니처(암 발생 과정의 '흔적' 패턴), HRD(동형 재조합 복구 결함, PARP 억제제에 취약), MMR 결함(면역치료에 취약), 종양 돌연변 부하 등을 추출했다. 2208개 샘플을 임상 데이터(등급, 단계 등)와 연계하고, 1188개 ER-양성, HER2-음성 샘플을 사망 통계(영국 국가통계청)와 연결해 5년 추적 관찰했다. Cox 회귀 분석(생존율 통계 모델)으로 WGS 특징의 예후 가치를 평가했다. 검증을 위해 1803명 추가 환자 데이터(네덜란드 Hartwig, 국제 ICGC, 스웨덴 SCAN-B 코호트)를 사용했다.

#### 연구 결과

2445개 종양 중 26.8%(656개)에서 즉시 개인화 의학에 활용 가능한 특징이 발견됐다. 예를 들어, HRD는 전체 12.2%(298개)에서 나타났고, ER-양성, HER2-음성에서 6.3%(76개)였다. 이는 PARP 억제제 같은 표적 치료 후보를 나타낸다. 또한, 15.2%(373개)에서 연구 가치 있는 특징(예: 염기 절제 복구 결함)이 관찰됐다. ER-양성, HER2-음성 환자에서 구조 변이 부하(HR 3.9), 높은 APOBEC 시그니처(HR 2.5), TP53 드라이버(HR 3.9)가 기존 임상 지표(나이, 단계, 등급)와 독립적으로 나쁜 예후를 예측했다. 이를 바탕으로 개발한 예후 모델은 저위험/중간위험/고위험 그룹으로 환자를 분류하며, SCAN-B 코호트에서 검증됐다. 예를 들어, HRD가 있는 ER-양성, HER2-음성 환자는 삼중음성 유방암과 유사한 특징(TP53, RB1, MYC 풍부)을 보였고, 생존율이 낮은 경향을 보였다.

#### 고찰

유방암 게놈은 예측(치료 반응)과 예후 가치가 풍부하다. 연구자들은 2단계 모델을 제안했다: 첫째, WGS로 표적 치료 후보(예: HRD나 ESR1 돌연변으로 인한 내성)를 식별해 임상 시험 모집. 둘째, 그런 특징이 없는 환자에 기존 임상 지표와 WGS(구조 변이, APOBEC 등)를 결합해 예후 강화. 이는 저위험 임상 환자 중 고위험 게놈 환자(추가 개입 필요)나 저위험 게놈 환자(치료 감량 가능)를 구분한다. 제한점으로는 치료 기록의 이질성과 저등급 종양 부족이 있지만, SCAN-B 검증으로 일반화 가능성을 확인했다. WGS는 단일 검사로 모든 이상을 포착하므로, 게놈 정보 사용 방식의 '마인드셋 변화'를 촉구한다.

#### 의의와 시사점

이 연구는 WGS가 유방암에서 '올인원' 도구로 작용할 수 있음을 보여준다. 영국 NHS처럼 WGS 인프라가 구축된 곳에서, 환자별 치료를 최적화해 불필요한 치료를 줄이고 생존율을 높일 수 있다. 예를 들어, HRD 환자는 PARP 억제제를, APOBEC 높은 환자는 새로운 전략을 고려할 수 있다. 시사점으로는 WGS를 임상 케어 첫 단계로 도입해, 고위험 환자 조기 개입과 저위험 환자 과잉 치료 방지. 이는 비용 효과적이며, 유방암 외 다른 암에도 확대 가능하다.

이 연구가 중요한 이유는 유방암이 '치유 가능'하다고 여겨지지만 여전히 많은 사망자가 발생하는 현실에서, WGS처럼 첨단 기술이 기존 방법의 한계를 넘어 개인화 의학을 실현할 수 있음을 증명하기 때문이다. 대규모 국가 데이터로 뒷받침된 이 접근은 전 세계 유방암 환자 수백만 명의 삶을 바꿀 잠재력을 가진다.


NotebookLM

## 유방암 환자의 운명을 바꿀 혁신적인 방법: 전체 유전체 시퀀싱(WGS)의 임상적 잠재력

최근 권위 있는 학술지 《Lancet Oncology》에 발표된 이 논문은 유방암 환자의 예후를 예측하고 치료법을 결정하는 데 있어 유전체 전체 분석(Whole-Genome Sequencing, WGS)이 가진 놀라운 잠재력을 제시합니다. 이 연구는 기존의 임상 정보만으로는 파악하기 어려웠던 환자 개개인의 고유한 위험 요소를 정확히 찾아내어, 유방암 치료의 '맞춤형 정밀 의학' 시대를 앞당기는 중요한 청사진을 제공합니다.

---

### 1. 연구 배경 및 목적

**유방암 진단은 늘었지만, 여전히 예측은 어렵습니다.**

유방암은 전 세계적으로 여성에게 가장 흔하게 진단되는 암입니다. 일반적으로 생존율이 높다고 알려져 있지만, 임상적 지표(예: 종양 크기, 등급, 병기, 호르몬 수용체 상태)만으로는 일부 환자가 왜 조기에 사망 위험에 놓이는지 정확히 예측하기 어렵다는 한계가 있었습니다.

**유전체 정보의 미활용 문제**

기존의 암 관리에서 유전체 정보는 주로 PIK3CA 돌연변이나 BRCA1/2 변이와 같이 한두 개의 핵심적인 유전자 변이 유무를 파악하는 데 국한되어 사용되어 왔습니다. 그러나 인간의 암 유전체는 종양 발생 과정에서 작동한 수천 개의 돌연변이와 '돌연변이 시그니처'라는 방대한 정보를 담고 있으며, 현재 이러한 정보가 임상에서 충분히 활용되지 못하고 있다는 비판이 제기되어 왔습니다.

**연구의 목표:**

따라서 연구진은 **포괄적인 WGS 분석**을 통해 얻은 유전체 정보를 환자의 사망 통계와 연계하여, 기존 임상 지표를 보완할 수 있는 **예후 예측 가치**를 더하고, 특정 표적 치료에 반응할 환자군을 정확히 식별하여 유방암 치료를 개선하는 것을 목표로 했습니다.

### 2. 연구 방법

**대규모 환자 코호트 분석**

이 연구는 2012년부터 2018년 사이에 영국 국민보건서비스(NHS)의 100 000 Genomes Project (100kGP)를 통해 모집된 2,403명의 환자로부터 얻은 **2,445개의 유방암 종양**을 통합적으로 분석한 회고적 연구입니다.

**WGS를 통한 포괄적인 유전체 프로파일링**

연구진은 종양과 정상 조직의 DNA에 대해 높은 심도의 WGS를 수행했습니다. 이 분석을 통해 단순히 구동 변이(driver mutations)뿐만 아니라, 암 발생 과정의 흔적을 보여주는 **돌연변이 시그니처**와 HRD(상동 재조합 복구 결핍) 등 복합적인 알고리즘 점수들을 포괄적으로 파악했습니다.

**예후 분석 대상 및 검증**

특히, 예후 예측 능력을 평가하기 위해 **1,188명의 1~3기, ER-양성, HER2-음성 유방암 환자**의 암 특이적 사망률 데이터를 약 5년 동안 추적 관찰했습니다. 또한, 개발된 예후 예측 프레임워크는 스웨덴의 독립적인 SCAN-B 데이터셋을 포함한 추가 코호트(1,803명)에서 검증되었습니다.

### 3. 주요 연구 결과

#### A. 표적 치료 가능성이 있는 환자군 식별 (Predictive Potential)

WGS 분석을 통해 전체 유방암 종양 중 **26.8% (656건)**에서 환자 맞춤형 치료에 즉각적으로 활용될 수 있는 유전체 특성이 관찰되었습니다.

1.  **HRD (상동 재조합 복구 결핍) 환자군:** 전체의 12.2% (298건)에서 HRD 특징이 발견되었습니다. HRD는 DNA 손상 약물이나 PARP 억제제에 선택적으로 반응하는 바이오마커로 알려져 있습니다. 주목할 점은, HRD가 보통 삼중 음성 유방암과 관련되지만, **ER-양성, HER2-음성 환자 중에서도 6.3% (76건)**에서 HRD가 나타났다는 것입니다. 이 ER-양성/HRD 환자군이 전이성 질환으로 진행하는 경우가 더 많다는 관찰은, 이 환자군이 현재 충분히 진단되지 않거나 부적절하게 치료되고 있을 수 있으며, PARP 억제제와 같은 약물의 임상 시험이 필요함을 시사합니다.

2.  **치료 저항성 마커:** 내분비 요법에 대한 저항성을 시사하는 **ESR1 구동 변이**를 가진 ER-양성 환자(2.2%)가 확인되었으며, 이들은 불량한 예후와 관련이 있었습니다 (HR 3.8).

3.  **면역 요법 기회 확대:** 불일치 복구 결핍(MMRd)은 다른 암종에서는 면역 요법의 지표이지만 유방암에서는 일상적으로 검사되지 않습니다. 이 연구에서는 전체의 0.7% (16건)에서 MMRd가 발견되었는데, 이 중 60.0%가 ER-양성이었으며 93.3%가 1기 또는 2기였습니다. 이들은 현재 삼중 음성 유방암으로 제한된 면역 요법 대상에서 제외되어 놓칠 수 있는 환자군입니다.

#### B. 강력한 예후 예측 인자 발견 (Prognostic Potential)

ER-양성, HER2-음성 유방암 환자를 대상으로 분석한 결과, 다음 유전체 특징들이 기존의 임상 지표(연령, 병기, 등급)와 **독립적으로** 불량한 예후를 강력하게 예측했습니다.

1.  **구조적 변이 부담 (SV burden):** 유전체에 걸친 총 구조적 변이 부담이 높을수록 예후가 매우 불량했습니다 (HR 3.9). 이는 조직학적 등급보다 더 강력한 예측 인자였습니다.

2.  **TP53 구동 변이:** 암 억제 유전자인 TP53에 구동 변이가 있는 경우도 불량한 예후를 독립적으로 예측했습니다 (HR 3.9).

3.  **APOBEC 시그니처:** 돌연변이 과정을 나타내는 APOBEC 관련 돌연변이 시그니처(SBS2 및 SBS13)의 높은 수준은 불량한 결과와 관련이 있었습니다 (HR 2.5).

반면, **SBS1 및 SBS5의 우세**와 **InD1 삽입/결손 시그니처**는 개선된 예후(더 나은 결과)와 관련이 있었습니다 (HR 각각 0.22, 0.52).

#### C. WGS 기반 위험 분류 프레임워크 개발 및 검증

연구진은 ER-양성, HER2-음성 유방암 환자를 위한 **WGS 위험 분류 프레임워크**를 개발했습니다. 이 프레임워크는 **TP53 변이 상태, SV 부담, APOBEC 활동**을 결합하여 환자의 위험도를 예측합니다.

이 프레임워크를 통해 **임상적으로는 저위험(예: 1~2등급)**이지만 **유전체적으로는 고위험**인 환자군을 상당수 식별할 수 있었습니다 (고위험군 중 1~2등급이 44.3%). 이 프레임워크는 독립적인 SCAN-B 코호트에서 원격 재발 없는 생존 및 전체 생존 예측에 있어 유의미한 예측력을 가짐이 확인되었습니다. 특히, 이 WGS 기반 프레임워크는 연령, 등급, 치료군을 보정한 후에도 기존의 다중 유전자 발현 예측 인자(예: Oncotype DX)보다 **전체 생존을 유의미하게 예측하는 유일한 예측 인자**였습니다.

### 4. 고찰 및 시사점

**WGS 활용을 위한 2단계 모델 제안**

이 연구는 유방암 치료에서 WGS를 효과적으로 적용하기 위한 **두 가지 단계로 구성된 모델**을 제시합니다.

1.  **개별화된 치료 표적 찾기:** WGS 데이터를 활용하여 HRD, MMRd, 또는 ESR1 변이와 같이 고도로 개별화되고 생물학적으로 구별되는 특징을 찾아내어 즉각적인 표적 치료나 임상 시험의 후보자를 식별합니다.

2.  **향상된 예후 정보 제공:** 그러한 표적 특징이 없는 환자의 경우, WGS 기반 위험 프레임워크를 사용하여 기존 임상 정보와 함께 예후를 예측하고 가장 적절한 임상 전략(예: 치료 강화 또는 축소)을 결정하는 데 활용합니다.

**실질적인 임상적 영향**

이 연구 결과는 영국에서 매년 유방암 환자 **15,000명 이상**에게 잠재적인 임상적 영향을 미칠 수 있는 고도로 개인화된 유전체 정보를 제공합니다. 특히, WGS 위험 프레임워크를 적용하면 다음과 같은 환자들에게 중요한 영향을 미칠 수 있습니다:

*   **치료 강화 대상자:** 임상적으로는 저위험이지만 **유전체적으로 고위험**인 환자(영국에서 연간 약 7,500명)를 식별하여 추가적인 중재(예: CDK4/6 억제제, 장기간의 호르몬 요법)를 고려할 수 있게 됩니다.

*   **치료 축소 대상자:** 임상적으로나 유전체적으로 모두 **저위험**인 환자(영국에서 연간 22,000명 이상)는 적절한 모니터링 하에 잠재적인 치료 축소(de-escalation)를 고려할 수 있게 됩니다.

---

### 이 연구가 중요한 이유

이 회고적 분석은 **사망 통계와 통합된** 유방암에 대한 **가장 큰 규모의 인구 기반 WGS 연구**라는 점에서 독보적입니다.

WGS는 하나의 분석으로 모든 유전체 이상을 포괄적으로 보고할 수 있는 능력을 제공하며, 이는 유방암 관리에 대한 사고방식의 전환을 요구합니다. 기존 임상 지표로는 불량한 예후를 예측하기 어려웠던 환자들을 유전체적으로 식별할 수 있게 됨으로써, 임상적으로 중요한 환자 하위 집단을 구별하는 능력을 제공합니다.

궁극적으로 이 연구는 **WGS를 유방암 환자 임상 관리 및 임상 시험을 위한 선별 도구(triaging step)로 사용하기 위한 구체적인 청사진**을 제시하며, 환자 개개인에게 가장 적합한 치료를 제공하는 **진정한 유전체 기반 정밀 의학**을 구현하는 데 필수적인 과학적 근거를 마련했다는 중요한 의의를 가집니다.


perplexity.ai

이 논문은 영국에서 유방암 환자들에게 실시한 전장 유전체 시퀀싱(WGS)과 사망률 통계를 연계해 분석한 대규모 연구입니다. 여기서는 논문의 내용을 일반인이 이해하기 쉬운 언어로 요약해 정리합니다.[1]

### 연구 배경

유방암은 여성에게 가장 흔하게 발생하는 암이며 대부분의 환자들은 비교적 좋은 예후를 보이지만 일부는 조기 사망 위험이 남아 있습니다. 현재 치료와 예후 평가는 주로 임상적 특성(진단 나이, 종양 크기·등급·단계, 호르몬 수용체 등)에 의존하고 있습니다. 하지만 이러한 임상적 정보만으로는 모든 환자의 결과를 정확히 예측하기 어려우며, 일부 환자에서 조기 사망 원인을 규명하거나 맞춤 약물 치료가 필요한 집단을 찾는 데 한계가 있었습니다.[1]

### 연구 목적

본 연구의 목표는 WGS와 사망 데이터를 연계해 임상적 지표를 보완할 수 있는 새로운 예후 예측 정보를 찾는 것, 그리고 맞춤 치료가 가능할 환자군을 식별하여 유방암 진료를 발전시키는 데 있습니다.[1]

### 연구 방법

2012년부터 2018년까지 영국 내 13개 병원에서 총 2445개 유방암 종양(2403명 환자) 샘플을 수집해 전장 유전체 시퀀싱을 실시했습니다. 이 중 상당수의 케이스에 대해 암 관련 사망률 통계를 연계하여 분석했고, 유전체 정보는 변이 원인·치료 내성·맞춤 치료 타깃 등 다양한 측면에서 평가됐습니다. 별도로 국제 컨소시엄 및 스웨덴 데이터(총 1803명)를 활용해 연구 결과를 검증했습니다.[1]

### 주요 연구 결과

- 전체 유방암의 약 27%에서 맞춤형 치료에 사용할 수 있는 특이 유전적 특징이 확인되어, 한 번의 유전체 검사만으로도 치료 반응 예측, 내성 위험 파악, 임상연구 대상을 선별하는 데 활용될 수 있습니다.

- 특히 ER(에스트로겐 수용체)-양성, HER2-음성 그룹에서는 기존 임상 지표 외에도 ▲유전체 구조적 이상(SV) ▲APOBEC 변이 ▲TP53 돌연변이 등의 유전체 특징이 예후와 독립적으로 연관되어 있었습니다.

- WGS 기반 예후 예측 모델을 구축해 낮은 임상적 위험군이지만 유전체적으로 높은 위험에 해당하는 환자를 찾거나, 임상·유전체적으로 모두 저위험인 환자는 치료를 줄일 수 있음을 시사했습니다.

- 일부 특이 집단(예: DNA 손상 복구 장애, 내성 유전자 변이 등)은 맞춤 치료나 임상 연구에서 별도의 관리가 필요함을 밝혔습니다.[1]

### 논의 및 고찰

기존에는 BRCA1/2 같은 제한적인 유전자만 검사했지만, 실제로 암 유전체는 수천 가지 이상 복잡한 변이가 존재합니다. 이 연구에서는 다양한 돌연변이와 변이 시그니처(암 세포가 쌓아온 유전적 흔적)를 체계적으로 조사해, 특정 유전체 특징이 향후 질병 진행, 치료 성공률, 내성에 직결될 수 있음을 보여주었습니다. 새로운 예측 모델은 기존 임상 지표 대신 보완적으로 사용 가능하며, 저비용으로 훨씬 많은 정보를 한 번에 얻을 수 있도록 했습니다. 현재 영국은 WGS 인프라가 임상에 빠르게 확장되고 있으며, 연구팀은 앞으로 WGS가 진료 현장에서 1단계로 환자 맞춤 관리를 시작하는 기준으로 자리잡아야 한다고 주장합니다.[1]

### 연구의 의의와 시사점

- 유방암에 대한 대규모 유전체 분석과 이의 임상 활용 가능성을 보여준 세계 최대 규모 연구입니다.

- 영국을 포함한 세계 각국의 유방암 환자 치료와 예후 예측, 임상시험 설계에 커다란 전환점을 제공합니다.

- 기존 임상 정보가 놓치는 조기 사망 위험 환자, 잠재적 치료 대상 그룹, 내성 위험 환자를 선별하는 데 큰 역할이 예상됩니다.

- 이런 유전체 기반 분석이 확산되면, 앞으로는 각 환자별로 더욱 정밀한 치료와 관리가 가능해지고 불필요한 치료를 줄이는 등 환자 삶의 질과 건강관리에도 긍정적 영향을 미칠 수 있습니다.[1]

### 이 연구가 중요한 이유

전장 유전체 분석은 개별 환자 유전체의 방대한 정보를 한 번에 파악할 수 있으면서도, 현재까지 임상에서 잘 활용되지 못하고 있었습니다. 이 연구는 WGS가 실제로 임상 예측과 치료 전략에 큰 도움을 줄 수 있음을 증명했으며, 앞으로 모든 유방암 환자가 자신의 유전체 분석 결과를 바탕으로 보다 과학적이고 맞춤화된 치료·관리 방안을 제시받을 수 있는 시대가 열릴 수 있음을 시사합니다.[1]




출처: @ye._.vely618


월요일, 2월 17, 2025

한국인의 유전적 변이를 알아보자: Long read로

오늘은 충남대에서 교직생활을 하고 있으신 김준 교수님께서 출판하신 논문을 가져와봤습니다. 제 기억으로는 랜선친구인거로 기억하는데.... 

여튼 3명의 한국인의 서열을 Long read로 시퀀싱해서 이것저것 한번 확인해보셨다고 하네요 

제목은 Highly accurate Korean draft genomes reveal structural variation highlighting human telomere evolution 입니다.

어떤 내용인지 한번 같이 알아가 보시죠

DOI: 10.1093/nar/gkae1294


gemini

## 연구 목적 및 배경

* 한국인 집단의 유전적 변이를 보다 자세히 이해하기 위해

* 특히 염색체 말단 부위에 위치한 복잡한 유전적 변이인 구조적 변이(Structural Variation, SV)에 초점을 맞추었습니다.

* 기존의 인간 참조 지놈보다 훨씬 더 완전하고 정확한 지놈 조립이 가능해졌습니다.

## genome 조립을 위한 프로그램과 파이프라인

* Long-read sequencing technology를 사용하여 3명의 한국인 개인으로부터 고품질의 장거리 시퀀싱 데이터를 생성하였습니다.

* 이들 데이터를 이용하여 각 개인의 지놈을 de novo 조립하였습니다.

* 조립된 지놈을 기존의 인간 참조 지놈(CHM13)에 정렬하여 구조적 변이를 식별하였습니다.

## 구조적 변이 분석

* 131,138개의 deletion SV와 121,461개의 insertion SV를 발견하였습니다.

* 이 중 41.6%는 동아시아 인구에서 흔하게 발견되는 것으로 나타났습니다.

* 또한, 103명의 한국인에 대한 단거리 시퀀싱 데이터를 이용하여, 이들 간의 공통적인 구조적 변이를 확인하였습니다.

## 구조적 변이가 false positive가 아니라 한국인 집단에서 보여지는 근거

* 단거리 시퀀싱 데이터를 이용하여 구조적 변이를 검증한 결과, 두 종류의 시퀀싱 데이터에서 검출된 구조적 변이는 높은 일치율을 보였습니다.

* 또한, 한국인 집단에서만 발견되는 구조적 변이도 다수 발견되었습니다.

## 연구의 의의

* 이 연구는 한국인 집단의 유전적 변이를 보다 자세히 이해하는 데 도움이 될 뿐만 아니라, 인간 염색체 진화에 대한 이해를 넓히는 데에도 기여할 것으로 기대됩니다.

* 특히, 염색체 말단 부위에 위치한 구조적 변이에 대한 연구는 인간 유전 질환의 원인을 밝히는 데 도움이 될 수 있습니다.


clova-x

이 논문은 한국인의 유전적 변이를 연구하기 위해 고품질 Long read 데이터를 생산하고 이를 이용하여 개인 게놈을 조립한 연구에 대한 내용을 담고 있습니다. Long read 시퀀싱 기술을 사용하여 복잡한 유전적 변이를 파악하고, 특히 서브텔로미어 영역의 구조적 변이를 밝히는 데 초점을 맞췄습니다.

연구를 진행한 배경에는 최근 발전한 Long read 시퀀싱 기술을 활용하여 한국인의 유전적 변이를 깊이 있게 이해하고자 하는 목적이 있었습니다. 이 기술은 이전 기술보다 더 정확하고 상세한 게놈 정보를 제공할 수 있어, 복잡한 유전적 변이를 효과적으로 식별할 수 있습니다.

게놈을 조립하는 데에는 Canu와 wtdbg2라는 프로그램을 사용했으며, phase를 결정하는 데에는 Falcon과 hap.py를 사용했습니다. 또한, 조립된 게놈의 품질을 검증하기 위해 QUAST와 BUSCO를 사용했습니다. 이러한 프로그램과 파이프라인을 통해 신뢰성 있는 게놈 조립 결과를 얻을 수 있었습니다.

조립된 게놈에서 구조적 변이를 식별하고 분석한 결과, 발굴한 구조적 변이 중 41.6%가 동아시아 인구에서 자주 관찰되는 것으로 나타났습니다. 또한, 발굴한 변이들이 부모로부터 유래한 것임을 확인함으로써, 이 변이들이 한국인 집단에서 실제로 나타나는 것임을 입증했습니다.

이 연구는 한국인의 유전적 변이에 대한 이해를 높이는 데 크게 기여할 것으로 기대됩니다. 또한, 구조적 변이가 인간 질병과 관련된 유전자 발현에 영향을 미칠 수 있다는 것을 보여줌으로써, 개인 맞춤형 치료와 예방에 도움이 될 수 있는 정보를 제공할 것으로 예상됩니다.


chatGPT

### 연구의 이유 및 배경

한국인의 유전자 변이를 이해하기 위해 이 연구는 한국인의 고품질 장독립(long-read) 유전체 데이터를 기반으로 개인 유전체를 조립하고 구조 변이를 분석했습니다. 이는 기존 단독립(short-read) 기반 연구가 반복적이거나 복잡한 유전체 영역에서 변이를 정확히 식별하지 못하는 한계를 보완하고자 한 것입니다. 특히, 한국인을 포함한 아시아 인구는 현재 전 세계 인구 유전체 데이터베이스에서 상대적으로 과소 대표되고 있어, 이번 연구는 아시아 인구의 유전적 다양성을 더욱 명확히 하는 데 기여하고자 했습니다.

---

### 유전체 조립에 사용된 프로그램 및 파이프라인 (한국어 설명)

연구에서 사용된 유전체 조립 파이프라인은 다음과 같습니다:

1. **데이터 생성**: Pacific Biosciences Sequel IIe HiFi 시스템을 이용해 약 20배 커버리지의 장독립 HiFi 데이터를 생성했습니다.

2. **유전체 조립**: 

   - **hifiasm (v0.16.0)**을 사용해 HiFi 읽기 데이터를 바탕으로 contig을 조립했습니다.

   - 이후 **RagTag (v2.0.1)**를 이용해 CHM13 참조 유전체(버전 1.1 및 2.0)와 비교하며 contig을 scaffold 수준으로 확장했습니다.

3. **구조 변이 식별**:

   - 조립된 유전체를 Winnowmap2(v2.03)으로 CHM13 참조 유전체에 정렬했습니다.

   - 정렬 데이터를 **SVIM-asm (v1.0.2)**을 사용해 구조 변이를 호출했습니다.

   - 이후 구조 변이를 필터링하고 분석했습니다.

4. **단독립 데이터 비교**:

   - Manta (v1.6.0)와 GATK(v4.4.0)을 이용해 단독립 데이터를 기반으로 추가 구조 변이를 식별하고, 장독립 데이터와 교차 검증을 수행했습니다.

---

### 구조 변이의 신뢰성 (한국인 고유 변이인지 여부)

1. **데이터 검증**:

   - 총 103명의 한국인 단독립 데이터와 비교 분석해 조립 기반 구조 변이가 한국인 전체 집단에서 흔히 관찰되는 변이임을 확인했습니다.

   - 추가적으로, 구조 변이의 신뢰도를 검증하기 위해 선택된 변이에 대해 PCR 실험을 수행한 결과 92.9%의 변이가 실험적으로 확인되었습니다.

2. **고유성 확인**:

   - 이 연구에서 확인된 구조 변이 중 일부는 동아시아 인구(41.6%)와 다른 전 세계 인구에서도 발견되었으나, subtelomeric 구조 변이는 한국인에게 특히 흔한 특성을 보여주었습니다.

   - 주요 변이들은 텔로미어 손상 후 DNA 복구 과정에서 발생한 것으로 나타났으며, 이는 단순한 오류가 아니라 복구 메커니즘의 결과임을 시사합니다.

---

### 연구의 영향

이 연구는 유전체학 및 의학적 연구에 다음과 같은 영향을 미칠 수 있습니다:

1. **유전적 질병 연구**:

   - 고품질 유전체 데이터는 한국인에게 흔한 유전적 변이를 더 명확히 이해하는 데 도움을 줄 수 있으며, 이를 통해 한국인을 대상으로 한 질병 연구 및 치료 전략 개발이 강화될 수 있습니다.

2. **유전체 진단 정확성**:

   - 장독립 데이터를 기반으로 한 구조 변이 분석은 기존 단독립 데이터보다 더 많은 변이를 정확히 식별할 수 있어, 유전체 기반 진단 기술의 신뢰도를 높일 수 있습니다.

3. **진화 연구**:

   - 텔로미어와 subtelomeric 변이는 인류의 유전체 진화와 텔로미어 유지 메커니즘을 이해하는 데 중요한 단서를 제공합니다.

추가적으로 연구에 대한 세부 사항이 더 필요하시다면 말씀해주세요!



NotebookLM

제공된 소스는 **한국인 3명의 고품질 드래프트 게놈(draft genome)을 분석하여 한국인 집단의 유전적 변이를 연구한 논문**입니다. 이 연구는 **최첨단 Long-read 시퀀싱 기술을 활용하여 복잡한 게놈 영역, 특히 텔로미어(telomere)와 서브텔로미어(subtelomere) 영역의 구조적 변이(structural variation, SV)를 밝히는 데 초점**을 맞추고 있습니다.

**연구 배경 및 이유**

*   **유전적 변이 연구의 중요성:** 유전적 변이는 인간의 진화와 유전 질환 연구에 있어 매우 중요합니다. 특히, **구조적 변이(SVs)는 유전체 내에서 큰 규모의 DNA 변이를 일으키며, 질병과 진화에 큰 영향**을 미칠 수 있습니다.

*   **기존 연구의 한계:** 기존의 인구 규모 유전체 연구는 주로 짧은 리드(short-read) 시퀀싱 기술을 사용해 왔습니다. 이 기술은 **반복적인 서열을 가진 텔로미어와 서브텔로미어 영역을 분석하는 데 어려움**이 있었습니다. 이러한 영역은 **유전체의 '어두운 물질(genomic dark matter)'로 여겨져 왔으며, 유전적 변이에 대한 이해를 방해**했습니다.

*   **Long-read 시퀀싱 기술의 등장:** 최근 Long-read 시퀀싱 기술은 **단일 뉴클레오티드 수준에서 게놈의 어두운 물질을 평가하고, 유전적 변이를 일으키는 메커니즘을 식별하는 데 기여**했습니다. 특히, **반복적인 서열이 많은 텔로미어와 서브텔로미어 영역을 분석하는 데 매우 유용**합니다.

*   **아시아인 유전체 데이터의 부족:** 기존의 인간 판게놈(pangenome) 참고 자료에는 **아시아인의 유전체 데이터가 충분히 반영되지 않았습니다**. 이 연구는 **한국인 유전체 데이터를 추가하여 이러한 불균형을 해소**하고자 했습니다.

*   **텔로미어 진화 연구:** 텔로미어와 서브텔로미어는 **DNA 손상에 취약한 영역**이며, 이러한 영역에서 발생하는 SV는 **텔로미어 진화 과정을 이해하는 데 중요**합니다.

**게놈 조립에 사용된 프로그램 및 파이프라인**

*   **HiFi Long-read 시퀀싱:** 연구진은 세 명의 한국인에게서 **약 20배의 높은 정확도(HiFi) Long-read 시퀀싱 데이터**를 생성했습니다. 이 데이터는 **개별 게놈 조립에 사용**되었습니다.

*   **De novo 어셈블리:** 생성된 HiFi 리드(read)를 **hifiasm(version 0.16.0) 프로그램**을 사용하여 contig(연속적인 DNA 서열 조각)로 de novo 조립했습니다.

*   **GFA 형식 변환:** hifiasm의 GFA 형식 출력 파일을 **FASTA 형식 파일로 변환**했습니다.

*   **스캐폴딩(scaffolding):** contig들을 **RagTag(version v2.0.1) 프로그램**을 사용하여 **CHM13 게놈을 참조하여 의사 염색체 수준(pseudo-chromosome-level)으로 스캐폴딩**했습니다.

*   **SV 호출:** 조립된 게놈을 **Winnowmap2(version 2.03) 프로그램**으로 CHM13 게놈에 정렬하고, **SVIM-asm(version 1.0.2) 프로그램**을 사용하여 구조적 변이를 호출했습니다.

*   **chrY 제외:** 확인된 SV의 정확도를 고려하여 **chrY(Y 염색체)에 위치한 SV는 제외**했습니다.

**구조적 변이 분석 및 false positive 여부**

*   **Long-read 기반 SV 감지:** 연구진은 **약 13만 개의 삭제(deletion) SV와 12만 개의 삽입(insertion) SV**를 확인했습니다. 이러한 SV는 **주로 센트로미어(centromere)와 서브텔로미어 영역에 위치**했습니다.

*   **Short-read 시퀀싱 데이터와 비교:** 연구진은 **103명의 한국인으로부터 얻은 Short-read 시퀀싱 데이터**를 사용하여 **long-read 시퀀싱으로 확인된 SV를 검증**했습니다. Short-read 시퀀싱 데이터에서 발견된 **삭제 및 삽입 SV의 >91% 와 >95% 가 Long-read 어셈블리 기반 방법으로도 확인**되었습니다.

*   **Long-read 기반 SV의 정확성:** **Long-read 기반 어셈블리 방법으로 확인된 SV는 Short-read 기반으로 발견된 singleton(하나의 개인에서만 발견되는 변이) SV를 상당수 포함**하고 있습니다. 이는 **Long-read 기반 SV가 false positive가 아닐 가능성이 높음**을 시사합니다.

*   **Short-read 기반 데이터의 한계:** Long-read 데이터에서 발견된 **삭제 및 삽입 SV 중 일부만이 Short-read 데이터에서 감지**되었습니다. 이는 **Long-read 시퀀싱 데이터가 SV 감지에서 false negative를 줄이는 데 기여함**을 보여줍니다.

*   **어셈블리 기반 vs 매핑 기반 SV 호출:** **어셈블리 기반 SV 호출 방법이 매핑 기반 방법보다 더 큰 규모의 SV를 더 많이 검출**했습니다. 이는 **어셈블리 기반 방법이 복잡한 게놈 영역, 특히 서브텔로미어 영역에서 더 나은 정밀도를 제공**함을 의미합니다.

*   **PCR 검증:** 연구진은 **56개의 SV를 무작위로 선택하여 PCR 분석을 통해 검증**했습니다. **56개의 SV 중 52개(92.9%)가 PCR을 통해 확인**되었으며, 이는 **Long-read 어셈블리에서 발견된 SV의 신뢰성**을 높입니다.

*   **다른 인종 집단과의 비교:** **한국인에게서 흔하게 발견되는 SV의 상당 부분이 다른 인종 집단에서도 발견**되었습니다. 이는 **SV가 인공적인 산물이 아님**을 시사합니다.

**연구 결과의 영향**

*   **한국인 유전체 연구의 발전:** 이 연구는 **한국인 유전체 데이터의 다양성을 이해하는 데 중요한 기반**을 제공합니다. 또한, **유전 질환 연구에 귀중한 자료**를 제공합니다.

*   **정밀 의학 발전 기여:** **개인 유전체 정보를 활용하여 질병을 예측하고 예방하는 정밀 의학 발전**에 기여할 수 있습니다.

*   **텔로미어 및 서브텔로미어 연구 발전:** **텔로미어와 서브텔로미어 영역의 구조적 변이를 밝힘으로써** 텔로미어 진화 및 DNA 손상 복구 메커니즘에 대한 이해를 높일 수 있습니다.

*   **암 연구 기여:** **텔로미어 손상 및 복구 메커니즘은 암 발생 및 진행에 중요한 역할**을 할 수 있으며, 이 연구는 **암 연구에도 기여**할 수 있습니다.

*   **유전체 암흑 물질 해소:** 이 연구는 **유전체의 어두운 물질로 여겨졌던 텔로미어와 서브텔로미어 영역에 대한 이해를 넓히는 데 도움**을 줍니다.

요약하자면, 이 논문은 **한국인 3명의 고품질 Long-read 게놈 데이터를 활용하여 구조적 변이를 분석하고, 이러한 변이가 한국인 집단에서 흔하게 나타나는 것임을 밝혀냈습니다**. 이 연구는 **유전체 연구, 정밀 의학, 텔로미어 진화, 그리고 암 연구에 중요한 영향**을 미칠 수 있습니다.


wrtn.ai

## 서론

유전체 연구는 인간의 진화와 유전 질환을 이해하는 데 있어 중요한 역할을 합니다. 특히 한국인 집단의 유전적 변이를 연구하는 것은 현재 아시아 계열이 과소 대표된 인류 유전체 연구에 중요한 기여를 합니다 [1]. 본 연구는 한국인 3명의 고품질 드래프트 지놈을 바탕으로 한국인 집단의 유전적 변이를 분석하여 이 집단의 유전적 다양성을 이해하고, 구조적 변이를 식별하는 것을 목표로 합니다 [2].

## 데이터 생산 및 유전체 조립 - Long read 시퀀싱 데이터 생산 과정

본 연구에서는 한국인 3명(K-001, K-002, K-003)으로부터 고품질 Long read HiFi 시퀀싱 데이터를 생산하였습니다. HiFi 기술은 이전 단일 세포 수준의 전체 유전체 분석 및 de novo 조립 연구에서 검증된 방법을 사용하였습니다 [2]. 각 개인당 평균 20배 커버리지의 HiFi 데이터를 생산하였는데, 이는 유전체 내 복잡한 구조적 변이를 정확하게 파악할 수 있는 충분한 깊이의 데이터입니다 [1]. 이를 통해 본 연구는 한국인 집단의 유전적 다양성과 구조적 변이를 심도 있게 분석할 수 있었습니다.

## 데이터 생산 및 유전체 조립 - 유전체 조립에 사용한 프로그램 및 파이프라인

본 연구에서는 유전체 조립을 위해 다음과 같은 프로그램과 파이프라인을 사용하였습니다.

hifiasm은 단일 뉴클레오티드 수준에서의 고품질 de novo 유전체 조립을 가능하게 하는 프로그램입니다 . 이 프로그램은 long read 데이터를 이용하여 염색체 단위의 정확한 유전체 조립을 수행합니다. 또한 RagTag는 자동화된 조립 스캐폴딩 도구로 사용되어 유전체 조립 과정을 효율적으로 수행할 수 있게 하였습니다 .

구조적 변이 분석을 위해서는 SVIM-asm이 사용되었습니다 . 이 프로그램은 하플로이드 및 디플로이드 유전체 조립체로부터 구조적 변이를 검출할 수 있습니다. 따라서 본 연구에서는 SVIM-asm을 활용하여 한국인 유전체의 구조적 변이를 정확히 파악할 수 있었습니다.

이처럼 다양한 프로그램과 파이프라인을 사용하여 고품질 유전체 조립과 구조적 변이 분석을 수행함으로써, 한국인 집단의 유전적 다양성을 심도 있게 분석할 수 있었습니다.

## 한국인 집단 내 구조적 변이 분석 - 실제 변이 입증 근거

연구팀은 한국인 집단에서 식별된 구조적 변이가 실제로 존재함을 다음과 같은 방법으로 입증하였습니다.

첫째, 3명의 한국인 개인 유전체 조립체 간 비교를 통해 약 75%의 구조적 변이가 2개 이상의 조립체에서 공통적으로 발견되었다는 것을 확인하였습니다. 이는 이러한 구조적 변이가 한국인 집단에서 일반적으로 나타나는 변이임을 시사합니다.

둘째, 추가로 100명의 한국인 샘플에 대해 단기 읽기 시퀀싱 데이터를 생산하고 분석한 결과, 장기 읽기 기반 조립체에서 식별된 구조적 변이의 약 76%가 단기 읽기 데이터에서도 확인되었습니다. 이를 통해 연구팀은 이러한 구조적 변이가 한국인 집단 내에서 널리 나타나는 변이라는 것을 입증하였습니다.

셋째, 103명의 한국인 샘플에서 식별된 작은 변이(SNP, 단일 염기 삽입/결실)에 대한 주성분 분석(PCA)을 수행한 결과, 본 연구에서 사용된 3명의 개인이 전체 한국인 집단의 대표성을 가지고 있음이 확인되었습니다.

마지막으로, 연구팀은 PCR 검증을 통해 5 kb 미만의 구조적 변이 56개와 5 kb 이상의 아단말부 구조적 변이 10개에 대해 그 존재를 확인하였습니다.

이와 같은 다양한 방법을 통해 연구팀은 한국인 유전체에서 식별된 구조적 변이, 특히 아단말부 구조적 변이가 실제로 한국인 집단 내에 존재하는 변이임을 입증하였습니다. [1][40][41]

## 한국인 집단 내 구조적 변이 분석 - 변이의 중요성

이번 연구에서 식별된 구조적 변이는 한국인 집단 내 유전적 다양성을 나타내는 중요한 사례입니다. 특히 subtelomeric 구조적 변이는 인구별 유전적 차이를 나타내는 데 중요한 역할을 합니다 [1]. 이를 통해 한국인 집단의 유전적 특성을 이해할 수 있습니다. 

연구팀은 이러한 구조적 변이가 한국인뿐만 아니라 다른 인종 그룹에서도 공통적으로 나타나는 것을 확인하였습니다 [40]. 그러나 한국인 집단에서는 이러한 변이가 독특한 패턴을 보이는 것으로 나타났습니다. 특히 subtelomeric 영역의 구조적 변이는 다른 집단과 구분되는 특징을 보여주었습니다 [1]. 이는 한국인 집단의 유전적 다양성을 강조하는 중요한 사례라고 할 수 있습니다.

따라서 이번 연구에서 발견된 구조적 변이는 한국인 집단의 유전적 특성을 이해하는 데 중요한 기여를 할 것으로 기대됩니다. 특히 subtelomeric 영역의 변이 분석은 인구 간 유전적 차이를 규명하는 데 유용할 것입니다.

## 결론

본 연구는 한국인 고품질 드래프트 지놈을 통해 구조적 변이를 분석한 결과, 한국인 집단의 유전적 다양성을 입증하였습니다. 특히 subtelomeric 영역의 구조적 변이 분석은 인구 간 유전적 차이를 규명하는 데 중요한 역할을 할 것으로 기대됩니다. 이는 유전체 연구에 중요한 기여를 하며, 향후 연구에 필요한 기초 자료를 제공합니다.

향후에는 더 많은 인구 샘플을 분석하여 유전체 연구의 정확성을 높이고, 유전적 변이의 기작을 더 깊이 이해하는 방향으로 나아갈 것입니다. 이를 통해 유전체 연구가 인간 유전 질환의 발병 기전 규명과 새로운 치료법 개발에 기여할 수 있을 것으로 기대됩니다. [1][2] 


결론적으로 PacBio HiFi 20x 커버리지 정도면 draft genome을 확보 할 수 있고, 그 genome으로 변이와 SV들도 확인 할 수 있는 수준이 된다. PacBio HiFi 20x 비용에 따라 달라지겠지만 Whole Genome기반의 개인유전체분석은 ilumina가 아닌 PacBio나 ONT가 이끌겠네요

물론 기본 분석 이후 annotation과 interpretation이 이라는 허들이 남아있긴 하지만...



출처: @ye._.vely618


수요일, 8월 23, 2023

SpeedSeq은 어디에 쓰는거지?

오늘은 연식은 좀 되었으나 빠른 분석 tool하나 가져와봤습니다.


SpeedSeq: ultra-fast personal genome analysis and interpretation

doi : 10.1038/nmeth.3505

이름하여 SpeedSeq!! 그래서 제목에 ultra-fast, 초고속이 들어갑니다.
근데... 분석시간이 얼마나 걸렸었는지는.. 기억이 잘..

논문에서는 저렴한 서버에서 50x WGS데이터를 13시간만에 align을 했다고하는데...
(저렴한서버의 정의는 CPU 16core에 128GB RAM이 장착된 서버라고 하네요)

여튼 논문에서는 50x WGS 데이터를 저렴한 서버를 사용해서 분석을 진행할 때 정렬 작업을 시간단위에서 끝냈다.. 라는 소식을 솔직히 DRAGEN 제외하고서는 들어본적이 없어서 조금 갸우뚱 하긴 합니다.

여하튼 논문에서 13시간만에 정렬을 끝냈다고 했다니!! 그렇다고 믿는게 인지상정 아니겠습니까?

근데 정렬 속도가 빠른건 큰 장점이지만 단순히 속도만 빠르면... 그건 아무짝에도 쓸모없는거죠


그래서 SpeedSeq와 기라성같은 변이 탐지 툴들과도 비교 해봤습니다.

somatic/germline 분석 툴들을 가리지 않고 모두 비교해봤습니다. GATK의 Haplotype Caller, Mutect, VarScan2와 같은... 기존에 너님들이 많이 쓰던 툴들이랑 비교해서 결과 다르지 않아. 라고 얘기하고 있습니다.


그런데 사실 저는 SpeedSeq을 사용한 이유가 속도가 빠르면서 bwa와 같은 기존 정렬 프로그램 대비 결과가 정확해서 사용한것이 아닌 그냥 LUMPY tool을 사용하기 위해서 였다는게 함정

사실 이 정렬 tool이 nature에 출판되었는지도 몰랐다는..

LUMPY사용하려고 메뉴얼보니 SpeedSeq 결과 사용하세요 라고 적혀 있어서 단지 사용 했었을뿐... 그 후에 나도 몰라 하고 있었는데...


그냥 한번 들쳐봤는데 다시 검토해볼만한 tool일거 같긴한데..

"Reference Sample 백만번 돌려서 결과 동일해요" 하는것보다 임상 샘플 10개만 분석해봐도 그 진가를 알아볼수 있으니...

만약에 제가 사용하게 된다면 다음에 다시 글하나 올려보도록 하죠 :)




출처: @ye._.vely618


화요일, 9월 14, 2021

Long-read sequencing identified a causal structural variant in an exome-negative case and enabled preimplantation genetic diagnosis

아니.. 2018년도에 이런 논문을 블로그에 keep놓고 그냥 놀고 있었다니..
여하튼 눈에 띄어서 한편 사브작 하나 올려봅니다.
역시 일이 많을때 딴짓은 국룰이라는 명제를 증명하듯......


WGS(Whole Genome Sequencing)이 아무리 저렴해졌다고하나 내 genome에 이상이 있는지 진단을 위해서 시퀀싱하는 비용이 억대에서 천만원 정도로 떨어진거지 아직은 WGS가지고 일반인이 무엇을 하기에는.... 물론 Private Premium Platinum Gold Special Society 같은 수식어의 멤버 라면... 할려면 할수는 있겠다만..

여튼 현재 아직까지는 유전체 진단에서 가장 현실적이고 합리적인 방법은 WES이나.. 짧은 read들을 가지고는 structural variant를 탐지하기에는 무리가 좀 있으니 long read로 해야하지 않겠냐라고 얘기하는 2018년도 논문되겠습니다.

해당 논문에서 언급하는 환자는 G6PC 유전자에 돌연변이가 생겨 간비대, 신장비대를 초래하는 recessive inheritance 질환으로 긴 지역에 deletion이 있었으나 WES만으로 진단하였을 때는 확인하지 못했고 nanopore (long read seq)를 사용하여 확인하였을 때에는 정확히 긴 길이의 SV를 확인 할 수 있어다 라는게 주제되겠습니다. 지금까지 short read만으로 시퀀싱하여 진단되지 않거나 오진되는 환자들의 돌연변이를 정확하게 확인 할 수 있는 도구가 임상 진단에서 하나더 생겼고 그로 인해 정확한 진단을 할 수 있게 되었다는 자화자찬의 평을 내면서 논문을 마무리하였습니다.

사례를 통해 short read만으로는 진단에 한계가 있다는것을 확인하였고 long read 방법이 이제 진단에 슬슬 자리 잡아야 하지 않나 싶은 생각이 드는....

(근데 길게 뽑으려면 나노포어 실험이 그렇게 쉽지 않은듯하던데.... )





출처: @ye._.vely618
출처: @ye._.vely618