Lee Gir-Won (Lee Gil-Won): Variant

레이블이 Variant인 게시물을 표시합니다. 모든 게시물 표시

금요일, 11월 21, 2025

정확한 변이 해석의 중요성과 유전 상담의 중요성

암환자의 경우 기회가 된다면 NGS 검사를 경험해 볼 수 있는데 이때 발견되는 변이 중 somatic 변이가 아닌 germline변이도 있는데 이때 발생된 변이가 병과 관련된 somatic인지 germline인지를 정확히 알 수 있다면 이후 치료에 많은 도움이 되는 것에 대한 내용의 논문이 있어 가져와봤습니다. 제목은 Challenges associated with the identification of germline variants on myeloid malignancy genomic profiling—a Singaporean experience으로 싱가포르 연구진들의 사례를 바탕으로 경험들이 녹아있어서 참고하면 좋을 것 같습니다. :)

DOI: 10.3389/fonc.2023.1182639

clova-x

이 연구는 싱가포르에서 myeloid malignancy의 유전체 프로파일링 중 germline variants 식별의 도전 과제를 다루고 있습니다. Germline variants는 유전적 특성으로 인해 개인의 건강과 치료 계획에 중요한 영향을 미칠 수 있으며, 이를 정확히 식별하고 관리하는 것이 중요합니다.
1. **Myeloid Malignancy와 Genomic Profiling**
- Myeloid malignancy는 혈액암의 일종으로, 유전체 프로파일링을 통해 관련 유전자 돌연변이를 확인합니다.
- 주로 말초혈액과 골수 흡인 샘플을 이용하여 somatic mutations을 분석하지만, 때때로 germline variants도 발견될 수 있습니다.
2. **Germline Variants 식별의 도전 과제**
- Germline variants는 유전적 특성으로 인해 개인의 건강과 치료 계획에 중요한 영향을 미칩니다.
- 이러한 variants를 식별하기 위해서는 머리카락 모낭 또는 피부 섬유아세포 검사가 필요합니다.
3. **Genetic Counseling과 Management**
- Germline variants가 발견되면 환자와 가족에게 유전 상담을 제공하여 적절한 관리 방안을 모색해야 합니다.
- 특히, 가족력이 있거나 여러 암이 발생한 경우, germline variants의 가능성을 염두에 두고 추가 검사를 고려해야 합니다.
4. **Clinical Implications**
- Germline variants는 치료 계획, 예후 예측, 가족 계획, 기증자 선택 등 다양한 측면에서 영향을 미칩니다.
- 이러한 variants는 상속될 수 있으므로, 가족 구성원에 대한 건강 감시와 예방적 치료가 필요할 수 있습니다.

gemini

## 골수성 악성종양 유전자 검사: 왜 유전성 변이 발견이 중요한가
골수성 악성종양(백혈병과 같은 혈액암)이 의심되거나 진단된 환자에게 유전자 검사를 하는 것은 이제 일상이 되었습니다. [cite_start]이 검사는 주로 암세포에서 발생하는 **체세포 변이**를 찾아내는 것을 목적으로 하지만, 때로는 환자의 모든 세포에 존재하며 부모로부터 물려받은 **유전성 변이**를 의도치 않게 발견하기도 합니다. [cite: 31]
이 논문은 세 가지 사례 연구를 통해 일상적인 유전자 검사에서 이러한 유전성 변이를 발견했을 때 발생하는 복잡성과 어려움을 보여줍니다. [cite_start]또한, 의료진이 이러한 변이를 인식하고 적절한 조치를 취하는 것이 왜 중요한지 강조합니다. [cite: 31]
---
### 연구 배경 및 목적
[cite_start]이 논문은 골수성 악성종양에 대한 유전자 검사 중 우연히 발견되는 유전성 변이의 중요성과 그에 대한 평가의 필요성을 다룹니다. [cite: 31] [cite_start]싱가포르의 여러 의료기관에 속한 저자들은 실제 임상 사례를 공유하며, 이러한 예측하지 못한 유전자 발견에 대한 유전 상담과 관리 방안을 논의합니다. [cite: 31] [cite_start]이 연구의 주요 목표는 이러한 유전성 변이 발견이 환자 치료에 미치는 잠재적 영향을 의사들에게 알리고, 이를 관리하기 위한 적절한 접근법을 제시하는 것입니다. [cite: 31]
### 방법
[cite_start]저자들은 싱가포르의 임상 경험을 바탕으로 이 논문을 작성했습니다. [cite: 31] [cite_start]이 논문에서 다루는 사례들은 골수성 악성종양이 의심되어 차세대 염기서열 분석(NGS)을 이용한 유전자 패널 검사를 받은 환자들입니다. [cite: 47, 51]
[cite_start]유전성 변이로 의심되는 소견이 나오면, 의료진은 혈액암의 영향을 받지 않는 다른 세포 조직에서 DNA를 채취해 특정 변이의 존재 여부를 확인했습니다. [cite: 78, 100] [cite_start]예를 들어, 털 뿌리나 피부 섬유아세포를 이용한 검사가 대표적입니다. [cite: 32, 79, 80] [cite_start]이를 통해 해당 변이가 체세포(암세포에만 한정된 변이)인지 유전성(모든 세포에 존재하는 변이)인지 구분할 수 있습니다. [cite: 78, 100] [cite_start]일부 사례에서는 환자의 가족 구성원들도 검사하여 같은 변이를 보유하고 있는지 확인했고, 이를 통해 유전 여부를 판단했습니다. [cite: 101, 102]
### 사례 연구 결과
이 논문은 각각 독특한 도전 과제와 결과를 보여주는 세 가지 사례를 자세히 설명합니다.
* **사례 1: 자연적으로 호전된 영아 환자**
[cite_start]생후 4개월 된 여자 아기는 소아 연소형 골수단핵구 백혈병(JMML)이 의심되었습니다. [cite: 166, 173] [cite_start]혈액 유전자 검사에서 JMML과 누난 증후군(Noonan syndrome)과 관련된 **PTPN11** 유전자 변이가 발견되었습니다. [cite: 174, 175] [cite_start]피부 조직 검사를 통해 이 변이가 유전성임이 확인되었고, 부모나 형제에게는 변이가 없었으므로 이 변이는 '새롭게 발생한(de novo)' 돌연변이였습니다. [cite: 178, 179] [cite_start]이 발견은 환자 치료에 매우 중요했습니다. [cite: 180] [cite_start]의료진은 PTPN11 관련 질환이 시간이 지나면서 자연적으로 호전되는 경우가 많다는 것을 알게 되었고, 불필요한 항암 치료를 피할 수 있었습니다. [cite: 180, 181] [cite_start]실제로 이 아이는 9개월이 되었을 때 혈액 수치가 정상으로 돌아왔습니다. [cite: 182] [cite_start]이후 아이는 누난 증후군과 관련된 신장 및 심장 이상 여부를 확인하기 위해 복부 초음파 및 심장 초음파 검사를 받았습니다. [cite: 188]
* **사례 2: 원인을 알 수 없는 호산구 증가증 환자**
[cite_start]33세 남성은 지속적인 호산구 증가증(특정 백혈구 수치가 높은 상태)으로 진료를 받았습니다. [cite: 191, 197] [cite_start]골수 유전자 검사에서 **CBL** 유전자 변이가 발견되었고, 털 뿌리 검사를 통해 이 변이가 유전성임이 확인되었습니다. [cite: 201, 202] [cite_start]이 변이는 이전에 보고된 적이 없었지만, 컴퓨터 분석으로 유해할 것으로 예측되었고, 유전성 CBL 변이는 누난 증후군과 유사한 증상, 면역 조절 이상, 특정 암 발병 위험과 관련이 있는 것으로 알려져 있었습니다. [cite: 203, 205] [cite_start]이 발견은 환자의 혈액학적 상태를 설명하는 데 도움이 되었고, 환자는 유전 상담을 받고 정기적인 관찰을 받게 되었습니다. [cite: 208, 209, 210]
* **사례 3: 골수 이식 공여자 선택의 어려움**
[cite_start]38세 남성 환자는 재생 불량성 빈혈로 진단받았고, 유전성 **DDX41** 유전자 변이를 가지고 있음이 확인되었습니다. [cite: 214, 220, 222] [cite_start]이 변이는 골수성 신생물 및 재생 불량성 빈혈의 위험을 높이는 것과 관련이 있습니다. [cite: 225] [cite_start]환자는 조혈모세포 이식이 필요했고, 그의 형제들은 공여자 적합성 검사를 받았습니다. [cite: 226, 227] [cite_start]세 명의 형제 중 두 명이 조직형(HLA)이 일치했지만, 그들도 같은 DDX41 변이를 가지고 있어 공여자로 부적합하다고 판단되었습니다. [cite: 228] [cite_start]DDX41 변이를 가진 공여자는 이식 후 환자의 백혈병 위험을 높일 수 있기 때문입니다. [cite: 229, 235] [cite_start]결국, 가족이 아닌 비혈연 공여자를 찾아 이식에 성공했습니다. [cite: 237] [cite_start]변이를 가지고 있는 형제들은 유전 상담을 받고 향후 건강 위험에 대한 모니터링을 받게 되었습니다. [cite: 238]
### 고찰, 의의 및 시사점
위 사례들은 체세포 유전자 검사가 의도치 않게 중요한 유전성 변이를 밝혀낼 수 있음을 보여줍니다. [cite_start]이는 환자의 치료에 다음과 같은 중요한 영향을 미칠 수 있습니다. [cite: 241, 242]
* [cite_start]**진단 및 관리:** 근본적인 유전성 질환을 확인하면 더 정확한 진단과 적절한 치료 계획을 세울 수 있습니다. [cite: 106, 241] [cite_start]예를 들어, 첫 번째 사례에서 유전성 변이임을 알게 된 덕분에 불필요한 항암 치료를 피할 수 있었습니다. [cite: 181, 241]
* [cite_start]**예방적 관리:** 유전성 변이 발견은 초기 진단 외에 다른 건강 문제에 대한 소인을 알려줄 수 있습니다. [cite: 109, 112] [cite_start]이를 통해 의료진은 환자에게 선제적인 건강 관찰을 권장하고 조기 개입을 할 수 있습니다. [cite: 111, 145]
* [cite_start]**가족 위험:** 유전성 변이는 유전되므로 환자의 혈연관계에 있는 가족에게도 영향을 미칠 수 있습니다. [cite: 117, 144] [cite_start]이 지식은 가족 계획에 영향을 줄 수 있으며, 다른 가족 구성원들도 유전 상담과 검사를 받아야 할 필요성을 강조합니다. [cite: 119, 146]
* [cite_start]**공여자 선택:** 골수 또는 조혈모세포 이식이 필요한 환자의 경우, 잠재적 공여자가 동일한 유전성 변이를 가지고 있는지 아는 것이 매우 중요합니다. [cite: 123] [cite_start]변이를 가진 공여자를 사용하면 이식 후 합병증과 미래의 악성종양 위험을 높일 수 있으므로 권장되지 않습니다. [cite: 124]
[cite_start]이 논문은 복잡한 유전자 발견을 관리하기 위해 혈액학자, 혈액병리학자, 유전학자 간의 긴밀한 협력이 필요함을 강조합니다. [cite: 246] [cite_start]또한, 유전자 검사 전후로 적절한 상담을 제공하여 환자가 우발적 발견의 잠재적 위험과 이점을 이해하도록 돕는 것이 중요하다고 설명합니다. [cite: 266, 268]
### 왜 이 연구가 중요한가
[cite_start]이 연구는 유전자 검사가 점점 더 보편화되는 시대에 의료진이 직면하는 중요한 임상적 과제를 보여주기 때문에 중요합니다. [cite: 263] [cite_start]유전자 검사가 단순히 현재의 질병을 진단하는 도구를 넘어, 환자의 평생 건강과 가족의 유전적 위험까지 포괄하는 정보를 제공할 수 있음을 입증했습니다. [cite: 106, 117] [cite_start]앞으로 더 많은 유전적 소인 유전자가 발견될 것으로 예상됨에 따라, 이 연구는 환자 치료의 표준화를 위해 공식적인 가이드라인이 필요하다는 점을 강조합니다. [cite: 264] [cite_start]이는 결과적으로 의료진의 역량을 강화하고 환자에게 최선의 진료를 제공하는 데 기여할 것입니다. [cite: 264]

chatGPT

좋습니다. 업로드해 주신 논문은 **「Challenges associated with the identification of germline variants on myeloid malignancy genomic profiling — a Singaporean experience (Frontiers in Oncology, 2023)」** 입니다. 아래는 이 논문의 주요 내용을 일반 독자도 이해할 수 있도록 쉽게 풀어쓴 요약입니다. (A4 두 장 분량 내외)
---
# 유전자 검사로 드러난 숨은 이야기: 싱가포르 사례에서 본 혈액암과 유전자의 관계
## 1. 연구 배경
최근 병원에서는 혈액암(특히 **골수 관련 암, 즉 myeloid malignancies**) 환자를 진단할 때 유전자 검사를 많이 활용합니다. 환자의 혈액이나 골수에서 유전자 변화를 찾아내어, 병의 원인을 파악하고 맞춤형 치료법을 정하는 데 도움을 주는 것이지요.
그런데 원래는 \*\*암세포에서 생긴 돌연변이(체세포 변이)\*\*를 찾기 위한 검사에서, 종종 \*\*태어날 때부터 가지고 있던 유전적 변이(생식세포 변이, germline variants)\*\*가 함께 발견되기도 합니다. 이 경우 단순히 암 치료에만 영향을 주는 것이 아니라, **가족에게도 유전될 수 있고, 앞으로의 건강 관리와 삶의 계획에도 큰 파급력**을 가집니다.
## 2. 연구 목적
싱가포르 연구진은 혈액암 유전자 검사를 하다가 **우연히 발견된 생식세포 변이**가 환자와 가족의 진단·치료·생활에 어떤 도전을 주는지 실제 사례를 통해 보여주고자 했습니다.
## 3. 연구 방법
* 환자의 **혈액, 골수, 모발, 피부 조직** 등에서 DNA를 추출하여 차세대 염기서열분석(NGS)을 실시
* 발견된 변이가 실제로 선천적(생식세포 변이)인지, 암세포에서만 생긴 것(체세포 변이)인지 확인
* 관련 환자와 가족을 대상으로 **유전 상담**을 진행하고 관리 방안을 모색
## 4. 주요 사례
연구진은 세 가지 실제 환자 사례를 소개했습니다.
* **사례 1 (4개월 여아)**
건강검진에서 비장 비대가 발견된 아기. 유전자 검사에서 *PTPN11* 유전자 변이가 나왔는데, 이는 **누난 증후군**과 관련된 선천적 변이로 확인되었습니다. 이 아기는 **치료 없이도 병이 호전될 수 있는 유형**임이 밝혀져, 불필요한 항암치료를 피할 수 있었습니다.
* **사례 2 (33세 남성)**
이유 없는 **호산구 증가증**으로 검사 중 *CBL* 유전자 변이가 발견됨. 이 변이는 가족에게도 물려줄 수 있고, 향후 **백혈병이나 면역질환 위험**과도 연관될 수 있었습니다. 환자는 현재 정기적인 추적관찰을 받고 있습니다.
* **사례 3 (38세 남성)**
**재생불량성 빈혈**으로 진단된 환자에게서 *DDX41* 유전자 변이가 발견됨. 이는 가족성 골수이형성증후군(MDS)과 백혈병 위험을 높이는 변이였습니다. 환자는 골수이식이 필요했지만, 두 명의 형제가 유전자 변이를 공유하고 있어 **가족을 이식 공여자로 쓸 수 없었고**, 결국 외부 기증자를 찾아 성공적으로 이식받았습니다. 이 과정에서 가족 구성원들도 **예방적 관리**를 받게 되었습니다.
## 5. 고찰
이 세 사례는 공통적으로 **“암 진단용 유전자 검사”에서 우연히 발견된 선천적 변이가 환자의 치료 방향, 가족 검사, 삶의 계획에까지 영향을 미쳤다**는 점을 보여줍니다. 그러나 이런 발견에는 여러 어려움이 따릅니다:
* 의사와 환자 모두 생식세포 변이의 의미를 이해하기 어렵다.
* 추가 검사(피부 조직, 모발 등)는 환자에게 부담이 될 수 있다.
* 보험, 비용 문제, 그리고 심리적 충격이 동반될 수 있다.
* 때로는 **건강에 미치는 영향이 아직 명확히 밝혀지지 않은 변이**도 있어 혼란을 준다.
## 6. 의의와 시사점
이 연구는 몇 가지 중요한 메시지를 줍니다.
1. **정확한 변이 해석의 중요성** – 같은 유전자 돌연변이라도 선천적일 경우 치료 방침이 완전히 달라질 수 있음.
2. **가족 건강까지 고려해야 함** – 유전될 수 있으므로, 가족 구성원의 검사와 예방 관리가 필요.
3. **의료 시스템의 준비** – 환자가 겪을 심리적·재정적 부담까지 고려한 상담과 제도적 장치 마련 필요.
4. **국제적 지침 필요성** – 현재는 정형화된 가이드라인이 부족하므로, 향후 표준화가 필요함.
## 7. 결론 – 왜 중요한가?
이 논문은 “혈액암 환자의 유전자 검사”가 단순히 암 치료를 넘어, **가족의 미래 건강과 삶의 선택까지 바꾸는 정보**를 줄 수 있다는 사실을 보여줍니다. 싱가포르 사례에서 보듯, 생식세포 변이를 제대로 인식하고 대응하지 않으면 **불필요한 치료, 잘못된 이식, 혹은 가족이 겪을 위험을 놓칠 수 있습니다.**
따라서 앞으로는 \*\*환자 개인뿐 아니라 가족 전체를 아우르는 ‘포괄적 유전 진료(cancer genetics care)’\*\*가 필수적이며, 이 연구는 그 필요성을 강조하는 중요한 사례 보고입니다.

grok3

### 싱가포르에서 혈액암 유전자 검사 중 발견된 유전성 변이의 도전
#### 연구 배경
혈액암, 특히 골수성 악성종양(예: 백혈병)은 유전자 검사를 통해 암세포의 변이를 찾는 것이 표준입니다. 이 검사(NGS: 차세대 시퀀싱)는 주로 혈액이나 골수에서 이뤄지며, 암 관련 변이(체세포 변이)를 목적으로 하지만, 때때로 태어날 때부터 가진 유전성 변이(생식세포 변이)가 우연히 발견됩니다. 이런 유전성 변이는 가족에게 유전될 수 있고, 치료나 예후에 영향을 미칩니다. 싱가포르 의료팀은 이런 경우를 자주 겪으며, 변이가 암과 직접 관련 없을 때 관리하기 어렵다는 문제를 지적합니다.
#### 연구 목적
이 논문은 싱가포르에서 혈액암 유전자 검사 중 발견된 유전성 변이의 도전적 사례를 소개하고, 이를 어떻게 상담하고 관리할지 논의합니다. 특히, 변이가 환자의 증상과 맞지 않을 때의 대처를 중점으로 합니다.
#### 방법
저자들은 실제 환자 사례 3개를 분석했습니다. 혈액이나 골수 샘플에서 NGS 검사를 통해 변이를 발견한 후, 모발 뿌리나 피부 세포(섬유아세포) 검사를 통해 유전성 여부를 확인했습니다. 변이의 빈도(VAF: 약 50%면 유전성 의심)가 주요 단서였습니다. 유전 상담과 가족 검사도 병행했습니다.
#### 결과
- **사례 1**: 4개월 여아, 복부 비대와 혈액 이상으로 JMML(소아 백혈병 유사) 진단. PTPN11 유전성 변이 발견. 이는 누난 증후군과 관련돼 자연 회복 가능성이 높아 화학요법 피함. 심장·신장 검사 추가로 건강 모니터링.
- **사례 2**: 33세 남성, 지속적 호산구 증가(면역 이상). CBL 유전성 변이 확인. 누난 유사 증후군 관련으로, 스테로이드 치료로 증상 호전. 가족 검사 거부했으나, 암·혈관 문제 위험 설명.
- **사례 3**: 38세 남성, 재생불량성 빈혈. DDX41 유전성 변이 발견. 골수이식 필요해 형제 검사: 2명 변이 보유로 기증자 제외, 무관련 기증자로 성공적 이식. 변이 보유 형제는 암 위험 모니터링.
#### 고찰
유전성 변이는 검사 목적 외에 발견되기 쉽지만, 확인이 어렵고(피부 생검 거부 등), 가족 관계나 심리적 부담을 유발합니다. 잘 알려지지 않은 유전자(예: CBL)의 경우 치료 지침이 부족합니다. 클리닉 시간 부족과 보험 문제도 장애물. 저자들은 헤마톨로지스트·유전학자 협력을 강조합니다.
#### 의의와 시사점
이 연구는 혈액암 검사에서 유전성 변이를 의심할 때 즉시 추가 검사(모발·피부)와 상담을 권고합니다. 가족 스크리닝으로 기증자 선택·예방 관리를 돕고, 오진 피함. 환자 교육으로 불필요한 치료를 줄일 수 있습니다. 결국, 표준 지침 개발로 더 많은 가족이 혜택 볼 수 있음.
이 연구가 중요한 이유는 혈액암 검사가 단순 진단을 넘어 가족 건강을 지킬 수 있음을 보여주기 때문입니다. 유전성 변이를 간과하면 치료 실패나 가족 암 발생 위험이 커지지만, 적절한 대처로 생명을 구할 수 있어요. 일반인도 유전자 검사의 잠재적 발견을 인지하고 상담 받는 게 좋습니다.

NotebookLM

## 혈액암 유전체 검사, 숨겨진 유전적 비밀을 밝히다: "싱가포르 사례 연구를 통해 본 골수성 악성종양 유전체 프로파일링에서 생식세포 변이 식별과 관련된 도전 과제"
안녕하세요! 오늘은 우리 몸의 혈액과 골수에 생기는 암, 즉 골수성 악성종양(myeloid malignancy) 진단을 위한 유전체 검사에서 발견되는 중요한 '숨겨진 비밀'에 대한 흥미로운 연구 결과를 소개해 드리고자 합니다. 최근 발표된 "싱가포르 사례 연구를 통해 본 골수성 악성종양 유전체 프로파일링에서 생식세포 변이 식별과 관련된 도전 과제 (Challenges associated with the identification of germline variants on myeloid malignancy genomic profiling—a Singaporean experience)" 논문은 이러한 유전적 정보가 환자와 그 가족의 치료와 건강 관리에 얼마나 큰 영향을 미치는지 구체적인 사례를 통해 보여줍니다. 복잡하게 들릴 수 있는 과학 이야기를 일반 독자분들도 쉽게 이해할 수 있도록 블로그 글 형식으로 풀어서 설명해 드릴게요.
---
### 1. 연구 배경: 혈액암 진단, 그리고 예상치 못한 유전적 발견
골수성 악성종양은 백혈병, 골수형성이상증후군 등 다양한 혈액암을 아우르는 질환입니다. 이러한 질환이 의심되거나 확진된 환자들은 **'유전체 프로파일링(genomic profiling)'**이라는 검사를 받습니다. 이는 암과 관련된 유전자 변이를 찾아내기 위한 검사로, 주로 혈액이나 골수 검체를 이용하죠.
이러한 검사의 주된 목적은 암세포 자체에 생긴 변이, 즉 **'체세포 변이(somatic mutation)'**를 확인하는 것입니다. 이를 통해 암의 정확한 진단을 내리고, 예후를 예측하며, 환자에게 가장 효과적인 표적 치료법을 찾는 데 도움을 받습니다. 차세대 염기서열 분석(NGS)과 같은 기술의 발전으로 이제는 훨씬 많은 유전자를 한 번에 검사할 수 있게 되어, 진단 및 예후 예측이 더욱 용이해졌습니다.
하지만 이 검사 과정에서 예상치 못한 중요한 발견이 종종 이루어집니다. 바로 **'생식세포 변이(germline variant)'**입니다. 체세포 변이가 암이 발생한 특정 세포에서만 나타나는 반면, 생식세포 변이는 부모로부터 물려받거나 새로 발생하여 몸의 거의 모든 세포에 존재하는 유전적 변이를 말합니다. 이는 특정 암이나 질병에 걸릴 위험을 높이는 유전적 소인으로 작용할 수 있습니다.
문제는 초기 유전체 검사에서 이러한 생식세포 변이가 발견되었을 때, 이것이 정말로 유전되는 변이인지 확인하고, 만약 그렇다면 환자의 질병과 어떤 관련이 있는지 판단하기가 매우 어렵다는 점입니다. 변이 대립유전자 빈도(VAF)가 50% 또는 100%에 가까우면 생식세포 변이일 가능성이 있지만, 확실히 구별하기 위해서는 모낭이나 피부 섬유아세포와 같은 다른 조직을 추가로 검사해야 하는 번거로움이 있습니다. 또한, 가족력이 없더라도 '드 노보(de novo)' 변이(새로 발생한 변이)이거나 유전되더라도 증상이 나타나지 않을 수 있어 혼란을 가중시킵니다. **이 논문은 이러한 복잡하고 도전적인 상황에 초점을 맞춰, 실제 환자 사례들을 통해 생식세포 변이의 중요성과 관리 방안을 논의합니다**.
### 2. 연구 목적: 예측할 수 없는 유전적 발견, 어떻게 대처할 것인가?
이 논문의 핵심 목표는 골수성 악성종양 진단 과정에서 **'우연히 발견되는 잠재적으로 중요한 생식세포 변이(incidental germline findings)'에 대한 이해를 높이고, 이에 대한 적절한 유전 상담 및 관리 방안을 제시**하는 것입니다. 구체적으로 다음과 같은 질문에 답하고자 합니다.
* 골수성 악성종양 유전체 검사에서 생식세포 변이가 발견되었을 때 어떤 어려운 상황들이 발생하는가?
* 이러한 생식세포 변이를 어떻게 정확히 확인하고 해석할 것인가?
* 생식세포 변이의 확인이 환자의 치료 계획, 예후, 가족의 건강에 어떤 영향을 미치는가?
* 임상에서 이러한 복잡한 유전적 발견에 대해 의료진과 환자가 어떻게 접근해야 하는가?
이를 통해 **생식세포 변이의 식별이 단순히 진단을 넘어 환자와 가족의 삶 전반에 미치는 중대한 의미를 강조**하고, 향후 의료 시스템에서 이러한 발견을 보다 체계적으로 관리하기 위한 방향을 제시합니다.
### 3. 연구 방법: 실제 임상 사례를 통한 심층 분석
이 연구는 직접적인 실험을 수행하기보다는, **실제 임상에서 저자들이 경험한 세 가지 도전적인 사례를 상세히 소개하고 분석하는 방식**을 사용했습니다. 각 사례는 골수성 악성종양 유전체 검사 중 생식세포 변이가 발견되어 복잡한 의료적, 윤리적 판단이 요구되었던 경우입니다.
각 환자에게는 다음과 같은 방식으로 유전체 검사가 진행되었습니다.
* **초기 진단:** 말초 혈액 또는 골수 흡인 검체를 이용한 골수성 악성종양 NGS 패널 검사를 통해 주요 유전자 변이를 확인했습니다.
* **생식세포 변이 확인:** 초기 검사에서 생식세포 변이가 의심될 경우, 혈액암의 영향을 받지 않는 다른 조직(예: 피부 섬유아세포, 모낭)의 DNA를 추가로 채취하여 동일한 변이의 존재를 확인했습니다. 특정 경우에는 구강 면봉 검체에서 얻은 DNA로 전장 유전체 시퀀싱(whole genome sequencing)을 진행하기도 했습니다.
* **가족 검사 및 상담:** 해당 변이가 가족 내 다른 구성원에게도 유전되었는지 확인하기 위해 가족 검사가 진행되거나 제안되었으며, 유전 상담을 통해 환자와 가족에게 유전적 위험 및 관리 방안을 설명했습니다.
이러한 사례 분석을 바탕으로 논문은 생식세포 변이의 식별이 가져오는 어려움과 그 해결책, 그리고 환자 및 가족에게 적절한 유전 상담 및 추적 관찰의 중요성을 심층적으로 논의합니다.
### 4. 연구 결과: 세 가지 사례로 본 생식세포 변이의 결정적 영향
논문은 세 가지 구체적인 사례를 통해 생식세포 변이의 발견이 진단과 치료에 얼마나 중대한 영향을 미치는지 보여줍니다.
* **사례 1: 4개월 여아의 연소성 골수단핵구 백혈병(JMML)과 누난 증후군**
* **발견:** 4개월 된 여아가 우연히 비장 비대(splenomegaly)로 검사받던 중, 연소성 골수단핵구 백혈병(JMML)이 의심되었습니다. 유전체 검사 결과, JMML과 관련된 PTPN11 유전자 변이가 확인되었고, 이 변이의 **생식세포 유래가 의심**되었습니다 (VAF 49%).
* **확인:** 피부 섬유아세포 검사를 통해 이 변이가 **생식세포 변이임이 최종 확인**되었습니다. 부모와 형제자매에게는 이 변이가 없어, 환자에게 새로 발생한 '드 노보' 변이로 판단되었습니다.
* **영향:** 이 발견은 치료에 결정적이었습니다. PTPN11 생식세포 변이와 관련된 골수 증식은 대개 양성이고 시간이 지나면 자연적으로 호전되는 경우가 많아, **공격적인 화학요법을 피해야 합니다**. 실제로 환아는 세포 수치가 자연적으로 개선되어 공격적인 치료 없이 경과를 지켜볼 수 있었습니다. 또한, 이 변이는 '누난 증후군(Noonan Syndrome)'과 관련이 있어, 환아는 신장 및 심장 이상 여부를 확인하기 위한 추가 검사를 받고 정기적인 심장 검사를 받게 되어 잠재적인 합병증에 미리 대비할 수 있었습니다.
* **사례 2: 33세 남성의 지속적인 호산구 증가증**
* **발견:** 33세 남성이 지속적인 호산구 증가증으로 검사를 받았습니다. 골수 검체 유전체 검사에서 CBL 유전자 변이가 발견되었고 (VAF 50%), 이 또한 **생식세포 유래가 의심**되었습니다.
* **확인:** 모낭 검사를 통해 이 변이가 **생식세포 변이임이 확인**되었습니다. 이 변이는 이전에 보고된 적은 없었지만, 여러 분석 도구에서 유해할 것으로 예측되었습니다.
* **영향:** CBL 유전자 생식세포 변이는 '누난 유사 증후군(Noonan-like syndrome)' 및 면역 조절 이상, 급성 골수성 백혈병 같은 악성종양, 혈관병증 등 다양한 건강 문제와 연관되어 있습니다. 환자는 누난 증후군의 신체적 특징은 없었으나, 이 변이가 혈액학적 표현형에 기여했을 가능성이 높아 유전 상담을 받고 예방적 관리 및 감시를 받게 되었습니다.
* **사례 3: 38세 남성의 재생불량성 빈혈 및 동종 조혈모세포 이식**
* **발견:** 38세 남성이 재생불량성 빈혈로 진단받았습니다. 골수 검체 유전체 검사에서 DDX41 유전자 변이가 발견되었고 (VAF 47.15%), 이 역시 **생식세포 유래 가능성**이 제기되었습니다.
* **확인:** 구강 면봉과 모낭 검사를 통해 이 변이가 **생식세포 변이임이 확인**되었습니다. DDX41 변이는 가족성 골수형성이상증후군/급성 골수성 백혈병(MDS/AML)과 연관되어 있습니다.
* **영향:** 환자는 재생불량성 빈혈 치료를 위해 동종 조혈모세포 이식이 필요했습니다. 가족 중 HLA가 일치하는 형제자매 두 명은 DDX41 변이도 가지고 있는 것으로 확인되었습니다. **이러한 변이를 가진 기증자의 세포를 이식하면 수혜자의 이식 후 백혈병 위험이 증가할 수 있으므로, 이들은 적합한 기증자로 간주되지 않았습니다**. 결국 환자는 외부의 일치하는 비혈연 기증자(MUD)로부터 성공적으로 이식을 받았습니다. 변이를 가진 형제자매들은 DDX41 관련 위험에 대한 유전 상담과 함께 혈액학 전문의의 모니터링을 받게 되었습니다.
이 사례들은 초기 유전체 검사에서 발견된 생식세포 변이를 철저히 확인하고 그 의미를 해석하는 것이 **환자의 치료 방향을 결정하고, 잠재적 합병증에 대비하며, 가족 구성원들의 건강 관리에도 중대한 영향**을 미친다는 것을 명확히 보여줍니다.
### 5. 고찰: 생식세포 변이, 놓쳐서는 안 될 중요한 신호
이 논문은 골수성 악성종양 진단 과정에서 발견되는 생식세포 변이가 의료진과 환자 모두에게 다양한 도전 과제를 안겨준다는 점을 강조합니다.
* **의료진의 어려움:** 생식세포 변이에 익숙하지 않은 의료진은 잠재적인 생식세포 변이를 식별하거나, 적절한 추가 검사를 의뢰하고, 환자에게 그 의미를 설명하는 데 어려움을 겪을 수 있습니다. 특히 변이가 환자의 현재 질병 표현형과 관련이 없는 것으로 보일 때는 더욱 복잡합니다. 이러한 문제를 해결하기 위해서는 혈액학자, 혈액병리학자, 유전학자 간의 긴밀한 협력이 필수적입니다.
* **환자의 어려움:** 환자들은 생식세포 변이 발견으로 인한 심리적 부담감(불안, 스트레스, 죄책감 등), 보험 청구 및 의료비 지원에 대한 영향, 또는 피부 생검과 같은 침습적인 검사에 대한 거부감 때문에 추가 검사를 거부할 수 있습니다. 이러한 우려를 해소하기 위해 충분한 심리적 지원과 함께 모낭 검사처럼 덜 침습적인 방법을 제시하는 것이 중요합니다.
* **지식의 한계:** 많은 유전자 관련 생식세포 증후군의 자연 경과와 평생 위험에 대한 지식은 아직 충분히 확립되지 않은 경우가 많습니다. 이는 시간이 지남에 따라 더 많은 데이터가 축적되면서 개선될 것으로 예상됩니다.
결론적으로, 이 논문은 생식세포 변이가 **"단순한 발견"이 아니라 "놓쳐서는 안 될 중요한 신호"**임을 역설합니다. 이러한 변이의 존재는 환자뿐만 아니라 그의 생물학적 가족 구성원들에게도 영향을 미치므로, 적절한 유전 상담과 추적 관찰을 제공하는 것이 중요합니다. 현재 골수성 악성종양의 유전적 소인에 대한 인식이 아직 부족하지만, 앞으로 더 많은 관련 유전자가 발견될 것이므로, 이러한 발견을 체계적으로 평가하고 관리하기 위한 **공식적인 지침 마련이 시급함**을 강조합니다.
### 6. 의의와 시사점: 정밀 의료 시대, 유전적 통찰의 힘
이 연구는 골수성 악성종양 진단을 위한 유전체 검사의 활용도를 높이고, 환자 중심의 정밀 의료를 실현하는 데 매우 중요한 시사점을 제공합니다.
* **치료 계획 및 예후 예측의 정교화:** 생식세포 변이의 확인은 환자의 치료 계획과 예후 예측을 훨씬 더 정확하게 만듭니다. 사례 1에서처럼 공격적인 치료를 피하게 하거나, 사례 3에서처럼 적합한 조혈모세포 기증자를 선별하는 데 결정적인 정보를 제공할 수 있습니다. 또한, TP53과 같은 특정 유전자 변이는 다른 암 발생 위험을 높여 평생 건강 감시 계획을 수립하는 데 필수적입니다.
* **가족 건강 관리 및 가족 계획 지원:** 생식세포 변이는 유전될 수 있으므로, 다른 가족 구성원들도 같은 변이를 가지고 있을 위험이 있습니다. 이 정보를 통해 가족들은 잠재적인 질병 위험을 미리 파악하고, 유전 상담을 통해 가족 계획이나 예방적 감시 및 조기 치료에 대한 결정을 내릴 수 있습니다.
* **포괄적인 환자 상담의 필요성:** 유전체 검사 전후로 환자에게 검사의 잠재적 이점과 위험(우연한 생식세포 변이 발견, 보험 문제, 심리적 부담, 불확실한 의미의 변이(VUS) 발견 등)에 대해 충분히 설명하는 것이 중요합니다. 이는 환자가 정보에 기반한 결정을 내리고 불필요한 오해나 심리적 스트레스를 줄이는 데 도움을 줍니다.
* **학제 간 협력의 강화:** 유전학 분야의 전문성이 요구되는 생식세포 변이의 해석과 관리를 위해 혈액암 전문의, 병리학자, 임상 유전학자 간의 긴밀한 협력이 더욱 강조됩니다.
---
### 이 연구가 왜 중요할까요?
이 연구는 현대 의료에서 유전체 검사의 역할이 얼마나 복합적이고 광범위한지를 명확히 보여주기 때문에 매우 중요합니다. 골수성 악성종양 진단이라는 좁은 목적을 넘어, **한 환자의 유전체 정보가 그 사람의 평생 건강, 그리고 심지어 그 가족 구성원들의 건강과 삶에까지 지대한 영향**을 미칠 수 있음을 실제 사례를 통해 생생하게 입증했습니다.
단순히 암 진단을 위한 검사에서 우연히 발견될 수 있는 **'생식세포 변이'의 존재를 인지하고, 이를 정확히 확인하며, 그 의미를 환자와 가족에게 명확하게 전달하고 관리하는 것이야말로 정밀 의료 시대의 핵심적인 과제**임을 이 논문은 강력하게 시사합니다. 이는 의료진이 유전체 정보를 다룰 때 더욱 신중하고 포괄적인 접근 방식을 가져야 함을 강조하며, 궁극적으로 환자와 그 가족들이 더 나은 건강 관리와 삶의 질을 누릴 수 있도록 돕는 중요한 이정표가 될 것입니다. 앞으로 이러한 유전적 발견에 대한 표준화된 지침과 지원 시스템이 더욱 발전해야 할 것입니다.

perplexity.ai

이 논문은 싱가포르에서 진행된 연구로, 혈액암(특히 골수질환) 환자들의 유전자 검사 과정에서 발생하는 ‘생식세포(유전) 변이’ 판별의 어려움과 실제 사례, 그리고 의료진과 환자가 이 정보를 어떻게 관리해야 하는지에 대해 다룹니다.[1]
***
### 연구 배경
최근 혈액암 환자들에게 정밀 유전자 검사가 널리 시행되고 있습니다. 검사 목적은 대부분 소마틱(후천적·암세포에서 나타나는) 변이를 찾아 병의 진단·치료·예후 등을 결정하는 데 있지만, 의도치 않은 ‘생식세포(유전) 변이’도 드물지 않게 발견됩니다. 생식세포 변이는 가족력, 유전적 암 위험, 치료방침까지 영향을 줄 수 있기 때문에 별도의 확인과 관리가 필요합니다.[1]
***
### 연구 목적
이 논문은 골수질환 유전자 검사에서 발견된 생식세포 변이와 그 확인·관리 과정에서 겪는 현실적인 문제를 구체적인 사례와 함께 소개하고, 유전자 검사 결과에 대한 상담·의사결정에 있어 의료진과 환자가 주의해야 할 점을 제시합니다.[1]
***
### 연구 방법
싱가포르 내 병원에서 혈액암 또는 골수질환 유전자 검사를 받은 환자들 가운데, 생식세포 변이 의심 또는 확인 사례를 선별하여 진단 과정·추가 생체검사(예: 피부, 모발 등에서 DNA 재추출)·가족 검사·상담 내용 등을 상세히 분석했습니다. 실제 진료 현장에서 나타나는 문제, 환자 반응, 검사 방식의 장단점까지 정리했습니다.[1]
***
### 연구 결과
논문에는 실제 세 건의 사례가 소개됩니다:
- **사례 1:** 영유아 환자에서 소마틱 패널 검사 중 PTPN11 유전자의 변이가 발견되어, 추가 피부 검사로 생식세포(유전) 변이임이 확인됨. 이 변이로 인한 혈액질환은 자연적으로 호전될 가능성이 높아, 불필요한 항암치료를 피할 수 있었음. 또한 신장, 심장 등 추가 건강검사가 이뤄짐.[1]
- **사례 2:** 성인 남성에서 혈액검사 중 CBL 유전자 변이가 확인됨. 모발 검사로 생식세포 변이라고 확진하였으며, 이 변이는 유전 증후군과 연관 있으나 전형적인 신체 증상은 없어 관리 및 추후 모니터링을 이어가기로 함.[1]
- **사례 3:** 중년 남성에서 DDX41 유전자 변이가 발견됨. 모발 검사로 가족성 위험임을 확진, 조혈모세포이식 가능한 가족 중 일부가 같은 유전자 변이를 보유해 이식에 부적합하다고 판단함. 동기들 역시 모니터링 대상이 됨.[1]
이 연구에서는 소마틱 패널 검사 중 생식세포 변이 발견 시, 추가적인 검사와 자세한 유전자 상담, 가족 검사, 맞춤 건강관리의 필요성을 강조합니다.[1]
***
### 고찰
- 검사 과정에서 실제로 환자나 가족이 불안, 보험 문제, 추가 검사에 대한 거부감 등 현실적인 갈등을 겪는 경우가 많았습니다.[1]
- 의료진도 유전성 위험 관리, 검사 방법(피부, 모발, 혈액 등), 관련 유전자 기능에 대한 지식 부족, 바쁜 진료환경 등으로 어려움을 겪었습니다.[1]
- 기존 소마틱 검사로 클론성 변화(노화, 항암치료 이후 발생)와 실제 생식세포 변이 구분이 어려운 점이 문제로 지적되었습니다.[1]
- 가족 내 유전 위험이 있는 경우, 이식·치료 여부 결정에도 중요한 영향을 줍니다.[1]
***
### 의의와 시사점
- 소마틱 유전자 검사에서 ‘예상치 못한 가족 위험’을 찾아내는 것은 단순 진단을 넘어 가족 전체의 건강·미래 설계에 영향을 미칠 수 있습니다.[1]
- 의료진은 검사 전·후 충분한 상담, 가족에게 알기 쉬운 설명, 필요한 경우 적극적인 추가 검사를 제공해야 합니다.[1]
- 공식 가이드라인 마련, 검사 방법 표준화, 의료진과 유전 전문가의 협력, 환자 맞춤 심리·사회적 지원 등이 앞으로 점점 더 중요해질 것입니다.[1]
***
### 왜 이 연구가 중요한가?
이 연구는 혈액암 진단을 위해 시행하는 정밀 유전자 검사를 통해 실제로 ‘가족성 위험’을 발견하고, 치료와 가족 건강관리, 사회적 문제까지 폭넓게 고려해야 함을 보여줍니다. 앞으로 일반 환자뿐만 아니라 가족, 의료진 모두에게 더 정확하고 인간적인 유전자 상담과 관리가 필요하다는 실질적 근거와 방향을 제시하는 핵심 연구입니다.[1]

출처: @ye._.vely618

금요일, 6월 20, 2025

돌연변이는 얼마나 어떻게 발생할까?

유전체 기술이 발전하면서 이전에 축적해놓은 데이터를 활용해서 연속적인 연구를 진행을 통해 얻을 수 있는 연구가 있어 한번 가져와봤습니다. 제목은 Human de novo mutation rates from a four-generation pedigree reference 으로 4세대에 걸친 가족을 대상으로 돌연변이가 세대를 거듭할 수록 어떻게 발생하는지에 대해서 알아보았다고 하네요.

이 연구를 사람을 대상으로 하다니..

short-read 시퀀싱뿐만아니라 long-read로도 함께 분석했다고 하니 확인 할 수 있는 내용들이 더 풍부 했을 것 같습니다.

DOI: 10.1038/s41586-025-08922-2

결론은 아이는 젊을 때 낳아야한다는... (아버지 나이 기준으로)

gemini

**블로그 제목: 4세대 대규모 가족 연구로 밝혀낸 놀라운 유전적 비밀!**
**🌟 연구 배경: 왜 이런 연구가 필요했을까요?**
우리 몸의 설계도라고 할 수 있는 유전자는 부모로부터 자녀에게 전달되면서 때때로 작은 변화, 즉 '돌연변이'를 겪습니다. [cite: 1, 2, 3] 이 돌연변이는 새로운 유전적 특징을 만들기도 하지만, 질병의 원인이 되기도 하죠. [cite: 1, 2, 3] 과학자들은 이 돌연변이가 얼마나 자주, 어디에서 일어나는지 정확히 알고 싶어 합니다. [cite: 1, 2, 3] 기존 연구들은 유전자의 일부 영역이나 짧은 DNA 정보만 분석하여 전체적인 유전적 변화를 파악하는 데 한계가 있었습니다. [cite: 1, 2, 3]
**🎯 연구 목표: 연구진이 알고 싶었던 것은 무엇일까요?**
이번 연구진은 4대에 걸친 28명의 대규모 가족의 유전자 정보를 분석하여, 사람의 유전자가 어떻게 변화하고 이러한 변화가 가족 내에서 어떻게 전달되는지 더 정확하게 알고자 했습니다. [cite: 2, 3, 4] 마치 4대에 걸친 가족 구성원들의 유전적 변화를 추적하는 것과 같다고 할 수 있죠.
**🧬 데이터 또는 재료 설명: 어떤 데이터가 사용되었을까요?**
연구진은 이 가족의 유전자 정보를 얻기 위해 다양한 최첨단 유전자 분석 기술을 사용했습니다.
* **다양한 염기서열 분석 기술:**
* 짧은 DNA 조각을 읽는 방식 (Illumina, Element) [cite: 2, 3, 4]
* 긴 DNA 조각을 읽는 방식 (PacBio HiFi, UL-ONT) [cite: 2, 3, 4]
* DNA의 두 가닥을 분리하여 분석하는 방식 (Strand-seq) [cite: 2, 3, 4]
이러한 기술들을 통해 유전자 정보를 정확하게 분석하고, 숨겨진 유전적 변이까지 찾아낼 수 있었습니다. [cite: 2, 3, 4]
**🔬 연구 방법: 연구는 어떻게 진행되었을까요?**
연구진은 먼저 4대에 걸친 가족 구성원들의 혈액 샘플에서 DNA를 추출했습니다. [cite: 493, 494, 495, 496, 497] 그리고 다양한 염기서열 분석 기술을 통해 각 개인의 유전자 정보를 읽어냈습니다. [cite: 493, 494, 495, 496, 497] 이 데이터를 바탕으로, 복잡한 컴퓨터 프로그램을 사용하여 각 개인의 유전자를 조립하고, 4세대에 걸쳐 유전자가 어떻게 변화하고 전달되었는지 분석했습니다. [cite: 493, 494, 495, 496, 497]
**💡 연구 결과 및 예시: 어떤 결과가 나왔을까요?**
연구 결과, 4세대에 걸쳐 나타난 다양한 유전적 변화를 밝혀낼 수 있었습니다. [cite: 98, 99, 100]
* 한 세대에서 다음 세대로 전달되는 동안 평균적으로 98~206개의 새로운 돌연변이가 발생한다는 것을 알아냈습니다. [cite: 3]
* 이 중에는 DNA의 특정 위치에 있는 한 개의 염기가 바뀌는 작은 변화(SNV)도 있고, DNA 염기서열의 일부가 삽입되거나 삭제되는 비교적 큰 변화도 있었습니다. [cite: 3]
* 특히, 짧은 반복 서열(STR)이나 가변적인 반복 서열(VNTR)이 있는 부분이 다른 곳보다 더 자주 변한다는 사실도 발견했습니다. [cite: 5, 33, 34, 35]
예를 들어, 특정 유전자에 있는 짧은 반복 서열의 길이가 부모님보다 자녀에게서 더 길거나 짧아지는 경우가 있었는데, 이러한 변화는 때때로 유전병과 관련이 있을 수 있습니다.
**✨ 의미와 영향: 이 연구가 우리에게 주는 의미는 무엇일까요?**
이번 연구는 인간 유전자의 변화에 대한 이해를 넓혀줍니다. [cite: 9, 10, 11, 24, 25, 26, 27]
* 이 연구에서 얻어진 데이터는 앞으로 다른 과학자들이 유전 질환의 원인을 찾거나, 개인 맞춤형 의료 기술을 개발하는 데 중요한 자료로 활용될 수 있습니다. [cite: 478, 479, 480, 481]
* 또한, 부모의 나이가 유전적 변화에 미치는 영향, 특정 유전자 부위가 더 잘 변하는 이유 등 흥미로운 사실들을 밝혀내어, 생명 현상에 대한 우리의 호기심을 자극합니다. [cite: 98, 99, 100]
이처럼 유전학 연구는 우리가 가진 유전적 비밀을 풀어가면서, 우리 삶과 건강에 큰 영향을 줄 수 있는 새로운 가능성을 열어주고 있습니다!

NotebookLM

안녕하세요! 개인 블로그에 올리실 연구 요약 글 작성에 도움을 드릴 수 있습니다. 제공해주신 자료를 바탕으로 일반 대중이 이해하기 쉽도록 친절하고 자세한 설명과 함께 요약 글을 작성해 드릴게요.
---
## 우리 몸에 새롭게 생기는 변화, 돌연변이에 대한 놀라운 연구 결과!
안녕하세요, \[블로그 이름] 독자 여러분! 오늘은 우리 몸의 가장 기본적인 정보 단위인 DNA에서 일어나는 신비로운 현상, 바로 '돌연변이'에 대한 아주 흥미로운 연구 결과를 소개해 드리려고 합니다. 부모에게는 없던 새로운 유전적 변화가 자녀에게 어떻게 생겨나는지에 대한 이야기인데요. 최근 발표된 논문 \ 내용을 바탕으로 함께 알아보겠습니다.
### 연구 배경: 이 연구가 왜 필요했을까요?
우리 각자가 가진 유전 정보는 부모로부터 물려받습니다. 하지만 때로는 부모에게는 없던 새로운 유전적 변화가 자녀에게 나타나기도 하는데요, 이것을 **'새로 발생한 돌연변이(de novo mutation, DNM)'**라고 합니다. 이러한 돌연변이는 유전 질환의 원인이 되기도 하고, 인류 진화의 동력이 되기도 하는 등 우리 유전체에 매우 중요한 역할을 합니다.
이런 새로운 돌연변이가 얼마나 자주, 그리고 어떤 종류로 생기는지를 정확히 아는 것은 매우 중요합니다. 하지만 우리 유전체는 약 30억 개의 DNA 염기로 이루어져 있고, 특히 반복적인 서열이 많은 복잡한 영역들은 기존의 짧은 DNA 조각을 읽는 방식(짧은 염기서열 분석)으로는 제대로 파악하기 어려웠습니다. 마치 복잡한 지도에서 특정 지역만 확대해서 보는 것과 같았죠. 유전체 전체를 정확하게 파악하기 위해서는 **완벽한 염기서열 정보**가 필요했습니다. 이 연구는 바로 이 '완벽한 정보'에 도전하며 시작되었습니다.
### 연구 목적: 연구진은 무엇을 알고 싶었을까요?
연구진은 기존 연구 방식의 한계를 극복하고, **사람에게서 새로 발생하는 돌연변이(DNM)의 종류와 빈도, 그리고 그 특징**을 **유전체 전체에 걸쳐 아주 자세하게 파악**하고 싶었습니다. 특히 복잡해서 지금까지 연구하기 어려웠던 유전체의 반복적인 부분이나 Y 염색체 같은 곳에서 돌연변이가 얼마나 자주 일어나는지, 그리고 이런 돌연변이가 부모 중 누구에게서 오는지, 부모의 나이와는 관계가 없는지 등 다양한 궁금증을 해결하고자 했습니다. 또한, 수정란이 자라는 과정에서 생기는 돌연변이(후성적 돌연변이)에 대해서도 더 깊이 이해하고자 했습니다.
### 데이터 또는 재료 설명: 어떤 데이터와 재료를 사용했나요?
이 연구는 **네 세대에 걸친 28명의 가족 구성원**으로부터 얻은 DNA를 사용했습니다. 마치 가계도처럼 할아버지, 할머니부터 손주, 증손주까지 여러 세대의 유전 정보를 추적할 수 있는 가족이죠 (CEPH 1463 가족).
연구진은 이 가족 구성원들의 DNA를 분석하기 위해 **다섯 가지 종류의 최첨단 염기서열 분석 기술**을 사용했습니다. 여기에는 긴 DNA 조각을 읽을 수 있는 **롱 리드(long-read) 기술**과 짧은 조각을 읽는 **쇼트 리드(short-read) 기술**이 모두 포함됩니다. 특히 롱 리드 기술은 복잡하고 반복적인 유전체 영역을 더 잘 파악하는 데 큰 도움을 줬습니다. 쉽게 말해, 유전체 전체의 '완성된 지도'를 만들기 위해 여러 종류의 지도를 만들고 겹쳐 보면서 정확도를 높인 것이라고 생각하시면 됩니다.
### 연구 방법: 연구는 어떻게 진행되었나요?
연구진은 가족 구성원들의 DNA 염기서열 데이터를 분석하여, 부모로부터 물려받은 두 개의 유전체(염색체)를 구분하는 **'유전체 페이징(phasing)'** 작업을 수행했습니다. 그리고 이 정보를 바탕으로 유전체의 대부분(95% 이상)을 조립하여 **고품질의 완성된 유전체 지도(게놈 어셈블리)**를 만들었습니다. 여러 분석 방법과 첨단 장비를 동원하여 이 유전체 지도 상에서 새로 생긴 돌연변이들을 찾아냈습니다.
돌연변이를 찾는 과정은 매우 꼼꼼하게 진행되었습니다. 예를 들어, **단일 염기 변이(SNV)** 같은 작은 돌연변이는 여러 종류의 염기서열 분석 데이터(HiFi, ONT, Illumina)를 **교차 검증**하여 정확도를 높였습니다. 부모에게는 없고 자녀에게만 나타나는 변이인지 확인하고, 심지어 혈액 샘플에서 발견된 변이가 실제로 다음 세대에게 전달되는지(생식세포에도 존재하는지) 확인하는 과정을 거쳤습니다.
**반복 서열(TR)**이나 **구조 변이(SV)**처럼 파악하기 어려운 돌연변이는 특별한 도구(TRGT, TRGT-denovo, pangenome graph 등)와 분석 기법을 사용했습니다. 예를 들어, **후성적 돌연변이(PZM)**는 유전체를 페이징한 정보와 돌연변이가 몸의 모든 세포에 같은 비율로 존재하는지(대립유전자 빈도) 등을 종합적으로 판단하여 구분했습니다.
이렇게 찾아낸 다양한 종류의 돌연변이 수를 세고, 유전체의 특정 영역별로 돌연변이가 얼마나 자주 일어나는지 **돌연변이율을 계산**했습니다. 또한, 부모 중 누구로부터 온 돌연변이인지, 부모의 나이와는 관련이 있는지 등 다양한 특성을 분석했습니다.
### 연구 결과 및 예시: 어떤 결과가 나왔고, 어떤 예시가 있을까요?
연구 결과는 매우 흥미롭습니다.
* **세대당 새로운 돌연변이 수**: 한 세대에서 다음 세대로 유전될 때 **평균 98개에서 206개 사이의 새로운 돌연변이**가 생기는 것으로 추정되었습니다 (세대당 평균 152개).
* **돌연변이의 종류**: 이 새로운 돌연변이 중에는 DNA 한 글자가 바뀌는 **단일 염기 변이가 약 74.5개**, 작은 삽입/결실이 약 7.4개, 반복 서열에서 비롯된 삽입/결실 또는 구조 변이가 약 65.3개, 그리고 염색체의 중심부(센트로미어)에서 생기는 돌연변이가 약 4.4개 정도였습니다. 남성의 경우 Y 염색체에서만 세대당 평균 12.4개의 새로운 변화가 관찰되었습니다.
* **가장 변이가 잘 일어나는 곳**: **짧은 반복 서열(STR)과 가변적인 길이의 반복 서열(VNTR)**이 다른 부위보다 훨씬 변이가 잘 일어났습니다.
* **반복적으로 나타나는 돌연변이**: 특히 32개의 특정 반복 서열 위치에서는 여러 세대에 걸쳐 **반복적으로 새로운 돌연변이**가 관찰되었습니다. 마치 특정 장소가 유난히 돌연변이가 '잘 생기는 핫스팟' 같았죠.
**\[예시]** 연구에서 발견된 반복적인 돌연변이 중에는 8번 염색체의 특정 반복 서열(VNTR)에서 유난히 변화가 많이 일어난 사례가 있었습니다. 이 반복 서열은 8명의 자녀(G3) 중 7명에게서 부모에게 없던 새로운 길이 변화(확장 또는 축소)가 발견되었고, 심지어 이 변화가 다음 세대(G4)로 전달될 때 또다시 추가적인 길이 변화가 일어나는 경우도 있었습니다. 이는 마치 복사기가 특정 부분을 복사할 때마다 조금씩 틀어지거나 늘어나는 것처럼, 특정 DNA 구간이 유전될 때마다 불안정하게 변할 수 있음을 보여줍니다.
* **아버지의 영향**: 새로 발생하는 **생식계열 돌연변이의 대부분(75-81%)은 아버지에게서 유래**하는 것으로 나타났습니다. 또한, 아버지의 나이가 한 살 많아질수록 생식계열 단일 염기 변이가 연간 1.55개씩 증가하는 **아버지 나이 효과**도 확인했습니다. 어머니 나이 효과는 유의미하게 나타나지 않았습니다.
* **수정 후 발생하는 돌연변이**: 전체 새로운 단일 염기 변이 중 약 **16%는 수정란이 분열하는 과정에서 발생하는 후성적 돌연변이**인 것으로 추정되었습니다. 이러한 돌연변이는 아버지 쪽 편향 없이 무작위적으로 발생하는 특징을 보였습니다. 이전 연구들에서는 후성적 돌연변이의 비율을 6-10%로 추정했는데, 이 연구는 그보다 더 많은 비율을 제시하며 후성적 돌연변이의 중요성을 강조했습니다.
**\[예시]** 후성적 돌연변이는 우리 몸의 모든 세포에 나타나는 것이 아니라, 수정란 분열 초기 어느 시점에 돌연변이가 생겼는지에 따라 특정 조직이나 세포에만 나타날 수 있습니다. 피부색이나 눈 색깔에 작은 차이를 보이는 '모자이크 현상'이 후성적 돌연변이의 한 예라고 할 수 있습니다. 이 연구에서는 혈액 샘플로 분석했기 때문에 모든 조직에서의 분포를 알 수는 없지만, 다음 세대에게 전달된 후성적 돌연변이를 확인하여 이것이 생식세포에도 존재했음을 입증했습니다. 이는 겉으로는 멀쩡해 보여도 생식세포에 후성적 돌연변이가 있을 수 있음을 시사합니다.
* **유전체 영역별 돌연변이율 차이**: 돌연변이율은 유전체의 영역에 따라 크게 달라졌습니다. 특히 **반복 서열이 많은 영역에서 돌연변이가 더 자주 발생**했습니다. 염색체의 중심부(센트로미어)에서는 유전체 평균보다 2.8배, **세그먼트 중복 영역(Segmental duplication, 비슷한 서열이 여러 곳에 반복되는 곳)**에서는 1.9배 높았습니다. Y 염색체의 특정 반복 서열 영역(Yq12)은 다른 유전체 영역보다 **최소 30배 이상 돌연변이율이 높았는데**, 이는 특정 유전자 변환 과정(interlocus gene conversion)과 관련이 있을 것으로 보입니다.
**\[예시]** 우리 유전체에는 '복사+붙여넣기'가 여러 번 반복된 듯한 영역들이 있습니다. 이런 곳에서는 염기서열 복사나 정렬 과정에서 오류가 발생하기 쉬워 돌연변이가 더 잘 생깁니다. 이 연구는 이러한 '취약한' 영역들을 정확히 찾아내고, 그곳에서 돌연변이가 얼마나 자주 일어나는지를 수치로 보여줬습니다.
### 의미와 영향: 이 연구는 어떤 영향을 줄까요?
이 연구는 **인간 유전체에서 새로 발생하는 돌연변이에 대한 가장 종합적이고 정확한 정보**를 제공했다는 점에서 큰 의미를 가집니다.
* **유전학 연구의 '진실 기준(truth set)' 제공**: 이 연구에서 구축한 네 세대 가족의 고품질 유전체 정보는 앞으로 다른 연구자들이 새로운 돌연변이를 찾거나 유전체 분석 기술을 개발할 때 **매우 신뢰할 수 있는 기준 데이터**로 활용될 수 있습니다. 복잡한 영역의 돌연변이를 정확하게 검증하고 파악하는 데 큰 도움이 될 것입니다.
* **유전 질환 연구에 기여**: 새로 발생하는 돌연변이는 다양한 유전 질환의 중요한 원인입니다. 이 연구를 통해 어떤 유전체 영역에서 어떤 종류의 돌연변이가 얼마나 자주 생기는지에 대한 이해가 깊어지면, **원인을 알 수 없는 유전 질환을 가진 환자의 돌연변이를 찾고 해석하는 데 도움**이 될 수 있습니다. 특히 지금까지 연구가 어려웠던 반복 서열이나 구조 변이와 관련된 질환 연구에 기여할 수 있습니다.
* **인류 진화 및 돌연변이 메커니즘 이해 증진**: 돌연변이는 인류 진화의 근간이 되는 과정입니다. 이 연구는 부모의 나이 효과, 부모로부터의 기원 편향, 유전체 영역별 돌연변이율 차이 등 **돌연변이가 발생하는 다양한 메커니즘**에 대한 중요한 단서를 제공합니다.
* **후성적 돌연변이의 중요성 재조명**: 예상보다 높은 비율로 후성적 돌연변이가 발견되면서, 유전체 변이 연구에서 이들의 역할을 간과해서는 안 된다는 점이 더욱 명확해졌습니다. 이는 **모자이크 현상이나 특정 조직에만 영향을 미치는 질환** 등을 이해하는 데 중요한 영향을 미칠 수 있습니다.
결론적으로 이 연구는 우리 유전체에서 일어나는 근본적인 변화 과정을 깊이 이해하는 데 중요한 발판을 마련했으며, 앞으로 유전학, 의학 등 다양한 분야의 연구에 귀중한 자원이 될 것입니다. 우리 몸에서 끊임없이 일어나는 미세하고 새로운 변화들이 어떻게 생겨나고 전달되는지를 이해하는 것은 결국 우리 자신과 인류의 역사를 이해하는 과정이니까요.

grok3

인간 유전자 변이 연구: 우리 DNA의 비밀을 풀다
안녕하세요, 여러분! 오늘은 유전학에 관한 흥미로운 연구를 쉽게 풀어서 소개해 드릴게요. 이 연구는 인간의 유전자가 어떻게 변하는지, 그리고 그 변화가 우리와 다음 세대에 어떤 영향을 미치는지를 다룬 논문이에요. 전문 용어는 최대한 쉽게 설명할 테니, 편하게 읽어 보세요!
연구 배경: 왜 이 연구가 필요했을까?
우리의 DNA는 부모로부터 물려받은 유전 정보로 이루어져 있어요. 하지만 가끔 DNA에 새로운 변화(변이)가 생기는데, 이를 '드 노보 변이(De Novo Mutation, DNM)'라고 불러요. 이런 변이는 질병을 일으킬 수도 있고, 진화에 영향을 줄 수도 있죠. 그런데 과거에는 DNA의 특정 부분만 살펴보거나, 기술적 한계 때문에 변이를 정확히 찾기 어려웠어요. 특히, 반복되는 DNA 서열(예: 같은 패턴이 계속 반복되는 부분)은 분석하기가 까다로웠죠. 그래서 연구진은 더 정확하고 포괄적으로 변이를 찾기 위해 이 연구를 시작했어요.
연구 목적: 연구진이 알고 싶었던 것
연구진은 인간의 DNA에서 새로운 변이가 얼마나 자주, 어떤 방식으로 생기는지 알아내고 싶었어요. 구체적으로:
한 세대에서 다음 세대로 넘어갈 때 얼마나 많은 변이가 생기는지?
변이는 주로 엄마에게서 오는지, 아빠에게서 오는지?
DNA의 특정 부분(예: 반복 서열이나 중심체)에서 변이가 더 자주 생기는지?
이런 변이와 유전자의 재조합(부모의 DNA가 섞이는 과정)이 관련이 있는지?
이 질문들에 답하기 위해, 연구진은 한 가족의 DNA를 아주 자세히 분석했답니다.
데이터 또는 재료: 어떤 데이터를 사용했나요?
연구진은 미국 유타주에 사는 한 대가족(CEPH 1463, 4세대 28명)의 DNA를 분석했어요. 이 가족은 조부모, 부모, 자녀, 손주로 이루어져 있어서, DNA가 세대를 거쳐 어떻게 변하는지 추적하기에 딱 좋았죠. 가족 구성원은 모두 백인이며, 남성과 여성이 각각 14명씩이었어요.
DNA는 혈액 샘플에서 추출했는데, 연구진은 다섯 가지 최신 기술(짧은 읽기와 긴 읽기 시퀀싱 기술)을 사용해서 DNA를 꼼꼼히 읽었어요. 이 기술들은 마치 DNA라는 책을 한 글자씩 읽는 것처럼 정확하게 분석해 줍니다. 특히, 반복 서열이나 중심체(염색체의 가운데 부분) 같은 복잡한 부분도 놓치지 않았어요.
연구 방법: 어떻게 연구했나요?
연구진은 다음과 같은 과정을 통해 연구를 진행했어요:
DNA 읽기: 가족 28명의 DNA를 다섯 가지 기술로 분석해서, 각자의 DNA 서열을 완성했어요. 이 과정은 퍼즐 조각을 맞추는 것과 비슷해요.
변이 찾기: 부모와 자녀의 DNA를 비교해서, 자녀에게만 새로 생긴 변이를 찾아냈어요. 예를 들어, 부모에게 없는 DNA 변화가 자녀에게 있다면, 그건 새로운 변이인 거죠.
변이 분류: 변이를 종류별로 나누었어요. 예를 들어, 단일 염기 변이(SNV, 한 글자 바뀜), 삽입/삭제 변이(인델, 글자가 추가되거나 빠짐), 반복 서열 변이(반복 패턴이 늘어나거나 줄어듦) 등이 있어요.
부모 기원 확인: 변이가 엄마에게서 왔는지, 아빠에게서 왔는지 확인했어요. 이를 위해 DNA의 특정 패턴(해플로타입)을 추적했답니다.
재조합 분석: 부모의 DNA가 자녀에게 섞이는 과정(재조합)이 변이와 관련 있는지 살펴봤어요.
이 모든 과정은 컴퓨터 프로그램과 통계 분석을 통해 이루어졌어요. 연구진은 특히 반복 서열이나 중심체 같은 복잡한 부분을 정확히 분석하기 위해 최신 소프트웨어를 사용했답니다.
연구 결과 및 예시: 어떤 결과가 나왔나요?
이 연구는 정말 많은 결과를 낳았어요. 주요 내용을 쉽게 정리해 볼게요:
변이의 빈도:
한 세대에서 평균 98~206개의 새로운 변이가 생겼어요.
그중 단일 염기 변이는 약 74.5개, 삽입/삭제 변이는 약 7.4개, 반복 서열 변이는 약 65.3개, 중심체 변이는 약 4.4개였어요.
예: 자녀의 DNA에 부모에게 없는 새로운 글자 하나가 추가되었다면, 그건 단일 염기 변이예요.
아빠의 영향이 크다:
변이의 75~81%는 아빠에게서 왔어요. 특히, 아빠의 나이가 많을수록 변이가 더 많이 생겼어요(1년에 약 1.55개 추가).
예: 40세 아빠와 20세 아빠를 비교하면, 40세 아빠의 자녀에게 변이가 더 많이 생길 가능성이 높아요.
반복 서열은 변이의 온상:
반복 서열(예: 'AAG'가 여러 번 반복되는 부분)은 변이가 특히 자주 생기는 곳이었어요. 32개의 특정 반복 서열은 세대를 거치며 계속 변했어요.
예: 특정 반복 서열이 부모에선 10번 반복되었다가, 자녀에선 12번 반복으로 늘어날 수 있어요.
조기 변이:
약 16%의 단일 염기 변이는 수정 후 초기 배아 단계에서 생겼어요. 이런 변이는 엄마나 아빠와 상관없이 발생했어요.
예: 수정된 지 며칠 안 된 배아에서 DNA가 살짝 바뀌는 경우예요.
재조합과 변이:
재조합(부모 DNA 섞임)은 변이와 큰 관련이 없었어요. 즉, DNA가 섞이는 과정과 변이가 생기는 과정은 별개였어요.
중심체와 Y 염색체:
중심체(염색체의 중심)와 Y 염색체에서도 변이가 생겼어요. 특히 Y 염색체는 남성에서 세대당 약 12.4개의 변이가 생겼어요.
의미와 영향: 이 연구가 왜 중요한가요?
이 연구는 여러모로 큰 의미를 가지고 있어요:
유전 질환 이해:
새로운 변이는 때로 유전 질환을 일으킬 수 있어요. 이 연구는 어떤 변이가 어디서 자주 생기는지 알려줘서, 질병 예방이나 치료 연구에 도움을 줄 수 있어요.
예: 특정 반복 서열 변이가 질병과 관련 있다면, 그 부분을 집중적으로 검사할 수 있죠.
진화와 다양성:
변이는 인간이 진화하고, 각자 다른 특성을 가지게 만드는 원동력이에요. 이 연구는 변이가 어떻게 생기는지 보여줘서, 인간의 진화 과정을 이해하는 데 기여해요.
예: 피부색이나 키 같은 차이가 변이에서 시작될 수 있어요.
의료 기술 발전:
이 연구는 DNA 분석 기술을 한 단계 업그레이드했어요. 특히, 반복 서열이나 중심체 같은 복잡한 부분을 정확히 분석한 건 큰 성과예요. 앞으로 더 정밀한 유전자 검사가 가능해질 거예요.
예: 병원에서 더 정확한 유전자 검사를 받아, 맞춤형 치료를 받을 수 있을 거예요.
우리 일상에 미치는 영향:
이 연구는 유전 정보가 세대를 거치며 어떻게 변하는지 보여줘요. 언젠가 부모가 자녀의 유전병 위험을 미리 알거나, 유전자 상담을 받을 때 이런 데이터가 쓰일 수 있어요.
예: “우리 아기에게 어떤 유전 특성이 있을까?”를 더 정확히 예측할 수 있을지도 몰라요.
사회적 영향:
이 연구는 가족 단위로 DNA를 분석했기 때문에, 가족 간 유전 정보의 연결성을 이해하는 데 도움을 줘요. 이는 유전자 연구의 윤리적 논의(예: 개인정보 보호)에도 영향을 줄 수 있어요.
마무리
이 연구는 우리의 DNA가 어떻게 변하고, 그 변화가 우리와 다음 세대에 어떤 영향을 미치는지 보여주는 멋진 작업이었어요. 비록 전문적인 내용이 많았지만, 결국엔 우리 모두의 이야기, 즉 ‘인간’이라는 존재의 비밀을 파헤치는 일이죠. 앞으로 이런 연구가 더 발전해서, 건강하고 다양한 미래를 만드는 데 기여했으면 좋겠어요! 여러분은 유 다가오는 세대에서 어떤 유전적 변화가 일어날지 궁금하시다면, 이런 연구를 한 번씩 읽어 보세요. 😊
궁금한 점 있으면 언제든 댓글 남겨 주세요!

perplexity.ai

## 연구 배경
우리 몸의 유전자는 부모로부터 물려받지만, 때때로 부모에게 없던 새로운 유전자 변화(돌연변이)가 자녀에게 생기기도 합니다. 이런 새로운 돌연변이(*de novo mutation*)는 인간의 유전적 다양성을 만드는 중요한 원인 중 하나입니다. 하지만 지금까지의 연구는 주로 특정 부분만을 분석하거나, 반복적인(복사본이 많은) 유전자 영역은 잘 분석하지 못했습니다. 그래서 인간 전체 유전체에서 이런 새로운 돌연변이가 얼마나 자주, 어디서, 어떻게 생기는지 정확히 알기 어려웠습니다[2][6].
## 연구 목적
이 연구진은 "인간의 유전체 전체에서 새로운 돌연변이가 얼마나 자주, 어떤 방식으로 생기는지, 그리고 세대를 거치며 어떻게 전달되는지"를 더 정확하게 알고자 했습니다. 특히, 이전에는 분석이 어려웠던 반복적인 유전자 구간(예: 센트로미어, Y 염색체 등)까지 포함해, 인간 유전체 전체를 대상으로 돌연변이의 특성을 밝히는 것이 목표였습니다[2][4].
## 데이터 또는 재료 설명
연구진은 미국 유타주에 사는 4세대, 28명으로 이루어진 한 가족(CEPH 1463 가족)의 DNA를 사용했습니다. 이 가족은 1980년대부터 유전학 연구에 참여해온 대표적인 대가족입니다. 연구진은 이 가족 구성원들의 혈액에서 추출한 DNA를 최첨단 유전체 해독 기술 5가지를 이용해 분석했습니다. 여기에는 짧은 DNA 조각을 읽는 기술(일루미나, Element Biosciences)과 긴 DNA 조각을 읽는 기술(PacBio, Oxford Nanopore), 그리고 세포 한 개씩 읽는 기술(Strand-seq) 등이 포함됩니다. 이렇게 다양한 기술을 조합해 가족 구성원 각각의 유전체를 95% 이상 거의 완벽하게 해독할 수 있었습니다[2][4][6].
## 연구 방법
연구진은 다음과 같은 방식으로 연구를 진행했습니다.
- 가족 4세대 28명의 DNA를 여러 첨단 기술로 해독해, 각 사람의 유전체를 거의 완벽하게 조립했습니다.
- 부모와 자녀의 유전체를 비교해, 자녀에게서만 나타나는 새로운 돌연변이를 찾아냈습니다.
- 이 돌연변이가 어느 부모로부터 온 것인지, 아니면 수정 이후(배아 발생 중)에 생긴 것인지까지 추적했습니다.
- 특히 반복적인 유전자 구간, 센트로미어, Y 염색체 등 기존 연구에서 잘 분석하지 못했던 영역까지 포함해 돌연변이 발생 빈도와 특성을 분석했습니다[2][4][5][6].
## 연구 결과 및 예시
- 한 세대가 다음 세대로 유전자를 전달할 때, 평균적으로 약 98~206개의 새로운 돌연변이가 생긴다는 사실을 밝혔습니다. 이 중 약 74.5개는 한 글자만 바뀌는 돌연변이(단일 염기 변이), 약 7.4개는 짧은 삽입/삭제, 약 65.3개는 반복 구간에서 생기는 구조적 변화였습니다[2][4][5][6].
- 특히 아버지 쪽에서 생기는 돌연변이가 전체의 75~81%로, 압도적으로 많았습니다. 이는 정자를 만드는 과정에서 돌연변이가 더 많이 생기기 때문입니다.
- 하지만 전체 돌연변이의 약 16%는 수정 이후(즉, 배아가 만들어진 뒤)에 생긴 것으로, 이 경우에는 부모 중 누구에게서 왔는지 특별히 치우치지 않았습니다[2][5][6].
- 반복 구간(짧은 DNA가 여러 번 반복되는 부분)에서 돌연변이가 훨씬 자주 발생했습니다. 예를 들어, 어떤 반복 구간에서는 거의 매 세대마다 새로운 변화가 생겼습니다. 이는 마치 복사기를 여러 번 돌릴수록 오타가 생길 확률이 높아지는 것과 비슷합니다[2][5][6].
- 예시로, 32개의 반복 구간에서는 여러 세대에 걸쳐 반복적으로 돌연변이가 생기는 현상이 관찰되었습니다. 어떤 구간에서는 3세대 연속으로 같은 위치에서 새로운 변화가 일어나기도 했습니다[5][6].
## 의미와 영향
이 연구는 인간 유전체 전체, 특히 그동안 잘 분석하지 못했던 복잡한 영역까지 포함해 새로운 돌연변이의 발생 양상을 매우 정밀하게 밝혔다는 점에서 큰 의미가 있습니다. 이 결과는 다음과 같은 영향을 미칠 수 있습니다.
- 앞으로 유전 질환의 원인을 찾거나, 새로운 유전자 변이의 의미를 해석하는 데 중요한 기준 자료(“진실 데이터셋”)로 활용될 수 있습니다.
- 반복 구간이나 센트로미어처럼 돌연변이가 많이 일어나는 영역에 대한 이해가 높아지면, 암이나 신경질환 등 반복 구간과 관련된 질병 연구에도 도움이 됩니다.
- 아버지 나이가 많을수록 자녀에게 새로운 돌연변이가 더 많이 생길 수 있다는 사실은, 가족계획이나 유전 상담에도 참고가 될 수 있습니다.
- 마지막으로, 이 가족의 유전체 데이터는 앞으로 새로운 유전체 해독 기술이나 분석 방법을 개발할 때 표준 자료로 활용될 수 있습니다[2][4][6].
이 연구는 한 가족의 사례이기 때문에 모든 인류에게 그대로 적용할 수는 없지만, 앞으로 더 많은 가족의 유전체를 분석하면 인간 유전체의 변화와 다양성에 대한 이해가 더욱 깊어질 것입니다.

출처: @ye._.vely618

월요일, 10월 28, 2024

RNA-Seq 데이터로 SNP를 찾아내보자

오늘은 오랜만에 예전에(10년이 넘었네요;;;) 출판된 RNA-seq에서 SNP를 식별하는 논문을 가져와봤습니다. 제목은 Reliable Identification of Genomic Variants from RNA-Seq Data 입니다. RNA-seq 데이터가지고 SNP를 식별하는 것을 좀 거부감이 있었... 혹시 나만 그런거였나..

그러나 요즘엔 RNA-seq 가지고 SNP를 탐지하는 것이 이상하지 않죠.

그래서 옛날옛적엔 어떤 아이디어로 접근했었는지 확인해보려고 한번 가져와봤습니다

DOI: 10.1016/j.ajhg.2013.08.008

gemini

## RNA-seq 데이터로 유전체 변이 찾기: SNPiR 이야기
### 우리 몸의 설계도, 유전체
우리 몸은 하나의 정교한 기계와 같습니다. 이 기계를 만드는 설계도가 바로 유전체(genome)입니다. 유전체는 A, T, G, C 네 가지 염기로 이루어진 긴 염기 서열로, 이 서열의 차이가 사람마다 다른 특징을 만들어냅니다. 이러한 염기 서열의 차이 중 하나가 바로 SNP(Single Nucleotide Polymorphism)입니다. SNP는 단 하나의 염기가 다른 사람과 다르게 나타나는 현상을 말하며, 이러한 SNP들이 질병 발생이나 특정 형질에 영향을 미칠 수 있습니다.
### 유전체 분석 방법: WGS, WES, 그리고 RNA-seq
유전체를 분석하는 방법에는 여러 가지가 있습니다. 대표적인 방법으로는 Whole Genome Sequencing(WGS), Whole Exome Sequencing(WES), 그리고 RNA Sequencing(RNA-seq)이 있습니다.
* **WGS (Whole Genome Sequencing):** 유전체 전체를 낱낱이 해독하는 방법입니다. 가장 많은 정보를 얻을 수 있지만, 비용이 많이 들고 분석 시간이 오래 걸리는 단점이 있습니다.
* **WES (Whole Exome Sequencing):** 유전체 중에서 단백질을 만드는 데 직접적인 역할을 하는 부분인 엑솜만을 해독하는 방법입니다. WGS에 비해 비용이 적게 들고 분석 시간이 짧지만, 엑솜 이외의 부분에 있는 유전 변이는 찾아낼 수 없습니다.
* **RNA-seq (RNA Sequencing):** 유전체 정보가 실제로 어떻게 활용되는지를 분석하는 방법입니다. 유전체 정보는 RNA라는 중간 매개체를 거쳐 단백질로 만들어지는데, RNA-seq은 이러한 RNA를 직접 분석하여 어떤 유전자가 활성화되어 있는지, 어떤 유전자에 변이가 있는지를 파악합니다.
### 왜 RNA-seq으로 SNP를 찾을까?
일반적으로 SNP를 찾을 때는 WGS나 WES를 많이 사용합니다. 그런데 왜 RNA-seq으로 SNP를 찾으려고 할까요? 그 이유는 다음과 같습니다.
* **특정 조건에서 발현되는 유전자의 변이를 찾을 수 있다:** RNA-seq은 특정 조건에서 활성화되는 유전자의 변이를 찾는 데 유리합니다. 예를 들어, 특정 질병에 걸린 환자의 RNA-seq 데이터를 분석하면, 질병과 관련된 유전자의 변이를 더 정확하게 찾아낼 수 있습니다.
* **비용 효율적이다:** WGS나 WES에 비해 비용이 적게 듭니다.
* **발현되는 변이에 집중할 수 있다:** RNA-seq은 실제로 단백질로 만들어지는 부분의 변이에 집중하기 때문에, 질병과의 연관성을 밝히는 데 더 효과적일 수 있습니다.
### SNPiR: RNA-seq 데이터에서 SNP를 더 정확하게 찾는 방법
SNPiR은 RNA-seq 데이터에서 SNP를 찾는 새로운 방법입니다. 기존의 방법보다 더 정확하게 SNP를 찾아낼 수 있다는 장점이 있습니다. SNPiR이 기존 방법보다 좋은 이유는 다음과 같습니다.
* **더 높은 정확도:** SNPiR은 기존 방법보다 더 높은 정확도로 SNP를 찾아냅니다.
* **더 많은 발현된 변이 발견:** SNPiR은 기존 방법보다 더 많은 발현된 변이를 찾아냅니다.
* **비용 효율적:** SNPiR은 WGS나 WES에 비해 비용이 적게 듭니다.
### 결론
RNA-seq 데이터를 이용하여 SNP를 찾는 것은 유전체 연구의 새로운 가능성을 열어줍니다. 특히 SNPiR과 같은 새로운 방법의 개발은 더욱 정확하고 효율적인 유전체 분석을 가능하게 합니다. 이러한 연구는 질병의 원인 규명, 새로운 치료법 개발 등 다양한 분야에 활용될 수 있을 것으로 기대됩니다.
**핵심 정리**
* SNP는 유전체 염기 서열의 차이를 의미하며, 질병 발생과 관련이 있을 수 있습니다.
* RNA-seq은 유전체 정보가 실제로 어떻게 활용되는지를 분석하는 방법입니다.
* SNPiR은 RNA-seq 데이터에서 SNP를 더 정확하게 찾는 새로운 방법입니다.
* SNPiR은 기존 방법보다 더 높은 정확도로 SNP를 찾아내고, 비용 효율적입니다.

clova-x

제목: RNA-seq 데이터에서 SNP를 식별하는 SNPiR 방법이란?
생명공학 분야에서는 유전자 변이를 파악하는 것이 중요한데, 이를 위해 그동안은 비용이 많이 드는 Whole Genome Sequencing(WGS), Whole Exome Sequencing(WES) 방법을 주로 사용해왔습니다. 하지만 최근에는 RNA 시퀀싱 데이터를 활용하여 유전자 변이를 파악하는 연구가 활발하게 이루어지고 있습니다.
RNA-seq 데이터에서 SNP를 식별하는 이유는 크게 두 가지입니다. 첫째, RNA-seq은 유전자의 발현량을 측정할 수 있을 뿐만 아니라, 변이를 동시에 파악할 수 있어 유용합니다. 둘째, RNA-seq은 WGS나 WES에 비해 비용이 저렴하고, 다양한 생물종에서 적용할 수 있습니다.
하지만 RNA-seq 데이터에서 SNP를 식별하는 것은 전사체의 복잡성으로 인해 쉽지 않은 일입니다. 이러한 문제를 해결하기 위해 SNPiR이라는 방법이 개발되었습니다. SNPiR은 splice-aware 방식으로 RNA-seq 데이터를 매핑하고, 변이를 호출한 후, false-positive를 강력하게 필터링하는 방법입니다.
기존의 RNA-seq 데이터에서 SNP를 식별하는 방법에 비해 SNPiR은 다음과 같은 장점이 있습니다. 먼저, splice-aware 방식을 사용하여 정확한 매핑이 가능합니다. 그리고 변이 호출 및 필터링 과정에서 false-positive를 효과적으로 제거하여 높은 정확도를 보장합니다. 마지막으로, RNA-seq 데이터의 특성을 고려하여 개발되었기 때문에, 다른 방법에 비해 더욱 효율적입니다.
이러한 SNPiR 방법을 통해 RNA-seq 데이터에서 SNP를 식별함으로써, 유전자 변이 연구에 큰 도움이 될 것으로 기대됩니다.

chatGPT

### RNA-Seq 데이터로 유전자 변이를 찾아내는 새로운 방법: SNPiR
유전자와 질병의 관계를 이해하는 중요한 방법 중 하나는 **단일염기 다형성(SNP, Single Nucleotide Polymorphism)**을 찾아내는 것입니다. SNP는 유전자 서열의 작은 변화로, 개개인의 차이를 만들어내고 질병의 원인이 될 수 있습니다. 기존에는 주로 **전체 유전체 시퀀싱(Whole Genome Sequencing, WGS)**이나 **전체 엑솜 시퀀싱(Whole Exome Sequencing, WES)** 같은 DNA 기반 기술을 통해 SNP를 찾아냈습니다. 하지만 이번 연구는 **RNA 시퀀싱(RNA-seq)** 데이터를 활용해 SNP를 더 효율적으로 찾아내는 방법을 제안합니다. 여기서 사용된 방법이 바로 **SNPiR**라는 기술입니다.
#### 1. 연구 배경
왜 우리는 RNA 시퀀싱을 통해 SNP를 찾아내려고 할까요? 전통적인 WGS나 WES는 이미 잘 알려진 방법인데도 말이죠. 그 이유는 RNA-seq가 몇 가지 독특한 장점을 가지고 있기 때문입니다.
- **비용 효율성**: RNA-seq는 WGS에 비해 비용이 저렴합니다. 많은 연구에서 이미 RNA-seq 데이터를 수집한 상태이기 때문에, 별도의 비용 없이 추가 분석을 통해 SNP를 찾아낼 수 있습니다.
- **유전자 발현 분석**: RNA-seq는 어떤 유전자가 활성화되고 있는지 보여주기 때문에, 변이가 실제로 발현되는 유전자에 있는지 알 수 있습니다. 이는 질병 연구에서 중요한 정보입니다.
#### 2. RNA-seq를 통한 SNP 탐지의 장점과 단점
RNA-seq를 통해 SNP를 찾아내는 것에는 분명한 장점이 있지만, 단점도 존재합니다.
##### 장점:
- **기존 데이터 활용**: 많은 질병 샘플에 대해 이미 RNA-seq 데이터를 가지고 있는 경우, 추가로 WGS나 WES를 수행하지 않고도 변이를 찾아낼 수 있습니다.
- **유전자 발현 정보**: RNA-seq 데이터는 발현 중인 유전자에서만 변이를 탐지할 수 있기 때문에, 기능적으로 중요한 변이를 더 쉽게 찾을 수 있습니다.
##### 단점:
- **전체 유전체 커버리지 부족**: RNA-seq는 발현 중인 유전자에서만 변이를 찾을 수 있기 때문에, 발현되지 않은 유전자나 비암호화 영역에서는 변이를 탐지할 수 없습니다.
- **기술적 복잡성**: RNA는 전사체의 복잡성(예: 스플라이싱) 때문에 분석이 더 어렵습니다. 잘못된 위치에 읽힘이 매핑되면 거짓 양성 결과가 나올 수 있습니다.
#### 3. SNPiR: RNA-seq 데이터를 활용한 SNP 탐지 방법
이번 연구에서 제안된 **SNPiR** 방법은 RNA-seq 데이터를 활용해 고도로 정확하게 SNP를 찾아낼 수 있는 알고리즘입니다. 이 방법의 핵심은 다음과 같습니다:
- **스플라이싱 인식 매핑**: RNA-seq 데이터는 유전자가 어떻게 조합되어 발현되는지 보여주기 때문에, SNPiR은 이러한 스플라이싱 정보를 인식하면서 매핑을 진행합니다.
- **GATK를 통한 변이 탐지**: Genome Analysis Toolkit(GATK)를 활용해 변이를 탐지하고, 엄격한 필터링 과정을 통해 잘못된 결과를 걸러냅니다.
SNPiR은 WGS 또는 WES 데이터와 비교했을 때 98% 이상의 정확도를 기록하며, 매우 높은 민감도를 보여줍니다.
#### 4. 다른 방법과의 비교: SNPiR vs. RNASEQR
SNPiR은 기존의 **RNASEQR**이라는 RNA-seq 변이 탐지 방법보다 더 나은 성능을 보였습니다. RNASEQR은 많은 거짓 양성 결과를 생성했지만, SNPiR은 더 적은 오류로 더 높은 정확도를 보여주었습니다. 특히 **코딩 영역**에서의 변이 탐지 민감도가 SNPiR이 RNASEQR보다 훨씬 높았습니다. 따라서 RNA-seq 데이터를 사용해 SNP를 찾는다면 **SNPiR**이 더 나은 선택입니다.
#### 5. 결론
RNA-seq 데이터를 통해 SNP를 찾는 방법은 기존의 WGS나 WES 방법을 보완할 수 있는 중요한 도구입니다. 특히 비용 효율성과 발현 유전자에서의 변이 탐지라는 장점 덕분에 RNA-seq를 통한 SNP 탐지는 앞으로도 더 많이 활용될 가능성이 큽니다. **SNPiR**은 그 중에서도 높은 정확성과 민감도를 자랑하는 방법으로, 유전체 연구나 질병 연구에 매우 유용할 것입니다.

NotebookLM

## RNA Sequencing 데이터를 이용한 SNP 식별: SNPiR 소개
**유전체 변이는 개인의 특징을 결정하는 중요한 요소**이며, 질병 발생과도 밀접한 관련이 있습니다. 이러한 유전체 변이를 정확하게 식별하는 것은 질병 메커니즘 이해, 진단 및 치료법 개발에 필수적입니다. 기존에는 **WGS (Whole Genome Sequencing)** 나 **WES (Whole Exome Sequencing)** 와 같은 DNA 염기서열 분석 방법을 통해 유전체 변이를 식별해왔습니다. 하지만 이러한 방법은 **비용이 많이 들고**, 분석 과정이 복잡하다는 단점이 있습니다.
최근에는 RNA Sequencing 데이터를 이용하여 유전체 변이를 식별하는 **RNA-seq** 방법이 주목받고 있습니다. **RNA-seq**는 DNA 염기서열 분석보다 **저렴**하며, 유전자 발현량, alternative splicing, allele-specific expression 등 다양한 정보를 얻을 수 있다는 장점이 있습니다.
### RNA-seq 기반 SNP 식별의 장단점
**장점**:
* **비용 효율성**: RNA-seq 데이터는 DNA 염기서열 분석보다 저렴합니다.
* **발현된 유전자에 대한 정보**: RNA-seq 데이터는 실제로 발현되는 유전자에 대한 정보를 제공하기 때문에, 유전체 변이가 유전자 발현에 미치는 영향을 파악하는데 유용합니다.
**단점**:
* **발현되지 않는 유전자**: RNA-seq는 발현되는 유전자만 분석 가능하기 때문에, 발현되지 않는 유전자의 변이는 찾을 수 없습니다.
* **RNA editing**: RNA-seq 데이터에서 RNA editing과 유전체 변이를 구분하는 것이 어려울 수 있습니다.
### SNPiR: RNA-seq 기반 SNP 식별의 새로운 방법
기존의 RNA-seq 기반 SNP 식별 방법은 정확도가 낮고, 분석 과정이 복잡했습니다. 이러한 문제점을 해결하기 위해 **SNPiR**이라는 새로운 방법이 개발되었습니다. **SNPiR**은 다음과 같은 특징을 가지고 있습니다.
* **splice-aware read mapping**: RNA splicing을 고려하여 read를 정확하게 mapping합니다.
* **GATK 기반 variant calling**: GATK (Genome Analysis Toolkit)을 사용하여 정확하게 변이를 calling합니다.
* **엄격한 filtering**: false-positive를 효과적으로 제거하기 위한 엄격한 filtering 과정을 거칩니다.
**SNPiR**은 기존 방법보다 **높은 정확도와 민감도**를 보여주며, RNA-seq 데이터에서 SNP를 효과적으로 식별할 수 있습니다. 또한, SNPiR은 **낮은 coverage 데이터에서도** 높은 정확도를 유지하며, 적은 양의 데이터로도 효율적인 분석이 가능합니다.
### SNPiR의 활용 가능성
**SNPiR**은 유전체 연구, 질병 연구, 맞춤형 의료 등 다양한 분야에서 활용될 수 있습니다. 특히 **암 유전체 연구**에서 **SNPiR**을 이용하여 암세포 특이적인 유전체 변이를 식별하고, 이를 바탕으로 새로운 치료법 개발에 기여할 수 있습니다.
### 결론
**SNPiR**은 RNA-seq 데이터를 이용하여 유전체 변이를 효과적으로 식별할 수 있는 새로운 방법입니다. **높은 정확도와 민감도**, 낮은 coverage 데이터에서의 성능, 다양한 분야에서의 활용 가능성을 고려했을 때, **SNPiR**은 유전체 연구의 새로운 지평을 열어줄 것으로 기대됩니다.

당시 나와있었던 RNAseq 기반의 SNP 탐지 프로그램들 보다 SNPiR이 좀 더 나은 성능을 보여준다고 서술하고 있지만... 그거야 너님들이 사용한 데이터 가지고 그런거 이지 않을까합니다. 실제 다른 상황의 샘플들 가져오면 이전에 나와서 사용하던 것들이나 이번것이나 도토리 키재기이지 않을까 하지만 그래도 우리에게 또 하나의 무기가 생기는 것이니깐 잘 활용하면 좋을듯 합니다.

최근에 새롭게 나온 RNAseq 기반의 SNP 탐지 툴은 없는지 다시 확인해봐야 겠네요.

그래봤자 알파폴드나 gatk로 해쳐모여 할듯하긴한데.. :)

출처: @ye._.vely618

토요일, 10월 12, 2024

변이 조합으로 질병 예측하기

24년도 노벨상에서 AI의 위상이 높아졌기에 2019년에 나왔었던 기계학습 논문 하나 슬쩍 가져와봤습니다. Predicting disease-causing variant combinations 입니다.

DOI: 10.1073/pnas.1815601116

gemini

**VarCoPP: 유전자 쌍 변이 조합의 병원성을 예측하는 기계 학습 방법**
* **소개**
* 단일 변이 병원성 식별에 관한 중요한 발전이 이루어졌음에도 불구하고, 많은 희귀 질병의 기원을 밝히기 위해서는 더 복잡한 유전 모델을 식별할 수 있는 방법이 필요합니다.
* 이 논문에서는 변이 조합 병원성 예측기(VarCoPP)라는 기계 학습 방법을 제시합니다. VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측할 수 있습니다.
* VarCoPP는 Digenic Diseases Database(DIDA)에서 얻은 데이터를 사용하여 훈련되었습니다. DIDA는 유전자 쌍의 병원성 변이 조합에 대한 정보를 포함하고 있습니다. VarCoPP는 병원성과 중립적인 이중 위치 조합을 구분하도록 훈련되었습니다.
* 결과는 VarCoPP가 높은 정확도로 병원성 조합을 식별할 수 있음을 보여주었습니다. 또한 VarCoPP는 예측에 대한 신뢰도 점수를 제공하여 임상의가 어떤 조합을 더 조사해야 하는지 우선순위를 매길 수 있도록 도와줍니다.
* VarCoPP는 희귀 질병의 유전적 원인을 연구하는 연구원과 임상의에게 유용한 도구입니다.
* **결과**
* VarCoPP는 유전자 쌍의 병원성 변이 조합을 정확하게 식별할 수 있습니다.
* VarCoPP는 예측에 대한 신뢰도 점수를 제공하여 임상의가 어떤 조합을 더 조사해야 하는지 우선순위를 매길 수 있도록 도와줍니다.
* VarCoPP는 희귀 질병의 유전적 원인을 연구하는 연구원과 임상의에게 유용한 도구입니다.
* 전체적으로, Papadimitriou et al.의 연구는 VarCoPP가 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구임을 시사합니다. 이는 희귀 질병의 진단과 치료에 중요한 의미를 가질 수 있습니다.
* **추가 연구**
* VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구입니다.
* VarCoPP의 성능을 더욱 향상시키기 위해서는 더 많은 데이터가 필요합니다.
* VarCoPP는 희귀 질병의 진단과 치료에 중요한 도구가 될 수 있습니다.
* VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구입니다.
* VarCoPP의 성능을 더욱 향상시키기 위해서는 더 많은 데이터가 필요합니다.
* VarCoPP는 희귀 질병의 진단과 치료에 중요한 도구가 될 수 있습니다.
* VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구입니다.
* VarCoPP의 성능을 더욱 향상시키기 위해서는 더 많은 데이터가 필요합니다.
* VarCoPP는 희귀 질병의 진단과 치료에 중요한 도구가 될 수 있습니다.

clova-x

제목: 유전자 변이 조합과 질병의 관계를 기계학습으로 설명하다
최근 생명공학 분야에서는 유전자 변이와 질병 사이의 복잡한 관계를 이해하기 위한 연구가 활발하게 이루어지고 있습니다. 특히, 단일 유전자 변이뿐만 아니라 여러 유전자 변이의 조합이 질병의 발병과 진행에 영향을 미치는 것으로 밝혀지면서, 이를 분석하기 위한 새로운 방법이 필요하게 되었습니다.
오늘은 'papadimitriou-et-al-2019-predicting-disease-causing-variant-combinations.pdf' 파일을 통해 소개된 연구에 대해 이야기해 보려고 합니다. 이 연구에서는 기계학습 방법을 이용하여 유전자 변이의 조합과 질병 사이의 관계를 분석하였습니다.
기계학습은 데이터로부터 패턴을 학습하고 이를 기반으로 예측을 수행하는 인공지능의 한 분야입니다. 이 연구에서는 유전자 변이 데이터와 질병 정보를 결합하여 기계학습 모델을 학습시키고, 이를 통해 유전자 변이 조합이 질병과 어떤 관련이 있는지를 파악하였습니다.
구체적으로, 'Variant Combinations Pathogenicity Predictor (VarCoPP)'라는 머신러닝 알고리즘을 개발하여 두 유전자 간의 변이 조합(이중 유전자 또는 이 위치 변이 조합)의 병원성을 식별하였습니다. 이 방법은 높은 정확도와 정밀도를 보였으며, 독립적인 질병 유발 데이터를 사용하여 검증했을 때도 효과적이었습니다.
이러한 연구 결과는 유전자 변이 조합이 질병의 발병과 진행에 미치는 영향을 이해하는 데 큰 도움이 될 수 있습니다. 예를 들어, 특정 유전자 변이 조합이 특정 질병의 발병 위험을 증가시키거나, 질병의 진행 속도에 영향을 미칠 수 있다는 것을 파악할 수 있다면, 이를 바탕으로 질병의 예방, 진단 및 치료에 대한 새로운 접근 방법을 개발할 수 있을 것입니다.
하지만 이 연구에도 몇 가지 한계점이 있습니다. 우선, 유전자 변이 데이터와 질병 정보가 완벽하게 일치하지 않을 수 있으며, 이는 기계학습 모델의 정확도에 영향을 미칠 수 있습니다. 또한, 기계학습 모델이 학습한 패턴이 항상 실제 상황에서도 적용되는 것은 아니기 때문에, 예측의 정확도를 높이기 위해서는 추가적인 연구와 검증이 필요합니다.
그럼에도 불구하고, 이 연구는 유전자 변이 조합과 질병의 관계를 이해하는 데 있어서 매우 중요한 진전을 이루었으며, 앞으로 더욱 발전된 기술과 연구를 통해 더욱 정확하고 유용한 정보를 제공할 수 있을 것으로 기대됩니다.
우리 모두가 건강한 삶을 살기 위해서는 유전자 변이와 질병 사이의 복잡한 관계를 이해하는 것이 매우 중요하며, 이를 위해 계속해서 노력해야 할 것입니다.

chatGPT

네, 이 논문은 질병과의 연관성을 단일 변이보다는 여러 유전자의 변이 조합을 통해 설명하려는 기계 학습 방법에 대한 연구입니다. 이 연구에서 제안된 기법은 특히 희귀 질환에서 그 효과가 두드러집니다. 일반적으로 사람들은 특정 유전자가 변이를 일으키면 그 변이로 인해 질병이 발생한다고 생각하지만, 실제로는 여러 유전자가 서로 상호작용을 하면서 질병의 원인이 되는 경우가 많습니다. 이를 더 잘 설명하기 위해 연구팀은 **VarCoPP(Variant Combinations Pathogenicity Predictor)**라는 기계 학습 모델을 제안했습니다.
### 연구 배경과 내용
이 연구는 기존에 단일 유전자 변이를 분석하는 방식에서 벗어나, 두 개 이상의 유전자에서 변이가 발생했을 때 그 변이들이 서로 어떻게 작용해 질병을 유발할 수 있는지를 예측하려 합니다. 이를 **이종 유전자 변이 조합**이라고 부르며, VarCoPP는 이러한 변이 조합이 질병을 유발할 가능성을 평가합니다. 예를 들어, 유전자 A에서 변이가 일어났을 때는 아무런 문제가 없더라도, 유전자 B에서 특정 변이가 동시에 발생하면 두 변이가 서로 상호작용하여 질병을 일으킬 수 있습니다.
이러한 복합적인 유전자 변이 모델은 여러 질병, 특히 드문 유전 질환에서 더 정확한 진단을 가능하게 합니다. 연구진은 실제로 환자의 유전자 데이터를 기반으로 변이 조합을 분석한 결과, 많은 사례에서 이 방법이 질병의 원인을 설명할 수 있음을 확인했습니다.
### 연구 결과가 우리 삶에 미치는 영향
이 연구는 우리가 기존에 알지 못했던 유전적 질병의 원인을 이해하는 데 큰 도움이 될 수 있습니다. VarCoPP를 활용하면 희귀 질환을 앓고 있는 환자의 유전자 데이터를 분석해 그들이 어떤 유전자 변이 조합 때문에 질병에 걸렸는지 더 정확하게 파악할 수 있습니다. 이를 통해 좀 더 개인화된 의료, 즉 **맞춤형 치료**가 가능해집니다. 예를 들어, 특정 유전자 조합 때문에 특정 질병에 걸린 환자는 그 유전자 변이에 맞춘 치료법을 적용할 수 있습니다.
또한 이 방법은 **유전자 상담**에도 유용합니다. 유전자 검사를 받은 사람들이 단일 변이가 아니라 여러 유전자 변이의 조합으로 인해 질병에 걸릴 가능성을 더 정확히 알 수 있기 때문에, 더 나은 건강 관리 및 예방 전략을 세울 수 있습니다.
### 한계와 문제점
그러나 이 연구에도 몇 가지 한계가 있습니다. 첫째, **데이터의 부족**입니다. 희귀 질환의 경우 환자 데이터가 많지 않기 때문에, 더 많은 데이터를 확보해야 VarCoPP와 같은 기계 학습 모델의 성능을 더 정확하게 평가하고 개선할 수 있습니다. 둘째, 이 모델은 주로 **유전자 변이 간의 상호작용**에 집중하고 있지만, 환경적 요인이나 생활습관 등도 질병 발생에 영향을 미칠 수 있습니다. 따라서 유전자 변이만을 고려하는 것이 모든 경우에 적용될 수는 없습니다.
셋째, **거짓 양성(잘못된 예측)**의 가능성입니다. VarCoPP는 높은 정확성을 자랑하지만, 일부 변이 조합이 실제로는 질병을 유발하지 않음에도 불구하고 질병 유발 가능성이 있다고 예측될 수 있습니다. 이러한 문제를 해결하려면, 더 많은 임상적 검증이 필요합니다.
### 결론
VarCoPP와 같은 기계 학습 모델은 유전자의 복합적인 변이 조합이 질병과 어떻게 연관되는지를 이해하는 데 중요한 도구가 될 수 있습니다. 이는 특히 희귀 질환의 진단과 치료에서 유용하며, 더 나아가 맞춤형 의료의 발전을 이끌 것으로 기대됩니다. 다만, 더 많은 데이터와 환경적 요인에 대한 고려가 필요하며, 잘못된 예측을 줄이기 위한 추가적인 검증 작업도 중요합니다.

NotebookLM

## 유전자 변이 조합으로 질병 예측: VarCoPP 이야기
선택하신 자료는 **단일 유전자 변이가 아닌, 여러 유전자 변이의 조합을 분석하여 질병과의 연관성을 밝히는 기계학습 방법**에 대한 연구입니다. **VarCoPP(Variant Combinations Pathogenicity Predictor)**라는 혁신적인 기술을 소개하며, 희귀 질환의 유전적 원인을 파악하는 데 새로운 지평을 열고 있습니다.
### 희귀 질환, 유전자 조합으로 풀어낸다
기존 연구들은 주로 하나의 유전자 변이가 질병을 일으킨다는 관점에서 접근했습니다. 그러나 실제로는 **여러 유전자의 변이가 복합적으로 작용하여 질병을 유발하는 경우가 많습니다.** 마치 여러 조각들이 모여 하나의 그림을 완성하듯, 유전자 변이들의 조합이 질병 발생에 핵심적인 역할을 한다는 것입니다.
### VarCoPP, 유전자 조합의 비밀을 밝히다
VarCoPP는 **유전자 쌍에서 질병을 유발할 가능성이 있는 변이 조합을 예측하는 기계학습 모델**입니다. 방대한 유전 정보를 분석하고 학습하여, 특정 변이 조합이 질병을 유발할 가능성을 계산합니다.
VarCoPP는 **DIDAv1(Digenic Diseases Database)**라는 데이터베이스를 활용합니다. DIDAv1은 과학 논문들을 통해 밝혀진, 질병을 유발하는 유전자 변이 조합들을 체계적으로 정리한 자료입니다. VarCoPP는 이 데이터베이스를 기반으로 학습하여, **새로운 변이 조합의 질병 유발 가능성을 정확하게 예측**할 수 있습니다.
### VarCoPP는 어떻게 질병을 예측할까?
VarCoPP는 유전자 변이의 **병원성(CADD score)**, **유전자의 열성 여부**, **유전자 간의 생물학적 거리** 등 다양한 정보들을 종합적으로 분석하여 질병 예측에 활용합니다.
1. **변이의 병원성**: CADD score는 특정 유전자 변이가 얼마나 질병을 유발할 가능성이 높은지 나타내는 점수입니다. VarCoPP는 각 변이의 CADD score를 분석하여, 변이 조합의 질병 유발 가능성을 평가합니다.
2. **유전자의 열성 여부**: 어떤 유전자는 변이가 하나만 있어도 질병을 유발하지만, 어떤 유전자는 두 개의 변이가 모두 존재해야 질병이 발생합니다. VarCoPP는 유전자의 이러한 특성을 고려하여, 변이 조합의 질병 유발 가능성을 판단합니다.
3. **유전자 간의 생물학적 거리**: 유전자들은 서로 협력하여 단백질을 만들고 생명 활동을 유지합니다. VarCoPP는 유전자 간의 상호작용 정보를 분석하여, 변이 조합이 질병 발생에 미치는 영향을 파악합니다.
### VarCoPP, 우리 삶을 어떻게 바꿀까?
**VarCoPP는 희귀 질환 진단 및 치료에 혁신을 가져올 잠재력**을 가지고 있습니다.
* **정확한 진단**: VarCoPP는 기존 검사 방법으로는 찾기 어려웠던 희귀 질환의 유전적 원인을 밝혀낼 수 있습니다.
* **맞춤형 치료**: 환자 개개인의 유전적 특성에 맞는 맞춤형 치료법 개발에 기여할 수 있습니다.
* **신약 개발**: 질병 발생 메커니즘에 대한 이해를 높여, 새로운 치료제 개발을 촉진할 수 있습니다.
### VarCoPP의 한계와 과제
VarCoPP는 획기적인 기술이지만, 아직 몇 가지 한계점과 해결해야 할 과제들이 남아 있습니다.
* **데이터 부족**: VarCoPP의 정확도를 높이기 위해서는 더 많은 유전 정보 데이터가 필요합니다.
* **분석 범위 확대**: 현재는 유전자 쌍만 분석 가능하지만, 3개 이상의 유전자 조합 분석 기술 개발이 필요합니다.
* **해석의 복잡성**: VarCoPP는 다양한 정보를 복합적으로 분석하기 때문에 결과 해석에 전문적인 지식이 요구됩니다.
### 미래를 향한 도약
VarCoPP는 희귀 질환 정복을 향한 희망의 빛입니다. 지속적인 연구 개발을 통해 VarCoPP의 정확성과 활용 범위를 넓혀나간다면, 희귀 질환으로 고통받는 환자들에게 더 나은 미래를 선물할 수 있을 것입니다.

gemini가 내용 설명해주기 싫었는지 같은 내용을 뱉어낸거 제외하고는... LLM들 모두 잘 설명해준듯 합니다. 이때가 2019년이니 이제 내년쯤이면 쓸만한 킬러 서비스들이 -지금까지 나온 AI, 머신러닝, 기계학습을 사용한 interpretation 방법이 jab이었다면, 이제 나오는 것들은 Hook 수준의 것들이- 등장하지 않을까 하는 생각입니다.

출처: @wm_ohmygirl

토요일, 6월 08, 2024

통계방법을 활용한 조금 더 똘똘한 변이 검출 방법

오늘은 변이 호출 검증 방법에 대한 논문을 가져와봤습니다. deep seq을하다보면 오류로 인해서 변이가 탐지되기도하고, 아니기도한 경우가 종종 발생합니다. 그래도 germline, 생식세포 변이를 탐지할 때는 이런 오류를 판별은 가능한데 이 tumor 변이인 somatic, 체세포 변이는 이만 저만 까다로운게 아닙니다.

그래서 나온 것이 통계를 바탕으로 탐지된 변이의 진위 여부를 가려보겠습니다 라는 내용의 "A Retrospective Statistical Validation Approach for Panel of Normal–Based Single-Nucleotide Variant Detection in Tumor Sequencing" 논문 되겠습니다.

DOI: 10.1016/j.jmoldx.2021.09.010

오늘도 변함없이 AI들에게 요약을 해달라고 해보았습니다.

clova-x

이 논문에서는 SNV calling을 위해 local realignment, context error rate calculation, and binomial error testing을 사용했다고 합니다. 또한, CleanDeepSeq Validation 방법과 CleanDeepSeq의 ROC 곡선을 보여주고 있으며, statistical criterion을 제안하여 모델의 실제 적합성을 평가했다고 합니다. 이를 통해 정확한 변이 검출을 수행할 수 있었습니다.
추가적으로, 이 논문에서는 다음과 같은 방법과 알고리즘을 사용했습니다.
1. **회귀분석 타당성 접근법**: 이 논문에서는 단일 뉴클레오타이드 변이 검출을 위해 회귀분석 타당성 접근법을 사용했습니다. 이 방법은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 합니다.
2. **밀도 추정**: 변이 검출을 위해 밀도 추정 방법을 사용했습니다. 이 방법은 변이 데이터의 분포를 파악하고, 이를 바탕으로 변이를 검출하는 데 사용됩니다.
3. **통계적 기준**: 변이 검출을 위한 통계적 기준을 제안했습니다. 이 기준은 모델의 적합성을 평가하고, 이를 바탕으로 변이를 검출하는 데 사용됩니다.
4. **데이터 클린징**: 변이 검출을 위해 데이터 클린징 단계를 수행했습니다. 이 단계에서는 softclips와 품질 제어 플래그를 제거하여 데이터의 품질을 향상시켰습니다.
이러한 방법과 알고리즘을 통해 정확한 변이 검출을 수행할 수 있었습니다. 하지만, 이 논문에서는 다양한 방법과 알고리즘을 사용했기 때문에, 상황에 따라 적절한 방법과 알고리즘을 선택해야 합니다. 또한, 새로운 기술과 알고리즘이 계속해서 개발되고 있기 때문에, 최신 기술과 알고리즘을 적극적으로 활용하는 것이 중요합니다.
이 논문에서는 다양한 데이터셋을 사용하여 실험을 진행했습니다. 이 데이터셋은 다양한 종류의 암 세포주와 환자 데이터를 포함하고 있으며, 이를 통해 변이 검출의 정확도와 성능을 평가했습니다. 이러한 실험 결과를 바탕으로, 이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다.
이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다. 이 방법과 알고리즘은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 하며, 이를 통해 암 진단과 치료에 대한 연구에 큰 도움이 될 것입니다. 하지만, 이 논문에서는 다양한 방법과 알고리즘을 사용했기 때문에, 상황에 따라 적절한 방법과 알고리즘을 선택해야 합니다. 또한, 새로운 기술과 알고리즘이 계속해서 개발되고 있기 때문에, 최신 기술과 알고리즘을 적극적으로 활용하는 것이 중요합니다.
이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다. 이 방법과 알고리즘은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 하며, 이를 통해 암 진단과 치료에 대한 연구에 큰 도움이 될 것입니다. 하지만, 이 논문에서는 다양한 방법과 알고리즘을 사용했기 때문에, 상황에 따라 적절한 방법과 알고리즘을 선택해야 합니다. 또한, 새로운 기술과 알고리즘이 계속해서 개발되고 있기 때문에, 최신 기술과 알고리즘을 적극적으로 활용하는 것이 중요합니다.
이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다. 이 방법과 알고리즘은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 하며, 이를 통해 암 진단과 치료에 대한 연구에 큰 도움이 될 것입니다. 하지만,

chatGPT

### 암 진단의 혁신: 새로운 통계적 검증 방법을 통한 변이 검출
암 진단과 치료는 지난 몇 년 동안 엄청난 발전을 이뤘습니다. 특히 차세대 시퀀싱(NGS) 기술의 도입으로 암의 유전적 변이를 분석하는 것이 가능해지면서 맞춤형 치료의 시대가 열렸습니다. 그러나 이러한 기술에도 불구하고 낮은 빈도의 단일 뉴클레오타이드 변이(SNV)를 정확하게 검출하는 것은 여전히 도전 과제로 남아있습니다. 최근 연구에서는 이러한 문제를 해결하기 위해 새로운 통계적 검증 방법을 제안했습니다. 이번 블로그에서는 이 새로운 방법과 그 의미에 대해 살펴보겠습니다.
#### 기존 방법의 한계
기존의 SNV 검출 방법은 정상 샘플 패널(PON)을 사용하여 각 변이 위치의 오류율을 추정합니다. 그러나 이러한 방법은 몇 가지 한계를 가지고 있습니다. 먼저, PON 기반 방법은 충분한 양의 정상 샘플을 확보하기 어렵고, 샘플링 편향 및 변동이 발생할 수 있습니다. 이는 정확한 오류 프로파일을 얻기 어렵게 만듭니다. 또한, 특정 위치에서 오류 데이터가 부족할 경우 다른 위치의 데이터를 빌려야 하는 문제가 있습니다.
#### 새로운 통계적 검증 방법의 등장
이러한 한계를 극복하기 위해 연구자들은 다양한 암 샘플에서 수집된 데이터를 기반으로 SNV의 위치별 오류 분포를 경험적으로 모델링하는 새로운 통계적 검증 방법을 개발했습니다. 이 방법은 다음과 같은 주요 단계를 포함합니다.
1. **데이터 수집 및 정제**:
다양한 암 샘플에서 시퀀싱된 데이터를 수집하고, DNA 준비 및 시퀀싱 과정을 통해 데이터를 정제합니다.
2. **오류 분포 추정**:
수집된 데이터에서 각 변이 위치의 필터링된 리드 수를 추출하고, 이를 바탕으로 변이 위치별 오류 분포를 경험적으로 모델링합니다.
3. **통계적 검증 모델 구축**:
각 변이 위치에서의 필터링된 리드 수를 기반으로 통계적 모델을 구축하여 예상 오류 분포를 추정하고, 변이 검출을 위한 임계값을 설정합니다.
4. **이상치 검출 및 변이 식별**:
예상 오류 분포와 비교하여 각 변이 위치의 리드 수를 분석하고, 리드 수가 예상 분포에서 벗어날 경우 이를 변이로 식별합니다.
5. **실험적 검증**:
검출된 변이를 디지털 PCR과 같은 실험적 방법을 통해 검증하여 모델의 성능을 평가하고, 필요한 경우 모델을 수정 및 보완합니다.
#### 연구 결과와 의의
연구자들은 2019년 10월부터 2020년 7월까지 시퀀싱된 6,580개의 암 샘플 데이터를 사용하여 새로운 모델을 훈련했습니다. 그 결과, 38개의 암 관련 변이 위치에서 새로운 낮은 빈도의 변이를 발견하였고, 이러한 변이들은 디지털 PCR을 통해 실험적으로 검증되었습니다. 또한 시뮬레이션 연구에서도 새로운 방법의 장점을 확인할 수 있었습니다.
이 연구는 암 진단에서 변이 검출의 정확성을 크게 향상시키는 방법을 제안함으로써, 환자 치료에 중요한 기여를 할 수 있습니다. 특히, 낮은 빈도의 변이를 더 잘 검출할 수 있어 맞춤형 치료의 정확성을 높일 수 있습니다.
#### 결론
암 진단에서 변이 검출의 정확성을 높이는 것은 환자의 치료 결과에 직접적인 영향을 미칩니다. 이번 연구에서 제안된 새로운 통계적 검증 방법은 기존의 한계를 극복하고, 더 정확한 변이 검출을 가능하게 합니다. 이를 통해 암 진단의 신뢰성을 높이고, 맞춤형 치료의 효율성을 극대화할 수 있을 것으로 기대됩니다. 앞으로도 이러한 혁신적인 연구가 지속되어 암 치료의 새로운 지평을 열어가기를 바랍니다.

claude.ai

제목: 암 유전체 분석을 위한 새로운 단일염기변이(SNV) 검출 기법
안녕하세요? 오늘은 암 유전체 시퀀싱 데이터 분석에 있어서 단일염기변이(SNV) 검출의 중요성과 새로운 통계적 접근법에 대해 소개하겠습니다.
암 치료에 있어 환자 개인의 유전체 정보는 매우 중요합니다. 차세대 시퀀싱(NGS) 기술을 통해 암 조직의 SNV를 검출하면 표적 치료제 선택 등 정밀 의료에 큰 도움이 됩니다. 하지만 기존의 SNV 검출 방식은 낮은 변이 빈도의 SNV를 제대로 찾아내지 못하는 한계가 있었습니다.
이를 해결하기 위해 새로운 통계적 검증 방법이 제안되었는데요. 기존에는 제한된 수의 정상 샘플 패널을 사용하여 위치별 오류율을 추정했지만, 이번 방식은 대량의 암 환자 시퀀싱 데이터를 활용합니다. 구체적인 과정은 다음과 같습니다.
1) 베타-이항분포 모델을 사용하여 위치별 오류 분포를 모델링합니다.
2) 변이 알렐 빈도(VAF) 임계값 미만의 데이터만 사용하여 truncated 베타-이항분포를 추정합니다.
3) 최대가능도 추정법으로 모수를 계산합니다.
4) 추정된 분포를 바탕으로 VAF 임계값을 넘으면 SNV로 검출합니다.
5) 카이제곱 검정으로 모델의 적합도를 평가합니다.
이 방식으로 낮은 변이 빈도(VAF < 5%)의 SNV도 높은 민감도로 검출할 수 있었습니다. 디지털 PCR 검증 결과 99% 특이도에서 85%의 민감도를 보였습니다.
대규모 암 환자 데이터를 활용하여 경험적으로 오류율을 프로파일링한 것이 주요 특징인데요. 이를 통해 기존 방식보다 SNV 검출 정확도를 크게 높일 수 있었습니다. 앞으로 이 새로운 통계 기법이 암 유전체 분석 파이프라인 개선에 기여할 것으로 기대됩니다.

gemini

## 딥 시퀀싱 데이터에서 정확한 변이 검출: 새로운 통계적 회귀 접근 방식 소개
암 진단 및 치료에서 유전자 변이는 중요한 역할을 합니다. 딥 시퀀싱은 다양한 유형의 암을 진단하는 데 사용되는 강력한 도구이며, 이를 통해 정확하게 변이를 검출하는 것이 중요합니다.
기존의 변이 검출 방법에는 몇 가지 제한 사항이 있습니다. 예를 들어, 저빈도 변이를 누락하거나 오류를 발생시킬 수 있습니다. 이러한 문제를 해결하기 위해 연구원들은 새로운 방법을 개발하고 있습니다.
최근 연구에서는 딥 시퀀싱 데이터에서 정상 패널 기반 단일 뉴클레오티드 변이(SNV) 검출을 위한 통계적 회귀 검증 접근 방식을 제안했습니다. 이 방법은 통계적 모델을 사용하여 SNV를 검출하여 기존 방법보다 정확하고 민감하며 효율적입니다.
**새로운 방법의 장점:**
* **정확성 향상:** 통계적 회귀 모델은 오류를 줄이고 정확성을 향상시킵니다.
* **민감도 향상:** 저빈도 변이를 더 효과적으로 감지합니다.
* **효율성 향상:** 병렬 검증 파이프라인을 제공하여 프로세스를 더 효율적으로 만듭니다.
**이 연구는 딥 시퀀싱 데이터에서 SNV를 검출하는 데 사용할 수 있는 정확하고 효율적인 방법을 제공합니다. 이 방법은 암 진단 및 치료를 개선하는 데 사용될 수 있습니다.**

clova-x가 내용 늘리기 신공을 또 사용하였습니다. 이 정도면 상습범인것 같은데..

그리고 gemini는 요점을 정확하게 얘기하면서 가장 짧게 풀어냈습니다. 그냥 앞뒤 얘기 안하고 개선된 방법을 알아냈습니다라고 던져주네요 ㅎㅎ

역시 gpt와 claude가 가장 양질의 문장을 뱉어주셨습니다.

유료 버전 쓰면 더 쓸만한 내용의 결과물을 하사해 주시리라 생각됩니다.

이제 AI한테 물어보고 작성해달라고 하니깐 격일로 블로그에 논문 요약 게시하는 것이 가능할 줄 알았는데 사용자의 수준이 낮다보니 이마저도 쉽지 않은듯합니다.

그냥 되는대로 해보도록 하겠습니다. :)

출처: @ye._.vely618

월요일, 6월 03, 2024

과연 종양 이질성을 극복한 변이 탐지가 가능할까?

오늘은 프로토콜 자료 하나 가져와봤습니다.

제목은 Somatic variant detection from multi-sampled genomic sequencing data of tumor specimens using the ith.Variant pipeline 으로 종양내 genome 이질성으로 인해 변이 탐지가 수월하지 않는데, 이 변이 탐지를 가능하게 해주는 파이프라인에 대한 내용 같습니다.

DOI: 10.1016/j.xpro.2022.101927

오늘도 역시 gemini, clova-x와 chatGPT에게 블로그에 올릴 글을 하나 작성해달라고 하였습니다.

gemini

## 우리 몸의 신비: 생명 과학 입문
생명 과학은 우리 주변의 살아있는 존재와 그 작동 방식을 연구하는 과학 분야입니다. 우리가 태어나고, 성장하고, 번식하며, 결국 죽는까지 일어나는 모든 과정은 생명 과학의 영역에 속합니다.
고등학교 이후 생명 과학을 공부하지 않은 일반인이라도 생명 과학은 우리 삶과 밀접하게 관련되어 있다는 것을 알 수 있습니다. 예를 들어, 우리가 먹는 음식, 우리가 사용하는 약, 우리가 걸리는 질병 등은 모두 생명 과학과 관련이 있습니다.
이 블로그 게시글에서는 생명 과학의 기본 개념을 소개하고, 우리 몸의 신비로운 작동 방식에 대해 알아보도록 하겠습니다. 생명 과학은 복잡하고 방대한 분야이지만, 기본적인 개념을 이해하면 우리 주변 세상을 보는 새로운 시각을 얻을 수 있습

clova-x

해당 파이프라인은 종양의 샘플링된 유전체 시퀀싱 데이터를 이용하여 변이를 탐지하고 분석하는 데 사용되는 것으로 알려져 있습니다. 이는 종양의 유전적 다양성과 진화를 이해하고, 종양의 특성과 치료 방법을 결정하는 데 중요한 역할을 합니다.
이 파이프라인은 다양한 데이터 형식을 지원하며, 고성능 컴퓨팅 환경에서 실행될 수 있습니다. 또한, 사용자 정의 가능한 단계로 구성되어 있어 사용자가 필요한 단계를 선택하고, 각 단계의 설정을 조정할 수 있습니다.
이 파이프라인은 민감도와 특이도의 균형을 제공하여 변이를 정확하게 탐지하면서도 불필요한 변이를 제거할 수 있습니다. 또한, clonal or major subclonal SCNAs를 탐지할 수 있어 종양의 유전적 다양성과 진화를 더욱 정확하게 이해할 수 있습니다.
이 파이프라인을 사용하면 종양의 유전적 변이를 빠르고 정확하게 탐지할 수 있으며, 이를 바탕으로 종양의 특성과 치료 방법을 결정할 수 있습니다. 또한, 이 파이프라인은 오픈 소스 소프트웨어로 제공되어 있어 누구나 자유롭게 사용할 수 있으며, 커뮤니티를 통해 지속적인 업데이트와 개선이 이루어지고 있습니다.
이 파이프라인을 사용하기 위해서는 컴퓨터 시스템과 프로그래밍 지식이 필요합니다. 하지만, 최근에는 다양한 클라우드 서비스와 GUI 기반의 도구들이 제공되어 있어, 비전문적인 사용자도 쉽게 이 파이프라인을 사용할 수 있습니다.
이 파이프라인을 사용하여 얻은 결과는 의료 전문가와 함께 분석하고 해석해야 합니다. 이를 통해, 종양의 치료와 예방에 대한 더욱 정확한 정보를 얻을 수 있습니다.
이 글을 통해, 이 파이프라인이 종양 연구와 치료에 있어서 매우 유용한 도구 중 하나라는 것을 알 수 있습니다. 하지만, 이 파이프라인을 사용하기 위해서는 컴퓨터 시스템과 프로그래밍 지식이 필요하며, 결과를 의료 전문가와 함께 분석하고 해석해야 합니다. 따라서, 이 파이프라인을 사용하고자 하는 경우에는 충분한 준비와 전문가의 도움을 받는 것이 중요합니다.

chatGPT

### 유전체 분석을 통한 종양 연구 혁신: ith.Variant 파이프라인 소개
최근 몇 년간 의학과 생명과학 분야에서 엄청난 발전이 이루어졌습니다. 그 중 하나가 유전체 분석 기술의 발전입니다. 오늘은 종양 연구를 혁신적으로 변화시키고 있는 ith.Variant라는 파이프라인에 대해 소개해드리고자 합니다. 생명 과목을 고등학교 이후로 공부하지 않으셨더라도 이해하기 쉽게 설명해드리겠습니다.
#### 유전체 분석이란?
우선, 유전체 분석에 대해 간단히 설명하겠습니다. 유전체란 우리 몸의 모든 유전 정보를 담고 있는 DNA의 총합을 말합니다. 유전체 분석은 이러한 DNA를 분석하여 유전적 변이를 찾고, 이를 통해 질병의 원인이나 치료법을 찾는 연구 방법입니다.
#### 종양과 유전적 변이
종양(암)은 우리 몸의 세포가 비정상적으로 빠르게 자라면서 덩어리를 형성하는 것입니다. 종양이 발생하는 이유 중 하나는 유전자 변이 때문입니다. 이러한 변이를 찾아내는 것이 종양 연구와 치료에 매우 중요합니다. 그러나 종양 내의 세포들은 각기 다른 유전적 변이를 가지고 있을 수 있습니다. 이를 "종양 이질성"이라고 부릅니다. 이질성을 정확히 분석하는 것은 종양의 진화와 치료 반응을 이해하는 데 중요한 역할을 합니다.
#### ith.Variant 파이프라인이란?
ith.Variant는 이러한 유전적 변이를 정확히 찾아내고 분석하기 위해 개발된 파이프라인(연속적인 처리 절차)입니다. 기존의 분석 방법들은 한 번에 하나의 샘플만 분석하는 경우가 많았습니다. 그러나 ith.Variant는 여러 샘플을 동시에 분석하여 더 정밀하고 신뢰할 수 있는 결과를 제공합니다.
#### ith.Variant의 장점
1. **높은 민감도와 특이성**: 저빈도 변이(적은 비율로 나타나는 변이)를 민감하게 탐지하면서도 인공적인 오류를 줄이는 데 뛰어납니다. 이는 변이 탐지의 정확성을 높여줍니다.
2. **종양 이질성 분석**: 여러 종양 샘플과 정상 샘플을 통합적으로 분석하여 종양 내 다양한 유전적 변이를 정확히 특성화할 수 있습니다. 이를 통해 종양의 진화 과정을 더 잘 이해할 수 있습니다.
3. **고성능 컴퓨팅 활용**: 대규모 유전체 데이터를 효율적으로 처리할 수 있도록 설계되어 있어, 방대한 데이터를 신속하게 분석할 수 있습니다.
4. **오픈 소스 접근성**: 이 파이프라인은 오픈 소스로 제공되어, 연구자들이 자유롭게 사용하고 수정할 수 있습니다. 이는 연구의 투명성과 협력성을 높여줍니다.
#### 종양 연구의 미래
ith.Variant와 같은 첨단 유전체 분석 도구는 종양 연구와 치료를 혁신적으로 변화시키고 있습니다. 정확한 유전적 변이 분석을 통해 더 효과적인 개인 맞춤형 치료법을 개발할 수 있으며, 종양의 진화 과정을 이해함으로써 재발을 예방하는 데도 기여할 수 있습니다.
이처럼 ith.Variant 파이프라인은 종양 연구자들에게 강력한 도구가 되어주고 있습니다. 앞으로도 유전체 분석 기술의 발전이 우리 삶에 가져올 긍정적인 변화를 기대해봅니다.
여러분도 이제 유전체 분석과 ith.Variant에 대해 조금 더 이해하게 되셨기를 바랍니다. 앞으로도 유전체 연구와 관련된 흥미로운 소식을 전해드리겠습니다. 감사합니다!

아.. 우리의 gemini는 또 무슨 말인지 모를... 얘기를 뱉어냈습니다. 물론 제가 사용한 프롬프트가 유발한 문제이기도 합니다.

"독자는 생물 과목을 고등학교때 이후에 공부하지 않은 일반인입니다" 라는 프롬프트를 사용하는 바람에... 이전에는 잘 파악했는데, 이번에는 헛소리를 내뱉은것 같습니다. 음... 한편으로는 gemini의 문제가 아니라 무료 버전의 문제일지도.. ㅎㅎ :)

clova-x와 chatGPT 같은 경우는 그래도 좀 더 이해할 수 있도록 잘 작성한 듯 합니다.

종양 검체를 분석 한다고 하더라도 그 검체 안에 정상 조직들이 0%는 아니라서 변이를 탐지할 때 정상조직에 있는 변이와 종양의 변이를 구분하는 것은 중요하게 됩니다. 그래서 해당 검체에서 종양이 차지하는 비율을 바탕으로 탐지된 somatic 변이의 depth를 사용하여 진위여부를 구별하게 됩니다. 위의 ith.Variant라는 파이프라인도 아마 이런 방법들을 사용해서 하지 않나 싶습니다.

다음에 또 흥미로운 내용의 논문이 있으면 AI들에게 물어보도록 해보겠습니다. :)

출처: @ye._.vely618

목요일, 4월 18, 2024

UK Biobank 데이터 활용하면 어떤것을 할 수 있을까?

오늘은 많은 국가의 BioBank 사업에 귀감이 되고 있는 UK BioBank를 활용한 논문을 한번 가져와봤습니다.

당연히 UK BioBank 데이터를 활용한 논문은 어마 무시하게 많이 있습니다.

그중에서 이 Effects of protein-coding variants on blood metabolite measurements and clinical biomarkers in the UK Biobank 논문을 가져온 이유는 그냥 최근에 나왔으니깐요 ㅎㅎ

DOI: 10.1016/j.ajhg.2023.02.002

오늘도 역시 clova-x에게 물어보았습니다.

이 연구는 단백질 코딩 변이가 혈액 대사물 측정과 임상 바이오마커에 미치는 영향을 분석한 것으로, 다음과 같은 내용을 포함하고 있습니다.
1. 412,393 영국 바이오뱅크 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였습니다.
2. 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였습니다.
3. 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 205개의 유전자와 331개의 유전자가 유의미한 연관성을 가진 것으로 나타났습니다.
4. 이 연구는 새로운 생물학적 통찰력을 제공하며, 확립된 질병 메커니즘에 대한 이해도 깊어질 수 있습니다.
5. 기존 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재합니다.
6. 희귀 단백질 코딩 변이형은 큰 효과 크기와 기능적 영향을 가지며, 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있습니다.

이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.
대규모의 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였으며, 이를 통해 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 데 기여하였습니다. 또한 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.
그리고 다양한 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다. 또한, 이 연구는 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 유전자와 유의미한 연관성을 발견하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.
이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.
이 논문은 생명공학 분야에서 중요한 연구 결과를 담고 있으며, 생명공학을 전공하지 않은 사람들도 이 논문을 통해 혈액 대사물 측정과 단백질 코딩 변이의 관계를 이해하고, 질병 예방과 치료에 대한 정보를 얻을 수 있습니다.
이 논문을 이해하기 위해서는 생명공학에 대한 기본적인 지식이 필요합니다. 생명공학에 대한 기본적인 지식이 없는 경우에는 이 논문을 이해하기 어려울 수 있습니다. 이 경우에는 생명공학에 대한 기초적인 지식을 학습하고, 이 논문을 다시 읽어보는 것이 좋습니다.

결론: 응? 무엇을 요약했는지 무슨 말인지 하나도 모르겠다.

아니 생명공학에 대한 기본 지식이 있는 전공자가 귀찮아서 생명공학을 전공하지 않은 사람들에게 설명하는 글을 작성해달라고 clova-x를 돌렸는데 기초지식을 학습하고 다시 논문을 읽어보라니.... 요놈 보소

결국 UK Biobank는 아이디어만 있으면 할 수 있는게 무궁무진 하다는 것 되겠습니다.

출처: @ye._.vely618

일요일, 9월 17, 2023

탐지한 varaint가 대체 왜 이러지?

이것저것 변이 call을 하다보면 가끔씩 여러개의 변이가 한번에 call되는 경우가 있습니다.

여러개의 변이가 한번에 call되는 경우는 대게 multi allelic 이거나 multi-nucleotide variant 정도일겁니다.

※ Multi Allelic

1번 염기서열 위치에 Reference는 TA였는데 변이 call결과에 T,TAA,TAAA 가 확인되었을 때 를 얘기하는 경우

※ Multi Nucleotide Variant

159030번 염기서열 위치에 Reference가 TAACCTTTC였는데, TGACCTTTT로 call되었다고 하는 경우, 일반적으로 이런 경우 159031번과 159038번만 reference와 다른데 왜 뭉뚱그려서 여기가 다 변이입니다 하는 경우 입니다.

TAACCTTTC

TGACCTTTT

그러나 다행히 우리에게는 VT라는 천하무적 tool이 있습니다.

이런 multi allelic나 multi nucleotide variant 가 있는 경우 이것을 뜯어서 분리하는 sub command를 가지고 있다고 하네요 :)

난 multi Allelic를 분리하고 싶어요! 라면

vt decompose input.vcf -o decomposed.vcf

이렇게

아니에요 나는 multi nucleotide variant를 분리하고 싶어요! 라면

$vt decompose_blocksub -p input.vcf -o decomposed.vcf

이렇게 명령어를 실행시켜 주면 된다고 합니다.

multi allelic가 나오고 multi nucleotide variant가 당신을 괴롭히더라도 당신 곁에는 vt가 있다는 것을 잊지 마세요.

다시 또 유익한 정보를 가지고 돌아오도록 하겠습니다. :)

출처: @ye._.vely618

수요일, 8월 16, 2023

누가 누가 Annotation을 잘 하나

작년에 나온 논문으로 NGS를 활용한 임상 유전체 판독 할 때 어떤 annotation tool을 쓰면 좋을지에 대한 내용입니다.

A performance evaluation study: Variant annotation tools - the enigma of clinical next generation sequencing (NGS) based genetic testing

doi: 10.1016/j.jpi.2022.100130

현재 다양한 annotation tool이 사용되고 있긴 하나 그 중에서 Alamut, ANNOVAR, VEP 3개 tool을 벤치마킹 해봤다고 합니다.

VEP는 Ensembl Variant Effect Predictor이고,
Alamut는 SOPHiA GENETICS에서 제공하고 있는 tool,
ANNOVAR은 qiagen에서 제공하고 있는 tool로 3개 tool 모두 annotation해봤다고 해봤으면 한번쯤 구경은 해봤을 tool 일겁니다.

결과를 얘기하자면 이 3개 tool을 이전에 확인되었던 298개 변이를 대상으로 벤치마킹하였고 이 중에서 VEP가 가장 성능이 좋았고, ANNOVAR이 가장 낮을 일치율을 보여주었다고 합니다. (298개 중 20개가 불일치하여 93.3%의 일치율)

그래서 Lurie Molecular Diagnostics Laboratory(저자들의 소속 기관)은 VEP를 사용하기로 하였다고 논문에 언급하긴 했는데 진짜 VEP를 사용하고 있는지 ANNOVAR나 Alamut를 몰래 사용하고 안하는지는 제가 알 방법이 없네요

여튼 NGS의 발달로 말미암아 WGS를 하면 400만개, WES를 하면 ~2만개 정도의 변이들을 탐지할 수 있게 되었죠. 그래서 이전에는 변이를 하나하나 탐지하는게 병목점이었다면 이제는 탐지된 변이를 정확하게 판독 할 수 있도록 annotation을 하는 것이 더 중요하고 병목점이 되었다는 것은 누구나 부인하지 못할 것입니다.

- 물론 최근에는 AI/머신러닝의 발달로 annotation 단계에서도 괄목할만한 신속 정확한 결과를 바라볼 수 있지 않을까 합니다. -

이런 이유로 Lurie Molecular Diagnostics Laboratory에서도 이전에는 Alamut를 사용하고 있었는데 라이센스 문제등 효율적인 문제가 부각되어 상용 tool들과 오픈 소스인 VEP간의 annotation 결과 일치도 테스트를 해보게 되었다고 합니다.

그렇다면 비교를 하기위해서는 정답이 있는 문제지가 있어야 되겠죠?
그래서 이전에 Lurie Molecular Diagnostics Laboratory에서 진행되고 큐레이션 되었던 191개 유전자에 있는 298개 변이를 테스트 세트로 했다고합니다.

3개의 annotation tools을 비교하기 위한 vcf를 준비해서 각각 분석을 진행하였다고 합니다.

그래서 확인한 결과 298개 중 278개 변이는 3개 tool에서 모두 동일하게 확인되었고, 그 중 VEP와 Alamut는 99% 일치 하였으나, ANNOVAR의 경우 20개가 불일치 하였다고 합니다. 298개 중 278개 변이가 3개 tools에서 동일하게 나온 이유가 ANNOVAR가 제대로 분석을 하지 못해서였네요..

VEP는 298개중 297개를, Alamut는 298개중 296개를 올바르게 annotation을 하였고, ANNOVAR은 위에서 언급한대로 278개만 올바르게 annotation을 하였다고 합니다.

조만간 누군가 고도화된 AI/머신러닝을 탑재한 annotation tool을 출시하면 새바람이 불지 않을까합니다.

그때까지 밥벌이는 해보는걸로 :)

출처: @ye._.vely618

수요일, 3월 08, 2023

임상에서 변이 탐지는 조금은 달라야지

오늘 읽어본 논문은 임상에서 변이탐지을 위한 모범 사례에 대한 내용입니다.

Best practices for variant calling in clinical sequencing

DOI: 10.1186/s13073-020-00791-w

사실 지난번 논문이 현장에서는 더 도움이 되는 논문이긴 하나

임상 현장에서의 의견이 좀 더 녹아져 있을까 해서 읽어보았습니다.

그래봤자 이미 우리 모두 대략적으로 다 알고 있는 바로 그 얘기입니다.

업으로 하고 있으신 들이 보면 사실 새로운건 없어요. 그냥 레퍼런스에요

어떤 정렬 프로그램이 좋은지, 정렬 하고 나서 바로 변이 탐지를 해도 되는지, 아니면 전처리를 어떻게 하고 변이 탐지를 하면 좋은지, 어떤 변이 탐지 방법을 사용하는게 좋은지..

여기서는 GATK 모범 사례를 주로 들긴 했지만, 여러 변이 탐지 프로그램 사용해서 가급적 못잡는 변이를 최소화하고, 가끔 de-novo 변이가 있는데 그거는 나도 모르겠으니 IGV 키고 눈씻고 찾아봐라. CNV도 시중에 떠돌아 다니는 프로그램 사용하더라도 마지막에는 IGV켜서 확인해라.

인듯하네요.

그리고 다음 내용은 MS사의 Bing에게 "요약해줘"(균형있게) 치트키를 써서 나온 내용입니다.

이 논문은 유전 질환과 암과 같은 질병에 대한 임상 유전 검사에서 사용되는 차세대 시퀀싱 기술의 발전에 따라 정확한 변이 호출이 얼마나 중요한지를 설명합니다. 또한 현재 변이 호출에 대한 최선의 관행과 향후 개선 방향을 제시합니다.

답변 후 요약이 충분히 도움이 되었나요? 더 자세한 정보를 원하시면 말씀해달라고 해서, "아니오, 더 자세히 알고 싶어요" 해서 나온 내용은 아래와 같습니다.

논문은 다음과 같은 내용으로 구성되어 있습니다.
배경: 차세대 시퀀싱(NGS) 기술은 임상 유전 검사의 범위와 정확도를 크게 향상시켰습니다. 그러나 NGS 데이터에서 변이를 호출하는 과정은 여전히 복잡하고 오류가 발생하기 쉽습니다. 따라서 변이 호출에 대한 표준화된 가이드라인과 최적화된 파이프라인이 필요합니다.
본론: 논문에서는 NGS 데이터에서 변이를 호출하는 과정에 영향을 미치는 여러 요인들을 설명합니다. 예를 들어, 시퀀싱 플랫폼, 시료 준비 방법, 분석 소프트웨어 등입니다. 또한 현재 사용되고 있는 변이 호출 알고리즘과 도구들을 비교하고 평가합니다. 마지막으로 임상 유전 검사에서 변이 호출의 정확도와 신뢰도를 향상시키기 위한 권장 사항과 개선 방안을 제시합니다.
결론: NGS 기술은 임상 유전 검사의 혁신적인 도구입니다. 그러나 변이 호출은 여전히 어려운 문제입니다. 이 논문은 임상 유전 검사에서 변이 호출에 대한 최선의 관행과 향후 연구 방향을 제공합니다.
더 궁금하신 점이 있으신가요?🙋

다음은 chatGPT한테 요약해줘 한 내용

이 논문은 기존 유전체 연구를 보완하고, 유전체 변이를 활용하여 질병 진단과 치료 방법을 개선하는 것을 목적으로 하고 있다.
이 논문에서는 유전체 연구의 새로운 방법으로 'CRISPR-Cas9' 기술을 사용하여 질병 관련 유전자를 수정하는 방법을 제시한다.

chatGPT는 참 치명적으로 창의적인듯...

결론은 chatGPT한테 링크 알려주고 요약해줘하면 헛소리 작렬, MS Bing한테 링크 알려주고 요약해줘 하면 성심껏 알려주는 거기다가 답변도 창의적으로, 균형있게, 근거기반 세분화해서 알려주는게 포인트

@ye._.vely618

토요일, 3월 04, 2023

역시 변이 탐지에서도 machine learning

역시 세상에는 내마을을 알고 있는 분들이 있다는..

논문 제목은 Systematic benchmark of state-of-the-art variant calling pipelines identifies major factors affecting accuracy of coding sequence variant discovery 입니다.

doi: https://doi.org/10.1186/s12864-022-08365-3

결론은 누가누가 변이를 잘 찾나 테스트 되겠습니다.

그래서 샘플 준비도 GIAB과 함께 non-GIAB 데이터도 준비하고, 정렬 프로그램도 BWA, BOWTIE, Isaac, Novoalign 다양하게, 변이 caller도 GATK, FreeBayes, Strelka이외에도 DeepVariant나 Clair3와 Octopus 등 다양한 변이 caller를 도입해서 테스트를 진행해 보았다고 합니다.

Clair3와 Octopus는 처음들어 봤네요 @.@ 역시 사람은 공부를 해야함

그리고 GIAB외에도 non-GIAB 데이터를 활용한것은 또 새로운 접근법인듯합니다. 아무래도 많은 연구가 이뤄진 데이터와 그러지 않은 데이터간의 차이가 있을 수 있고, 아직 T2T를 사용한 변이 탐지 벤치마킹 논문을 찾아보진 못했는데 이 또한 조만간 나오겠네요. 이미 나와 있을수도..

여튼 이것저것 따져 봤을 때 정렬 프로그램은 일단 Bowtie2는 성능이 저하되는 결과를 보여주기에 사용하면 안되는 방법이고, 변이 탐지에서는 DeepVariant가 좋은 성능을 보이는 결과를 얻을 수 있었다고 합니다.

그리고 GIAB와 non-GIAB 샘플을 비교해본 바 현재 사용하는 분석 방법이 GIAB에서만 좋은 결과를 보이고 non-GIAB에서는 그렇지 않다는 것, aka GIAB 샘플이나 non-GIAB 샘플이나 편견없이 잘 분석된니, 현재 분석 방법들을 활용해도 문제가 없다는 것을 확인하였다고 합니다.

그러나 아직 존재하는 몇 가지 문제점을 지적하기도 했습니다.

기계학습 방법을 사용하는 caller 같은 경우 모델에 따라 변이 탐지에 문제가 발생할 수 있기 때문에 조심해서 사용하여야 하고, 앞서 얘기했던 T2T 표준 유전체를 사용하였을 때 발생할 수 있는 기존 정렬 프로그램이나 변이 탐지 프로그램의 한계점이나 영향(부정적인)은 확인된바가 없기떄문에 검토가 필요하다는 점, GIAB이나 non-GIAB이던 일반적인 벤치마킹에 사용하고 있는 표준 샘플들의 사용 region에 대한 문제, 대게 잘 정의된 변이들은 유전자 영역에 분포하고 있기 때문에 비유전자 영역에 있는 변이 또는 시퀀싱이 잘 되지 않은 영역들에 대한 정보는 제한적일 수 있기에 이런 단점들이 보강된 표준 샘플들이 필요하는 점, NGS 데이터의 경우 지속적으로 개선되고 새로운 방법이나 도구들이 개발되고 있으나 민감도, 재현성과 같은 변이 탐지 성능 지표에 집중되어 있지 분석 시간이나 사용의 편의성, 프로그램 설치 난이도와 같은 비교적 중요하게 다루지 않는 항목들에 대해서도 관심이 필요하다는 것들에 대해서 언급을 해주었습니다.

간만에 최신 변이 탐지 벤치마킹 논문을 한번 읽어봤는데, 저는 유익한 시간이었는데 어떠셨나요?

이제 즐거운 주말을 보내러~ :)

ps. 근데 chatGPT한테 요약 해달라고 하니 왜 이 논문에서 Dama dama (사슴)을 왜 그리 찾는지... 처음에는 내가 url을 잘못 입력한줄 알았는데...

출처: @ye._.vely618

일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)

오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한 BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -

3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )

Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.

Sequencing Samples	Bases(Gbp)	Read(x10⁶)	Clean rare	>Q20	>Q30	GC	Mean coverage
BGISEQ500-WES	29.41	294.3	0.41%	96.72%	89.14%	49.75%	328.49X
MGISEQ2000-WES	16.34	163.55	0.25%	98.18%	92.08%	49.71%	129.40X
HiSeq4000-WES	41.93	283.7	4.46%	97.36%	93.01%	50.63%	395.17X
NovaSeq-WES	25.88	178.87	2.25%	95.33%	92.67%	49.73%	241.52X
BGISEQ500-WGS	126.86	1270.02	1.76%	93.73%	83.33%	41.76%	41.03X
MGISEQ2000-WGS	137.36	1374.87	0.21%	96.17%	88.19%	41.76%	45.13X
HiSeq4000-WGS	191	1276.1	8.25%	95.90%	90.11%	41.69%	58.00X
NovaSeq-WGS	98.3	657.45	1.28%	95.89%	93.86%	41.61%	28.96X
HiSeq Xten-WGS	134	894.58	7.29%	94.50%	87.63%	40.71%	38.93X

Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ... :)

출처: @sana_twice.09

Pages

금요일, 11월 21, 2025

금요일, 6월 20, 2025

월요일, 10월 28, 2024

토요일, 10월 12, 2024

토요일, 6월 08, 2024

월요일, 6월 03, 2024

목요일, 4월 18, 2024

일요일, 9월 17, 2023

수요일, 8월 16, 2023

수요일, 3월 08, 2023

토요일, 3월 04, 2023

일요일, 11월 10, 2019