영국에 UK Biobank가 있다면 미국에는 All of Us가 있다.
니네가 본걸 우리라고 못볼쏘냐. 그래서 All of Us에서도 내놨습니다. All of Us에서 진행한 Long Read 시퀀싱 데이터로 확인한 것들. Population-scale Long-read Sequencing in the All of Us Research Program라는 제목으로 정식 저널지는 아니고, medrxiv에 공개된 내용으로 All of Us 프로젝트를 통해 수집된 천여명의 흑인/아프리카 미국인들의 Long read 데이터 분석한 유전체 결과를 공유했습니다. 유전체 연구에서 아무래도 백인(코카서스)중심으로 되어 있었다 보니 그 외 유전체 서열에 대해서는 좀 소외되고 있었던게 현실있었죠. 그나마 북동아시아의 한중일 삼국은 나름 경쟁으로 서로 서로 몸집을 키우고 있는데 그 외 인종들은 소외 되어 다양성을 많이 놓치고 있었는데 이번에 All of Us를 통해 일부 해소 될 수 있을 것 같습니다.
아... 근데 LRS가 ONT가 아니라 PacBio 플랫폼이었다니 실망이네요.
솔까말 PacBio는 MRS(Middle Read Sequencing)아닌가..
DOI: 10.1101/2025.10.02.25336942
(이번 논문의 파일 크기가 커서 그런지 perplexity.ai가 제대로 처리를 못했네요)
gemini
## 🧬 알면 알수록 유익한 유전자 정보: All of Us 연구 프로그램의 '장문 염기서열 분석' (LRS) 혁신
이 연구는 미국 국립보건원(NIH) 산하의 대규모 연구 프로그램인 **'All of Us'**에서 수행된 논문 **"Population-scale Long-read Sequencing in the All of Us Research Program"**의 핵심 내용을 일반 독자들이 쉽게 이해할 수 있도록 요약한 글입니다.
---
### 1. 연구 배경: 기존 유전자 분석의 한계 극복
[cite_start]미국은 'All of Us'라는 국가 단위 연구 프로그램을 통해 100만 명의 유전자 정보(게놈)와 방대한 의료 기록(EHRs)을 연결하는 거대 바이오뱅크를 구축하고 있습니다[cite: 5, 17].
그동안 유전자 연구의 주류는 **'단문 염기서열 분석(srWGS)'**이었습니다. [cite_start]이는 비용 효율적이지만, 우리 유전자 중 특히 **반복되는 영역(Repetitive Regions)**이나 **큰 규모의 구조적 변이(Structural Variants, SVs)**를 정확히 파악하는 데는 한계가 있었습니다[cite: 22, 24, 25]. [cite_start]이 '사각지대'에는 질병과 밀접하게 관련된 중요한 유전자 정보가 숨겨져 있으며, 특히 유전적 다양성이 높은 집단에서는 기존 분석으로 놓치는 변이가 많았습니다[cite: 25].
[cite_start]이 논문은 **'장문 염기서열 분석(LRS)'**이라는 새로운 기술을 대규모로 도입하여, 기존 방법으로는 볼 수 없었던 유전체 전체의 완전한 그림을 그려내고자 했습니다[cite: 6, 26].
### 2. 연구 목적: 구조적 변이(SV)와 질병의 연관성 규명
[cite_start]이 연구의 핵심 목표는 **LRS 기술**을 'All of Us'의 대규모 임상 데이터와 결합하여, **복잡한 구조적 변이(SVs)**가 인간의 건강과 질병에 어떻게 영향을 미치는지에 대한 혁신적인 통찰력을 제공하는 새로운 연구 체계를 구축하는 것입니다[cite: 6].
[cite_start]특히, 유전체 연구에서 **과소 대표(Underrepresented)** 되어 온 **"흑인 또는 아프리카계 미국인"**으로 스스로를 밝힌 참가자 집단을 대상으로 유전적 다양성을 포괄적으로 특성화하고, 이들이 가진 특정 질병 위험 변이를 발견하는 데 집중했습니다[cite: 34, 38, 39].
---
### 3. 연구 방법: LRS와 EHR 데이터의 통합 분석
1. **참가자 선정 및 시퀀싱:**
* [cite_start]스스로 **흑인 또는 아프리카계 미국인**이라고 밝힌 **1,027명**의 참가자를 선정했습니다[cite: 7, 37]. [cite_start]이들은 높은 유전적 다양성을 가지며, 특정 질병 관련 변이를 풍부하게 보유할 가능성이 있어 연구에 적합했습니다[cite: 41].
* **PacBio HiFi 기술**을 사용하여 **장문 염기서열 분석(LRS)**을 수행했습니다. [cite_start]이 기술은 기존 분석보다 훨씬 길고 정확한 유전자 정보를 제공합니다 (평균적으로 기존 기술보다 115배 긴 염기서열)[cite: 7, 691].
2. **구조적 변이(SV) 발굴:**
* [cite_start]LRS 데이터에서 **새로운 컴퓨팅 도구와 파이프라인**을 개발하여 SV를 포함한 모든 종류의 유전자 변이를 포괄적으로 발굴했습니다[cite: 9, 34].
3. **대규모 질병 연관성 연구 (PheWAS):**
* [cite_start]LRS를 통해 발견된 **75만 개 이상의 SV** 정보를 기존의 **10,000명**의 흑인/아프리카계 미국인 참가자(단문 분석 데이터 보유)에게 **'예측(Impute)'**하는 확장 가능한 방법을 개발했습니다[cite: 9, 10].
* [cite_start]이 예측된 SV 정보와 참가자의 **전자 건강 기록(EHRs)**에 있는 수백 가지 질병 정보(표현형)를 연결하여, 어떤 **SV가 특정 질병과 연관**되는지를 밝히는 대규모 연관성 연구(**PheWAS, Phenome-Wide Association Study**)를 수행했습니다[cite: 10].
---
### 4. 연구 결과: 놓쳤던 변이의 발견과 질병 연관성 입증
이 연구는 기존 단문 분석의 한계를 뛰어넘는 놀라운 결과를 제시했습니다.
1. **구조적 변이(SV) 발견의 혁신:**
* [cite_start]LRS를 통해 발견된 **구조적 변이(SVs)의 수는 기존 단문 분석 대비 60%에서 290%까지 대폭 증가**했습니다[cite: 746].
* [cite_start]기존 기술로는 불가능했던, 유전적으로 복잡한 영역(예: **약물 대사 관련 CYP2D6 유전자, 면역 관련 HLA 유전자**)의 **임상적으로 중요한 변이와 연관 그룹(Haplotypes)**을 정확히 분석해 냈습니다[cite: 8, 160].
2. **질병과의 강력한 연관성:**
* [cite_start]총 **226가지 질환**에 걸쳐 **291건의 SV-질병 연관성**을 확인했습니다[cite: 10].
* 이 연관성 중 **50.9%**는 기존 **단문 분석 데이터에는 전혀 존재하지 않았던 SV**였습니다. [cite_start]즉, LRS가 아니었다면 이 질병 연관성은 영원히 놓쳤을 수 있는 정보입니다[cite: 10].
* [cite_start]**70.8%**의 질환에서, **SV가 근처의 작은 변이(SNVs)보다 해당 유전체 영역에서 가장 강력한 질병 연관성**을 보였습니다[cite: 11, 164]. 이는 질병 연구에서 작은 변이뿐만 아니라 큰 구조적 변이가 훨씬 더 중요한 역할을 할 수 있음을 시사합니다.
3. **인종별 특이 변이 발견:**
* [cite_start]아프리카계 조상과 유사한 유전적 배경을 가진 참가자들에게서만 발견되는 특정 연관성은 **더 큰 효과 크기(질병에 미치는 영향이 큼)**와 **더 낮은 대립유전자 빈도(희귀 변이)**를 보였습니다[cite: 12]. 이는 고위험의, 인종 특이적인 변이 발굴이 정밀 의학에 얼마나 중요한지를 보여줍니다.
4. **구체적인 예시:**
* [cite_start]**폐쇄성 폐렴(Atelectasis)**과 관련된 **CLCN7 유전자** 내 **200bp 삽입 변이**를 발견했는데, 이 변이는 단백질 기능을 손상시켜 질병을 유발한다는 메커니즘적 증거를 제시했습니다[cite: 132, 134].
---
### 5. 고찰 및 시사점: 왜 이 연구가 중요한가?
[cite_start]이 연구는 단순히 더 많은 유전자 변이를 발견한 것을 넘어, **대규모 인구 집단 연구에서 LRS 기술의 실질적인 가치를 입증**했습니다[cite: 13, 138].
이 연구가 중요한 세 가지 이유는 다음과 같습니다.
1. **정밀 의학의 새로운 지평을 열다:**
* [cite_start]LRS를 통해 발견한 수많은 **새로운 SV-질병 연관성**은 기존 연구 방식의 **한계**를 명확히 보여줍니다[cite: 10, 22]. [cite_start]구조적 변이는 유전적 다양성과 질병 원인에 결정적인 영향을 미치므로 [cite: 139][cite_start], 이 데이터를 활용하면 질병의 위험을 더 정확하게 예측하고, 개인에게 맞춤화된 약물 반응을 이해하는 **정밀 의학**에 혁명적인 영향을 줄 수 있습니다[cite: 13, 161].
2. **소외되었던 집단을 위한 공평한 의학 연구:**
* [cite_start]이 연구는 유전체 연구에서 오랫동안 소외되었고 건강 결과가 취약한 **흑인/아프리카계 미국인 코호트**에 초점을 맞춤으로써 [cite: 39, 140][cite_start], **생물학적으로 중요하고 임상적으로 활용 가능성**이 높은 유전자 변이를 밝혀냈습니다[cite: 169]. [cite_start]이는 모든 인구 집단에 걸쳐 유전체 의학의 혜택이 **공평하게(Equitable)** 돌아가도록 하는 **비판적인 토대**를 마련했다는 점에서 큰 의의가 있습니다[cite: 167, 168].
3. **미래 바이오뱅크의 표준 제시:**
* [cite_start]이 성공적인 '1단계 연구'는 **LRS가 국가 바이오뱅크 구축 노력에 필수적으로 통합**되어야 함을 증명했습니다[cite: 167, 170]. [cite_start]'All of Us' 프로그램은 이 분석을 향후 10,000명 이상의 참가자로 확대할 계획이며 [cite: 171][cite_start], 이는 유전체 변이의 거의 완전한 다양성을 포착하여 미래 의학 연구의 잠재력을 극대화할 것입니다[cite: 172].
chatGPT
좋습니다. 업로드하신 논문 **「Population-scale Long-read Sequencing in the All of Us Research Program」(2025)** 의 내용을 일반 성인 독자가 이해하기 쉽게, 블로그용 요약문 형식으로 정리드리겠습니다.
(A4 두 장 분량 수준으로 구성하며, 연구 배경–목적–방법–결과–고찰–의의 및 시사점을 포함합니다.)
---
## **모든 유전자의 이야기를 더 깊이 읽다: ‘All of Us’ 장기 염기서열 연구**
### 🧬 연구 배경
미국 국립보건원(NIH)이 주도하는 **All of Us Research Program**은 100만 명 규모의 대규모 생명정보(바이오뱅크) 프로젝트입니다. 참여자들의 유전체, 건강검진 데이터, 설문, 전자의무기록(EHR)을 통합해 ‘정밀의료(precision medicine)’의 기반을 만드는 것이 목표입니다.
지금까지는 **짧은 염기서열(Short-read sequencing)** 기술이 주로 사용되어 왔지만, 이 기술은 유전체의 복잡한 부분—특히 반복 구간이나 구조적 변이(Structural Variation, SV)—를 충분히 읽지 못하는 한계가 있었습니다.
이러한 ‘읽히지 않는 구역들’을 정확히 해석하기 위해 연구진은 **장기 염기서열(Long-read sequencing, LRS)** 기술을 도입했습니다.
---
### 🎯 연구 목적
이번 연구는 **All of Us 프로그램의 첫 번째 대규모 장기 염기서열 분석 결과**를 공개한 것입니다.
특히 유전 연구에서 상대적으로 소외되어 온 **흑인 및 아프리카계 미국인 참가자 1,027명**을 대상으로,
1. LRS가 얼마나 새로운 유전 변이를 찾아낼 수 있는지,
2. 기존 단기 서열 기술이 놓쳤던 질병 관련 정보를 얼마나 보완할 수 있는지를 검증했습니다.
---
### 🔬 연구 방법
* **참여자 선정**: 미국 전역에서 모집된 1,027명의 흑인/아프리카계 미국인 참가자를 대상으로 함.
* **분석 기술**:
* PacBio의 **HiFi 장기 염기서열 기술(평균 17,500염기 길이)** 사용.
* 일부는 **Oxford Nanopore** 기술로 교차 검증.
* 기존 단기 서열 데이터(평균 150염기 길이)와 비교 분석.
* **변이 탐색**:
* 인공지능 기반 DeepVariant로 작은 변이(SNV, indel) 탐색.
* 여러 알고리즘을 조합해 **50bp 이상 구조적 변이(SV)** 탐지.
* 이후 품질평가와 필터링을 거쳐 **약 120만 개의 SV 데이터 세트** 구축.
* **통합 분석**:
* 기존 All of Us 및 Human Pangenome 데이터와 통합하여 **참조 패널(reference panel)** 생성.
* 이 데이터를 바탕으로 다른 단기서열 샘플에도 변이를 ‘추론(imputation)’하는 시스템 구축.
---
### 📊 주요 결과
#### 1. 더 많은 변이 발견
PacBio LRS는 기존 단기서열보다 **60~290% 더 많은 구조적 변이**를 발견했습니다.
이 중 절반 이상은 기존 데이터베이스(1,000 Genomes, HGSVC, HPRC 등)에서 **한 번도 보고되지 않았던 변이**였습니다.
#### 2. 인종적 다양성과 고유 변이
아프리카계 유전 배경을 가진 참가자에서 **가장 많은 유전적 다양성**이 확인되었습니다.
특히 **8,249개의 구조적 변이(SV)**가 아프리카계에서만 주로 발견되었으며,
이 중 일부는 **유방암(BARD1), 심혈관질환(APOB, MYH7)** 등과 관련된 유전자에 위치했습니다.
#### 3. 질병 관련 유전자 영역의 새 해석
* **FMR1** (자폐 및 인지장애 유발 ‘취약 X 증후군’ 관련),
**HTT** (헌팅턴병 관련) 등의 반복서열을 정밀 분석해, 기존 단기서열로는 확인이 어려웠던
**잠재적 위험 대립유전자(premutation alleles)**를 발견했습니다.
* **CYP2D6 유전자**(약물 대사와 관련된 대표 유전자)에서는
복잡한 복제, 결실, 하이브리드 구조까지 세밀하게 구분해
기존보다 훨씬 정확한 **개인별 약물 반응 예측**이 가능함을 보여주었습니다.
#### 4. 새롭게 발견된 질병 연관 변이
* 고혈당 환자에서 **SLC2A12** 유전자에 52bp 삽입 변이(혈당 조절과 관련된 GLUT12 단백질) 발견
* 천식 환자에서 **TOX** 유전자 삽입 변이 발견
* 청각 손실 환자에서 **PSIP1** 유전자 삽입으로 인한 단백질 절단 변이 확인
→ 이러한 변이들은 모두 단기서열에서는 탐지되지 않았던 사례로,
장기 염기서열이 질병 원인 규명에 새 가능성을 보여줍니다.
#### 5. 유전자 발현과의 연관(eQTL 분석)
* 총 **3,835개의 구조적 변이–유전자 발현 연관(SV-eQTL)** 확인.
* 이 중 2,500여 개는 의학적으로 중요한 유전자와 관련.
* 예: **BID 유전자 근처의 322bp 결실 변이** → 유전자 발현 감소 및 암·면역 조절 관련성 확인.
---
### 💡 고찰 및 의의
이번 연구는 **인종적 다양성과 유전체 복잡성을 함께 고려한 첫 대규모 LRS 연구**로,
유전 연구의 방향을 바꾸는 전환점이라 평가됩니다.
특히 흑인·아프리카계 참여자들의 데이터가 충분히 포함됨으로써,
그동안 백인 중심으로 구축되어 왔던 유전체 데이터베이스의 **불균형을 해소**하는 첫걸음이 되었습니다.
또한 LRS를 활용해 기존의 단기서열 분석으로는 보이지 않던 변이들을 찾아내고,
그 변이들이 실제 임상 데이터(EHR)와 어떻게 연결되는지 확인함으로써,
**‘유전체–질병–개인 맞춤 치료’의 선순환**을 가능하게 했습니다.
---
### 🌍 이 연구가 중요한 이유
1. **정밀의료의 현실화** – 개개인의 유전적 차이를 반영한 맞춤 치료 가능성 제시
2. **인종·집단 간 형평성 제고** – 유전 다양성이 풍부한 인구집단을 포함함으로써
건강 불평등 해소에 기여
3. **새로운 유전자 지형 지도 제공** – 향후 수많은 질병 연구의 기반 데이터로 활용 가능
요약하자면, 이번 연구는 단순히 “유전 정보를 더 많이 읽은 것”을 넘어,
**“그동안 읽히지 않았던 사람들의 유전체를 처음으로 제대로 읽은 시도”**입니다.
이는 앞으로 전 세계 인구를 위한 **더 공정하고 더 정확한 유전 의학의 출발점**이 될 것입니다.
grok3
### 미국 'All of Us' 프로그램에서의 대규모 장-리드 시퀀싱 연구 요약
#### 연구 배경
미국 국립보건원(NIH)이 주도하는 'All of Us' (AoU) 프로그램은 100만 명의 미국인을 대상으로 유전체 데이터와 전자건강기록(EHR)을 연결해 건강 연구를 추진 중입니다. 기존 연구는 짧은 읽기(short-read sequencing, srWGS)를 주로 사용했지만, 이는 반복 서열이나 복잡한 구조 변이(structural variation, SV)를 제대로 탐지하지 못하는 한계가 있습니다. 이러한 '사각지대'는 특히 아프리카 계통 유전체에서 더 두드러지며, 질병 연구에서 소외된 그룹(예: 자칭 Black or African American)의 유전 다양성을 놓치게 합니다. 장-리드 시퀀싱(LRS)은 긴 DNA 서열을 읽어 이러한 문제를 해결할 수 있지만, 대규모 EHR 연계 연구는 아직 부족합니다.
#### 연구 목적
이 연구는 AoU 프로그램에서 처음으로 LRS를 대규모로 적용해, 자칭 Black or African American 참가자 1,027명의 유전 변이를 분석하고 EHR과 연계하는 것입니다. 특히 SV를 중심으로 새로운 변이 카탈로그를 만들고, 이를 srWGS 데이터에 적용해 질병 연관성을 밝히며, 정밀의학(precision medicine) 기반을 마련하는 데 초점을 맞췄습니다. 이는 아프리카 계통 유전체의 고위험 변이를 강조하며, 미래 바이오뱅크 연구의 틀을 제시합니다.
#### 연구 방법
AoU 버전 7 데이터에서 20세 이상 Black or African American 참가자 1,027명을 선정했습니다. Pacific Biosciences(PacBio) HiFi LRS로 평균 8x 커버리지로 시퀀싱했습니다(50명은 Oxford Nanopore Technologies(ONT)로 추가 검증). 변이 발견은 DeepVariant(단일 염기/인델 변이), PAV·Sniffles2·PBSV(SV) 등의 도구를 사용해 합쳤습니다. SV는 lenient(민감도 우선, 1,213,876개)과 strict(특이도 우선, 665,869개) 두 callset으로 분류했습니다. 이후 10,000명 srWGS 데이터에 SV를 imputation(추정)해 750,000개 이상 변이를 추가하고, 226개 EHR 기반 질병과 연관 분석(p<1×10⁻⁵)을 수행했습니다. 아프리카 참조 유전체와 유사한 ancestry 그룹을 세분화해 효과 크기(effect size)를 비교했습니다.
#### 연구 결과
LRS는 srWGS와 비슷한 단일 염기 변이(SNV)를 발견했으나, 인델은 적었고 SV는 60~290% 더 많았습니다(예: Alu·LINE-1·SVA 이동 요소 삽입). 291개 SV-질병 연관(226개 증상, 심혈관·근골격계 등)이 밝혀졌고, 이 중 50.9%는 srWGS에 없었습니다. 세밀 매핑(fine-mapping) 후 191개 SV-질병 쌍(160개 증상)에서 SV가 가장 강한 연관성을 보였습니다. 아프리카 ancestry 그룹은 더 큰 효과 크기와 낮은 빈도를 나타냈습니다(예: 고위험 ancestry-specific 변이). 데이터는 AoU 연구자 워크벤치에서 공개됐습니다.
#### 고찰
LRS는 srWGS의 한계를 보완해 반복 확장(FMR1·HTT), 약물 유전체(CYP2D6), HLA 유형 등 복잡한 변이를 정확히 탐지합니다. Black or African American 그룹의 높은 유전 다양성은 SV 발견력을 높였으나, ancestry admixture(혼혈)로 인해 해석이 복잡합니다. 중간 커버리지(8x) 접근은 비용 효과적이었으나, 반복 영역 불일치율(6.4%)이 남았습니다. 아프리카 ancestry 특화 변이는 인종별 건강 불평등을 설명할 수 있지만, 추가 검증이 필요합니다.
#### 의의와 시사점
이 연구는 LRS를 바이오뱅크에 통합해 정밀의학을 가속화합니다. ancestry-specific SV를 통해 Black or African American 그룹의 고위험 변이를 밝혀, 맞춤 치료(예: 약물 반응 예측)를 촉진합니다. 2단계(더 다양한 인종 확장)로 이어지며, 미래 연구에서 EHR-LRS 결합이 표준이 될 수 있습니다. 비용 절감(mid-pass sequencing)으로 대규모 적용 가능성을 보여줍니다.
이 연구가 중요한 이유는 기존 srWGS가 놓친 유전 변이를 드러내 소외된 인종의 건강 연구를 균형 있게 만들기 때문입니다. 이는 결국 모든 사람에게 공정한 정밀의학 시대를 열 수 있습니다.
NotebookLM
전문적인 배경 지식이 없는 일반 성인 독자들을 대상으로 업로드하신 논문의 내용을 이해하기 쉽도록 연구 배경, 목적, 방법, 결과, 고찰, 의의와 시사점을 포함하여 A4 용지 두 장 이내의 블로그 게시물 형식으로 요약해 드립니다.
***
## 정밀 의학의 새로운 지평: 'All of Us' 연구 프로그램의 장문 염기서열 분석 (LRS) 혁신
### 연구 배경: 유전체 연구의 숨겨진 영역을 찾아서
인간의 유전체 정보를 해독하는 기술은 빠르게 발전해 왔지만, 여전히 유전체 지도에는 **구조적 변이(Structural Variation, SV)**와 같이 해독하기 어려운 ‘암점(blind spots)’이 존재합니다. 특히, 게놈의 반복적인 영역이나 복잡한 배열은 기존의 **단문 염기서열 분석(Short-Read Whole-Genome Sequencing, srWGS)** 기술로는 정확히 파악하기 어려웠습니다. 이러한 SV들은 질병과 밀접하게 관련되어 있으며, 유전적 다양성이 높은 집단에서는 그 영향이 과소평가되거나 기존 변이 목록에 제대로 반영되지 못하는 경우가 많았습니다.
미국 국립보건원(NIH)이 후원하는 **All of Us Research Program (AoU)**은 100만 명의 참가자를 모집하여 유전체 데이터(srWGS 및 LRS)와 광범위한 전자 건강 기록(EHR)을 연결하는 대규모 바이오뱅크입니다. AoU는 특히 건강 결과가 제대로 연구되지 않은 집단에 중점을 두고 참가자를 모집하고 있습니다. 이 연구는 최신 기술인 **장문 염기서열 분석(Long-Read Sequencing, LRS)**을 대규모 인구 집단에 적용함으로써, srWGS가 놓쳤던 유전적 다양성을 포착하고 정밀 의학을 발전시키려는 노력의 일환으로 시작되었습니다. LRS 기술은 15,000 염기쌍 이상의 긴 서열을 해독할 수 있어, 복잡한 SV를 높은 정확도로 파악하고 유전적 변이를 거의 완전하게 확인할 수 있는 강력한 해결책을 제시합니다.
### 연구 목적: LRS를 통한 유전체 정보의 혁신적 발견
이 연구의 주요 목적은 AoU 프로그램 내에서 LRS를 대규모로 분석한 최초의 사례를 제시하고, 인간의 건강 및 질병과 관련된 복잡한 SV에 대한 통찰력을 얻기 위한 새로운 분석 프레임워크를 제공하는 것입니다. 구체적으로는, PacBio HiFi 기술을 사용하여 유전적으로 다양한 집단(스스로를 흑인 또는 아프리카계 미국인으로 밝힌 참가자)의 유전체 변이를 종합적으로 특성화하고자 했습니다.
### 연구 방법: 중저 심층 분석(Mid-Pass)과 대규모 데이터 통합
1. **참가자 선정 및 시퀀싱:** 연구진은 AoU 참여자 중 **스스로를 흑인 또는 아프리카계 미국인으로 밝힌 1,027명**을 선정했습니다. 이 집단은 유전적 다양성이 가장 높으며 기존 유전체 연구에서 불균형적으로 적게 대표되어 왔기 때문에, 변이 발견 능력을 높이기 위해 중점적으로 분석되었습니다. 시퀀싱에는 PacBio HiFi 기술을 사용했으며, 비용 효율성을 고려하여 **평균 $\sim 8\text{x}$의 중저 심층(mid-pass) 범위**를 목표로 했습니다. LRS 데이터의 평균 길이는 srWGS보다 115~131배 더 길었습니다 (평균 $17.5\text{kbp}$).
2. **구조적 변이(SV) 발견 및 통합:** 클라우드 기반 파이프라인과 앙상블 알고리즘을 사용하여 $\ge 50\text{bp}$ 크기의 SV를 검출했습니다. 특히, 거짓 양성(false positives)을 걸러내고 일관된 SV 목록을 구축하기 위해 맞춤형 조화(harmonization) 파이프라인을 개발했습니다.
3. **참조 패널 구축 및 유전형 결정/추론:** LRS 데이터에서 발견된 SV들을 srWGS 데이터셋에 추론(imputation)하기 위한 확장 가능한 워크플로우를 개발했습니다. 이 워크플로우는 AoU LRS 데이터와 HPRC(Human Pangenome Reference Consortium) 데이터를 통합하여 SNV, 작은 삽입/결실, SV를 포함하는 **위상 결정된(haplotype-resolved) 참조 패널**을 구축했습니다 .
4. **표현형-유전체 연관 분석 (PheWAS):** 이 LRS 기반 참조 패널을 사용하여, **10,000명의 흑인 또는 아프리카계 미국인 AoU 참가자**의 srWGS 데이터에 SV를 유전형 결정하고 추론했습니다. 이 결과를 해당 참가자들의 EHR 데이터와 결합하여 226개 조건에 대한 SV-질병 연관성을 탐색했습니다.
### 연구 결과: LRS의 우월성과 질병 연관성 발견
1. **구조적 변이의 극적인 증가:** LRS를 통해 발견된 SV의 수는 동일한 참가자들의 srWGS 결과와 비교했을 때, 엄격한 기준으로도 **60%에서 290%까지** 크게 증가했습니다. 연구진은 민감도를 최대화한 포괄적인 SV 목록(120만 개)과 높은 특이도를 갖는 SV 목록(666,000개)을 공개했습니다.
2. **임상적으로 중요한 유전자좌의 해상도 향상:**
* **반복 서열 질환:** LRS는 취약 X 증후군($FMR1$) 및 헌팅턴병($HTT$)과 같은 질병 관련 삼중 반복 서열(triplet repeat loci)을 고해상도로 특성화하여, 질병 발생 위험이 있는 **전돌연변이 크기의 대립유전자(premutation-sized alleles)**와 새로운 병원성 후보를 발견했습니다.
* **약물 유전체학 ($CYP2D6$):** 약물 대사에 중요한 역할을 하지만 srWGS로는 분석이 어려웠던 복잡한 $CYP2D6$ 유전자좌의 구조적 변이(복제, 결실, 하이브리드 구조)를 높은 정확도로 규명했습니다.
3. **질병 연관성 발견의 혁신:**
* 총 226가지 질병 조건에 걸쳐 **291개의 SV-질병 연관성($p < 1\times 10^{-5}$)을 확인**했습니다.
* 가장 중요한 발견 중 하나는, 이 연관성 중 **50.9%**가 기존의 매칭된 srWGS 데이터셋에서는 **발견되지 않은 SV**와 관련되어 있다는 점입니다.
* 세부 매핑(fine-mapping) 결과, 분석된 226개 형질 중 160개 형질(70.8%)에 해당하는 191개 SV-질병 쌍에서 **SV가 해당 유전자좌 내에서 가장 강력한 연관성**을 보였습니다. 이는 SV가 질병 위험에 있어 SNV보다 더 중요한 인과적 변이일 수 있음을 시사합니다 .
* 아프리카 혈통과 유사한 조상을 가진 참가자들에게 특이적으로 나타나는 연관성은 더 큰 효과 크기(larger effect sizes, 중앙값 $5.85$)와 낮은 대립유전자 빈도(lower allele frequencies)를 보였는데, 이는 해당 집단에 풍부한 고위험 변이가 존재함을 나타냅니다.
* 실제 EHR 데이터와의 통합을 통해, 당뇨병 및 고혈당증과 관련된 $SLC2A12$의 삽입, 만성 신장 질환과 관련된 $TARS2$의 결실 등 , **임상적 진단과 일치하는 고위험 SV** 사례들이 발견되었습니다 .
### 고찰 및 의의: 정밀 의학의 미래를 위한 교두보
이 연구는 LRS 기술을 국가적 바이오뱅크 노력에 통합할 때 얻을 수 있는 **심오한 이점**을 입증합니다 . AoU의 LRS 데이터는 대규모 자칭 흑인 또는 아프리카계 미국인 코호트에서 유전적 변이를 가장 포괄적으로 보여주며 , 이 집단의 유전적 다양성 수준이 높음을 재확인했습니다 .
특히, **LRS가 고전적인 방법으로는 접근할 수 없었던 유전체 변이(SV 및 반복 서열)를 해독하고 EHR과 연결하는 능력**은 정밀 의학에 혁명적인 통찰력을 제공할 수 있습니다. 개발된 LRS-기반 참조 패널 및 추론 프레임워크는 현재 LRS와 srWGS 간의 비용 및 처리량 격차를 해소하여 , LRS의 발견 사항을 기존의 대규모 srWGS 데이터셋에 소급 적용할 수 있게 합니다 .
LRS를 통해서만 발견된 SV들 중 상당수(50.9%)가 질병 연관성을 보였고 , 유전자 발현 조절(eQTL) 분석에서도 SV가 SNV보다 더 강력한 인과적 변이로 확인되었습니다 . 이는 SV가 유전자 기능 조절 및 질병 위험에 있어 **과소평가되었던 중요한 역할**을 하고 있음을 강력하게 시사합니다 .
### 이 연구가 중요한 이유
**이 연구는 정밀 의학의 공평성을 높이는 데 결정적인 역할을 합니다** .
유전체학 연구에서 소외되었던 집단(자칭 흑인 또는 아프리카계 미국인)을 대규모로 분석하고, 그들에게 특이적이거나 풍부하게 존재하는 고위험 변이들을 정확히 식별함으로써, 해당 집단이 겪는 건강 불평등을 해소할 수 있는 기반을 마련했습니다 . LRS는 단순히 새로운 변이를 찾는 것을 넘어, 복잡한 유전체 영역을 해독하여 **모든 인구 집단에게 맞춤화된 고품질 의료 서비스**를 제공하는 데 필수적인 포괄적인 변이 목록을 구축하는 데 중요합니다 .
AoU 프로그램은 앞으로 10,000명 이상의 참가자로 LRS 분석을 확대할 예정이며 , 이 연구는 유전체 의학의 잠재력을 극대화하는 데 필요한 방법론적, 분석적 토대를 제공합니다 .
![]() |
| 출처: @ye._.vely618 |







