Lee Gir-Won (Lee Gil-Won): Single-cell Multi-omics

레이블이 Single-cell Multi-omics인 게시물을 표시합니다. 모든 게시물 표시

월요일, 3월 16, 2026

복잡한 세포 데이터 분석, 이제 '블랙박스' 없이 투명하게 들여다보기

오늘은 single-cell multi-omics 데이터를 분석 할 때 사용하면 좋은 모델이 있어 한번 가져와봤습니다. Single-cell Multi-Omics, 단일 세포 멀티 오믹스 요즘 세포 하나하나의 정보를 확인 하는데 좋아 많이들 사용하시는 기술입니다. 다만 데이터 종류가 다양하다보니 통합해서 분석하는게 어려워서 모델들의 손을 빌리는 경우가 많이 있어서 분석에 도움도 되지만 왜 이런 결과가 나왔는지 설명도 잘하는 모델을 개발했다고 합니다. Learning interpretable representations of single-cell multi-omics data with multi-output Gaussian processes라는 제목으로 특정 세포가 왜 이런 특성을 보이는지 사람이 이해할 수 있도록 설명해주는 모델을 개발했다고 합니다. :)

우선 제가 Single-cell Multi-Omics를 아직 다뤄보지 않아서 무슨 말인지는 잘 모르겠으나 답안만 주는 것이 아니라 왜 답이 이렇게 나왔는지 설명을 해주는 것이 이 모델의 장점이라고 합니다.

DOI: 10.1093/nar/gkaf630

gemini

제시해주신 논문 **"Multi-Output Gaussian Processes를 이용한 단일 세포 멀티오믹스 데이터의 해석 가능한 표현 학습(Learning interpretable representations of single-cell multi-omics data with multi-output Gaussian processes)"**의 내용을 바탕으로, 블로그에 올리기 좋은 요약글을 작성해 드립니다.
---
### [Bio-IT 산책] 복잡한 세포 데이터를 한눈에? 'MOMO-GP'가 열어가는 정밀 의료의 미래
안녕하세요! 오늘은 생명과학과 인공지능 기술이 만난 흥미로운 연구 하나를 소개해 드리려고 합니다. 바로 2025년 *Nucleic Acids Research*에 발표된 **MOMO-GP**라는 기술에 대한 이야기입니다.
#### 1. 연구 배경: 우리 몸속 세포는 왜 이렇게 복잡할까?
최근 과학기술의 발달로 우리 몸속 '단일 세포' 수준에서 유전 정보(RNA), 단백질, 염색질 구조 등 다양한 데이터를 측정할 수 있게 되었습니다. 이를 '멀티오믹스(Multi-omics)'라고 부르는데, 문제는 이 데이터가 너무나 방대하고 복잡하다는 점입니다.
지금까지는 이 데이터를 분석하기 위해 크게 두 가지 방법을 썼습니다. 하나는 이해하기 쉽지만 정밀도가 떨어지는 방법(선형 모델), 다른 하나는 정밀하지만 왜 그런 결과가 나왔는지 알 수 없는 '깜깜이' 방법(딥러닝 기반의 블랙박스 모델)이었습니다.
#### 2. 연구 목적: "똑똑하면서도 설명 가능한 AI를 만들자"
이 연구의 목적은 명확합니다. **세포 데이터의 복잡한 특징을 정확하게 잡아내면서도(표현력), 동시에 왜 그렇게 분류되었는지 사람이 직접 이해할 수 있는(해석 가능성) 새로운 분석 모델을 만드는 것**입니다.
#### 3. 연구 방법: MOMO-GP라는 새로운 해결사
연구팀은 **MOMO-GP(Multi-Omics Multi-Output Gaussian Processes)**라는 모델을 개발했습니다. 이 모델의 핵심은 '가우시안 프로세스(Gaussian Process)'라는 통계 기법을 활용해 **세포(Samples)와 유전자(Features)를 각각 독립적인 가상 공간에 배치**하는 것입니다.
*
**따로 또 같이:** 세포와 유전자를 별도의 공간에서 학습시키면서도, 이 둘 사이의 상관관계를 수학적으로 연결했습니다.
*
**효율성 극대화:** 엄청난 양의 데이터를 처리하기 위해 '유도 지점(Inducing points)'이라는 기법을 써서 계산 속도를 획기적으로 높였습니다.
#### 4. 연구 결과: 성능은 기본, 해석은 덤!
연구팀이 혈액 세포(PBMC) 데이터 등을 이용해 성능을 확인한 결과는 놀라웠습니다.
*
**뛰어난 분류 능력:** 기존의 복잡한 AI 모델(scVI 등)만큼이나 정확하게 세포의 종류를 구분해 냈습니다.
*
**유전자 지도의 탄생:** 단순히 세포를 분류하는 데 그치지 않고, 특정 세포 그룹과 밀접하게 연관된 '마커 유전자'들을 시각적으로 한눈에 보여주었습니다. 기존 모델인 SIMBA보다 유전자의 특성을 훨씬 더 잘 잡아낸다는 사실도 입증했습니다.
*
**데이터의 연결:** 유전 정보와 단백질 정보 등 서로 다른 종류의 데이터를 통합해서 분석할 때도, 각 데이터가 공유하는 정보가 무엇인지 정확히 짚어냈습니다.
#### 5. 고찰 및 시사점: 데이터 뒤의 '이유'를 찾다
이 연구가 기존 연구와 차별화되는 지점은 **"클러스터링(Grouping) 없이도 정보를 읽어낼 수 있다"**는 것입니다. 보통은 세포들을 먼저 그룹으로 묶은 뒤에 그 특징을 사후 분석하지만, MOMO-GP는 학습 과정 자체에서 세포와 유전자의 관계를 직접 인코딩합니다. 덕분에 세포 그룹 내에 존재하는 미세한 변화나 유전자 간의 복잡한 상호작용을 놓치지 않고 포착할 수 있게 되었습니다.
---
### 💡 이 연구가 왜 중요할까요? (Key Point)
이 연구의 가장 큰 의의는 **바이오 데이터 분석의 '투명성'을 확보**했다는 데 있습니다.
병원을 예로 들어볼까요? 암 환자의 세포 데이터를 분석할 때 AI가 단순히 "이 세포는 암세포입니다"라고 말하는 것과, "A 유전자와 B 단백질의 상호작용 때문에 암세포로 판단됩니다"라고 근거를 제시하는 것은 천지차이입니다.
**MOMO-GP**는 연구자나 의료진이 데이터의 '블랙박스'를 열어보고 질병의 원인을 직접 파악할 수 있게 돕는 도구입니다. 이는 곧 환자 개개인에게 딱 맞는 **정밀 의료(Precision Medicine)와 신약 개발의 속도를 앞당기는 중요한 밑거름**이 될 것입니다.

chatGPT

아래 내용은 업로드하신 논문 **“Learning interpretable representations of single-cell multi-omics data with multi-output Gaussian processes” (Nucleic Acids Research, 2025)**의 **구체적인 연구 내용에 근거해**, 전문 지식이 없는 **일반 성인 독자도 이해할 수 있도록** 정리한 블로그용 요약입니다.
(요청하신 대로 **연구 배경–목적–방법–결과–고찰–의의와 시사점**, 그리고 **왜 중요한 연구인지**까지 포함했습니다.)
---
## 한눈에 보는 연구 요약
이 연구는 **단일세포 멀티오믹스 데이터**(유전자 발현, 염색질 접근성, 단백질 등)를 분석할 때 늘 문제가 되었던 **“잘 맞지만 설명하기 어려운 모델”과 “설명은 되지만 표현력이 부족한 모델” 사이의 딜레마**를 해결하기 위해,
**확률 모델(Gaussian process)**을 기반으로 **해석 가능하면서도 표현력이 높은 새로운 분석 방법(MOMO-GP)**을 제안합니다.
이 방법은 **세포뿐 아니라 유전자·피크·단백질 같은 특징(feature)까지 함께 임베딩**하여,
“**어떤 세포 집단이 왜 그런 유전자(또는 피크, 단백질) 패턴을 보이는지**”를 **클러스터링 없이 직접적으로 연결**할 수 있게 합니다.
---
## 1. 연구 배경
최근 단일세포 기술의 발전으로, 한 개의 세포에서
* 유전자 발현(scRNA-seq),
* 염색질 접근성(scATAC-seq),
* 단백질 발현(CITE-seq)
등 **여러 종류의 생물학적 정보를 동시에 측정**할 수 있게 되었습니다.
문제는 이렇게 복잡한 데이터를 **한 번에 통합해 분석하면서도**,
* 결과를 **사람이 이해할 수 있게 설명**하고
* **세포–유전자–조절요소 간 관계**를 명확히 해석하는 것이 매우 어렵다는 점입니다.
기존 방법들은 대체로
* PCA 같은 선형 방법 → **해석은 쉬우나 표현력이 부족**
* 딥러닝(VAE, SCVI 등) → **표현력은 뛰어나지만 ‘블랙박스’**
라는 한계를 가졌습니다.
또한 대부분의 방법은 **세포 임베딩만 제공**하고, 유전자나 피크는 **사후 분석**에 의존했습니다.
---
## 2. 연구 목적
이 연구의 목적은 다음 질문에 답하는 것입니다.
> “**적은 수의 잠재 차원(latent dimension)**만으로도
> 단일세포 멀티오믹스 데이터의 **비선형 구조를 잘 표현하면서**,
> **세포와 유전자(또는 피크, 단백질)의 관계를 직접적으로 해석할 수 있는 모델**을 만들 수 있을까?”
이를 위해 저자들은
* **표현력**과 **해석 가능성**을 동시에 만족하는
* **확률적(single-cell 친화적) 통합 모델**을 제안합니다.
---
## 3. 연구 방법 (MOMO-GP의 핵심 아이디어)
### 3-1. 세포와 특징을 “따로” 하지만 “연결되게” 학습
MOMO-GP는 기존 방법과 달리
* **세포 임베딩**과
* **유전자·피크·단백질 임베딩**을
**서로 다른 잠재 공간에서 동시에 학습**합니다.
이 두 공간은
* **다중 출력 가우시안 프로세스(multi-output GP)**로 연결되어
* “어떤 세포들이 서로 비슷한가”와
* “어떤 유전자(또는 피크)들이 함께 작동하는가”를
**확률적으로 동시에 모델링**합니다.
---
### 3-2. Gaussian Process를 이용한 해석 가능성
Gaussian Process(GP)는
* 데이터 간 **유사성(커널)**을 명시적으로 모델링하기 때문에
* 각 잠재 차원이 **어떤 생물학적 변이를 설명하는지** 해석할 수 있습니다.
연구진은 여기에
* **feature 간 공분산(유전자–유전자 관계)**을 직접 모델에 포함시켜
* 기존 GP-LVM보다 훨씬 풍부한 구조를 학습하도록 확장했습니다.
---
### 3-3. 멀티오믹스 통합과 MRD
RNA-seq, ATAC-seq, CITE-seq처럼 **서로 다른 오믹스**를 통합할 때는
* **세포 임베딩은 공유**하되
* 어떤 잠재 차원이 **RNA와 ATAC에 공통인지**,
* 혹은 **특정 오믹스에만 특이적인지**를
자동으로 구분하도록 **MRD(Manifold Relevance Determination)**를 적용했습니다.
이를 통해
* “이 차원은 유전자 발현과 염색질 접근성 모두에서 중요한 정보”
* “이 차원은 RNA에서만 의미 있음”
같은 해석이 가능해집니다.
---
### 3-4. Gene relevance map
MOMO-GP의 가장 큰 장점 중 하나는
**gene relevance map**을 이용해
* 특정 **세포 영역에서 중요한 유전자 그룹(메타유전자)**을 찾고
* 이를 **클러스터링 없이** 세포 집단과 직접 연결할 수 있다는 점입니다.
---
## 4. 연구 결과
### 4-1. 세포 임베딩 성능
PBMC 10k, Slide-tag, CITE-seq 데이터에서
* MOMO-GP는 **2–4차원이라는 매우 낮은 차원**에서도
* PCA, BGPLVM, SCVI, SIMBA 등과 **비슷하거나 더 좋은 세포 분리 성능**을 보였습니다.
즉,
> “차원을 크게 늘리지 않아도
> 세포 유형 구조를 충분히 잘 표현할 수 있다”
> 는 것을 보여주었습니다.
---
### 4-2. 유전자 임베딩의 차별성
기존 방법과 달리 MOMO-GP는
* **유전자 자체를 임베딩**하여
* 같은 세포 유형의 마커 유전자들이 **자연스럽게 군집**되는 것을 확인했습니다.
특히
* 특정 세포 유형과 무관한 유전자들은
* 임베딩 공간의 **중앙(회색 영역)**에 모였고
* 이는 실제로 **다기능 조절 유전자나 lncRNA**가 많았습니다.
---
### 4-3. 세포–유전자 연결의 자동 발견
gene relevance map을 이용하면
* 예를 들어 pDC 세포가 많은 영역에서
* pDC 관련 메타유전자가 **강하게 활성화**됨을 자동으로 확인할 수 있습니다.
또한
* Pro-B cell, CD34⁺ progenitor 같은
**희귀하거나 중간 단계 세포 유형**과
* 관련 유전자 그룹을 **사전 정보 없이** 연결해낼 수 있었습니다.
---
### 4-4. 멀티오믹스 확장 결과
RNA + ATAC, RNA + 단백질(CITE-seq) 데이터에서도
* 세포 임베딩 성능은 유지되면서
* **유전자–피크–단백질 간 관계**를 한 모델 안에서 해석 가능하게 만들었습니다.
특히 CITE-seq에서는
* 특정 단백질(CD16, CD14, CD19 등)이
* 어떤 세포 집단에서 중요한지를
명확히 시각화할 수 있었습니다.
---
## 5. 고찰
이 연구의 핵심은
> “분석 성능을 높이기 위해 해석을 포기할 필요가 없다”
> 는 점을 **확률 모델 기반으로 증명**했다는 데 있습니다.
딥러닝 기반 모델은
* 예측이나 분류에는 강하지만
* “왜 그런 결과가 나왔는지” 설명하기 어렵습니다.
MOMO-GP는
* 비선형 구조를 학습하면서도
* 각 잠재 차원, 유전자 그룹, 세포 영역의 의미를
**직접적으로 해석 가능**하게 합니다.
---
## 6. 의의와 시사점
### 🔹 연구적 의의
* **클러스터링에 의존하지 않는 해석 가능 분석**
* **세포–유전자–조절요소 관계를 한 모델에서 통합적으로 설명**
* **희귀 세포 유형 및 신규 생물학적 가설 발견 가능성**
### 🔹 실용적 시사점
* 단일세포 데이터 해석에 부담을 느끼는
**비전문가·임상의·생물학자**에게 특히 유용
* 바이오마커 발굴, 세포 상태 추적, 질병 미세환경 분석에 적용 가능
* 향후 **바이오뱅크 기반 멀티오믹스 데이터 해석**에도 잘 맞는 접근
---
## 7. 이 연구는 왜 중요한가?
이 연구는 단순히 “새로운 알고리즘”을 제안한 것이 아니라,
> **단일세포 멀티오믹스 분석에서
> ‘잘 맞는 모델’과 ‘설명할 수 있는 모델’을
> 더 이상 양자택일하지 않아도 된다**
는 방향을 제시했습니다.
특히
* 세포와 유전자 사이의 관계를 **사후 분석이 아닌 모델 내부에서 직접 학습**하고
* 적은 차원으로도 **생물학적으로 의미 있는 구조를 설명**할 수 있다는 점에서
향후 단일세포 데이터 해석의 **기준점(reference)**이 될 수 있는 연구입니다.

grok

### 단일 세포 멀티오믹스 데이터의 해석 가능한 표현 학습: MOMO-GP 모델
#### 연구 배경
단일 세포 유전체 데이터는 세포 하나하나의 유전자 발현, 염색질 접근성, 단백질 수준 등을 측정하는 첨단 기술로, 생물학적 프로세스를 자세히 이해할 수 있게 해줍니다. 하지만 이 데이터는 비선형적이고 여러 모드로 복잡해, 분석이 어렵습니다. 기존 방법들은 해석이 쉬운 선형 모델(예: PCA)이나 표현력이 강한 신경망 기반 모델(예: SCVI)을 사용하지만, 둘 사이의 균형이 부족합니다. 예를 들어, 세포 클러스터링 후 차별 발현 분석을 하다 보니 클러스터 내 변이를 놓치기 쉽죠. 이 논문은 이러한 트레이드오프를 해결하려 합니다.
#### 연구 목적
연구자들은 세포(샘플)와 유전자(특징)의 별도 잠재 공간을 학습해 데이터의 구조를 잘 포착하면서도 해석이 가능한 모델을 개발했습니다. MOMO-GP(Multi-Omics Multi-Output Gaussian Processes)라는 이 모델은 다중 출력 가우시안 프로세스를 사용해 세포-유전자 관계를 직접 모델링하고, 멀티오믹스 데이터(예: RNA-seq + ATAC-seq)를 통합합니다. 목표는 클러스터링 없이 마커 유전자를 검출하고, 세포와 특징 간 상호작용을 분석하는 것입니다.
#### 연구 방법
MOMO-GP는 GP-LVM(Gaussian Process Latent Variable Model)을 확장한 모델입니다. 세포와 특징의 의존성을 커널로 모델링하고, 크로네커 곱으로 연결합니다. 희소 GP를 써 계산 효율성을 높였고, 임베딩 레이어를 추가해 비선형 구조를 포착합니다. 멀티뷰 버전은 MRD(Manifold Relevance Determination)로 공유/개별 차원을 학습합니다. 데이터는 PBMC 10k(RNA + ATAC, 9393 세포), Slide-tag(멜라노마 T 세포, 2535 세포), PBMC 5k CITE-seq(RNA + 단백질, 3891 세포)를 사용했습니다. 비교 대상은 PCA, UMAP, BGPLVM, SCVI, SIMBA입니다. 평가는 ACC(정확도)와 ARI(조정 랜드 지수)로 했습니다.
#### 연구 결과
세포 임베딩에서 MOMO-GP는 SCVI나 SIMBA와 비슷하거나 우수한 분리를 보였습니다. 예: PBMC 10k에서 2D 임베딩으로 13개 세포 타입(예: CD4+ naïve T, NK 세포)을 명확히 구분(ACC 82-92%, ARI 70-86%). 특징 임베딩(유전자/피크/단백질)에서는 SIMBA보다 우수: 2D 공간에서도 마커 유전자가 클러스터 형성. 유전자 관련성 맵으로 세포 그룹과 유전자 그룹(메타유전자)을 직접 연결, 예: 메타유전자 1은 CD8+ naïve T 세포와 강한 연관(89.57% 커버리지). 멀티오믹스 통합 시 피크/단백질 임베딩도 잘 분리됐고, 희귀 세포(Pro-B 세포)와 유전자 관계를 식별했습니다.
#### 고찰
MOMO-GP는 클러스터링 없이 세포-특징 관계를 직접 모델링해 기존 방법의 한계를 극복합니다. 시간 복잡도는 데이터 크기에 선형 증가(최대 700만 엔티티 처리 가능). 단점으로는 베이지안 버전 미구현, 시계열/공간 데이터 미지원. SIMBA와 비교해 특징 임베딩이 더 의미 있고 해석적입니다.
#### 의의와 시사점
이 모델은 표현력과 해석성을 균형 있게 제공해 단일 세포 데이터 분석을 혁신합니다. 유전자-피크-단백질 간 상호작용을 밝혀 희귀 세포 타입 식별에 유용하며, 암 연구나 면역 분석에 적용 가능. 기존 도구(GPFlow2, GPFlux)로 구현돼 재현 쉽습니다. 앞으로 신경망 추가로 더 복잡한 데이터 처리 가능.
이 연구는 왜 중요한가? 단일 세포 수준에서 생물학적 메커니즘을 명확히 이해하게 해 질병 치료나 약물 개발에 기여할 수 있습니다. 복잡한 데이터를 '블랙박스' 없이 해석 가능하게 해 과학자들의 통찰을 확대합니다.

NotebookLM

## 복잡한 세포 데이터를 읽어내는 가장 명확한 지도: 인공지능 'MOMO-GP'의 등장
우리 몸의 세포는 저마다 다른 유전 정보를 가지고 있으며, 이를 정밀하게 분석하는 '단일 세포 옴익스' 기술은 현대 의학의 핵심입니다. 하지만 세포 하나에서 나오는 데이터는 유전자 발현(RNA), 단백질, 염색질 구조 등 그 종류가 너무 다양하고 복잡합니다. 이 파편화된 정보를 하나로 합쳐 분석하는 것은 마치 수백만 조각의 퍼즐을 맞추는 것과 같습니다. 최근 이 복잡한 퍼즐을 **가장 정확하고 '이해하기 쉽게' 풀어주는 인공지능 모델, 'MOMO-GP'**가 발표되었습니다.
### 1. 연구 배경: "똑똑하지만 속을 알 수 없는 인공지능"의 한계
현재 세포 데이터를 분석하는 인공지능 기술은 크게 두 가지 길을 걷고 있습니다. 하나는 복잡한 데이터를 아주 잘 처리하지만 왜 그런 결과가 나왔는지 설명하지 못하는 '블랙박스(신경망)' 방식이고, 다른 하나는 설명은 잘하지만 복잡한 생명 현상을 담아내기에는 성능이 부족한 '선형 모델' 방식입니다. 과학자들은 **성능도 뛰어나면서 분석 결과의 생물학적 근거를 명확히 제시할 수 있는 새로운 도구**를 필요로 해왔습니다.
### 2. 연구 목적: 해석 가능하고 강력한 '세포 통합 지도' 제작
이번 연구의 목적은 **'해석 가능성(Interpretability)'과 '표현력(Expressive power)' 사이의 균형**을 맞추는 것입니다. 즉, 수만 개의 세포와 유전자가 얽힌 멀티옴익스 데이터를 통합하면서도, 특정 세포 집단이 왜 그런 특성을 보이는지(예: 어떤 유전자가 원인인지)를 직관적으로 연결해주는 인공지능 프레임워크인 **MOMO-GP**를 개발하는 것이었습니다.
### 3. 연구 방법: 세포와 유전자를 위한 각각의 '전용 공간'
MOMO-GP는 '다출력 가우시안 프로세스(Multi-output Gaussian Processes)'라는 고도의 통계 기법을 사용합니다.
* **분리된 학습:** 기존 모델들이 세포 정보에만 집중했던 것과 달리, MOMO-GP는 **세포(Sample)와 유전자(Feature)를 위한 별도의 공간(Embedding)을 동시에 학습**합니다.
* **관계의 수식화:** '크로네커 곱(Kronecker product)'이라는 수학적 기법을 도입해 세포와 유전자 사이의 복잡한 상관관계를 정밀하게 모델링했습니다.
* **대규모 데이터 처리:** '희소 가우시안 프로세스(Sparse GP)' 기술을 적용하여 수백만 개의 세포 데이터도 막힘없이 처리할 수 있는 효율성을 갖췄습니다.
* **멀티뷰 통합:** '매니폴드 연관 결정(MRD)' 기법을 통해 여러 종류의 데이터(RNA, 단백질 등)에서 공통된 정보와 각 데이터만의 고유한 정보를 구분해냅니다.
### 4. 연구 결과: 데이터 속에서 찾아낸 생명의 규칙
MOMO-GP는 실제 혈액 세포(PBMC) 데이터 분석에서 놀라운 성능을 보여주었습니다.
* **정교한 세포 분류:** 약 13종의 서로 다른 면역 세포 타입을 선명하게 구분해냈으며, 이는 기존의 최첨단 인공지능 모델들과 대등하거나 더 뛰어난 수준이었습니다.
* **유전자 의미 발견:** 유전자 전용 공간에서 분석을 진행한 결과, 특정 세포의 '마커 유전자'들이 끼리끼리 뭉치는 현상을 발견했습니다. 또한, 기존에 잘 알려지지 않았던 '조절 유전자(메타 유전자)' 그룹이 어떤 세포의 발달에 관여하는지도 명확히 짚어냈습니다.
* **직관적인 연결:** '유전자 연관 지도(Gene relevance map)' 기능을 통해, 연구자는 **별도의 복잡한 통계 분석 없이도 어떤 유전자 그룹이 특정 세포 덩어리를 만드는 핵심 원인인지**를 즉석에서 확인할 수 있게 되었습니다.
* **경쟁 모델 압도:** 기존에 유전자와 세포를 동시에 학습하던 유일한 모델인 'SIMBA'와 비교했을 때, 유전자의 특성을 포착하는 능력이 훨씬 우수함을 입증했습니다.
### 5. 고찰 및 의의: 연구자의 '눈'이 되어주는 인공지능
MOMO-GP는 인공지능이 제시하는 결과값이 단순히 "그렇다"는 결론을 넘어, **"이 유전자들이 이 세포 집단에서 이런 관계를 맺고 있기 때문이다"라는 구체적인 근거**를 제공한다는 점에서 혁신적입니다. 이는 연구자가 세포를 미리 그룹화(Clustering)하지 않아도 데이터 자체에서 새로운 세포 유형이나 희귀 세포를 발견할 수 있게 해줍니다. 또한 RNA뿐만 아니라 단백질, 염색질 데이터까지 한꺼번에 통합 처리할 수 있어 '진정한 멀티옴익스' 분석이 가능해졌습니다.
---
### 💡 이 연구가 왜 중요한가요?
암이나 희귀 질환 같은 복잡한 병을 정복하기 위해서는 세포 내부에서 벌어지는 수많은 사건 사이의 '연결고리'를 찾아야 합니다. 기존의 AI는 정답은 맞히지만 그 이유는 알려주지 않는 '불친절한 천재' 같았습니다.
**MOMO-GP는 정답뿐만 아니라 그 과정까지 친절하게 설명해주는 '가이드'와 같습니다.** 이 기술을 통해 과학자들은 복잡한 데이터 분석에 드는 시간을 획기적으로 줄이고, 질병의 원인이 되는 유전자를 더 정확하게 찾아내어 맞춤형 치료제를 개발하는 데 집중할 수 있게 될 것입니다.

Perplexity.ai

이 논문은 단일세포 멀티오믹스 데이터를 “잘 보이면서도 해석하기 쉬운” 저차원 공간으로 표현하는 새로운 통계·머신러닝 기법(MOMO‑GP)을 제안하고, 기존 방법보다 얼마나 잘 작동하는지를 보여주는 연구입니다.[1]
***
## 연구 배경
- 최근에는 한 개의 세포에서 유전자 발현(RNA), 염색질 개방 정도(ATAC), 단백질, DNA 메틸화 등 여러 종류의 생체 정보를 동시에 측정하는 **단일세포 멀티오믹스** 기술이 빠르게 발전하고 있습니다.[1]
- 이런 데이터는 차원도 매우 높고, 비선형 구조·다봉형(여러 개의 뾰족한 분포) 구조를 가지며, 서로 다른 ‘모달리티(뷰)’가 섞여 있기 때문에, 사람 눈으로 이해하기 쉬운 표현 공간을 만드는 일이 쉽지 않습니다.[1]
- 기존 방법은 대체로 두 갈래였습니다.[1]
- PCA 같은 선형 차원축소: 결과는 비교적 해석이 쉽지만 표현력이 제한적.
- VAE, 그래프 임베딩 같은 딥러닝: 복잡한 구조는 잘 잡지만, “왜 이렇게 나왔는지” 해석이 어렵고 블랙박스에 가깝습니다.
연구자들은 “표현력(복잡한 패턴을 잘 잡는 능력)”과 “해석 가능성(어떤 세포·유전자 그룹과 연결되는지)”을 동시에 만족시키는 표현 학습이 필요하다고 보았습니다.[1]
***
## 연구 목적
이 논문의 핵심 목표는 다음과 같습니다.[1]
1. 여러 모달리티(유전자, ATAC peak, 단백질 등)를 한 번에 다루면서,
2. 세포(샘플)와 유전자/피크/단백질(특징)을 **서로 다른 잠재공간**에 임베딩하고,
3. 이 두 공간 사이의 비선형 상관관계를 **명시적으로 모델링**해
4. “어떤 세포 그룹 ↔ 어떤 유전자/피크/단백질 그룹”이 연결되는지 직관적으로 볼 수 있게 하는 것.
이를 위해 연구진은 **Multi-Omics Multi-Output Gaussian Processes (MOMO‑GP)**라는 새 모델을 제안합니다.[1]
***
## 연구 방법
### 1. 모델 아이디어 (MOMO‑GP)
- MOMO‑GP는 **가우시안 프로세스(Gaussian Process, GP)**라는 확률적 모델을 기반으로 합니다.[1]
- 기존 GP‑LVM은 “세포(입력) 사이의 유사도”만 커널로 모델링하고, 유전자(출력)들은 서로 독립이라고 가정했지만, 이 논문은 **세포–유전자 둘 다 “서로 연관된 다중 출력”으로 취급**합니다.[1]
- 구체적으로는
- 세포 잠재공간 A (샘플 임베딩)
- 유전자 잠재공간 B, ATAC 피크 잠재공간 C 등 (특징 임베딩)
를 따로 두고,
- “세포 커널 × 유전자/피크 커널”의 **크로네커 곱** 구조를 가진 다중 출력 GP로 세포–특징 관계를 모델링합니다.[1]
- 하지만 단일세포 데이터는 세포·유전자 수가 너무 많기 때문에, 계산량을 줄이기 위해
- **희소 GP(sparse GP)**와 **유도점(inducing points)**을 사용하고,
- 세포·유전자 인덱스를 임베딩 레이어에 넣어 잠재공간 벡터로 바꾸는 “임베딩 레이어 + GP 레이어” 구조를 씁니다.[1]
- 이 설계 덕분에 이론적으로는 \(O((세포 수×특징 수)·m^2)\) 수준, 실험적으로는 최대 700만 개 엔트리까지 **선형에 가까운 시간 복잡도**를 보인다고 보고합니다.[1]
### 2. 멀티뷰(멀티오믹스) 확장
- 두 개 이상의 모달리티(예: RNA, ATAC)를 다룰 때는
- 세포 임베딩 A는 **공유**,
- 각 모달리티별로 다른 특징 임베딩(B: 유전자, C: 피크)을 둡니다.[1]
- 그리고 **MRD(Manifold Relevance Determination)**라는 기법을 써서
- 어떤 잠재 차원은 RNA·ATAC 둘 다에 중요한 “공유 차원”인지,
- 어떤 차원은 특정 모달리티에만 중요한 “개인(프라이빗) 차원”인지 자동으로 구분합니다.[1]
- 이를 위해 모달리티별로 다른 ARD(자동 관련도 결정) 가중치를 학습하고, 가중치가 큰 차원만 “해당 모달리티에서 의미 있는 축”으로 간주합니다.[1]
### 3. 평가 데이터와 비교 대상
연구는 실제 단일세포 멀티오믹스 데이터에 MOMO‑GP를 적용해 평가합니다.[1]
- 데이터셋
- PBMC 10k: 건강한 기증자 PBMC에서 scRNA + scATAC 멀티옴 데이터 (11,909세포, 36,601 유전자, 134,726 피크).[1]
- Slide‑tag: 멜라노마 샘플에서 T세포·단핵구를 멀티옴으로 측정한 데이터 (2,535세포).[1]
- PBMC 5k CITE‑seq: PBMC에서 RNA + 32개 표면 단백질 동시 측정 데이터 (5,247세포).[1]
- 비교 알고리즘
- PCA, UMAP, BGPLVM(GP‑LVM의 베이지안 버전)
- SCVI(단일세포용 딥러닝 임베딩)
- SIMBA(세포·특징을 같은 공간에 공임베딩하는 최신 방법)[1]
- 평가지표
- 세포 타입 라벨을 이용한 **정확도(ACC)**, **Adjusted Rand Index(ARI)**
- 추가로 실루엣 점수, k‑means ARI/NMI, 희귀 세포 분리도 등도 보조적으로 사용.[1]
***
## 핵심 결과
### 1. 세포 임베딩 성능
- PBMC 10k, PBMC 5k CITE‑seq RNA 데이터에서 MOMO‑GP는
- 2–4차원 정도의 아주 낮은 잠재공간만으로도
- SCVI+UMAP, BGPLVM, UMAP 등과 비슷하거나 경우에 따라 더 좋은 세포 타입 분리를 보여줍니다.[1]
- ACC와 ARI 측면에서 2D UMAP, 2D BGPLVM, 32D SCVI+UMAP, 32D MOMO‑GP+UMAP이 **대체로 비슷한 수준**이지만, MOMO‑GP는 여기에 **해석 가능한 특징 임베딩**까지 함께 제공하는 것이 차별점입니다.[1]
- 멀티뷰 버전에서도, PBMC 10k와 Slide‑tag의 RNA+ATAC 통합에서 세포 임베딩 품질(ACC, ARI)은 SIMBA와 비슷한 수준을 유지합니다.[1]
### 2. 유전자 임베딩: “어떤 유전자가 어떤 세포 타입과 함께 묶이는가”
- 2차원 유전자 잠재공간에 모든 유전자를 넣고, 각 세포 타입의 상위 100개 마커 유전자를 색칠해 보면:[1]
- 같은 세포 타입의 마커 유전자들은 대체로 **하나의 군집**을 형성합니다.
- 특정 세포 타입과 뚜렷하게 관련 없는 유전자들은 가운데 회색 클러스터로 모여, “범용적이거나 비특이적인 유전자” 그룹으로 해석할 수 있습니다.[1]
- PBMC 10k 데이터에서 상위 20개 회색 유전자를 뽑아보면, 여러 종류의 조절 관련 lncRNA들이 포함되어 있고, 특정 세포 타입보다는 광범위한 조절 기능을 가진 것으로 해석됩니다.[1]
- 정량 평가(마커 유전자의 ACC/ARI)를 보면,
- ACC는 높지만 ARI는 상대적으로 낮은데, 이는 “라벨이 없는 많은 유전자들을 ‘unknown’ 클래스로 둔 탓에 클래스 불균형이 심하기 때문”이라고 분석합니다.[1]
### 3. SIMBA와의 차이: “세포는 비슷하지만, 유전자는 MOMO‑GP가 더 좋다”
- 같은 데이터에 SIMBA를 적용해 50차원 임베딩 후 UMAP으로 시각화하면, 세포 타입 분리는 괜찮게 나오지만, **유전자 임베딩 쪽 표현력은 상대적으로 떨어지는** 모습을 보입니다.[1]
- 연구진은 그 이유를 “SIMBA는 세포와 유전자를 하나의 공통 공간에 넣기 때문에, 특징 표현력이 제한되고, 유전자 간 구조를 충분히 못 잡는 경향”으로 설명합니다.[1]
- 반대로 MOMO‑GP는
- 세포와 유전자를 별도 잠재공간에 둔 뒤,
- GP를 통해 둘의 비선형 관계를 연결하므로,
- 유전자 임베딩 측면에서 SIMBA보다 ACC·ARI, 시각적 군집 모두 더 우수한 결과를 보입니다.[1]
***
## 해석 도구: 유전자·피크·단백질 “relevance map”과 metagene
이 논문의 중요한 기여 중 하나는 “임베딩이 실제 생물학적 해석으로 이어지도록 만든 것”입니다.[1]
### 1. 메타유전자(metagene)와 유전자 relevance map
- 유전자 임베딩 공간에서 서로 가까운 유전자들끼리 메타유전자(metagene)라는 군집으로 묶습니다.[1]
- 각 메타유전에 대해, 세포 임베딩 공간에서 “어떤 위치의 세포에 이 메타유전자의 영향이 큰지”를 그려주는 것이 **gene relevance map**입니다.[1]
- 예시 (PBMC 10k):[1]
- 메타유전자 9는 pDC(형질세포형 수지상세포) 마커 유전자가 100% 포함되어 있고, relevance map을 보면 pDC가 모여 있는 세포 영역에서 강하게 발현됩니다.
- 다른 메타유전자들도 CD4+ naive T, CD8+ naive T, NK, B세포, 단핵구 등과 잘 대응합니다.
- 이를 통계적으로 검증하기 위해, 각 메타유전자의 마커 유전자 비율과 p‑value(과대표현 분석)를 계산해, 대부분 매우 유의미한 연결임을 보입니다.[1]
### 2. GSEA로 메타유전자 생물학적 의미 확인
- 메타유전자의 유전자 리스트를 MSigDB의 인간 세포 타입 서명(C8)과 비교하는 **GSEA(과대표현 분석)**를 수행합니다.[1]
- 그 결과 예를 들어:[1]
- 메타유전자 1: naive T, CD8 T 시그니처와 강하게 연관.
- 메타유전자 5·6: 여포 B세포(follicular B), 플라즈마 세포 관련 시그니처와 연관.
- 메타유전자 8: 단핵구(monocyte),
- 메타유전자 9: 수지상세포(dendritic) 시그니처와 강하게 연결.
- 동시에 relevance map에서 이 메타유전자가 실제로 해당 세포 타입에 높은 relevance를 보이는지 확인해, **“유전자 임베딩–세포 임베딩–기존 지식”이 모두 일관되게 맞아떨어지는지** 검증합니다.[1]
### 3. 희귀/새로운 세포 상태 탐지 가능성
- 흥미로운 사례로, 메타유전자 11·12는 Pro‑B, CD34+ LMPP 등 “발달 단계에 있는 전구세포” 시그니처와 연관되어 있고,[1]
- relevance map에서는 일부 메모리 B세포나 CD4+ naive T세포 주변 세포들과 연결됩니다.[1]
- 연구진은 이를 통해 “Pro‑B, 조혈 전구세포가 나중에 B세포·T세포로 분화되는 방향성과 연결된 희귀 세포 상태를 포착할 수 있다”는 생물학적 해석 가능성을 제시합니다.[1]
### 4. 피크·단백질에 대한 확장
- ATAC‑seq 피크에도 똑같은 구조를 적용해 **peak 임베딩 + peak relevance map**을 만들 수 있고, PBMC 10k·Slide‑tag에서 SIMBA보다 훨씬 더 잘 분리된 피크 군집(세포 타입별 마커 피크)을 보여줍니다.[1]
- CITE‑seq의 단백질 데이터에서는
- 각 단백질에 대해 protein relevance map을 그려
- CD16/CD56/TIGIT → NK·memory‑like NK
- CD127/CD28/CD27 → 여러 T세포 서브타입
- CD14/CD86/HLA‑DR → 단핵구
- CD19/CD20 → 성숙 B세포·pre‑B세포
와 같은 알려진 마커–세포 타입 관계를 잘 재현합니다.[1]
- 같은 세포 그룹에 대해 “어떤 메타유전자”와 “어떤 단백질”이 함께 relevance가 높은지 보면, 유전자–단백질 관계도 자연스럽게 연결할 수 있습니다.[1]
***
## 시간·계산 효율
- 5k PBMC CITE‑seq RNA 데이터에서 세포 수(400–4000), 유전자 수(100–2000)를 바꿔가며 실험한 결과, 전체 관측 엔트리 수(세포×유전자)가 늘어날수록 **학습 시간은 거의 직선적으로 증가**하는 것을 보여줍니다.[1]
- 이는 희소 GP·유도점·크로네커 구조를 활용한 설계가 현실적인 대규모 단일세포 데이터에도 적용 가능함을 의미합니다.[1]
***
## 고찰과 한계, 향후 방향
연구진은 MOMO‑GP의 장점과 한계를 다음과 같이 논의합니다.[1]
- 장점
- 세포·특징 임베딩을 분리하면서도, GP를 통해 비선형 상관관계를 명시적으로 연결 → **표현력과 해석 가능성을 동시에 확보**.
- 멀티뷰 구조(MRD) 덕분에, “모달리티마다 고유한 신호 vs 여러 모달리티에 공통되는 신호”를 구분해서 볼 수 있음.
- gene/protein/peak relevance map, metagene 개념으로 실제 생물학적 해석(세포 타입, 희귀 세포 상태, 기능 경로 분석)에 바로 활용 가능.
- 한계 및 향후 연구 방향
- 아직 완전한 베이지안 버전(GP‑LVM처럼 잠재 변수에 사전분포를 두는 형태)은 아니므로, 베이지안 확장 가능성.
- 임베딩 위에 더 깊은 신경망 층을 쌓아 비선형 구조를 더 잘 잡는 **딥 GP** 또는 하이브리드 모델로 확장할 수 있음.
- 시계열 단일세포, 공간전사체(spatial transcriptomics)처럼 “이웃 관계가 중요한 데이터”에 맞춰, 공간·시간 구조를 반영한 네트워크 설계가 필요함.[1]
***
## 의의와 시사점, 왜 중요한가?
이 연구의 의의는 단순히 “차원축소를 하나 더 만들었다”가 아니라, **단일세포 멀티오믹스 데이터를 바라보는 방식 자체를 한 단계 정교하게 만든 것**에 있습니다.[1]
- 현장의 관점에서 보면, 단일세포 연구자는 늘 다음과 같은 질문을 던집니다.
- “이 세포 타입을 결정짓는 핵심 유전자·피크·단백질은 무엇인가?”
- “어떤 희귀 세포 집단이 존재하며, 그 분자적 특징은 무엇인가?”
- “여러 오믹스 데이터를 함께 봤을 때, 공통된 축과 서로 다른 축은 무엇인가?”
- MOMO‑GP는
- 세포와 유전자를 분리된 잠재공간에 배치하고,
- 두 공간 사이의 비선형 관계를 GP로 연결하며,
- relevance map과 메타유전자 개념을 통해 “세포 군집 ↔ 유전자/피크/단백질 군집”을 직관적으로 보여줍니다.[1]
이는 실제로 다음과 같은 응용 가능성을 가집니다.[1]
- 새로운 세포 아형과 그 분자 서명을 동시에 발굴
- 약물 반응, 질병 진행에 관여하는 특정 유전자–세포 타입 축을 찾는 작업 지원
- 멀티오믹스 기반 환자 분류·표적 발굴 연구에서, “블랙박스 딥러닝” 대신 **설명 가능한 통계 모델**을 제공
결국 이 연구는 “표현력 높은 딥러닝”과 “해석 가능한 통계모델” 사이의 간극을 줄이면서, 멀티오믹스 단일세포 데이터 분석을 한 단계 더 **정확하고 설명 가능하게** 만드는 기반 기술을 제안했다는 점에서 중요합니다.[1]

Kimi

아래 글은 학술지 《Nucleic Acids Research》에 2025년 6월 게재된
‘MOMO-GP: interpretable integration of single-cell multi-omics’ 논문을
블로그에 올릴 만큼 쉽게, 그러나 논문의 핵심 내용을 놓치지 않고 A4 두 장 분량으로 정리한 것입니다.
---
### 1. 연구 배경 – 왜 이 연구가 시작됐을까?
최근에는 한 개의 세포에서 유전자(RNA), 염색질 개방정보(ATAC), 단백질 등
여러 생물정보를 **동시에** 잴 수 있는 기술이 나왔습니다.
문제는 “RNA는 A라는 세포군을, 단백질은 B라는 세포군을 만든다”처럼
각 측정 방식이 서로 다른 언어로 말하기 때문에
**한눈에 이해할 수 있는 통합 지도**가 없다는 점입니다.
기존 방법은
① 해석이 쉬운 통계(PCA 등) – 하지만 복잡한 패턴은 못 잡거나
② 딥러닝(변분형 오토인코더 등) – 정확하지만 **‘왜 그런지’를 설명 못 함**
이라는 한계가 있었습니다.
---
### 2. 연구 목표 – ‘해석 가능한 통합 지도’ 만들기
저자들은 "RNA·ATAC·단백질 데이터를 한꺼번에 깔끔하게 정리하면서,
어떤 유전자가 어떤 세포군과 관련 있는지도 **즉시** 알 수 있도록
세포-유전자-단백질을 **각각 따로** 임베딩하는 모델"을 제안합니다.
그 이름은 **MOMO-GP**(Multi-Omics Multi-Output Gaussian Processes).
---
### 3. 핵심 기술 – Gaussian Process(GP)를 영리하게 조합
1. **세포 임베딩 A**
– 모든 측정 방식(RNA, ATAC, 단백질)이 공유하는 ‘좌표’를 학습합니다.
2. **특성 임베딩 B, C, …**
– 유전자는 유전자끼리, DNA 열린 구간(peak)는 peak끼리
**별도**의 지도를 그립니다.
3. **크로네커 곱(Kronecker product)**
– “이 세포 i와 유전자 j가 만나면 값 y가 나온다”는
거대한 표를 **효율적으로** 채웁니다(계산복잡도를 inducing point로 줄임).
4. **Manifold Relevance Determination(MRD)**
– “이 차원은 RNA에만 유용하고, 저 차원은 RNA+ATAC 모두에 유용하다”
를 자동으로 판단해 **공유·전용 좌표**를 나눕니다.
결국 세포는 ‘하나의 지도’, 각 특성은 ‘각자의 지도’를 얻고,
두 지도를 **상호 연결**해서 해석이 쉽게 만듭니다.
---
### 4. 실험 결과 – 숫자와 그림으로 확인한 성과
데이터셋
- 10x Genomics **PBMC 10k** (RNA + ATAC, 9,393개 세포)
- **Slide-tag** (흑색종 조직, RNA + ATAC, 2,535개 세포)
- **PBMC 5k CITE-seq** (RNA + 단백질 32종, 3,891개 세포)
#### 4-1. 세포 클러스터링 정확도(ACC) / 조정랜드지수(ARI)
| 방법 | RNA만 | RNA+ATAC | RNA+단백질 |
|------|-------|----------|-------------|
| PCA | 52 % | – | – |
| UMAP | 84 % | – | – |
| SCVI(딥러닝) | 82 % | – | 81 % |
| SIMBA | 83 % | 80 % | 80 % |
| **MOMO-GP** | **80 %** | **75 %** | **78 %** |
*숫자만 보면 비슷해 보이지만, **MOMO-GP는 2~4차원**만으로 이 성능을 내고,
게다가 **유전자·peak·단백질 지도**까지 동시에 제공합니다.*
#### 4-2. 유전자·peak·단백질 임베딩 품질
- **SIMBA**는 50차원에서 유전자를 그려도 ARI 20~30 수준.
- **MOMO-GP**는 2차원만으로 ARI 50~65,
marker 유전자끼리 뭉치는 모습이 눈에 확 들어옵니다.
#### 4-3. ‘유전자 관련 지도(gene relevance map)’ 예시
임의로 뽑은 9개 **메타유전자**(비슷한 유전자끼리 묶은 그룹)를 세포 지도에
얹어보니,
- 메타유전자 4 → NK세포 65 %
- 메타유전자 9 → pDC세포 95 %
처럼 **특정 세포군에 정확히 대응**하는 것을 확인했습니다.
#### 4-4. 단백질 관련 지도도 동일하게 가능
CD16, CD56, TIGIT은 NK세포에,
CD14, CD86, HLA-DR은 단핵구군에 **확실히 몰려** 있었습니다.
#### 4-5. 계산 속도
inducing-point 덕분에
세포 4,000 × 유전자 2,000 = 800만 개 데이터도
**200번 반복 학습에 2~3시간**이면 끝나는 **선형 시간**이 확인됐습니다.
---
### 5. 고찰 – 무엇이 달라졌는가?
1. **“하나의 공간에 모든 것을 집어넣는” SIMBA**와 달리
MOMO-GP는 **세포·유전자·peak·단백질 각각의 고유한 공간**을 만들어
서로를 **명확히 연결**합니다.
2. **PCA처럼 해석은 쉽지만** 비선형 구조를 놓치는 문제는
GP+임베딩 조합으로 해결했습니다.
3. **딥러닝보다 적은 차원**만으로도 같은 수준의 세포 구분력을 냅니다.
4. **‘공통·전용 좌표’를 자동으로 나누는** MRD 기능 덕분에
어떤 측정 방식이 서로 **보완**하는지 한눈에 파악할 수 있습니다.
---
### 6. 의의와 시사점 – 이 연구가 왜 중요한가?
1. **“AI가 그려준 지도가 맞는지”를 바로 검증**할 수 있습니다.
유전자 A가 B세포에 특이적이라는 기존 지식과 **모델이 계산한 위치**가
맞아떨어지기 때문입니다.
2. **새로운 세포군**이나 **드물게 나타나는 전구체**를 발견할 **실마리**를 줍니다.
예: 메타유전자 11이 프로-B세포와 관련 있음이 계산돼,
기존에는 잘 몰랐던 **B세포 성숙 단계**를 추적할 수 있게 됐습니다.
3. **실험비용이 비싼 multi-omics 데이터**를 한 번 측정하면,
이후 **어떤 가설이든** 이 지도 위에서 바로 **검증·확장**할 수 있습니다.
4. **낮은 차원·선형 시간**이라는 효율 덕분에
개인 맞춤 의료처럼 **큰 데이터를 빠르게 반복**해야 하는 현장에도
충분히 활용 가능합니다.
---
### 한 줄로 정리하자면
“MOMO-GP는 **복잡한 multi-omics 데이터를 누구나 읽을 수 있는 지도 한 장**으로
바꿔주면서, **‘이 유전자는 바로 이 세포다’**라는 해석 가능한 증거까지
즉시 보여준다는 점에서, **단순히 정확한 것을 넘어 ‘믿을 수 있는’ AI 모델**입니다.”

출처: @ye._.vely618

수요일, 1월 07, 2026

시공간 세포 지도로 알아본 인간 생식 기관 발달

종족유지에 필수 적인 생식기관은 그 발달이 갱장히 복잡하다고 알려졌죠. 그리고 발달 과정 중에 문제가 생기면 불임이나 선천성 기형을 겪을 수 도 있게 된다고 합니다. 그래서 사람을 대상으로 하기보다는 쥐나 닭같은 동물을 대상으로 연구들이 이뤄졌기에 실제로 사람에 대해서는 정보가 많이 부족했습니다. 이번에는 동물들 대신 사람을 대상으로 연구한 내용을 출판한 논문을 가져와봤습니다.

제목은 Spatiotemporal cellular map of the developing human reproductive tract으로 6~21주사이의 태아 생식기 조직을 분석해서 남성, 여성이 어떻게 변해가는지 어느 시점에서 시간에 따라 어떤 유전자들이 변해가는지 정밀 지도를 만들었다고 합니다. 여성이 될 때 발달하는 뮬러관과 남성이 발달하는 볼프관이라는 장기에 대해서도 이해도를 높였고 기존 동물 연구에서는 알 수 없었던 유전자들에 대해서도 알 수 있었다고 합니다. 그리고 환경호르몬에 노출 시키는 실험 내용도 함께 포함되어 있으니 환경 호르몬의 위협에 대해서 알아볼 수 있는 기회이지 않을까 합니다. :)

DOI: 10.1038/s41586-025-09875-2