Lee Gir-Won (Lee Gil-Won): MOMO-GP

오늘은 single-cell multi-omics 데이터를 분석 할 때 사용하면 좋은 모델이 있어 한번 가져와봤습니다. Single-cell Multi-Omics, 단일 세포 멀티 오믹스 요즘 세포 하나하나의 정보를 확인 하는데 좋아 많이들 사용하시는 기술입니다. 다만 데이터 종류가 다양하다보니 통합해서 분석하는게 어려워서 모델들의 손을 빌리는 경우가 많이 있어서 분석에 도움도 되지만 왜 이런 결과가 나왔는지 설명도 잘하는 모델을 개발했다고 합니다. Learning interpretable representations of single-cell multi-omics data with multi-output Gaussian processes라는 제목으로 특정 세포가 왜 이런 특성을 보이는지 사람이 이해할 수 있도록 설명해주는 모델을 개발했다고 합니다. :)

우선 제가 Single-cell Multi-Omics를 아직 다뤄보지 않아서 무슨 말인지는 잘 모르겠으나 답안만 주는 것이 아니라 왜 답이 이렇게 나왔는지 설명을 해주는 것이 이 모델의 장점이라고 합니다.

DOI: 10.1093/nar/gkaf630

gemini

제시해주신 논문 **"Multi-Output Gaussian Processes를 이용한 단일 세포 멀티오믹스 데이터의 해석 가능한 표현 학습(Learning interpretable representations of single-cell multi-omics data with multi-output Gaussian processes)"**의 내용을 바탕으로, 블로그에 올리기 좋은 요약글을 작성해 드립니다.
---
### [Bio-IT 산책] 복잡한 세포 데이터를 한눈에? 'MOMO-GP'가 열어가는 정밀 의료의 미래
안녕하세요! 오늘은 생명과학과 인공지능 기술이 만난 흥미로운 연구 하나를 소개해 드리려고 합니다. 바로 2025년 *Nucleic Acids Research*에 발표된 **MOMO-GP**라는 기술에 대한 이야기입니다.
#### 1. 연구 배경: 우리 몸속 세포는 왜 이렇게 복잡할까?
최근 과학기술의 발달로 우리 몸속 '단일 세포' 수준에서 유전 정보(RNA), 단백질, 염색질 구조 등 다양한 데이터를 측정할 수 있게 되었습니다. 이를 '멀티오믹스(Multi-omics)'라고 부르는데, 문제는 이 데이터가 너무나 방대하고 복잡하다는 점입니다.
지금까지는 이 데이터를 분석하기 위해 크게 두 가지 방법을 썼습니다. 하나는 이해하기 쉽지만 정밀도가 떨어지는 방법(선형 모델), 다른 하나는 정밀하지만 왜 그런 결과가 나왔는지 알 수 없는 '깜깜이' 방법(딥러닝 기반의 블랙박스 모델)이었습니다.
#### 2. 연구 목적: "똑똑하면서도 설명 가능한 AI를 만들자"
이 연구의 목적은 명확합니다. **세포 데이터의 복잡한 특징을 정확하게 잡아내면서도(표현력), 동시에 왜 그렇게 분류되었는지 사람이 직접 이해할 수 있는(해석 가능성) 새로운 분석 모델을 만드는 것**입니다.
#### 3. 연구 방법: MOMO-GP라는 새로운 해결사
연구팀은 **MOMO-GP(Multi-Omics Multi-Output Gaussian Processes)**라는 모델을 개발했습니다. 이 모델의 핵심은 '가우시안 프로세스(Gaussian Process)'라는 통계 기법을 활용해 **세포(Samples)와 유전자(Features)를 각각 독립적인 가상 공간에 배치**하는 것입니다.
*
**따로 또 같이:** 세포와 유전자를 별도의 공간에서 학습시키면서도, 이 둘 사이의 상관관계를 수학적으로 연결했습니다.
*
**효율성 극대화:** 엄청난 양의 데이터를 처리하기 위해 '유도 지점(Inducing points)'이라는 기법을 써서 계산 속도를 획기적으로 높였습니다.
#### 4. 연구 결과: 성능은 기본, 해석은 덤!
연구팀이 혈액 세포(PBMC) 데이터 등을 이용해 성능을 확인한 결과는 놀라웠습니다.
*
**뛰어난 분류 능력:** 기존의 복잡한 AI 모델(scVI 등)만큼이나 정확하게 세포의 종류를 구분해 냈습니다.
*
**유전자 지도의 탄생:** 단순히 세포를 분류하는 데 그치지 않고, 특정 세포 그룹과 밀접하게 연관된 '마커 유전자'들을 시각적으로 한눈에 보여주었습니다. 기존 모델인 SIMBA보다 유전자의 특성을 훨씬 더 잘 잡아낸다는 사실도 입증했습니다.
*
**데이터의 연결:** 유전 정보와 단백질 정보 등 서로 다른 종류의 데이터를 통합해서 분석할 때도, 각 데이터가 공유하는 정보가 무엇인지 정확히 짚어냈습니다.
#### 5. 고찰 및 시사점: 데이터 뒤의 '이유'를 찾다
이 연구가 기존 연구와 차별화되는 지점은 **"클러스터링(Grouping) 없이도 정보를 읽어낼 수 있다"**는 것입니다. 보통은 세포들을 먼저 그룹으로 묶은 뒤에 그 특징을 사후 분석하지만, MOMO-GP는 학습 과정 자체에서 세포와 유전자의 관계를 직접 인코딩합니다. 덕분에 세포 그룹 내에 존재하는 미세한 변화나 유전자 간의 복잡한 상호작용을 놓치지 않고 포착할 수 있게 되었습니다.
---
### 💡 이 연구가 왜 중요할까요? (Key Point)
이 연구의 가장 큰 의의는 **바이오 데이터 분석의 '투명성'을 확보**했다는 데 있습니다.
병원을 예로 들어볼까요? 암 환자의 세포 데이터를 분석할 때 AI가 단순히 "이 세포는 암세포입니다"라고 말하는 것과, "A 유전자와 B 단백질의 상호작용 때문에 암세포로 판단됩니다"라고 근거를 제시하는 것은 천지차이입니다.
**MOMO-GP**는 연구자나 의료진이 데이터의 '블랙박스'를 열어보고 질병의 원인을 직접 파악할 수 있게 돕는 도구입니다. 이는 곧 환자 개개인에게 딱 맞는 **정밀 의료(Precision Medicine)와 신약 개발의 속도를 앞당기는 중요한 밑거름**이 될 것입니다.

chatGPT

아래 내용은 업로드하신 논문 **“Learning interpretable representations of single-cell multi-omics data with multi-output Gaussian processes” (Nucleic Acids Research, 2025)**의 **구체적인 연구 내용에 근거해**, 전문 지식이 없는 **일반 성인 독자도 이해할 수 있도록** 정리한 블로그용 요약입니다.
(요청하신 대로 **연구 배경–목적–방법–결과–고찰–의의와 시사점**, 그리고 **왜 중요한 연구인지**까지 포함했습니다.)
---
## 한눈에 보는 연구 요약
이 연구는 **단일세포 멀티오믹스 데이터**(유전자 발현, 염색질 접근성, 단백질 등)를 분석할 때 늘 문제가 되었던 **“잘 맞지만 설명하기 어려운 모델”과 “설명은 되지만 표현력이 부족한 모델” 사이의 딜레마**를 해결하기 위해,
**확률 모델(Gaussian process)**을 기반으로 **해석 가능하면서도 표현력이 높은 새로운 분석 방법(MOMO-GP)**을 제안합니다.
이 방법은 **세포뿐 아니라 유전자·피크·단백질 같은 특징(feature)까지 함께 임베딩**하여,
“**어떤 세포 집단이 왜 그런 유전자(또는 피크, 단백질) 패턴을 보이는지**”를 **클러스터링 없이 직접적으로 연결**할 수 있게 합니다.
---
## 1. 연구 배경
최근 단일세포 기술의 발전으로, 한 개의 세포에서
* 유전자 발현(scRNA-seq),
* 염색질 접근성(scATAC-seq),
* 단백질 발현(CITE-seq)
등 **여러 종류의 생물학적 정보를 동시에 측정**할 수 있게 되었습니다.
문제는 이렇게 복잡한 데이터를 **한 번에 통합해 분석하면서도**,
* 결과를 **사람이 이해할 수 있게 설명**하고
* **세포–유전자–조절요소 간 관계**를 명확히 해석하는 것이 매우 어렵다는 점입니다.
기존 방법들은 대체로
* PCA 같은 선형 방법 → **해석은 쉬우나 표현력이 부족**
* 딥러닝(VAE, SCVI 등) → **표현력은 뛰어나지만 ‘블랙박스’**
라는 한계를 가졌습니다.
또한 대부분의 방법은 **세포 임베딩만 제공**하고, 유전자나 피크는 **사후 분석**에 의존했습니다.
---
## 2. 연구 목적
이 연구의 목적은 다음 질문에 답하는 것입니다.
> “**적은 수의 잠재 차원(latent dimension)**만으로도
> 단일세포 멀티오믹스 데이터의 **비선형 구조를 잘 표현하면서**,
> **세포와 유전자(또는 피크, 단백질)의 관계를 직접적으로 해석할 수 있는 모델**을 만들 수 있을까?”
이를 위해 저자들은
* **표현력**과 **해석 가능성**을 동시에 만족하는
* **확률적(single-cell 친화적) 통합 모델**을 제안합니다.
---
## 3. 연구 방법 (MOMO-GP의 핵심 아이디어)
### 3-1. 세포와 특징을 “따로” 하지만 “연결되게” 학습
MOMO-GP는 기존 방법과 달리
* **세포 임베딩**과
* **유전자·피크·단백질 임베딩**을
**서로 다른 잠재 공간에서 동시에 학습**합니다.
이 두 공간은
* **다중 출력 가우시안 프로세스(multi-output GP)**로 연결되어
* “어떤 세포들이 서로 비슷한가”와
* “어떤 유전자(또는 피크)들이 함께 작동하는가”를
**확률적으로 동시에 모델링**합니다.
---
### 3-2. Gaussian Process를 이용한 해석 가능성
Gaussian Process(GP)는
* 데이터 간 **유사성(커널)**을 명시적으로 모델링하기 때문에
* 각 잠재 차원이 **어떤 생물학적 변이를 설명하는지** 해석할 수 있습니다.
연구진은 여기에
* **feature 간 공분산(유전자–유전자 관계)**을 직접 모델에 포함시켜
* 기존 GP-LVM보다 훨씬 풍부한 구조를 학습하도록 확장했습니다.
---
### 3-3. 멀티오믹스 통합과 MRD
RNA-seq, ATAC-seq, CITE-seq처럼 **서로 다른 오믹스**를 통합할 때는
* **세포 임베딩은 공유**하되
* 어떤 잠재 차원이 **RNA와 ATAC에 공통인지**,
* 혹은 **특정 오믹스에만 특이적인지**를
자동으로 구분하도록 **MRD(Manifold Relevance Determination)**를 적용했습니다.
이를 통해
* “이 차원은 유전자 발현과 염색질 접근성 모두에서 중요한 정보”
* “이 차원은 RNA에서만 의미 있음”
같은 해석이 가능해집니다.
---
### 3-4. Gene relevance map
MOMO-GP의 가장 큰 장점 중 하나는
**gene relevance map**을 이용해
* 특정 **세포 영역에서 중요한 유전자 그룹(메타유전자)**을 찾고
* 이를 **클러스터링 없이** 세포 집단과 직접 연결할 수 있다는 점입니다.
---
## 4. 연구 결과
### 4-1. 세포 임베딩 성능
PBMC 10k, Slide-tag, CITE-seq 데이터에서
* MOMO-GP는 **2–4차원이라는 매우 낮은 차원**에서도
* PCA, BGPLVM, SCVI, SIMBA 등과 **비슷하거나 더 좋은 세포 분리 성능**을 보였습니다.
즉,
> “차원을 크게 늘리지 않아도
> 세포 유형 구조를 충분히 잘 표현할 수 있다”
> 는 것을 보여주었습니다.
---
### 4-2. 유전자 임베딩의 차별성
기존 방법과 달리 MOMO-GP는
* **유전자 자체를 임베딩**하여
* 같은 세포 유형의 마커 유전자들이 **자연스럽게 군집**되는 것을 확인했습니다.
특히
* 특정 세포 유형과 무관한 유전자들은
* 임베딩 공간의 **중앙(회색 영역)**에 모였고
* 이는 실제로 **다기능 조절 유전자나 lncRNA**가 많았습니다.
---
### 4-3. 세포–유전자 연결의 자동 발견
gene relevance map을 이용하면
* 예를 들어 pDC 세포가 많은 영역에서
* pDC 관련 메타유전자가 **강하게 활성화**됨을 자동으로 확인할 수 있습니다.
또한
* Pro-B cell, CD34⁺ progenitor 같은
**희귀하거나 중간 단계 세포 유형**과
* 관련 유전자 그룹을 **사전 정보 없이** 연결해낼 수 있었습니다.
---
### 4-4. 멀티오믹스 확장 결과
RNA + ATAC, RNA + 단백질(CITE-seq) 데이터에서도
* 세포 임베딩 성능은 유지되면서
* **유전자–피크–단백질 간 관계**를 한 모델 안에서 해석 가능하게 만들었습니다.
특히 CITE-seq에서는
* 특정 단백질(CD16, CD14, CD19 등)이
* 어떤 세포 집단에서 중요한지를
명확히 시각화할 수 있었습니다.
---
## 5. 고찰
이 연구의 핵심은
> “분석 성능을 높이기 위해 해석을 포기할 필요가 없다”
> 는 점을 **확률 모델 기반으로 증명**했다는 데 있습니다.
딥러닝 기반 모델은
* 예측이나 분류에는 강하지만
* “왜 그런 결과가 나왔는지” 설명하기 어렵습니다.
MOMO-GP는
* 비선형 구조를 학습하면서도
* 각 잠재 차원, 유전자 그룹, 세포 영역의 의미를
**직접적으로 해석 가능**하게 합니다.
---
## 6. 의의와 시사점
### 🔹 연구적 의의
* **클러스터링에 의존하지 않는 해석 가능 분석**
* **세포–유전자–조절요소 관계를 한 모델에서 통합적으로 설명**
* **희귀 세포 유형 및 신규 생물학적 가설 발견 가능성**
### 🔹 실용적 시사점
* 단일세포 데이터 해석에 부담을 느끼는
**비전문가·임상의·생물학자**에게 특히 유용
* 바이오마커 발굴, 세포 상태 추적, 질병 미세환경 분석에 적용 가능
* 향후 **바이오뱅크 기반 멀티오믹스 데이터 해석**에도 잘 맞는 접근
---
## 7. 이 연구는 왜 중요한가?
이 연구는 단순히 “새로운 알고리즘”을 제안한 것이 아니라,
> **단일세포 멀티오믹스 분석에서
> ‘잘 맞는 모델’과 ‘설명할 수 있는 모델’을
> 더 이상 양자택일하지 않아도 된다**
는 방향을 제시했습니다.
특히
* 세포와 유전자 사이의 관계를 **사후 분석이 아닌 모델 내부에서 직접 학습**하고
* 적은 차원으로도 **생물학적으로 의미 있는 구조를 설명**할 수 있다는 점에서
향후 단일세포 데이터 해석의 **기준점(reference)**이 될 수 있는 연구입니다.

grok

### 단일 세포 멀티오믹스 데이터의 해석 가능한 표현 학습: MOMO-GP 모델
#### 연구 배경
단일 세포 유전체 데이터는 세포 하나하나의 유전자 발현, 염색질 접근성, 단백질 수준 등을 측정하는 첨단 기술로, 생물학적 프로세스를 자세히 이해할 수 있게 해줍니다. 하지만 이 데이터는 비선형적이고 여러 모드로 복잡해, 분석이 어렵습니다. 기존 방법들은 해석이 쉬운 선형 모델(예: PCA)이나 표현력이 강한 신경망 기반 모델(예: SCVI)을 사용하지만, 둘 사이의 균형이 부족합니다. 예를 들어, 세포 클러스터링 후 차별 발현 분석을 하다 보니 클러스터 내 변이를 놓치기 쉽죠. 이 논문은 이러한 트레이드오프를 해결하려 합니다.
#### 연구 목적
연구자들은 세포(샘플)와 유전자(특징)의 별도 잠재 공간을 학습해 데이터의 구조를 잘 포착하면서도 해석이 가능한 모델을 개발했습니다. MOMO-GP(Multi-Omics Multi-Output Gaussian Processes)라는 이 모델은 다중 출력 가우시안 프로세스를 사용해 세포-유전자 관계를 직접 모델링하고, 멀티오믹스 데이터(예: RNA-seq + ATAC-seq)를 통합합니다. 목표는 클러스터링 없이 마커 유전자를 검출하고, 세포와 특징 간 상호작용을 분석하는 것입니다.
#### 연구 방법
MOMO-GP는 GP-LVM(Gaussian Process Latent Variable Model)을 확장한 모델입니다. 세포와 특징의 의존성을 커널로 모델링하고, 크로네커 곱으로 연결합니다. 희소 GP를 써 계산 효율성을 높였고, 임베딩 레이어를 추가해 비선형 구조를 포착합니다. 멀티뷰 버전은 MRD(Manifold Relevance Determination)로 공유/개별 차원을 학습합니다. 데이터는 PBMC 10k(RNA + ATAC, 9393 세포), Slide-tag(멜라노마 T 세포, 2535 세포), PBMC 5k CITE-seq(RNA + 단백질, 3891 세포)를 사용했습니다. 비교 대상은 PCA, UMAP, BGPLVM, SCVI, SIMBA입니다. 평가는 ACC(정확도)와 ARI(조정 랜드 지수)로 했습니다.
#### 연구 결과
세포 임베딩에서 MOMO-GP는 SCVI나 SIMBA와 비슷하거나 우수한 분리를 보였습니다. 예: PBMC 10k에서 2D 임베딩으로 13개 세포 타입(예: CD4+ naïve T, NK 세포)을 명확히 구분(ACC 82-92%, ARI 70-86%). 특징 임베딩(유전자/피크/단백질)에서는 SIMBA보다 우수: 2D 공간에서도 마커 유전자가 클러스터 형성. 유전자 관련성 맵으로 세포 그룹과 유전자 그룹(메타유전자)을 직접 연결, 예: 메타유전자 1은 CD8+ naïve T 세포와 강한 연관(89.57% 커버리지). 멀티오믹스 통합 시 피크/단백질 임베딩도 잘 분리됐고, 희귀 세포(Pro-B 세포)와 유전자 관계를 식별했습니다.
#### 고찰
MOMO-GP는 클러스터링 없이 세포-특징 관계를 직접 모델링해 기존 방법의 한계를 극복합니다. 시간 복잡도는 데이터 크기에 선형 증가(최대 700만 엔티티 처리 가능). 단점으로는 베이지안 버전 미구현, 시계열/공간 데이터 미지원. SIMBA와 비교해 특징 임베딩이 더 의미 있고 해석적입니다.
#### 의의와 시사점
이 모델은 표현력과 해석성을 균형 있게 제공해 단일 세포 데이터 분석을 혁신합니다. 유전자-피크-단백질 간 상호작용을 밝혀 희귀 세포 타입 식별에 유용하며, 암 연구나 면역 분석에 적용 가능. 기존 도구(GPFlow2, GPFlux)로 구현돼 재현 쉽습니다. 앞으로 신경망 추가로 더 복잡한 데이터 처리 가능.
이 연구는 왜 중요한가? 단일 세포 수준에서 생물학적 메커니즘을 명확히 이해하게 해 질병 치료나 약물 개발에 기여할 수 있습니다. 복잡한 데이터를 '블랙박스' 없이 해석 가능하게 해 과학자들의 통찰을 확대합니다.

NotebookLM

## 복잡한 세포 데이터를 읽어내는 가장 명확한 지도: 인공지능 'MOMO-GP'의 등장
우리 몸의 세포는 저마다 다른 유전 정보를 가지고 있으며, 이를 정밀하게 분석하는 '단일 세포 옴익스' 기술은 현대 의학의 핵심입니다. 하지만 세포 하나에서 나오는 데이터는 유전자 발현(RNA), 단백질, 염색질 구조 등 그 종류가 너무 다양하고 복잡합니다. 이 파편화된 정보를 하나로 합쳐 분석하는 것은 마치 수백만 조각의 퍼즐을 맞추는 것과 같습니다. 최근 이 복잡한 퍼즐을 **가장 정확하고 '이해하기 쉽게' 풀어주는 인공지능 모델, 'MOMO-GP'**가 발표되었습니다.
### 1. 연구 배경: "똑똑하지만 속을 알 수 없는 인공지능"의 한계
현재 세포 데이터를 분석하는 인공지능 기술은 크게 두 가지 길을 걷고 있습니다. 하나는 복잡한 데이터를 아주 잘 처리하지만 왜 그런 결과가 나왔는지 설명하지 못하는 '블랙박스(신경망)' 방식이고, 다른 하나는 설명은 잘하지만 복잡한 생명 현상을 담아내기에는 성능이 부족한 '선형 모델' 방식입니다. 과학자들은 **성능도 뛰어나면서 분석 결과의 생물학적 근거를 명확히 제시할 수 있는 새로운 도구**를 필요로 해왔습니다.
### 2. 연구 목적: 해석 가능하고 강력한 '세포 통합 지도' 제작
이번 연구의 목적은 **'해석 가능성(Interpretability)'과 '표현력(Expressive power)' 사이의 균형**을 맞추는 것입니다. 즉, 수만 개의 세포와 유전자가 얽힌 멀티옴익스 데이터를 통합하면서도, 특정 세포 집단이 왜 그런 특성을 보이는지(예: 어떤 유전자가 원인인지)를 직관적으로 연결해주는 인공지능 프레임워크인 **MOMO-GP**를 개발하는 것이었습니다.
### 3. 연구 방법: 세포와 유전자를 위한 각각의 '전용 공간'
MOMO-GP는 '다출력 가우시안 프로세스(Multi-output Gaussian Processes)'라는 고도의 통계 기법을 사용합니다.
* **분리된 학습:** 기존 모델들이 세포 정보에만 집중했던 것과 달리, MOMO-GP는 **세포(Sample)와 유전자(Feature)를 위한 별도의 공간(Embedding)을 동시에 학습**합니다.
* **관계의 수식화:** '크로네커 곱(Kronecker product)'이라는 수학적 기법을 도입해 세포와 유전자 사이의 복잡한 상관관계를 정밀하게 모델링했습니다.
* **대규모 데이터 처리:** '희소 가우시안 프로세스(Sparse GP)' 기술을 적용하여 수백만 개의 세포 데이터도 막힘없이 처리할 수 있는 효율성을 갖췄습니다.
* **멀티뷰 통합:** '매니폴드 연관 결정(MRD)' 기법을 통해 여러 종류의 데이터(RNA, 단백질 등)에서 공통된 정보와 각 데이터만의 고유한 정보를 구분해냅니다.
### 4. 연구 결과: 데이터 속에서 찾아낸 생명의 규칙
MOMO-GP는 실제 혈액 세포(PBMC) 데이터 분석에서 놀라운 성능을 보여주었습니다.
* **정교한 세포 분류:** 약 13종의 서로 다른 면역 세포 타입을 선명하게 구분해냈으며, 이는 기존의 최첨단 인공지능 모델들과 대등하거나 더 뛰어난 수준이었습니다.
* **유전자 의미 발견:** 유전자 전용 공간에서 분석을 진행한 결과, 특정 세포의 '마커 유전자'들이 끼리끼리 뭉치는 현상을 발견했습니다. 또한, 기존에 잘 알려지지 않았던 '조절 유전자(메타 유전자)' 그룹이 어떤 세포의 발달에 관여하는지도 명확히 짚어냈습니다.
* **직관적인 연결:** '유전자 연관 지도(Gene relevance map)' 기능을 통해, 연구자는 **별도의 복잡한 통계 분석 없이도 어떤 유전자 그룹이 특정 세포 덩어리를 만드는 핵심 원인인지**를 즉석에서 확인할 수 있게 되었습니다.
* **경쟁 모델 압도:** 기존에 유전자와 세포를 동시에 학습하던 유일한 모델인 'SIMBA'와 비교했을 때, 유전자의 특성을 포착하는 능력이 훨씬 우수함을 입증했습니다.
### 5. 고찰 및 의의: 연구자의 '눈'이 되어주는 인공지능
MOMO-GP는 인공지능이 제시하는 결과값이 단순히 "그렇다"는 결론을 넘어, **"이 유전자들이 이 세포 집단에서 이런 관계를 맺고 있기 때문이다"라는 구체적인 근거**를 제공한다는 점에서 혁신적입니다. 이는 연구자가 세포를 미리 그룹화(Clustering)하지 않아도 데이터 자체에서 새로운 세포 유형이나 희귀 세포를 발견할 수 있게 해줍니다. 또한 RNA뿐만 아니라 단백질, 염색질 데이터까지 한꺼번에 통합 처리할 수 있어 '진정한 멀티옴익스' 분석이 가능해졌습니다.
---
### 💡 이 연구가 왜 중요한가요?
암이나 희귀 질환 같은 복잡한 병을 정복하기 위해서는 세포 내부에서 벌어지는 수많은 사건 사이의 '연결고리'를 찾아야 합니다. 기존의 AI는 정답은 맞히지만 그 이유는 알려주지 않는 '불친절한 천재' 같았습니다.
**MOMO-GP는 정답뿐만 아니라 그 과정까지 친절하게 설명해주는 '가이드'와 같습니다.** 이 기술을 통해 과학자들은 복잡한 데이터 분석에 드는 시간을 획기적으로 줄이고, 질병의 원인이 되는 유전자를 더 정확하게 찾아내어 맞춤형 치료제를 개발하는 데 집중할 수 있게 될 것입니다.

Perplexity.ai

이 논문은 단일세포 멀티오믹스 데이터를 “잘 보이면서도 해석하기 쉬운” 저차원 공간으로 표현하는 새로운 통계·머신러닝 기법(MOMO‑GP)을 제안하고, 기존 방법보다 얼마나 잘 작동하는지를 보여주는 연구입니다.[1]
***
## 연구 배경
- 최근에는 한 개의 세포에서 유전자 발현(RNA), 염색질 개방 정도(ATAC), 단백질, DNA 메틸화 등 여러 종류의 생체 정보를 동시에 측정하는 **단일세포 멀티오믹스** 기술이 빠르게 발전하고 있습니다.[1]
- 이런 데이터는 차원도 매우 높고, 비선형 구조·다봉형(여러 개의 뾰족한 분포) 구조를 가지며, 서로 다른 ‘모달리티(뷰)’가 섞여 있기 때문에, 사람 눈으로 이해하기 쉬운 표현 공간을 만드는 일이 쉽지 않습니다.[1]
- 기존 방법은 대체로 두 갈래였습니다.[1]
- PCA 같은 선형 차원축소: 결과는 비교적 해석이 쉽지만 표현력이 제한적.
- VAE, 그래프 임베딩 같은 딥러닝: 복잡한 구조는 잘 잡지만, “왜 이렇게 나왔는지” 해석이 어렵고 블랙박스에 가깝습니다.
연구자들은 “표현력(복잡한 패턴을 잘 잡는 능력)”과 “해석 가능성(어떤 세포·유전자 그룹과 연결되는지)”을 동시에 만족시키는 표현 학습이 필요하다고 보았습니다.[1]
***
## 연구 목적
이 논문의 핵심 목표는 다음과 같습니다.[1]
1. 여러 모달리티(유전자, ATAC peak, 단백질 등)를 한 번에 다루면서,
2. 세포(샘플)와 유전자/피크/단백질(특징)을 **서로 다른 잠재공간**에 임베딩하고,
3. 이 두 공간 사이의 비선형 상관관계를 **명시적으로 모델링**해
4. “어떤 세포 그룹 ↔ 어떤 유전자/피크/단백질 그룹”이 연결되는지 직관적으로 볼 수 있게 하는 것.
이를 위해 연구진은 **Multi-Omics Multi-Output Gaussian Processes (MOMO‑GP)**라는 새 모델을 제안합니다.[1]
***
## 연구 방법
### 1. 모델 아이디어 (MOMO‑GP)
- MOMO‑GP는 **가우시안 프로세스(Gaussian Process, GP)**라는 확률적 모델을 기반으로 합니다.[1]
- 기존 GP‑LVM은 “세포(입력) 사이의 유사도”만 커널로 모델링하고, 유전자(출력)들은 서로 독립이라고 가정했지만, 이 논문은 **세포–유전자 둘 다 “서로 연관된 다중 출력”으로 취급**합니다.[1]
- 구체적으로는
- 세포 잠재공간 A (샘플 임베딩)
- 유전자 잠재공간 B, ATAC 피크 잠재공간 C 등 (특징 임베딩)
를 따로 두고,
- “세포 커널 × 유전자/피크 커널”의 **크로네커 곱** 구조를 가진 다중 출력 GP로 세포–특징 관계를 모델링합니다.[1]
- 하지만 단일세포 데이터는 세포·유전자 수가 너무 많기 때문에, 계산량을 줄이기 위해
- **희소 GP(sparse GP)**와 **유도점(inducing points)**을 사용하고,
- 세포·유전자 인덱스를 임베딩 레이어에 넣어 잠재공간 벡터로 바꾸는 “임베딩 레이어 + GP 레이어” 구조를 씁니다.[1]
- 이 설계 덕분에 이론적으로는 \(O((세포 수×특징 수)·m^2)\) 수준, 실험적으로는 최대 700만 개 엔트리까지 **선형에 가까운 시간 복잡도**를 보인다고 보고합니다.[1]
### 2. 멀티뷰(멀티오믹스) 확장
- 두 개 이상의 모달리티(예: RNA, ATAC)를 다룰 때는
- 세포 임베딩 A는 **공유**,
- 각 모달리티별로 다른 특징 임베딩(B: 유전자, C: 피크)을 둡니다.[1]
- 그리고 **MRD(Manifold Relevance Determination)**라는 기법을 써서
- 어떤 잠재 차원은 RNA·ATAC 둘 다에 중요한 “공유 차원”인지,
- 어떤 차원은 특정 모달리티에만 중요한 “개인(프라이빗) 차원”인지 자동으로 구분합니다.[1]
- 이를 위해 모달리티별로 다른 ARD(자동 관련도 결정) 가중치를 학습하고, 가중치가 큰 차원만 “해당 모달리티에서 의미 있는 축”으로 간주합니다.[1]
### 3. 평가 데이터와 비교 대상
연구는 실제 단일세포 멀티오믹스 데이터에 MOMO‑GP를 적용해 평가합니다.[1]
- 데이터셋
- PBMC 10k: 건강한 기증자 PBMC에서 scRNA + scATAC 멀티옴 데이터 (11,909세포, 36,601 유전자, 134,726 피크).[1]
- Slide‑tag: 멜라노마 샘플에서 T세포·단핵구를 멀티옴으로 측정한 데이터 (2,535세포).[1]
- PBMC 5k CITE‑seq: PBMC에서 RNA + 32개 표면 단백질 동시 측정 데이터 (5,247세포).[1]
- 비교 알고리즘
- PCA, UMAP, BGPLVM(GP‑LVM의 베이지안 버전)
- SCVI(단일세포용 딥러닝 임베딩)
- SIMBA(세포·특징을 같은 공간에 공임베딩하는 최신 방법)[1]
- 평가지표
- 세포 타입 라벨을 이용한 **정확도(ACC)**, **Adjusted Rand Index(ARI)**
- 추가로 실루엣 점수, k‑means ARI/NMI, 희귀 세포 분리도 등도 보조적으로 사용.[1]
***
## 핵심 결과
### 1. 세포 임베딩 성능
- PBMC 10k, PBMC 5k CITE‑seq RNA 데이터에서 MOMO‑GP는
- 2–4차원 정도의 아주 낮은 잠재공간만으로도
- SCVI+UMAP, BGPLVM, UMAP 등과 비슷하거나 경우에 따라 더 좋은 세포 타입 분리를 보여줍니다.[1]
- ACC와 ARI 측면에서 2D UMAP, 2D BGPLVM, 32D SCVI+UMAP, 32D MOMO‑GP+UMAP이 **대체로 비슷한 수준**이지만, MOMO‑GP는 여기에 **해석 가능한 특징 임베딩**까지 함께 제공하는 것이 차별점입니다.[1]
- 멀티뷰 버전에서도, PBMC 10k와 Slide‑tag의 RNA+ATAC 통합에서 세포 임베딩 품질(ACC, ARI)은 SIMBA와 비슷한 수준을 유지합니다.[1]
### 2. 유전자 임베딩: “어떤 유전자가 어떤 세포 타입과 함께 묶이는가”
- 2차원 유전자 잠재공간에 모든 유전자를 넣고, 각 세포 타입의 상위 100개 마커 유전자를 색칠해 보면:[1]
- 같은 세포 타입의 마커 유전자들은 대체로 **하나의 군집**을 형성합니다.
- 특정 세포 타입과 뚜렷하게 관련 없는 유전자들은 가운데 회색 클러스터로 모여, “범용적이거나 비특이적인 유전자” 그룹으로 해석할 수 있습니다.[1]
- PBMC 10k 데이터에서 상위 20개 회색 유전자를 뽑아보면, 여러 종류의 조절 관련 lncRNA들이 포함되어 있고, 특정 세포 타입보다는 광범위한 조절 기능을 가진 것으로 해석됩니다.[1]
- 정량 평가(마커 유전자의 ACC/ARI)를 보면,
- ACC는 높지만 ARI는 상대적으로 낮은데, 이는 “라벨이 없는 많은 유전자들을 ‘unknown’ 클래스로 둔 탓에 클래스 불균형이 심하기 때문”이라고 분석합니다.[1]
### 3. SIMBA와의 차이: “세포는 비슷하지만, 유전자는 MOMO‑GP가 더 좋다”
- 같은 데이터에 SIMBA를 적용해 50차원 임베딩 후 UMAP으로 시각화하면, 세포 타입 분리는 괜찮게 나오지만, **유전자 임베딩 쪽 표현력은 상대적으로 떨어지는** 모습을 보입니다.[1]
- 연구진은 그 이유를 “SIMBA는 세포와 유전자를 하나의 공통 공간에 넣기 때문에, 특징 표현력이 제한되고, 유전자 간 구조를 충분히 못 잡는 경향”으로 설명합니다.[1]
- 반대로 MOMO‑GP는
- 세포와 유전자를 별도 잠재공간에 둔 뒤,
- GP를 통해 둘의 비선형 관계를 연결하므로,
- 유전자 임베딩 측면에서 SIMBA보다 ACC·ARI, 시각적 군집 모두 더 우수한 결과를 보입니다.[1]
***
## 해석 도구: 유전자·피크·단백질 “relevance map”과 metagene
이 논문의 중요한 기여 중 하나는 “임베딩이 실제 생물학적 해석으로 이어지도록 만든 것”입니다.[1]
### 1. 메타유전자(metagene)와 유전자 relevance map
- 유전자 임베딩 공간에서 서로 가까운 유전자들끼리 메타유전자(metagene)라는 군집으로 묶습니다.[1]
- 각 메타유전에 대해, 세포 임베딩 공간에서 “어떤 위치의 세포에 이 메타유전자의 영향이 큰지”를 그려주는 것이 **gene relevance map**입니다.[1]
- 예시 (PBMC 10k):[1]
- 메타유전자 9는 pDC(형질세포형 수지상세포) 마커 유전자가 100% 포함되어 있고, relevance map을 보면 pDC가 모여 있는 세포 영역에서 강하게 발현됩니다.
- 다른 메타유전자들도 CD4+ naive T, CD8+ naive T, NK, B세포, 단핵구 등과 잘 대응합니다.
- 이를 통계적으로 검증하기 위해, 각 메타유전자의 마커 유전자 비율과 p‑value(과대표현 분석)를 계산해, 대부분 매우 유의미한 연결임을 보입니다.[1]
### 2. GSEA로 메타유전자 생물학적 의미 확인
- 메타유전자의 유전자 리스트를 MSigDB의 인간 세포 타입 서명(C8)과 비교하는 **GSEA(과대표현 분석)**를 수행합니다.[1]
- 그 결과 예를 들어:[1]
- 메타유전자 1: naive T, CD8 T 시그니처와 강하게 연관.
- 메타유전자 5·6: 여포 B세포(follicular B), 플라즈마 세포 관련 시그니처와 연관.
- 메타유전자 8: 단핵구(monocyte),
- 메타유전자 9: 수지상세포(dendritic) 시그니처와 강하게 연결.
- 동시에 relevance map에서 이 메타유전자가 실제로 해당 세포 타입에 높은 relevance를 보이는지 확인해, **“유전자 임베딩–세포 임베딩–기존 지식”이 모두 일관되게 맞아떨어지는지** 검증합니다.[1]
### 3. 희귀/새로운 세포 상태 탐지 가능성
- 흥미로운 사례로, 메타유전자 11·12는 Pro‑B, CD34+ LMPP 등 “발달 단계에 있는 전구세포” 시그니처와 연관되어 있고,[1]
- relevance map에서는 일부 메모리 B세포나 CD4+ naive T세포 주변 세포들과 연결됩니다.[1]
- 연구진은 이를 통해 “Pro‑B, 조혈 전구세포가 나중에 B세포·T세포로 분화되는 방향성과 연결된 희귀 세포 상태를 포착할 수 있다”는 생물학적 해석 가능성을 제시합니다.[1]
### 4. 피크·단백질에 대한 확장
- ATAC‑seq 피크에도 똑같은 구조를 적용해 **peak 임베딩 + peak relevance map**을 만들 수 있고, PBMC 10k·Slide‑tag에서 SIMBA보다 훨씬 더 잘 분리된 피크 군집(세포 타입별 마커 피크)을 보여줍니다.[1]
- CITE‑seq의 단백질 데이터에서는
- 각 단백질에 대해 protein relevance map을 그려
- CD16/CD56/TIGIT → NK·memory‑like NK
- CD127/CD28/CD27 → 여러 T세포 서브타입
- CD14/CD86/HLA‑DR → 단핵구
- CD19/CD20 → 성숙 B세포·pre‑B세포
와 같은 알려진 마커–세포 타입 관계를 잘 재현합니다.[1]
- 같은 세포 그룹에 대해 “어떤 메타유전자”와 “어떤 단백질”이 함께 relevance가 높은지 보면, 유전자–단백질 관계도 자연스럽게 연결할 수 있습니다.[1]
***
## 시간·계산 효율
- 5k PBMC CITE‑seq RNA 데이터에서 세포 수(400–4000), 유전자 수(100–2000)를 바꿔가며 실험한 결과, 전체 관측 엔트리 수(세포×유전자)가 늘어날수록 **학습 시간은 거의 직선적으로 증가**하는 것을 보여줍니다.[1]
- 이는 희소 GP·유도점·크로네커 구조를 활용한 설계가 현실적인 대규모 단일세포 데이터에도 적용 가능함을 의미합니다.[1]
***
## 고찰과 한계, 향후 방향
연구진은 MOMO‑GP의 장점과 한계를 다음과 같이 논의합니다.[1]
- 장점
- 세포·특징 임베딩을 분리하면서도, GP를 통해 비선형 상관관계를 명시적으로 연결 → **표현력과 해석 가능성을 동시에 확보**.
- 멀티뷰 구조(MRD) 덕분에, “모달리티마다 고유한 신호 vs 여러 모달리티에 공통되는 신호”를 구분해서 볼 수 있음.
- gene/protein/peak relevance map, metagene 개념으로 실제 생물학적 해석(세포 타입, 희귀 세포 상태, 기능 경로 분석)에 바로 활용 가능.
- 한계 및 향후 연구 방향
- 아직 완전한 베이지안 버전(GP‑LVM처럼 잠재 변수에 사전분포를 두는 형태)은 아니므로, 베이지안 확장 가능성.
- 임베딩 위에 더 깊은 신경망 층을 쌓아 비선형 구조를 더 잘 잡는 **딥 GP** 또는 하이브리드 모델로 확장할 수 있음.
- 시계열 단일세포, 공간전사체(spatial transcriptomics)처럼 “이웃 관계가 중요한 데이터”에 맞춰, 공간·시간 구조를 반영한 네트워크 설계가 필요함.[1]
***
## 의의와 시사점, 왜 중요한가?
이 연구의 의의는 단순히 “차원축소를 하나 더 만들었다”가 아니라, **단일세포 멀티오믹스 데이터를 바라보는 방식 자체를 한 단계 정교하게 만든 것**에 있습니다.[1]
- 현장의 관점에서 보면, 단일세포 연구자는 늘 다음과 같은 질문을 던집니다.
- “이 세포 타입을 결정짓는 핵심 유전자·피크·단백질은 무엇인가?”
- “어떤 희귀 세포 집단이 존재하며, 그 분자적 특징은 무엇인가?”
- “여러 오믹스 데이터를 함께 봤을 때, 공통된 축과 서로 다른 축은 무엇인가?”
- MOMO‑GP는
- 세포와 유전자를 분리된 잠재공간에 배치하고,
- 두 공간 사이의 비선형 관계를 GP로 연결하며,
- relevance map과 메타유전자 개념을 통해 “세포 군집 ↔ 유전자/피크/단백질 군집”을 직관적으로 보여줍니다.[1]
이는 실제로 다음과 같은 응용 가능성을 가집니다.[1]
- 새로운 세포 아형과 그 분자 서명을 동시에 발굴
- 약물 반응, 질병 진행에 관여하는 특정 유전자–세포 타입 축을 찾는 작업 지원
- 멀티오믹스 기반 환자 분류·표적 발굴 연구에서, “블랙박스 딥러닝” 대신 **설명 가능한 통계 모델**을 제공
결국 이 연구는 “표현력 높은 딥러닝”과 “해석 가능한 통계모델” 사이의 간극을 줄이면서, 멀티오믹스 단일세포 데이터 분석을 한 단계 더 **정확하고 설명 가능하게** 만드는 기반 기술을 제안했다는 점에서 중요합니다.[1]

Kimi

아래 글은 학술지 《Nucleic Acids Research》에 2025년 6월 게재된
‘MOMO-GP: interpretable integration of single-cell multi-omics’ 논문을
블로그에 올릴 만큼 쉽게, 그러나 논문의 핵심 내용을 놓치지 않고 A4 두 장 분량으로 정리한 것입니다.
---
### 1. 연구 배경 – 왜 이 연구가 시작됐을까?
최근에는 한 개의 세포에서 유전자(RNA), 염색질 개방정보(ATAC), 단백질 등
여러 생물정보를 **동시에** 잴 수 있는 기술이 나왔습니다.
문제는 “RNA는 A라는 세포군을, 단백질은 B라는 세포군을 만든다”처럼
각 측정 방식이 서로 다른 언어로 말하기 때문에
**한눈에 이해할 수 있는 통합 지도**가 없다는 점입니다.
기존 방법은
① 해석이 쉬운 통계(PCA 등) – 하지만 복잡한 패턴은 못 잡거나
② 딥러닝(변분형 오토인코더 등) – 정확하지만 **‘왜 그런지’를 설명 못 함**
이라는 한계가 있었습니다.
---
### 2. 연구 목표 – ‘해석 가능한 통합 지도’ 만들기
저자들은 "RNA·ATAC·단백질 데이터를 한꺼번에 깔끔하게 정리하면서,
어떤 유전자가 어떤 세포군과 관련 있는지도 **즉시** 알 수 있도록
세포-유전자-단백질을 **각각 따로** 임베딩하는 모델"을 제안합니다.
그 이름은 **MOMO-GP**(Multi-Omics Multi-Output Gaussian Processes).
---
### 3. 핵심 기술 – Gaussian Process(GP)를 영리하게 조합
1. **세포 임베딩 A**
– 모든 측정 방식(RNA, ATAC, 단백질)이 공유하는 ‘좌표’를 학습합니다.
2. **특성 임베딩 B, C, …**
– 유전자는 유전자끼리, DNA 열린 구간(peak)는 peak끼리
**별도**의 지도를 그립니다.
3. **크로네커 곱(Kronecker product)**
– “이 세포 i와 유전자 j가 만나면 값 y가 나온다”는
거대한 표를 **효율적으로** 채웁니다(계산복잡도를 inducing point로 줄임).
4. **Manifold Relevance Determination(MRD)**
– “이 차원은 RNA에만 유용하고, 저 차원은 RNA+ATAC 모두에 유용하다”
를 자동으로 판단해 **공유·전용 좌표**를 나눕니다.
결국 세포는 ‘하나의 지도’, 각 특성은 ‘각자의 지도’를 얻고,
두 지도를 **상호 연결**해서 해석이 쉽게 만듭니다.
---
### 4. 실험 결과 – 숫자와 그림으로 확인한 성과
데이터셋
- 10x Genomics **PBMC 10k** (RNA + ATAC, 9,393개 세포)
- **Slide-tag** (흑색종 조직, RNA + ATAC, 2,535개 세포)
- **PBMC 5k CITE-seq** (RNA + 단백질 32종, 3,891개 세포)
#### 4-1. 세포 클러스터링 정확도(ACC) / 조정랜드지수(ARI)
| 방법 | RNA만 | RNA+ATAC | RNA+단백질 |
|------|-------|----------|-------------|
| PCA | 52 % | – | – |
| UMAP | 84 % | – | – |
| SCVI(딥러닝) | 82 % | – | 81 % |
| SIMBA | 83 % | 80 % | 80 % |
| **MOMO-GP** | **80 %** | **75 %** | **78 %** |
*숫자만 보면 비슷해 보이지만, **MOMO-GP는 2~4차원**만으로 이 성능을 내고,
게다가 **유전자·peak·단백질 지도**까지 동시에 제공합니다.*
#### 4-2. 유전자·peak·단백질 임베딩 품질
- **SIMBA**는 50차원에서 유전자를 그려도 ARI 20~30 수준.
- **MOMO-GP**는 2차원만으로 ARI 50~65,
marker 유전자끼리 뭉치는 모습이 눈에 확 들어옵니다.
#### 4-3. ‘유전자 관련 지도(gene relevance map)’ 예시
임의로 뽑은 9개 **메타유전자**(비슷한 유전자끼리 묶은 그룹)를 세포 지도에
얹어보니,
- 메타유전자 4 → NK세포 65 %
- 메타유전자 9 → pDC세포 95 %
처럼 **특정 세포군에 정확히 대응**하는 것을 확인했습니다.
#### 4-4. 단백질 관련 지도도 동일하게 가능
CD16, CD56, TIGIT은 NK세포에,
CD14, CD86, HLA-DR은 단핵구군에 **확실히 몰려** 있었습니다.
#### 4-5. 계산 속도
inducing-point 덕분에
세포 4,000 × 유전자 2,000 = 800만 개 데이터도
**200번 반복 학습에 2~3시간**이면 끝나는 **선형 시간**이 확인됐습니다.
---
### 5. 고찰 – 무엇이 달라졌는가?
1. **“하나의 공간에 모든 것을 집어넣는” SIMBA**와 달리
MOMO-GP는 **세포·유전자·peak·단백질 각각의 고유한 공간**을 만들어
서로를 **명확히 연결**합니다.
2. **PCA처럼 해석은 쉽지만** 비선형 구조를 놓치는 문제는
GP+임베딩 조합으로 해결했습니다.
3. **딥러닝보다 적은 차원**만으로도 같은 수준의 세포 구분력을 냅니다.
4. **‘공통·전용 좌표’를 자동으로 나누는** MRD 기능 덕분에
어떤 측정 방식이 서로 **보완**하는지 한눈에 파악할 수 있습니다.
---
### 6. 의의와 시사점 – 이 연구가 왜 중요한가?
1. **“AI가 그려준 지도가 맞는지”를 바로 검증**할 수 있습니다.
유전자 A가 B세포에 특이적이라는 기존 지식과 **모델이 계산한 위치**가
맞아떨어지기 때문입니다.
2. **새로운 세포군**이나 **드물게 나타나는 전구체**를 발견할 **실마리**를 줍니다.
예: 메타유전자 11이 프로-B세포와 관련 있음이 계산돼,
기존에는 잘 몰랐던 **B세포 성숙 단계**를 추적할 수 있게 됐습니다.
3. **실험비용이 비싼 multi-omics 데이터**를 한 번 측정하면,
이후 **어떤 가설이든** 이 지도 위에서 바로 **검증·확장**할 수 있습니다.
4. **낮은 차원·선형 시간**이라는 효율 덕분에
개인 맞춤 의료처럼 **큰 데이터를 빠르게 반복**해야 하는 현장에도
충분히 활용 가능합니다.
---
### 한 줄로 정리하자면
“MOMO-GP는 **복잡한 multi-omics 데이터를 누구나 읽을 수 있는 지도 한 장**으로
바꿔주면서, **‘이 유전자는 바로 이 세포다’**라는 해석 가능한 증거까지
즉시 보여준다는 점에서, **단순히 정확한 것을 넘어 ‘믿을 수 있는’ AI 모델**입니다.”

출처: @ye._.vely618

Lee Gir-Won (Lee Gil-Won)

Pages

월요일, 3월 16, 2026

복잡한 세포 데이터 분석, 이제 '블랙박스' 없이 투명하게 들여다보기