수요일, 3월 18, 2026

로컬PC에서 LLM모델을 구동시켜보자. (Openwork를 사용해보자, 수정)

이전 글에 이어서 계속 진행해보도록 하겠습니다. 계속 연결되는 내용이지만 OS를 Ubuntu 25.10 (LTS아님) 로 변경해서 진행했습니다. :)

 

우선 이전 글에서 진행 하지 않은 것이 있어서... 일을 시키려면 뇌에 해당하는 모델을 가져와야죠

ollama 모델 다운로드

ollama가 문제 없이 설치되었다면 모델들을 아래와 같이 땡겨 올 수 있습니다.

$ ollama pull llama3.2:1b

$ ollama pull qwen3.5:0.8b

$ ollama pull qwen2.5-coder:0.5b

$ ollama pull opencoder:1.5b

아니.. 파라미터가 1b 이게 무엇이냐 하신다면, 이거는 사실 그냥 연결되서 작동하는지에 대해서 테스트 해보는 것이라서 굳이 불필요하게 큰 모델들을 다운로드해서 테스트 하지 않고자 작은것들만 고른 겁니다. :)



방화벽해제

# su -

# ufw allow 3000

# ufw allow 5173 

# ufw allow 4096

# ufw allow 11434 

일단 눈에 보였던 포트들을 미리미리 허용해놓는 것이라서 이것보다 더 많을 수도 있습니다. :)

근데 방화벽 허용도 굳이 안해도 되지 않을까 합니다. 허용안한 35071 포트로 접근이 그냥 됩니다. 



Opencode 설정

Opencode 설치 후 그냥 알아서 ollama와 연동되서 모델을 사용할 줄 알았는데...

LLM이 무엇이든 대답해주고 AI 개인 비서를 두는 시대에도 설정 파일이 필요하다는 것을 망각했네요.. 아무리 시간이 흘러도 첫 셋팅할 때는 환경 설정이 중요합니다.

일반계정에서 설치 했다면 ~/.opencode/opencode.json 경로에 opencode.json파일이 있을 수 도 없을 수도 있습니다. 있다면 아래와 같이 수정을, 없다면 생성해서 아래와 같이 내용을 적어주세요 :)

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "ollama": {
      "name": "Ollama (local)",
      "options": {
        "baseURL": "http://localhost:11434/v1"
        },
      "models": {
        "qwen3.5:0.8b": {
        "name": "Qwen 3.5 0.8B"
        },
        "opencoder:1.5b": {
        "name": "OpenCoder 1.5B"
        }
      }
    }
  }
}



Opencode 실행(응 필요없음)

Openwork는 Opencode가 있어야 하기 때문에 Opencode가 뒷단에서 돌아가주고 있어야한다고 하네요. 일단 아래와 같이 실행시켜 주었는데...

$ opencode --hostname 0.0.0.0 web

※ 음... 그래도 어제보다는 무엇인가 한걸음 나아간것 같습니다.

결국엔 opencode를 뒷단에서 굳이 따로 실행시켜 주지 않아도 되는듯 합니다. :)


Openwork 설치

드디어 설치 Openwork를 설치합니다. npm으로 pnpm과 bun을 설치해주고 아래와 같이 진행해주면 일단 원격에서 접속은 되더라구요

※ 아.. 큰 수정사항이 있습니다. rust설치와 cargo 실행을 굳이 관리자 계정으로 할... 필요가 없었습니다... 

# npm install -g pnpm

# npm install -g bun

$ curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

$ source $HOME/.cargo/env

$ cargo install tauri-cli

/*cargo install tauri-cli 명령어 수행시 timeout으로 설치 실패가 된다면 다시 시도 해주면 다시 설치 진행합니다. */

$ git clone https://github.com/different-ai/openwork.git

$ cd openwork

$ pnpm install

$ pnpm approve-builds

$ pnpm dev //터미널1

※ 현재 여기서 "Exit status 101" 라고 에러가 발생하고 죽어버려서 해결중에 있습니다.

$ pnpm dev:ui --host 0.0.0.0 -d //터미널2

$ pnpm dev:headless-web --host 0.0.0.0 -d 


위와 같이 터미널1에서는 dev를 터미널2에서는 dev:ui 실행시켜 주면 원격에 있는 윈도우 PC에서 브라우저로 Openwork에 접속 하는 것을 보실 수 있습니다.


근데 브라우저로 접근은 되는데;;;;

거기까지가 끝입니다. remote worker를 연결하려고 하는데... 이게 안되더라구요

→ pnpm dev:ui는 UI관련된 업무를 하는 것이었다면, pnpm dev가 실제 일하는 worker를 구동하게 하는 것이라고 합니다.

작업하면서 놓친 부분이 있을 것 같아서 다시 더 검색해보고 진행해보고 다시 글을 작성해보도록 하겠습니다.

추가적으로 한 작업으로는 

# apt install libgdk-pixbuf-xlib-2.0-dev

# apt install ubuntu-desktop

해서 GUI로 접근할 수 있도록 설치 했습니다. pnpm dev의 에러가 화면과 관련된 내용들이어서 이전 작업들과 차이점은... GUI 관련 툴들을 모두 설치했다는 것 되겠습니다. 

그래서 GUI로 로그인해서 pnpm dev를 실행시키면 화면에 창이 하나 뜨면서 바로 Openwork가 실행되는.. 좀 맥이 빠지는 상황이...

그래서 pnpm 실행 모드를 perplexity에게 물어보니 dev:headless-web 실행시켜보라고 하더라구요. 그래서 일단 GUI 상태에서 

$ pnpm dev:headless-web --host 0.0.0.0 -d

수행하고 원격에서 접근하니 dev:ui와 같이 브라우저에서 잘 작동하였습니다.


기존 dev:ui와 다른 점은 GUI에서 실행한 터미널 창에 TOKEN정보를 보여주는것이 차이점인지라 원격 연결 할 때 IP:PORT와 함께 TOKEN 정보를 함께 입력하니 활성화되는것을 확인하였습니다.

그리고 opencode 서버를 작동시키지 않았는데 알아서 잘 연결합니다;;

내일 다시 한번 확인을 해보고 좀 더 추가 내용을 작성하도록 하겠습니다. :)


안되면 최근에 나온 오픈자비스를 돌려보던지..... 아니면 다른 claw를 사용해보던지.. 해봐야죠 :)





출처: @ye._.vely618


그림 속에서 찾아낸 뜻밖의 손님, 누구냐 넌

오늘은 흥미진진한 내용을 가지고있는 논문 하나를 가져와봤습니다. 고 미술품의 표면을 면봉으로 살살살 문질러서 수집한 샘플(무엇이 있는지는 모르겠으나... 생물학적인 흔적일지.. 먼지일지..)을 연구해봤다고 합니다. 제목은 Biological signatures of history: Examination of composite biomes and Y chromosome analysis from da Vinci-associated cultural artifacts으로 그 먼지일 수 도 있었던 샘플에서 이것저것 분석해보니 DNA가 나왔는데 살살 문지른 고 미술품이 다빈치의 작품이라서 이 작품에서 공통적으로 나온 Y 염색체의 마커로 다빈치의 Y 염색체 마커와 함께 다양한 미생물의 흔적도 함께 찾을 수 있었다고 하네요 :)


좋은 접근법이긴한데.. 개인적으로는... 이게 밀폐된 곳에 있다가 "짠"하고 나온게 아니다 보니...
최근까지 만져본 사람들의 흔적이 대부분 아닐까하는 의구심이 드는건 어쩔 수 없는 것 같습니다. :)


DOI: 10.64898/2026.01.06.697880


gemini

최근 발표된 흥미로운 연구 결과를 바탕으로, 레오나르도 다 빈치와 관련된 유물에서 ‘역사의 생물학적 흔적’을 찾아낸 흥미로운 이야기를 블로그 형식으로 요약해 드립니다.

---

# 🎨 레오나르도 다 빈치의 유물에 숨겨진 DNA를 찾아서: 역사의 생물학적 서명

수백 년 전 천재 예술가가 남긴 작품이나 편지에는 그의 손길뿐만 아니라 그 시대의 공기, 환경, 그리고 어쩌면 예술가 본인의 생물학적 흔적까지 남아있을 수 있을까요? 최근 국제 연구진은 레오나르도 다 빈치와 관련된 유물에서 보이지 않는 미생물과 DNA를 분석한 획기적인 연구 결과를 발표했습니다.

### 🔍 1. 연구 배경: 유물에 남은 ‘보이지 않는 지문’

문화유산은 단순히 감상의 대상이 아닙니다. 제작 과정에서의 재료, 보관 환경, 그리고 수많은 사람의 손길을 거치며 다양한 생물학적 잔해(DNA)를 축적하죠. 하지만 이런 유물은 매우 약해서 샘플을 채취할 때 손상을 입히면 안 되고, 남아있는 DNA 양도 극히 적어 현대인의 DNA에 오염될 위험이 큽니다.

### 🎯 2. 연구 목적: 비파괴적인 방법으로 역사를 읽다

이번 연구의 목적은 명확했습니다.

**비침습적 워크플로 구축**: 유물을 훼손하지 않고 면봉으로 살살 문지르는 방식(Swabbing)으로 DNA를 성공적으로 추출할 수 있는지 확인합니다.

**복합 바이옴(Biome) 분석**: 유물에 묻어있는 세균, 곰팡이, 식물 등 다양한 생물학적 흔적을 분석해 그 유물의 보관 역사나 출처를 추적합니다.

**부계 혈통 추적**: 유물에서 인간의 Y 염색체 신호를 찾아내어, 이것이 다 빈치 가문의 혈통과 관련이 있는지 가능성을 타진합니다.

### 🧪 3. 연구 방법: 면봉으로 문질러 과거를 추출하다

연구진은 다 빈치의 작품으로 추정되는 붉은 분필 드로잉 **'성스러운 아이(Holy Child)'**와 그의 조상 프로시노(Frosino)가 쓴 **서신들**을 분석 대상으로 삼았습니다.

1. 

**샘플링**: 아주 부드러운 면봉을 이용해 유물 표면을 문지르는 '이중 면봉법'을 사용했습니다.

2. 

**분석**: 최신 유전체 분석 기법(NGS)을 사용하여 미생물부터 인간 DNA까지 모든 유전 정보를 한꺼번에 읽어들였습니다. 특히 남성에게만 유전되는 Y 염색체 마커 약 9만 개를 추적했습니다.

### 📊 4. 연구 결과: 유물 속에 담긴 '작은 생태계'

**다양한 생물의 흔적**: 식물(이탈리아 라이그라스, 옥수수 등), 동물(돼지, 개 등), 세균, 바이러스의 DNA가 고루 발견되었습니다.

**다 빈치와 메디치 가문의 연결고리**: 특히 '성스러운 아이' 작품에서는 감귤류(Citrus) DNA가 발견되었는데, 이는 당시 예술의 후원자였던 메디치 가문이 감귤 정원을 가꾸었던 역사적 사실과 일맥상통합니다.

**부계 혈통의 단서**: 다 빈치와 관련된 유물들에서 공통적으로 **'E1b1'** 계열의 Y 염색체 하플로그룹(Haplogroup)이 확인되었습니다. 이는 지중해와 이탈리아 토스카나 지역에서 흔히 발견되는 혈통입니다.

### 💡 5. 고찰 및 의의: 가능성과 한계 사이

이 연구는 유물 표면에서 추출한 아주 적은 양의 DNA만으로도 해당 물건의 '생물학적 이력서'를 쓸 수 있음을 보여주었습니다. 다만, 유물 표면의 DNA는 현대의 보관자나 연구자의 손길에 의해 혼합되었을 가능성이 매우 큽니다. 따라서 이번에 발견된 Y 염색체 신호가 100% 레오나르도 다 빈치의 것이라고 확신하기에는 아직 무리가 있으며, 추가적인 검증이 필요합니다.

### ✨ 6. 이 연구가 왜 중요한가요?

1. 

**과학적 감정의 새로운 지평**: 단순히 눈으로 작품을 감정하는 것을 넘어, 보이지 않는 유전 정보를 통해 유물의 진위나 출처를 밝히는 '과학적 고고학'의 길을 열었습니다.

2. 

**보존 과학의 발전**: 미생물 분석을 통해 유물을 부식시키는 곰팡이나 세균을 미리 파악하고 적절한 보존 처리를 할 수 있는 기초 데이터를 제공합니다.

3. 

**역사적 퍼즐의 완성**: 문헌으로만 존재하던 역사를 생물학적 증거와 연결함으로써, 과거의 삶과 환경을 더욱 입체적으로 복원할 수 있게 해줍니다.

비록 수백 년의 시간이 흘렀지만, 과학 기술은 레오나르도 다 빈치가 남긴 손길의 흔적을 조금씩 우리에게 보여주고 있습니다. 앞으로 더 많은 연구가 진행된다면, 우리는 거장의 유전자 지도를 완성하게 될지도 모릅니다.

---

*본 포스팅은 생물학적 서명과 유전체 분석을 다룬 최신 연구 논문 "Biological signatures of history: Examination of composite biomes and Y chromosome analysis from da Vinci-associated cultural artifacts"를 바탕으로 작성되었습니다.*


chatGPT

아래는 **업로드하신 논문(Leonardo da Vinci 관련 문화유산에서의 생물학적 흔적 분석 연구)**을 바탕으로,

**일반 성인 독자 대상 블로그용 요약 글**로 재구성한 내용입니다.

논문의 실제 실험 내용과 해석을 중심으로 쓰였으며, 요청하신 구성 요소를 모두 포함했습니다.

---

## 르네상스 예술품에 남아 있는 ‘보이지 않는 흔적들’

### 레오나르도 다 빈치 관련 유물에서 DNA로 읽어낸 역사

### 1. 연구 배경 – 예술품에도 ‘생물학적 역사’가 남아 있다

우리가 박물관이나 미술관에서 보는 드로잉, 편지, 문서 같은 문화유산은 단순한 종이나 잉크 덩어리가 아닙니다. 이 물건들은 제작된 순간부터 수백 년 동안 보관되고, 옮겨지고, 수많은 사람의 손을 거치며 **미생물, 식물, 동물, 인간의 DNA**를 조금씩 축적해 왔습니다.

최근 유전체 분석 기술의 발달로, 이런 극미량의 DNA를 분석해 **문화유산이 겪어온 환경과 취급의 흔적**을 추적하려는 시도가 늘어나고 있습니다. 하지만 문제는 분명합니다.

* 문화유산은 **훼손할 수 없고**,

* 표면에서 얻을 수 있는 DNA는 **양이 매우 적고**,

* 현대인의 접촉으로 인한 **오염 가능성**이 매우 크다는 점입니다.

이 논문은 바로 이 어려운 조건 속에서, **어디까지가 가능하고 어디부터가 한계인지**를 매우 조심스럽게 검증한 연구입니다.

---

### 2. 연구 목적 – 무엇을 알고자 했는가

연구진의 목표는 대단히 명확하면서도 보수적입니다.

1. 레오나르도 다 빈치와 관련된 그림과 문서 표면에서

   **어떤 종류의 생물학적 DNA가 검출되는지**를 체계적으로 기록한다.

2. 같은 방법을 썼을 때, **유물 간에 재현 가능한 차이**가 나타나는지를 본다.

3. 극히 제한적이지만, **남성의 Y염색체 DNA**를 통해

   다 빈치 가문과 연관된 **부계 계통 신호가 탐지 가능한지**를 탐색한다.

중요한 점은, 이 연구가 “다 빈치의 DNA를 발견했다”라고 단정하지 않는다는 것입니다.

오히려 **과학적으로 어디까지 말할 수 있는지**를 명확히 구분하는 데 초점을 둡니다.

---

### 3. 연구 방법 – 유물을 해치지 않는 최소 침습 분석

연구진은 다음과 같은 대상들을 분석했습니다.

* 레오나르도 다 빈치의 작품으로 추정되는 적필 드로잉 *「Holy Child」*

* 다 빈치의 조상인 **프로시노 다 빈치**가 남긴 15세기 편지들

* 같은 시대 또는 다른 화가들의 비교용 드로잉

* 현대 오염을 평가하기 위한 다양한 대조군(환경, 연구자, 액자 등)

#### 핵심 방법은 다음과 같습니다.

* **아주 부드러운 면봉으로 표면을 쓸어내는 이중 스와빙(double swab)**

* 극미량 DNA를 그대로 사용한 **전장 메타유전체 시퀀싱**

* 세균, 곰팡이, 식물, 동물, 바이러스까지 모두 포함한 **다영역 생물 분석**

* 인간 DNA 중에서도 특히 **Y염색체 마커**를 선택적으로 분석

이 모든 과정은 “유물을 손상시키지 않는 것”을 최우선 원칙으로 설계되었습니다.

---

### 4. 연구 결과 – 유물은 ‘복합 생태계’였다

#### (1) 유물마다 다른 ‘복합 바이옴’

분석 결과, 모든 유물 표면에서 **다양한 생물의 DNA가 혼합된 형태**로 검출되었습니다.

* 세균 DNA가 가장 많았고

* 곰팡이, 식물, 동물, 바이러스 DNA도 함께 존재했습니다

이 조합은 유물의 재질, 보관 환경, 복원 처리, 사람의 접촉 이력에 따라 **유물마다 뚜렷하게 달랐습니다**.

통계 분석(PCA 등)에서도 각 유물은 서로 다른 “생물학적 지문”을 보였습니다.

#### (2) 식물·환경 DNA가 말해주는 역사적 맥락

검출된 식물 DNA 중에는

* 르네상스 시대 이탈리아에 흔했던 곡물과 나무

* 종이 제작, 목재, 수지, 바니시 등에 사용되었을 가능성이 있는 식물

  이 포함되어 있었습니다.

특히 *Holy Child*에서 상대적으로 많이 검출된 **감귤류(Citrus)** DNA는,

메디치 가문의 정원 문화와 레오나르도 다 빈치의 활동 공간을 떠올리게 하는 **흥미로운 단서**를 제공합니다.

물론 연구진은 이를 “증거”가 아닌 **역사적으로 그럴듯한 맥락**으로만 해석합니다.

#### (3) 인간 Y염색체 DNA – 가능성은 있으나 매우 제한적

여러 다 빈치 관련 유물에서 **E1b1/E1b1b 계통의 Y염색체 신호**가 반복적으로 관찰되었습니다.

이 계통은 오늘날에도 **이탈리아와 지중해 지역에 흔한 부계 계통**입니다.

* 여러 독립 샘플에서 유사한 계통이 나왔다는 점은 의미가 있지만

* 현대 남성 대조군에서도 같은 계통이 존재했고

* DNA 양이 너무 적고 혼합되어 있어

연구진은 이를 **“다 빈치 가문과 연결될 가능성이 있는 신호” 이상으로 해석하지 않습니다**.

---

### 5. 고찰 – 무엇을 말할 수 있고, 무엇을 말할 수 없는가

이 연구의 가장 큰 미덕은 **과도한 해석을 철저히 경계한다는 점**입니다.

* 문화유산 표면 DNA는 본질적으로 **혼합물**이며

* 현대 오염과 실험적 잡음에 매우 민감하고

* 단일 생물이나 개인에게 귀속시키기 어렵습니다.

그럼에도 불구하고,

동일한 방법으로 반복 분석했을 때 **유물 간 차이가 일관되게 나타난다는 점**은

이 접근법이 **보존 과학과 비교 연구**에는 충분히 가치가 있음을 보여줍니다.

---

### 6. 연구의 의의와 시사점

이 연구의 진짜 가치는 다음에 있습니다.

* 문화유산을 손상시키지 않고도

  **과학적 데이터를 얻을 수 있는 표준적 접근법**을 제시했다는 점

* “무엇이 가능한지”뿐 아니라

  **“무엇은 아직 말할 수 없는지”를 명확히 선을 그었다는 점

* 예술사, 보존과학, 유전체학, 법과학이 만나는

  **진정한 융합 연구의 모델**을 보여주었다는 점

앞으로 이 방법은

* 유물의 보존 상태 모니터링

* 위작·진위 논쟁의 보조 자료

* 역사적 환경과 취급 이력 연구

  등에 점진적으로 활용될 수 있을 것입니다.

---

### 7. 왜 이 연구가 중요한가

이 연구는 “레오나르도 다 빈치의 DNA를 찾았다”는 자극적인 이야기가 아닙니다.

대신, **과학이 역사와 예술을 어떻게 존중하며 접근해야 하는지**를 보여주는 사례입니다.

보이지 않는 미세한 DNA 조각들을 통해

유물이 살아온 시간, 거쳐온 환경, 그리고 인간과의 접점을 조심스럽게 복원하려는 시도.

이 논문은 우리에게 이렇게 말합니다.

> 문화유산은 과거의 물건이 아니라,

> 지금도 과학적으로 읽어낼 수 있는 ‘기록 매체’다.

그리고 그 기록을 읽는 데에는

**기술만큼이나 겸손함이 중요하다**는 사실을 분명히 보여줍니다.


grok

### 역사 속 생물학적 흔적: 레오나르도 다 빈치 유물의 DNA 분석

#### 연구 배경

문화 유물(예: 그림, 편지)은 오랜 세월 동안 재료, 환경, 사람의 손길로부터 DNA를 쌓아둡니다. 하지만 이러한 유물은 귀하고 약해 비파괴적 샘플링만 가능하며, DNA 양이 적고 현대 오염 위험이 큽니다. 기존 연구에서 미생물 커뮤니티를 분석해 유물 보존 상태를 파악했지만, 인간 DNA(특히 남성 계통의 Y 염색체)를 활용한 역사적 추적은 아직 도전적입니다. 이 연구는 르네상스 시대 예술가 레오나르도 다 빈치(1452-1519)와 관련된 유물에서 이러한 생물학적 '서명'을 탐색합니다.

#### 연구 목적

레오나르도 다 빈치의 '성스러운 아이'(~1472-1476) 그림과 그의 조상(프로시노 디 세르 지오반니 다 빈치)의 편지, 그리고 비교용 다른 예술가(필리피노 리피, 안드레아 사키, 샤를 J. 플리파트)의 그림에서 DNA를 회복해 복합 '바이옴'(미생물·식물·동물·바이러스 등)을 분석합니다. 목적은 (1) 유물 표면의 생물학적 구성 묘사, (2) 샘플 간 차이 확인, (3) Y 염색체 신호의 해석 가능성 평가입니다. 역사적 기원 추적은 보수적으로 접근하며, 현대 오염을 고려합니다.

#### 연구 방법

유물을 손상시키지 않기 위해 부드러운 면봉(습식/건식 또는 건식/건식)으로 표면을 채취했습니다. 추출된 DNA를 전체 메타게놈 시퀀싱(저입력, 인간 DNA 제거 없이)으로 분석해 미생물·식물·동물·바이러스를 분류했습니다. 엄격한 기준과 완화된 스캐폴드 기반 분류를 병행했습니다. 인간 DNA 중 Y 염색체는 ~9만 개의 계통학적 마커와 부분 Y-STR 프로파일링으로 분석했습니다. 다변량 분석(PCA, Bray-Curtis 거리)으로 샘플 간 차이를 비교했습니다.

#### 연구 결과

유물에서 다양한 DNA가 검출됐습니다. 식물(잔디, 옥수수, 멜론, 소나무 등), 동물(돼지, 개), 곰팡이(리조니아, 피레노포라 등), 바이러스(인유두종바이러스, 박테리오파지), 박테리아(피부 관련 큐티박테리움 아크네스, 렙토스피라 등)가 혼합된 '복합 바이옴'이 관찰됐습니다. '성스러운 아이' 그림에서 감귤 DNA가 상대적으로 많았고, 편지에서 말라리아 원충(플라스모디움)이 10배 높게 나타났습니다. 샘플 간 바이옴 구성 차이가 뚜렷해 다변량 분석에서 분리됐습니다. Y 염색체 분석에서 다 빈치 관련 유물은 E1b1/E1b1b 계통을 암시했으나, 대조군도 혼합 신호를 보여 현대 핸들링 영향이 큽니다.

#### 고찰

결과는 유물 기질, 보존 처리, 보관 환경, 핸들링의 영향을 반영합니다. 식물·동물 DNA는 먼지나 재료에서 유래할 수 있지만, 피부 곰팡이(말라세지아)는 현대 접촉을 시사합니다. 말라리아 검출은 오염 가능성 때문에 예비적입니다. Y 염색체 신호는 혼합으로 인해 역사적 귀속이 어렵습니다. 저바이오매스 데이터의 한계(오염, 낮은 신호-잡음 비율)를 인정하며, 추가 검증(복제, 오염 통제)이 필요합니다.

#### 의의와 시사점

이 연구는 최소 침습 워크플로우를 제시해 문화 유물의 생물학적 분석 기준을 세웁니다. 보존 과학에서 바이오디테리오레이션 모니터링이나 취급 이력 추적에 활용 가능하며, 미래 가설 기반 연구(기원, 인증)에 기반이 됩니다. 궁극적으로, 과학과 예술·역사의 융합을 촉진합니다.

이 연구가 중요한 이유는 역사적 유물을 파괴하지 않고 DNA로 '과거의 목소리'를 듣는 방법을 열어주기 때문입니다. 다 빈치 같은 위대한 인물의 흔적을 현대 기술로 탐구하며, 문화 보존과 과학의 새로운 지평을 넓힙니다.


NotebookLM

## 르네상스의 거장, 레오나르도 다빈치의 흔적을 DNA에서 찾다: '역사의 생물학적 서명'

인류 역사상 가장 위대한 천재로 꼽히는 레오나르도 다빈치. 그가 직접 만지고 그렸던 작품들에는 어떤 비밀이 숨겨져 있을까요? 최근 과학자들은 다빈치와 그의 조상들과 관련된 예술품 및 서신에서 **'역사의 생물학적 서명(Biological signatures of history)'**이라 불리는 미세한 DNA 흔적을 찾아내는 데 성공했습니다. 

---

### 1. 연구 배경: 예술품 속에 숨겨진 보이지 않는 기록

문화유산들은 만들어진 재료부터 보관 환경, 그리고 이를 만졌던 수많은 사람의 접촉에 이르기까지 오랜 세월 동안 다양한 DNA 정보를 축적합니다. 하지만 이러한 유물들은 매우 유약하고 독특하기 때문에, 분석을 위해 샘플을 떼어내는 행위는 최소화되어야 합니다. 따라서 아주 적은 양의 DNA만으로도 현대의 오염과 역사적 흔적을 구분해낼 수 있는 **비침습적이고 정밀한 분석 기술**이 절실히 필요했습니다.

### 2. 연구 목적: 유물의 '생물학적 이력서' 작성

본 연구의 목적은 레오나르도 다빈치와 관련된 유물들에서 검출되는 미생물, 식물, 동물, 그리고 인간의 DNA를 통합적으로 분석하는 표준 워크플로를 구축하는 것입니다. 이를 통해 해당 유물이 어떤 환경에서 보관되었는지, 어떤 재료로 만들어졌는지, 그리고 **제작자나 소유자의 유전적 특징**을 유추할 수 있는지 그 가능성과 한계를 시험하고자 했습니다.

### 3. 연구 방법: 부드러운 면봉으로 깨우는 과거의 기억

연구진은 유물에 손상을 주지 않는 **'이중 면봉 채취법(Double swab)'**을 사용했습니다. 다빈치의 작품으로 추정되는 '성스러운 아이(Holy Child)' 소묘와 그의 조상인 프로시노 다빈치의 서신, 그리고 비교군인 다른 거장들의 작품 표면을 살짝 닦아내어 DNA를 수집했습니다. 이후 최첨단 해독 기술(NGS)을 이용해 인간 DNA를 따로 분리하지 않고 전체 생태계(메타게놈)를 한꺼번에 분석했으며, 특히 남성 계보를 확인할 수 있는 **Y-염색체 마커 약 90,000개**를 집중적으로 조사했습니다.

### 4. 주요 연구 결과: 유전자 지도로 본 르네상스 풍경

유물의 표면에서는 시대를 뛰어넘는 다양한 생명체의 흔적이 발견되었습니다.

*   **식물과 동물의 기록:** 이탈리아 라이그라스, 기장, 버드나무, 소나무 등의 DNA가 검출되었습니다. 특히 **'성스러운 아이' 작품에서만 발견된 감귤류(Citrus spp.) DNA**는 다빈치가 활동했던 피렌체 메디치 가문의 이국적인 정원 환경과 밀접한 관련이 있을 것으로 추정됩니다. 또한 돼지와 늑대의 DNA는 당시 붓의 재료로 쓰였던 털의 흔적일 가능성을 시사합니다.

*   **미생물이 들려주는 역사:** 르네상스 시대 피렌체의 쥐 문제나 가축 사육 환경을 짐작게 하는 세균(Leptospira, Chlamydia)과 당시 이탈리아 전역에 유행했던 **말라리아(Plasmodium spp.)**의 흔적이 발견되었습니다.

*   **다빈치 가문의 유전적 단서:** 다빈치 관련 유물들에서 공통적으로 **'E1b1/E1b1b'라는 Y-염색체 하플로그룹(부계 혈통 집단)** 신호가 반복해서 나타났습니다. 이는 지중해와 이탈리아 토스카나 지역에서 흔히 발견되는 혈통으로, 여러 독립적인 샘플에서 일관되게 나타났다는 점이 주목할 만합니다.

### 5. 고찰 및 의의: 과학과 예술의 만남

연구 결과에 따르면, 유물 표면의 DNA는 역사적 흔적과 현대의 접촉 오염이 뒤섞인 복합체입니다. 비록 현대인의 손길에 의한 혼입 가능성을 완전히 배제할 수는 없지만, 이번 연구는 **비침습적인 방식만으로도 유물의 원산지, 진위 여부, 그리고 취급 이력**을 추론할 수 있는 기초 데이터를 제공했다는 점에서 큰 의의가 있습니다.

---

### 💡 이 연구가 왜 중요한가요?

이 연구는 우리가 박물관 유리 너머로만 보던 **예술품을 하나의 '생생한 타임캡슐'로 변모**시켰습니다. 단순히 작품의 미적 가치를 감상하는 것을 넘어, 그 표면에 내려앉은 수백 년 전의 먼지 한 톨, 꽃가루 한 알 속 DNA를 읽어냄으로써 거장이 숨 쉬던 당시의 환경과 그의 유전적 발자취를 직접 연결할 수 있게 된 것입니다. 

이는 향후 도난당했거나 출처가 불분명한 문화재를 과학적으로 인증하고, 유물을 더 안전하게 보존하기 위한 **'생물학적 감식 기술'**의 시대를 여는 중요한 이정표가 될 것입니다.

**비유하자면:** 이 연구는 마치 오래된 일기장에 묻은 마른 꽃잎과 얼룩을 분석하여, 그 일기를 쓴 사람이 어느 숲길을 걸었으며 어떤 병을 앓았고 심지어 그 가문의 내력이 어떠했는지를 알아내는 **'생물학적 탐정 수사'**와 같습니다.


Perplexity.ai

이 논문은 르네상스 시대의 그림과 편지 같은 문화재 표면에 묻어 있는 “DNA 먼지”를 조심스럽게 모아, 그 안에 남은 생물학적 흔적으로 과거의 흔적을 읽어내려는 연구입니다.[1]

## 연구 배경과 질문

- 그림, 옛 편지, 조각 같은 문화재는 수백 년 동안 사람의 손, 공기 중 먼지, 곰팡이, 곤충 등 온갖 생물과 접촉하며 눈에 안 보이는 DNA를 조금씩 쌓아 갑니다.[1]

- 하지만 이런 유물은 매우 귀해서 **파괴하지 않고** 아주 소량만 채취해야 하고, 그 소량 안에도 현대 사람 손때가 섞여 있어 “옛날 흔적”과 “최근 오염”을 구분하기가 어렵습니다.[1]

- 이 연구팀은 “레오나르도 다 빈치와 관련된 유물 표면에서, 비침습적으로 DNA를 채취해 그 안에 어떤 생물들이 섞여 있는지, 그리고 사람(특히 남성) Y염색체 흔적까지 어느 정도까지 읽어낼 수 있는가?”를 질문으로 삼았습니다.[1]

## 연구 대상과 목적

- 연구 대상  

  - 레오나르도 다 빈치로 추정되는 붉은 초크(붉은 색 연필) 소묘 「성스러운 아이(Holy Child)」.[1]

  - 다 빈치의 조상인 프로시노 디 세르 조반니 다 빈치가 쓴 14세기 말 편지 10통.[1]

  - 같은 시기/유럽권의 다른 대가들(필리피노 리피, 안드레아 사키, 샤를 J. 플리파르)의 드로잉.[1]

  - 현대 남성 3명, 여성 1명의 구강 면봉, 전시 공간·액자·상업용 그림 표면 등 다양한 대조군.[1]

- 주요 목표  

  1. 유물 표면에서 **최소 손상**으로 회수 가능한 DNA의 양과 종류(박테리아, 곰팡이, 식물, 동물, 바이러스 등)를 파악.[1]

  2. 유물마다 “섞여 있는 생물 군집(바이옴)”이 서로 다르게 나타나는지, 즉 작품별로 고유한 생물학적 지문이 있는지 확인.[1]

  3. 그 안에서 남성 특이적인 **Y염색체 신호**를 잡아, 어떤 계통(haplogroup)에 속하는지까지 추정할 수 있는지, 그리고 그 한계를 평가.[1]

## 연구 방법 (쉽게 설명)

### 1. 유물 표면에서 DNA 채취

- 연구진은 범죄현장에서 침이나 피부세포를 채취할 때 쓰는 “더블 스왑(double swab)” 기법을 응용했습니다.[1]

  - 일부 유물: 물에 적신 면봉으로 표면을 매우 살짝 문지르고, 이어서 마른 면봉으로 같은 자리를 다시 문지름(젖은/마른).[1]

  - 편지 등 더 민감한 자료: 마른 면봉만 두 번 사용하는 방식(마른/마른).[1]

- 두 방법 모두 회수되는 DNA 양은 비슷했으며, 유물 손상을 최소화하면서도 분석 가능한 수준의 DNA를 얻을 수 있었습니다.[1]

### 2. 초저농도 DNA로 전체 유전체(메타게놈) 시퀀싱

- 면봉에서 추출한 극소량의 DNA를 바로 **전체 메타게놈 시퀀싱(shotgun metagenomics)**으로 분석했습니다.[1]

- 사람 DNA를 일부러 제거하지 않고, 들어 있는 모든 생물의 DNA 조각을 통째로 읽은 뒤, 컴퓨터로 어느 종의 유전자에 가까운지 하나씩 분류했습니다.[1]

- 각 유물에서 어떤 미생물·식물·동물·바이러스가 얼마나 나오는지 “비율표”를 만들고, 통계적으로 비교했습니다.[1]

### 3. Y염색체 계통 분석

- 각 샘플에서 인간 유전체에 매핑되는 읽힘(read)들 중 **Y염색체**에 붙는 것만 골라냈습니다.[1]

- 남성에게만 있는 Y염색체는 “아버지→아들”로 이어지며, 특정 지점의 변이 패턴에 따라 E1b1, R1b, J1 등 여러 하플로그룹으로 나뉩니다.[1]

- 연구팀은 약 9만 개의 Y염색체 계통 마커(변이 위치)를 기준으로, 각 샘플에 어떤 하플로그룹이 가장 잘 맞는지 계산했습니다.[1]

- 별도로, 법의학에서 쓰는 **Y-STR(짧은 반복 구간)** 키트를 이용해 부분적인 남성 프로파일을 만들고, 통계적 모델로 어떤 하플로그룹일 가능성이 높은지도 추정했습니다.[1]

## 주요 결과 1: 유물마다 다른 “혼합 생물 군집”

### 1) 다양한 생물 DNA가 섞여 존재

- 네 점의 그림과 편지에서 회수된 DNA는 박테리아, 곰팡이, 식물, 동물, 바이러스 등 여러 생물 영역이 뒤섞인 **복합 바이옴(composite biome)** 형태였습니다.[1]

- 거칠게 보면  

  - 박테리아가 가장 많은 비중을 차지하고,[1]

  - 그 다음으로 곰팡이, 식물, 동물, 바이러스 순으로 다양한 조합이 나타났습니다.[1]

### 2) 식물·동물·곰팡이 흔적

- 식물 DNA  

  - 이탈리아 호밀풀(Lolium multiflorum), 기장(Panicum miliaceum), 옥수수(Zea mays), 버드나무(Salix spp.), 멜론(Cucumis melo), 소나무(Pinus spp.), 주목(Taxus spp.), 감귤류(Citrus spp.) 등이 검출됐습니다.[1]

  - 특히 감귤류 DNA(Citrus sinensis)는 「성스러운 아이」에서 상대적으로 가장 높게 나타났습니다.[1]

- 동물 DNA  

  - 돼지(Sus scrofa)와 개(Canis lupus)의 DNA가 여러 그림에서 발견되었는데, 이는 돼지가죽·동물성 재료, 현대 환경, 사람·애완동물 접촉 등 다양한 경로를 시사합니다.[1]

- 곰팡이 DNA  

  - 종이·목재에서 흔히 발견되는 곰팡이(Alternaria 등)와 인간 피부와 관련된 Malassezia류가 관찰되었고, 후자는 현대 인체 접촉을 반영하는 것으로 해석됩니다.[1]

이러한 식물·동물·곰팡이들은 “이 작품이 어느 지역, 어떤 환경에서 만들어지고 보관되었는지”에 대한 **간접적인 단서**를 제공하지만, 개별 종만 보고 “이 그림은 반드시 어디서 그렸다”고 단정할 수는 없다는 점을 연구진은 여러 차례 강조합니다.[1]

### 3) 박테리아와 바이러스

- 박테리아  

  - 사람 피부에 흔한 Cutibacterium acnes 등, 현대 인체 접촉을 명확히 시사하는 균들이 매우 풍부하게 나타났습니다.[1]

  - 그 밖에도 환경 또는 동물과 관련된 Leptospira spp. 등 다양한 박테리아가 발견되었습니다.[1]

- 바이러스  

  - 사람 유두종바이러스(HPV)와 각종 박테리오파지(세균을 감염시키는 바이러스)가 주로 검출되었습니다.[1]

### 4) 유물별로 “생물학적 지문”이 다름

- 통계 분석(PCA, Bray–Curtis 거리 등) 결과, 각 작품과 편지는 **서로 다른 방향으로 군집을 형성**했습니다.[1]

- 즉, 작품마다 축적된 미생물·식물·동물·바이러스의 조합이 달라, “Holy Child 바이옴”, “편지 바이옴”처럼 구분되는 생물학적 특징을 갖는다는 뜻입니다.[1]

- 연구진은 이것이 곧 “작품 고유의 생물학적 서명(biological signature)”일 가능성을 보여 주지만, 오염·보관환경의 영향을 철저히 통제한 후에야 진짜 ‘지문’으로 활용할 수 있다고 신중하게 설명합니다.[1]

## 주요 결과 2: Y염색체 계통 신호 – E1b1/E1b1b

### 1) 인간 Y염색체 읽기: 매우 희미하지만 존재

- 모든 샘플에서 사람 DNA는 극히 적게 검출되었고, 그중에서 Y염색체에 매핑되는 읽힘도 아주 적었습니다.[1]

- 16개 샘플 중 **5개만**이 겨우 하플로그룹을 말할 수 있을 정도의 마커 수(최대 2,356개, 평균 261개)를 제공했습니다.[1]

### 2) 다 빈치 관련 유물에서 공통적으로 보이는 E1b1/E1b1b

- 「성스러운 아이」 앞면·가장자리·뒷면, 그리고 프로시노의 편지(여러 통을 합친 데이터)에서 모두 **E1b1/E1b1b 계열**의 하플로그룹이 가장 잘 맞는 것으로 나타났습니다.[1]

  - Holy Child 앞면: E1b1b-CTS9049,  

  - Holy Child 가장자리: E1b1b-CTS8033,  

  - Holy Child 뒷면: E1b1b1b 하위계통들,  

  - 편지: 보다 상위 가지인 E1b1-CTS1867.[1]

- Y-STR 분석에서도 「성스러운 아이」는 E1b1b 하플로그룹일 가능성이 약 78%로 가장 높게 나왔고, 편지는 E1b1b와 I1(북유럽·중앙유럽 계열) 사이에서 확률이 갈렸습니다.[1]

### 3) 이 계통이 의미하는 것

- E1b1/E1b1b 계열은 오늘날 **지중해, 이탈리아 중·남부 및 토스카나 지역에도 흔히 존재하는 Y계통**입니다.[1]

- 즉, 이 계통이 검출된다고 해서 “이건 반드시 레오나르도의 Y계통이다”라고 단정할 수 없고, 토스카나 사람들(역사·현대)의 여러 남성이 공유하고 있을 수 있는 계통입니다.[1]

- 게다가, 남성 대조군 중 1명도 E1b1b 하플로그룹을 가지고 있어서, 현대 연구자·소장자·보존가의 DNA가 섞였을 가능성을 배제할 수 없습니다.[1]

### 4) 그래도 의미 있는 “공통 신호”

- 그럼에도 불구하고,  

  - 레오나르도와 관련된 그림(성스러운 아이),  

  - 그의 조상의 편지,  

  - 서로 다른 위치에서 독립적으로 채취한 면봉들에서  

  계속해서 E1b1/E1b1b 신호가 반복적으로 나타난다는 점은 “어떤 **공유된 남성 혈통 신호**가 있을 가능성”을 시사합니다.[1]

- 연구진은 이 신호가 실제 “다 빈치 가문의 Y계통”인지 확인하려면,  

  - 레오나르도와 확실히 관련된 더 많은 유물(스케치, 노트, 다른 그림),  

  - 최근 재구성된 다 빈치 가계도에 나온 남계 후손의 DNA와의 직접 비교가 필요하다고 강조합니다.[1]

## 고찰: 이 연구가 보여준 것과 한계

### 1) 문화재의 “생물학적 층위”를 읽는 새로운 방식

- 이 연구는 문화재를 단순히 미술·역사적 대상이 아니라, **시간이 켜켜이 쌓인 생물학적 기록물**로 보는 관점을 제시합니다.[1]

- 한 작품의 표면에는 제작 당시 재료(종이, 안료, 동물성 접착제 등), 당시 환경(강 주변 식물, 농경지, 가축, 질병), 이후 수백 년 간의 보관 장소와 사람 손길이 모두 섞여 흔적으로 남습니다.[1]

- 연구진은 이 복합 신호를 “컴포지트 바이옴(composite biome)”라고 부르며, 작품의 재질·보존 상태·환경 변화를 감시하는 도구로 활용 가능성을 제안합니다.[1]

### 2) 계통·출처 추적에 대한 기대와 경고

- 미생물·식물·동물 DNA를 보면 “어느 지역에서 왔는지, 어떤 환경과 관련이 있는지”를 어렴풋이 짐작할 수 있습니다.[1]

- 하지만 초저농도·고오염 위험 환경에서는 분석 방법과 대조군 설정에 따라 결과가 크게 달라질 수 있어,  

  - “이 그림은 반드시 어떤 도시에서 그렸다”,  

  - “이 유물은 어느 가문이 소유했다”  

  같은 강한 스토리텔링은 **추가 검증 없이는 위험하다**고 연구진은 반복해서 경고합니다.[1]

### 3) Y염색체 계통 분석의 가능성과 제약

- 남성 표면 DNA에서 Y염색체 계통을 읽는 것은, 이론적으로는 “누가 이 유물을 만들고 만졌는지”에 대한 강력한 실마리가 될 수 있습니다.[1]

- 그러나 실제로는  

  - DNA 양이 너무 적고,  

  - 여러 남성의 DNA가 섞여 있으며,  

  - 오래된 DNA는 손상(예: C→T 변이)되어 있어,  

  안정적인 계통 추론에 필요한 정보가 극히 제한적입니다.[1]

- 그래서 이번 연구에서 얻은 E1b1/E1b1b 신호는 “가능성이 있는 후보” 수준이며,  

  이 신호가 “레오나르도의 진짜 Y계통”인지 말하려면 훨씬 더 많은 유물·후손 샘플·정교한 오염 통제가 필요합니다.[1]

## 의의와 시사점

- 문화재 과학  

  - 유물 표면에서 최소한의 접촉으로도 **다영역(박테리아·곰팡이·식물·동물·바이러스·인간) 생물 정보를 동시에 읽어낼 수 있는 표준화된 절차**를 제시했습니다.[1]

  - 향후 박물관·아카이브에서 작품의 보존 상태를 모니터링하거나, 특정 보존 처리·저장 환경이 미생물군에 미치는 영향을 추적하는 데 활용될 수 있습니다.[1]

- 역사·인류학  

  - 르네상스 피렌체·토스카나 환경(곡물, 강 주변 식물, 가축, 질병 등)에 부합하는 생물들이 유물 표면에서 포착되며, 역사적 기록과 생물학적 흔적이 서로 맞물릴 수 있음을 보여 줍니다.[1]

  - E1b1/E1b1b 계열 Y신호는 토스카나 및 지중해 인구 구조와 들어맞아, 레오나르도 연구와 지역 인류유전학 연구를 잇는 흥미로운 출발점을 제공합니다.[1]

- 법의학·유전자 계통학  

  - 초저농도·혼합 DNA 환경에서 Y염색체 마커와 Y-STR을 함께 사용해 계통을 추정하는 실제 사례를 제공해, 향후 역사적 유골·유물 연구, 법의학 사건, 족보 연구 등에 참고가 될 수 있습니다.[1]

## 이 연구가 왜 중요한가?

- 이 연구는 “옛 그림과 편지는 단지 눈에 보이는 예술품이 아니라, 수백 년 동안의 사람·환경·질병·재료의 흔적이 분자 수준에서 켜켜이 쌓인 **생물학적 타임캡슐**”이라는 사실을 설득력 있게 보여 줍니다.[1]

- 동시에, 그 타임캡슐을 열 때는 현대 오염과 분석 편향으로 인해 잘못된 이야기를 만들 위험도 크다는 점을 솔직하게 드러내, 앞으로 이런 연구를 할 때 꼭 지켜야 할 **방법론적·윤리적 기준선**을 제시합니다.[1]

- 레오나르도 다 빈치라는 상징적인 인물을 사례로 삼았다는 점에서 대중의 관심을 끌 수 있고, 과학과 인문학·예술이 만나는 지점에서 새로운 융합 연구의 가능성을 보여 주는 점에서 큰 의미를 가집니다.[1]


Kimi

레오나르도 다빈치 유품에서 DNA를 퀴즈처럼 훑어본 2026년 첫 과학 이야기  

(생물학 프리프린트 논문 ‘Biological signatures of history’를 쉽게 풀어 쓴 글)

---

### 1. 연구 배경 – “그림에도 DNA가 남아 있을까?”

- 유명한 미술품이나 고서는 수백 년 동안无数人의 손길, 먼지, 바이러스, 습기, 보존 화학물질 등과 접촉합니다.  

- 이런 ‘만짐’은 표면에 극소량의 DNA를 남기는데, 그것이  

  – 누가 그림을 그렸는지  

  – 어떤 환경에 있었는지  

  – 해충이나 세균이 작품을 해치고 있는지  

  알려줄 수 있습니다.  

- 문제는 “標本을 깎아내지 않고도” DNA를 뽑아낼 기술이 최근에야 겨우 생겼다는 점, 그리고 “현대인의 DNA가 뒤섞여 버리면 진짜 고DNA인지 구분이 어렵다”는 점입니다.

---

### 2. 연구 목적 – “레오나르도 다빈치 유품에 낀 ‘생명의 흔적’ 지도를 그려보자”

1. 작품 표면을 살살 닦아(chalk drawing 겉에 ‘극소량’ DNA) 뽑아내도 충분한 정보가 나오는지 ‘실험 가능성’을 점검.  

2. 뽑힌 DNA가  

   – 세균·곰팡이·식물·바이러스 등 다양한 생물(=composite biome)로 이루어져 있는지,  

   – 작품마다 그 ‘생명 지도’가 다르게 보이는지,  

   – 사람(특히 남성) DNA도 섞여 있는지 확인.  

3. 남성 DNA가 있다면 ‘Y-염색체’만 집어 파고들어 레오나르도 집안의 ‘父系(부계) 흔적’을 읽어볼 수 있을지 탐색.

---

### 3. 연구 방법 – “화장솜으로 닦고, 초저양 DNA 시퀀싱으로 읽는다”

- 대상 작품  

  – ‘Holy Child’(1472~76년 추정) 적연필 드로잉: 레오나르도 다빈치 작품으로 거론됨  

  – 레오나르도의 선조 ‘프로지노 디 세르 조반니 다빈치’가 15세기 쓴 편지 10통  

  – 비교용 그림(리피노 리피, 안드레아 삭키, 샤를 플리파르)  

- 채취: ‘이중 면봉法’ – 약간 젖은 면봉으로 살살 문지르고, 바로 뒤에 마른 면봉으로 또 닦음.  

- DNA 추출 → 전체 메타지놈(세균·곰팡이·식물·동물·인간 DNA 한꺼번에)을 50억 염기 쌍 분량까지 시퀀싱.  

- 데이터 처리  

  – ‘어떤 생물 종이 얼마나 있는지’ 계산(= taxonomic profiling)  

  – 사람 DNA 중 남성 전용 Y-염색체 9만 개 위치를 찍어 대응(= haplogroup 분석)  

- 오염·대조군: 실험실 공기·보관 액자·상업용 그림·현대인(남3·여1) 면봉 등을 함께 분석해 ‘지금 시대 DNA’와 구분.

---

### 4. 연구 결과 – “그림 위엔 ‘생태계’가, 그리고 남성 DNA도 아주 소량 있었다”

1. 복합 생태계(Composite biome)  

   – 5점 모두에 세균>곰팡이>식물>동물>바이러스 순으로 DNA가 섞여 있었고,  

   – 작품마다 ‘세균·식물 조합’이 통계적으로 확연히 달랐다(PCA 그래프에서 뭉쳐 있음).  

   – 특히 ‘Holy Child’엔 귤류(Citrus) DNA가 다른 작품보다 많았고,  

   – 편지 한 통엔 말라리아 원충(Plasmodium) DNA가 10배 가량 진하게 잡혔다.  

   → “이 작품들이 각기 다른 환경·보존·취급 이력을 간직하고 있다”는 물리적 증거.

2. 사람 DNA & Y-염색체  

   – 16건 중 5건에서 ‘Y-마커’ 100~2,300개를 읽을 수 있었다.  

   – 레오나르도 관련 3개 스왑 + 편지 묶음은 모두 ‘E1b1/E1b1b’ 계열 haplogroup에 가장 가까웠다.  

   – 같은 계열이 현대 대조 남성 1명에게서도 나왔지만, 하위 branch가 달라 ‘완전히 똑같다’고 보기는 어려웠다.  

   – Y-STR(短 반복) 분석 결과 ‘Holy Child’는 E1b1b 일 확률 78%, 편지는 I1 vs E1b1b 혼합 양상.  

   → “表면에 낀 남성 DNA가 100% 레오나르도 것이라 단정할 순 없지만, 여러 번 반복적으로 E1b1 계열이 나온 건 ‘家系信号’일 가능성을 배제할 수 없다”는 수준.

---

### 5. 고찰 – “할 수는 있는데, 해석은 눈물나게 조심해야”

- DNA 양이 극소량이라 ‘한 명’의 프로필이 아니라 ‘여러 사람+환경+세균’의 합창이다.  

- E1b1b는 지중해·남이탈리아 토착 haplogroup이라, 레오나르도 가문일 수도,  

  15~21세기 동안 작품을 만진 수리·보존·소장자일 수도 있다.  

- 말라리아 원충, 들풀, 톱밥균 등은 당시 피렌체 환경과 맞아떨어지므로  

  “DNA가 단순 현대 오염은 아니”라는 방어 논리는 가능.  

- 그러나 ‘작품 진위’ 혹은 ‘레오나르도의 유전적 지문’을 증명하는 데에는  

  “더 많은 유품, 확실한 후손 DNA, 중복 실험, 프로테오믹스·대사체 분석”이 필요.

---

### 6. 의의 & 시사점 – “문화유산+생명정보, 첫 삽을 떴다”

1. ‘非破壞 채취 + 초저양 시퀀싱’만으로도 500년 묵은 종이·연필 자국에 어떤 생물이 살았는지 ‘지도’를 그릴 수 있음을 세계 최초로 보여줬습니다.  

2. 미술품 보존학은 이제 “세균이 그림을 먹고 있는가?”를 실시간으로 감시할 수 있는 새 도구를 얻었습니다.  

3. 유전계보학·族譜 연구는 ‘유명인 유품’을 통해 父系 가계를 추적할 수 있는 ‘가능성’을 열었습니다(실제 증명까지는 아직).  

4. 앞으로  

   – 레오나르도 필사본·노트북 등 더 많은 유품,  

   – 확인된 다빈치 家 후손의 Y-염색체,  

   – 단백질·대사물질까지 함께 분석하는 multi-omics  

   이 병행된다면, “과학이 미술사의 미스터리를 풀어주는” 완전히 새로운 장이 열릴 것입니다.

---

### 7. 왜 이 연구가 중요한가?

“위대한 예술가의 손끝이 닿은 순간, 그 순간에 함께 했던 먼지·세균·바이러스까지 시간 캡슐처럼 남아 있다”는 사실 자체가 경이롭습니다.  

이 연구는 “문화유산을 건드리지 않고도 그 안에 살아 숨 쉬는 ‘생명의 역사’를 읽는 문을 열었습니다.”  

결국 미술품 진위 논란, 보존 치료 우선순서, 심지어 르네상스 시대의 역병·환경·경제사까지  

‘그림 표면에 낀 먼지 하나’에서 새로운 실마리를 찾을 수 있게 되었습니다.  

레오나르도 다빈치가 남긴 ‘생명의 흔적’을 처음으로 바라본 이번 시도는,  

“예술과 과학, 과거와 미래를 연결하는 디온시안 다리”를 놓은 최초의 삽이라는 점에서 그 자체로 큰 의미를 지닙니다.






출처: @ye._.vely618

화요일, 3월 17, 2026

로컬PC에서 LLM모델을 구동시켜보자. (OpenCode까지, 수정)

우분투가 설치된 로컬PC에서 여러 LLM들을 돌려보고자 OpenCode/OpenWork 설치를 시도하고 있는 것을 공유차 올려봅니다. :)

우선 현재 테스트 한 머신은 Intel i5, 16G 메모리(DDR3), 500G HDD, Intel 내장형 그래픽카드를 사용하는 PC되겠습니다!! 

지금은 Ubuntu 22.04.5 LTS를 기본 OS로 해서 OpenCode/OpenWork를 설치 테스트를 했는데

OpenCode까지는 큰 무리없이 설치가 마무리되었는데 OpenWork를 설치하는데 계속 에러가 빈번하게 발생해서 우선 지금까지 경험한 내용을 공유하도록 하겠습니다. 


1. Ubuntu 설치
Ubuntu 홈페이지가서 iso 파일을 다운로드 받아, 집에서 굴러다니는 USB 하나에 부팅/설치 USB로 만들어서 공 기계에 설치를 해주시면됩니다. 
(현재 저는 Ubuntu 22.04.5 LTS로 진행했는데, Ubuntu 24.04.4 LTS로 변경해서 진행할 예정입니다. )


2. 기본 설정 (root 권한)
Ubuntu를 다 설치 했다면 이것저것 설치할 때 관리자 권한을 요구하기도 하고 걍 root로 대부분 설치하게되더라구요;; 그래서 root 권환 확보가 필요합니다.
$ sudo passwd root
그러면 패스워드 입력하라고 하는 프롬프트가 나오는데 그냥 적어주시면 됩니다.

$ su -
# apt update
# apt upgrade


그리고 추가적으로 필요한 패키지나 tool들을 설치해야합니다.
※ 보통 이미 설치되어 있는 tool들도 있는데 혹시나해서 넣어놨습니다.

# apt install ufw git curl bzip2 wget cmake build-essential unzip libssl-dev libffi-dev pigz
gcc-10 g++-10 gcc g++ file plocate libgtk-3-dev libayatana-appindicator3-dev librsvg2-dev libjavascriptcoregtk-4.1-0 libsoup-3.0-0 libsoup-3.0-common libwebkit2gtk-4.1-0 libwebkit2gtk-4.1-dev nodejs npm

다 설치 후 원격 접속을 위한 ssh 접근 허용을 위해서 이렇게 포트를 열어줍니다.
# ufw allow ssh
나중에 더 필요하면 포트를 열면 됩니다. 포트 8080을 사용하고자 한다면 
# ufw allow 8080

3. Ollama 설치
Ollama 설치를 일반 계정으로 진행해보려고 했는데 sudo를 물어봐서 걍 관리자 권한인 root 계정으로 들어가서 했으니 참고 부탁드립니다.

# curl -fsSL https://ollama.com/install.sh | sh


이렇게 install.sh 실행시켜 주면 ollama serve 서비스 등록까지 되어서 이미 실행되고 있을 겁니다.
사실 할게 딱히 없습니다.
설치는 관리자 계정으로 진행했지만 파일 다운로드 받거나 하는 것은 일반 계정으로 진행해도 상관없습니다.

$ ollama list

ollama 모델을 로딩 할 때 run으로 하면 되는데 그전에 로컬에 다운로드 받아 놓고 사용하면 좋을 것 같아서 로컬 저장소로 모델을 pull 해놓습니다. :)

$ ollama pull <model name>


4. Opencode 설치

오픈코드도 설치는 문제가 없습니다. su를 이용해서 관리자 권한으로 들어가서 설치 스크립트를 수행하면 설치 완료!! 

# curl -fsSL https://opencode.ai/install | bash

아.. 정정사항이 있습니다. Opencode 설치시 관리자 계정이 아닌 일반 계정에서도 문제없이 설치 됩니다. :)

$ curl -fsSL https://opencode.ai/install | bash

$ source ~/.bashrc


로 명령어를 실행시켜 주시면 설치되고 사용할 수 있습니다. :)

이제 이 다음부터가 문제입니다. Orz

커밍 쑨...









출처: @ye._.vely618

월요일, 3월 16, 2026

복잡한 세포 데이터 분석, 이제 '블랙박스' 없이 투명하게 들여다보기

오늘은 single-cell multi-omics 데이터를 분석 할 때 사용하면 좋은 모델이 있어 한번 가져와봤습니다. Single-cell Multi-Omics, 단일 세포 멀티 오믹스 요즘 세포 하나하나의 정보를 확인 하는데 좋아 많이들 사용하시는 기술입니다. 다만 데이터 종류가 다양하다보니 통합해서 분석하는게 어려워서 모델들의 손을 빌리는 경우가 많이 있어서 분석에 도움도 되지만 왜 이런 결과가 나왔는지 설명도 잘하는 모델을 개발했다고 합니다. Learning interpretable representations of single-cell multi-omics data with multi-output Gaussian processes라는 제목으로 특정 세포가 왜 이런 특성을 보이는지 사람이 이해할 수 있도록 설명해주는 모델을 개발했다고 합니다. :)

우선 제가 Single-cell Multi-Omics를 아직 다뤄보지 않아서 무슨 말인지는 잘 모르겠으나 답안만 주는 것이 아니라 왜 답이 이렇게 나왔는지 설명을 해주는 것이 이 모델의 장점이라고 합니다.

 DOI: 10.1093/nar/gkaf630



gemini

제시해주신 논문 **"Multi-Output Gaussian Processes를 이용한 단일 세포 멀티오믹스 데이터의 해석 가능한 표현 학습(Learning interpretable representations of single-cell multi-omics data with multi-output Gaussian processes)"**의 내용을 바탕으로, 블로그에 올리기 좋은 요약글을 작성해 드립니다.

---

### [Bio-IT 산책] 복잡한 세포 데이터를 한눈에? 'MOMO-GP'가 열어가는 정밀 의료의 미래

안녕하세요! 오늘은 생명과학과 인공지능 기술이 만난 흥미로운 연구 하나를 소개해 드리려고 합니다. 바로 2025년 *Nucleic Acids Research*에 발표된 **MOMO-GP**라는 기술에 대한 이야기입니다. 

#### 1. 연구 배경: 우리 몸속 세포는 왜 이렇게 복잡할까?

최근 과학기술의 발달로 우리 몸속 '단일 세포' 수준에서 유전 정보(RNA), 단백질, 염색질 구조 등 다양한 데이터를 측정할 수 있게 되었습니다. 이를 '멀티오믹스(Multi-omics)'라고 부르는데, 문제는 이 데이터가 너무나 방대하고 복잡하다는 점입니다. 

지금까지는 이 데이터를 분석하기 위해 크게 두 가지 방법을 썼습니다. 하나는 이해하기 쉽지만 정밀도가 떨어지는 방법(선형 모델), 다른 하나는 정밀하지만 왜 그런 결과가 나왔는지 알 수 없는 '깜깜이' 방법(딥러닝 기반의 블랙박스 모델)이었습니다. 

#### 2. 연구 목적: "똑똑하면서도 설명 가능한 AI를 만들자"

이 연구의 목적은 명확합니다. **세포 데이터의 복잡한 특징을 정확하게 잡아내면서도(표현력), 동시에 왜 그렇게 분류되었는지 사람이 직접 이해할 수 있는(해석 가능성) 새로운 분석 모델을 만드는 것**입니다. 

#### 3. 연구 방법: MOMO-GP라는 새로운 해결사

연구팀은 **MOMO-GP(Multi-Omics Multi-Output Gaussian Processes)**라는 모델을 개발했습니다. 이 모델의 핵심은 '가우시안 프로세스(Gaussian Process)'라는 통계 기법을 활용해 **세포(Samples)와 유전자(Features)를 각각 독립적인 가상 공간에 배치**하는 것입니다. 

**따로 또 같이:** 세포와 유전자를 별도의 공간에서 학습시키면서도, 이 둘 사이의 상관관계를 수학적으로 연결했습니다. 

**효율성 극대화:** 엄청난 양의 데이터를 처리하기 위해 '유도 지점(Inducing points)'이라는 기법을 써서 계산 속도를 획기적으로 높였습니다. 

#### 4. 연구 결과: 성능은 기본, 해석은 덤!

연구팀이 혈액 세포(PBMC) 데이터 등을 이용해 성능을 확인한 결과는 놀라웠습니다.

**뛰어난 분류 능력:** 기존의 복잡한 AI 모델(scVI 등)만큼이나 정확하게 세포의 종류를 구분해 냈습니다. 

**유전자 지도의 탄생:** 단순히 세포를 분류하는 데 그치지 않고, 특정 세포 그룹과 밀접하게 연관된 '마커 유전자'들을 시각적으로 한눈에 보여주었습니다. 기존 모델인 SIMBA보다 유전자의 특성을 훨씬 더 잘 잡아낸다는 사실도 입증했습니다. 

**데이터의 연결:** 유전 정보와 단백질 정보 등 서로 다른 종류의 데이터를 통합해서 분석할 때도, 각 데이터가 공유하는 정보가 무엇인지 정확히 짚어냈습니다. 

#### 5. 고찰 및 시사점: 데이터 뒤의 '이유'를 찾다

이 연구가 기존 연구와 차별화되는 지점은 **"클러스터링(Grouping) 없이도 정보를 읽어낼 수 있다"**는 것입니다. 보통은 세포들을 먼저 그룹으로 묶은 뒤에 그 특징을 사후 분석하지만, MOMO-GP는 학습 과정 자체에서 세포와 유전자의 관계를 직접 인코딩합니다. 덕분에 세포 그룹 내에 존재하는 미세한 변화나 유전자 간의 복잡한 상호작용을 놓치지 않고 포착할 수 있게 되었습니다. 

---

### 💡 이 연구가 왜 중요할까요? (Key Point)

이 연구의 가장 큰 의의는 **바이오 데이터 분석의 '투명성'을 확보**했다는 데 있습니다.

병원을 예로 들어볼까요? 암 환자의 세포 데이터를 분석할 때 AI가 단순히 "이 세포는 암세포입니다"라고 말하는 것과, "A 유전자와 B 단백질의 상호작용 때문에 암세포로 판단됩니다"라고 근거를 제시하는 것은 천지차이입니다.

**MOMO-GP**는 연구자나 의료진이 데이터의 '블랙박스'를 열어보고 질병의 원인을 직접 파악할 수 있게 돕는 도구입니다. 이는 곧 환자 개개인에게 딱 맞는 **정밀 의료(Precision Medicine)와 신약 개발의 속도를 앞당기는 중요한 밑거름**이 될 것입니다.


chatGPT

아래 내용은 업로드하신 논문 **“Learning interpretable representations of single-cell multi-omics data with multi-output Gaussian processes” (Nucleic Acids Research, 2025)**의 **구체적인 연구 내용에 근거해**, 전문 지식이 없는 **일반 성인 독자도 이해할 수 있도록** 정리한 블로그용 요약입니다.

(요청하신 대로 **연구 배경–목적–방법–결과–고찰–의의와 시사점**, 그리고 **왜 중요한 연구인지**까지 포함했습니다.)

---

## 한눈에 보는 연구 요약

이 연구는 **단일세포 멀티오믹스 데이터**(유전자 발현, 염색질 접근성, 단백질 등)를 분석할 때 늘 문제가 되었던 **“잘 맞지만 설명하기 어려운 모델”과 “설명은 되지만 표현력이 부족한 모델” 사이의 딜레마**를 해결하기 위해,

**확률 모델(Gaussian process)**을 기반으로 **해석 가능하면서도 표현력이 높은 새로운 분석 방법(MOMO-GP)**을 제안합니다.

이 방법은 **세포뿐 아니라 유전자·피크·단백질 같은 특징(feature)까지 함께 임베딩**하여,

“**어떤 세포 집단이 왜 그런 유전자(또는 피크, 단백질) 패턴을 보이는지**”를 **클러스터링 없이 직접적으로 연결**할 수 있게 합니다.

---

## 1. 연구 배경

최근 단일세포 기술의 발전으로, 한 개의 세포에서

* 유전자 발현(scRNA-seq),

* 염색질 접근성(scATAC-seq),

* 단백질 발현(CITE-seq)

  등 **여러 종류의 생물학적 정보를 동시에 측정**할 수 있게 되었습니다.

문제는 이렇게 복잡한 데이터를 **한 번에 통합해 분석하면서도**,

* 결과를 **사람이 이해할 수 있게 설명**하고

* **세포–유전자–조절요소 간 관계**를 명확히 해석하는 것이 매우 어렵다는 점입니다.

기존 방법들은 대체로

* PCA 같은 선형 방법 → **해석은 쉬우나 표현력이 부족**

* 딥러닝(VAE, SCVI 등) → **표현력은 뛰어나지만 ‘블랙박스’**

  라는 한계를 가졌습니다.

  또한 대부분의 방법은 **세포 임베딩만 제공**하고, 유전자나 피크는 **사후 분석**에 의존했습니다.

---

## 2. 연구 목적

이 연구의 목적은 다음 질문에 답하는 것입니다.

> “**적은 수의 잠재 차원(latent dimension)**만으로도

> 단일세포 멀티오믹스 데이터의 **비선형 구조를 잘 표현하면서**,

> **세포와 유전자(또는 피크, 단백질)의 관계를 직접적으로 해석할 수 있는 모델**을 만들 수 있을까?”

이를 위해 저자들은

* **표현력**과 **해석 가능성**을 동시에 만족하는

* **확률적(single-cell 친화적) 통합 모델**을 제안합니다.

---

## 3. 연구 방법 (MOMO-GP의 핵심 아이디어)

### 3-1. 세포와 특징을 “따로” 하지만 “연결되게” 학습

MOMO-GP는 기존 방법과 달리

* **세포 임베딩**과

* **유전자·피크·단백질 임베딩**을

  **서로 다른 잠재 공간에서 동시에 학습**합니다.

이 두 공간은

* **다중 출력 가우시안 프로세스(multi-output GP)**로 연결되어

* “어떤 세포들이 서로 비슷한가”와

* “어떤 유전자(또는 피크)들이 함께 작동하는가”를

  **확률적으로 동시에 모델링**합니다.

---

### 3-2. Gaussian Process를 이용한 해석 가능성

Gaussian Process(GP)는

* 데이터 간 **유사성(커널)**을 명시적으로 모델링하기 때문에

* 각 잠재 차원이 **어떤 생물학적 변이를 설명하는지** 해석할 수 있습니다.

연구진은 여기에

* **feature 간 공분산(유전자–유전자 관계)**을 직접 모델에 포함시켜

* 기존 GP-LVM보다 훨씬 풍부한 구조를 학습하도록 확장했습니다.

---

### 3-3. 멀티오믹스 통합과 MRD

RNA-seq, ATAC-seq, CITE-seq처럼 **서로 다른 오믹스**를 통합할 때는

* **세포 임베딩은 공유**하되

* 어떤 잠재 차원이 **RNA와 ATAC에 공통인지**,

* 혹은 **특정 오믹스에만 특이적인지**를

  자동으로 구분하도록 **MRD(Manifold Relevance Determination)**를 적용했습니다.

이를 통해

* “이 차원은 유전자 발현과 염색질 접근성 모두에서 중요한 정보”

* “이 차원은 RNA에서만 의미 있음”

  같은 해석이 가능해집니다.

---

### 3-4. Gene relevance map

MOMO-GP의 가장 큰 장점 중 하나는

**gene relevance map**을 이용해

* 특정 **세포 영역에서 중요한 유전자 그룹(메타유전자)**을 찾고

* 이를 **클러스터링 없이** 세포 집단과 직접 연결할 수 있다는 점입니다.

---

## 4. 연구 결과

### 4-1. 세포 임베딩 성능

PBMC 10k, Slide-tag, CITE-seq 데이터에서

* MOMO-GP는 **2–4차원이라는 매우 낮은 차원**에서도

* PCA, BGPLVM, SCVI, SIMBA 등과 **비슷하거나 더 좋은 세포 분리 성능**을 보였습니다.

즉,

> “차원을 크게 늘리지 않아도

> 세포 유형 구조를 충분히 잘 표현할 수 있다”

> 는 것을 보여주었습니다.

---

### 4-2. 유전자 임베딩의 차별성

기존 방법과 달리 MOMO-GP는

* **유전자 자체를 임베딩**하여

* 같은 세포 유형의 마커 유전자들이 **자연스럽게 군집**되는 것을 확인했습니다.

특히

* 특정 세포 유형과 무관한 유전자들은

* 임베딩 공간의 **중앙(회색 영역)**에 모였고

* 이는 실제로 **다기능 조절 유전자나 lncRNA**가 많았습니다.

---

### 4-3. 세포–유전자 연결의 자동 발견

gene relevance map을 이용하면

* 예를 들어 pDC 세포가 많은 영역에서

* pDC 관련 메타유전자가 **강하게 활성화**됨을 자동으로 확인할 수 있습니다.

또한

* Pro-B cell, CD34⁺ progenitor 같은

  **희귀하거나 중간 단계 세포 유형**과

* 관련 유전자 그룹을 **사전 정보 없이** 연결해낼 수 있었습니다.

---

### 4-4. 멀티오믹스 확장 결과

RNA + ATAC, RNA + 단백질(CITE-seq) 데이터에서도

* 세포 임베딩 성능은 유지되면서

* **유전자–피크–단백질 간 관계**를 한 모델 안에서 해석 가능하게 만들었습니다.

특히 CITE-seq에서는

* 특정 단백질(CD16, CD14, CD19 등)이

* 어떤 세포 집단에서 중요한지를

  명확히 시각화할 수 있었습니다.

---

## 5. 고찰

이 연구의 핵심은

> “분석 성능을 높이기 위해 해석을 포기할 필요가 없다”

> 는 점을 **확률 모델 기반으로 증명**했다는 데 있습니다.

딥러닝 기반 모델은

* 예측이나 분류에는 강하지만

* “왜 그런 결과가 나왔는지” 설명하기 어렵습니다.

MOMO-GP는

* 비선형 구조를 학습하면서도

* 각 잠재 차원, 유전자 그룹, 세포 영역의 의미를

  **직접적으로 해석 가능**하게 합니다.

---

## 6. 의의와 시사점

### 🔹 연구적 의의

* **클러스터링에 의존하지 않는 해석 가능 분석**

* **세포–유전자–조절요소 관계를 한 모델에서 통합적으로 설명**

* **희귀 세포 유형 및 신규 생물학적 가설 발견 가능성**

### 🔹 실용적 시사점

* 단일세포 데이터 해석에 부담을 느끼는

  **비전문가·임상의·생물학자**에게 특히 유용

* 바이오마커 발굴, 세포 상태 추적, 질병 미세환경 분석에 적용 가능

* 향후 **바이오뱅크 기반 멀티오믹스 데이터 해석**에도 잘 맞는 접근

---

## 7. 이 연구는 왜 중요한가?

이 연구는 단순히 “새로운 알고리즘”을 제안한 것이 아니라,

> **단일세포 멀티오믹스 분석에서

> ‘잘 맞는 모델’과 ‘설명할 수 있는 모델’을

> 더 이상 양자택일하지 않아도 된다**

는 방향을 제시했습니다.

특히

* 세포와 유전자 사이의 관계를 **사후 분석이 아닌 모델 내부에서 직접 학습**하고

* 적은 차원으로도 **생물학적으로 의미 있는 구조를 설명**할 수 있다는 점에서

  향후 단일세포 데이터 해석의 **기준점(reference)**이 될 수 있는 연구입니다.


grok

### 단일 세포 멀티오믹스 데이터의 해석 가능한 표현 학습: MOMO-GP 모델

#### 연구 배경

단일 세포 유전체 데이터는 세포 하나하나의 유전자 발현, 염색질 접근성, 단백질 수준 등을 측정하는 첨단 기술로, 생물학적 프로세스를 자세히 이해할 수 있게 해줍니다. 하지만 이 데이터는 비선형적이고 여러 모드로 복잡해, 분석이 어렵습니다. 기존 방법들은 해석이 쉬운 선형 모델(예: PCA)이나 표현력이 강한 신경망 기반 모델(예: SCVI)을 사용하지만, 둘 사이의 균형이 부족합니다. 예를 들어, 세포 클러스터링 후 차별 발현 분석을 하다 보니 클러스터 내 변이를 놓치기 쉽죠. 이 논문은 이러한 트레이드오프를 해결하려 합니다.

#### 연구 목적

연구자들은 세포(샘플)와 유전자(특징)의 별도 잠재 공간을 학습해 데이터의 구조를 잘 포착하면서도 해석이 가능한 모델을 개발했습니다. MOMO-GP(Multi-Omics Multi-Output Gaussian Processes)라는 이 모델은 다중 출력 가우시안 프로세스를 사용해 세포-유전자 관계를 직접 모델링하고, 멀티오믹스 데이터(예: RNA-seq + ATAC-seq)를 통합합니다. 목표는 클러스터링 없이 마커 유전자를 검출하고, 세포와 특징 간 상호작용을 분석하는 것입니다.

#### 연구 방법

MOMO-GP는 GP-LVM(Gaussian Process Latent Variable Model)을 확장한 모델입니다. 세포와 특징의 의존성을 커널로 모델링하고, 크로네커 곱으로 연결합니다. 희소 GP를 써 계산 효율성을 높였고, 임베딩 레이어를 추가해 비선형 구조를 포착합니다. 멀티뷰 버전은 MRD(Manifold Relevance Determination)로 공유/개별 차원을 학습합니다. 데이터는 PBMC 10k(RNA + ATAC, 9393 세포), Slide-tag(멜라노마 T 세포, 2535 세포), PBMC 5k CITE-seq(RNA + 단백질, 3891 세포)를 사용했습니다. 비교 대상은 PCA, UMAP, BGPLVM, SCVI, SIMBA입니다. 평가는 ACC(정확도)와 ARI(조정 랜드 지수)로 했습니다.

#### 연구 결과

세포 임베딩에서 MOMO-GP는 SCVI나 SIMBA와 비슷하거나 우수한 분리를 보였습니다. 예: PBMC 10k에서 2D 임베딩으로 13개 세포 타입(예: CD4+ naïve T, NK 세포)을 명확히 구분(ACC 82-92%, ARI 70-86%). 특징 임베딩(유전자/피크/단백질)에서는 SIMBA보다 우수: 2D 공간에서도 마커 유전자가 클러스터 형성. 유전자 관련성 맵으로 세포 그룹과 유전자 그룹(메타유전자)을 직접 연결, 예: 메타유전자 1은 CD8+ naïve T 세포와 강한 연관(89.57% 커버리지). 멀티오믹스 통합 시 피크/단백질 임베딩도 잘 분리됐고, 희귀 세포(Pro-B 세포)와 유전자 관계를 식별했습니다.

#### 고찰

MOMO-GP는 클러스터링 없이 세포-특징 관계를 직접 모델링해 기존 방법의 한계를 극복합니다. 시간 복잡도는 데이터 크기에 선형 증가(최대 700만 엔티티 처리 가능). 단점으로는 베이지안 버전 미구현, 시계열/공간 데이터 미지원. SIMBA와 비교해 특징 임베딩이 더 의미 있고 해석적입니다.

#### 의의와 시사점

이 모델은 표현력과 해석성을 균형 있게 제공해 단일 세포 데이터 분석을 혁신합니다. 유전자-피크-단백질 간 상호작용을 밝혀 희귀 세포 타입 식별에 유용하며, 암 연구나 면역 분석에 적용 가능. 기존 도구(GPFlow2, GPFlux)로 구현돼 재현 쉽습니다. 앞으로 신경망 추가로 더 복잡한 데이터 처리 가능.

이 연구는 왜 중요한가? 단일 세포 수준에서 생물학적 메커니즘을 명확히 이해하게 해 질병 치료나 약물 개발에 기여할 수 있습니다. 복잡한 데이터를 '블랙박스' 없이 해석 가능하게 해 과학자들의 통찰을 확대합니다.


NotebookLM

## 복잡한 세포 데이터를 읽어내는 가장 명확한 지도: 인공지능 'MOMO-GP'의 등장

우리 몸의 세포는 저마다 다른 유전 정보를 가지고 있으며, 이를 정밀하게 분석하는 '단일 세포 옴익스' 기술은 현대 의학의 핵심입니다. 하지만 세포 하나에서 나오는 데이터는 유전자 발현(RNA), 단백질, 염색질 구조 등 그 종류가 너무 다양하고 복잡합니다. 이 파편화된 정보를 하나로 합쳐 분석하는 것은 마치 수백만 조각의 퍼즐을 맞추는 것과 같습니다. 최근 이 복잡한 퍼즐을 **가장 정확하고 '이해하기 쉽게' 풀어주는 인공지능 모델, 'MOMO-GP'**가 발표되었습니다.

### 1. 연구 배경: "똑똑하지만 속을 알 수 없는 인공지능"의 한계

현재 세포 데이터를 분석하는 인공지능 기술은 크게 두 가지 길을 걷고 있습니다. 하나는 복잡한 데이터를 아주 잘 처리하지만 왜 그런 결과가 나왔는지 설명하지 못하는 '블랙박스(신경망)' 방식이고, 다른 하나는 설명은 잘하지만 복잡한 생명 현상을 담아내기에는 성능이 부족한 '선형 모델' 방식입니다. 과학자들은 **성능도 뛰어나면서 분석 결과의 생물학적 근거를 명확히 제시할 수 있는 새로운 도구**를 필요로 해왔습니다.

### 2. 연구 목적: 해석 가능하고 강력한 '세포 통합 지도' 제작

이번 연구의 목적은 **'해석 가능성(Interpretability)'과 '표현력(Expressive power)' 사이의 균형**을 맞추는 것입니다. 즉, 수만 개의 세포와 유전자가 얽힌 멀티옴익스 데이터를 통합하면서도, 특정 세포 집단이 왜 그런 특성을 보이는지(예: 어떤 유전자가 원인인지)를 직관적으로 연결해주는 인공지능 프레임워크인 **MOMO-GP**를 개발하는 것이었습니다.

### 3. 연구 방법: 세포와 유전자를 위한 각각의 '전용 공간'

MOMO-GP는 '다출력 가우시안 프로세스(Multi-output Gaussian Processes)'라는 고도의 통계 기법을 사용합니다.

*   **분리된 학습:** 기존 모델들이 세포 정보에만 집중했던 것과 달리, MOMO-GP는 **세포(Sample)와 유전자(Feature)를 위한 별도의 공간(Embedding)을 동시에 학습**합니다.

*   **관계의 수식화:** '크로네커 곱(Kronecker product)'이라는 수학적 기법을 도입해 세포와 유전자 사이의 복잡한 상관관계를 정밀하게 모델링했습니다.

*   **대규모 데이터 처리:** '희소 가우시안 프로세스(Sparse GP)' 기술을 적용하여 수백만 개의 세포 데이터도 막힘없이 처리할 수 있는 효율성을 갖췄습니다.

*   **멀티뷰 통합:** '매니폴드 연관 결정(MRD)' 기법을 통해 여러 종류의 데이터(RNA, 단백질 등)에서 공통된 정보와 각 데이터만의 고유한 정보를 구분해냅니다.

### 4. 연구 결과: 데이터 속에서 찾아낸 생명의 규칙

MOMO-GP는 실제 혈액 세포(PBMC) 데이터 분석에서 놀라운 성능을 보여주었습니다.

*   **정교한 세포 분류:** 약 13종의 서로 다른 면역 세포 타입을 선명하게 구분해냈으며, 이는 기존의 최첨단 인공지능 모델들과 대등하거나 더 뛰어난 수준이었습니다.

*   **유전자 의미 발견:** 유전자 전용 공간에서 분석을 진행한 결과, 특정 세포의 '마커 유전자'들이 끼리끼리 뭉치는 현상을 발견했습니다. 또한, 기존에 잘 알려지지 않았던 '조절 유전자(메타 유전자)' 그룹이 어떤 세포의 발달에 관여하는지도 명확히 짚어냈습니다.

*   **직관적인 연결:** '유전자 연관 지도(Gene relevance map)' 기능을 통해, 연구자는 **별도의 복잡한 통계 분석 없이도 어떤 유전자 그룹이 특정 세포 덩어리를 만드는 핵심 원인인지**를 즉석에서 확인할 수 있게 되었습니다.

*   **경쟁 모델 압도:** 기존에 유전자와 세포를 동시에 학습하던 유일한 모델인 'SIMBA'와 비교했을 때, 유전자의 특성을 포착하는 능력이 훨씬 우수함을 입증했습니다.

### 5. 고찰 및 의의: 연구자의 '눈'이 되어주는 인공지능

MOMO-GP는 인공지능이 제시하는 결과값이 단순히 "그렇다"는 결론을 넘어, **"이 유전자들이 이 세포 집단에서 이런 관계를 맺고 있기 때문이다"라는 구체적인 근거**를 제공한다는 점에서 혁신적입니다. 이는 연구자가 세포를 미리 그룹화(Clustering)하지 않아도 데이터 자체에서 새로운 세포 유형이나 희귀 세포를 발견할 수 있게 해줍니다. 또한 RNA뿐만 아니라 단백질, 염색질 데이터까지 한꺼번에 통합 처리할 수 있어 '진정한 멀티옴익스' 분석이 가능해졌습니다.

---

### 💡 이 연구가 왜 중요한가요?

암이나 희귀 질환 같은 복잡한 병을 정복하기 위해서는 세포 내부에서 벌어지는 수많은 사건 사이의 '연결고리'를 찾아야 합니다. 기존의 AI는 정답은 맞히지만 그 이유는 알려주지 않는 '불친절한 천재' 같았습니다. 

**MOMO-GP는 정답뿐만 아니라 그 과정까지 친절하게 설명해주는 '가이드'와 같습니다.** 이 기술을 통해 과학자들은 복잡한 데이터 분석에 드는 시간을 획기적으로 줄이고, 질병의 원인이 되는 유전자를 더 정확하게 찾아내어 맞춤형 치료제를 개발하는 데 집중할 수 있게 될 것입니다.


Perplexity.ai

이 논문은 단일세포 멀티오믹스 데이터를 “잘 보이면서도 해석하기 쉬운” 저차원 공간으로 표현하는 새로운 통계·머신러닝 기법(MOMO‑GP)을 제안하고, 기존 방법보다 얼마나 잘 작동하는지를 보여주는 연구입니다.[1]

***

## 연구 배경

- 최근에는 한 개의 세포에서 유전자 발현(RNA), 염색질 개방 정도(ATAC), 단백질, DNA 메틸화 등 여러 종류의 생체 정보를 동시에 측정하는 **단일세포 멀티오믹스** 기술이 빠르게 발전하고 있습니다.[1]

- 이런 데이터는 차원도 매우 높고, 비선형 구조·다봉형(여러 개의 뾰족한 분포) 구조를 가지며, 서로 다른 ‘모달리티(뷰)’가 섞여 있기 때문에, 사람 눈으로 이해하기 쉬운 표현 공간을 만드는 일이 쉽지 않습니다.[1]

- 기존 방법은 대체로 두 갈래였습니다.[1]

  - PCA 같은 선형 차원축소: 결과는 비교적 해석이 쉽지만 표현력이 제한적.  

  - VAE, 그래프 임베딩 같은 딥러닝: 복잡한 구조는 잘 잡지만, “왜 이렇게 나왔는지” 해석이 어렵고 블랙박스에 가깝습니다.  

연구자들은 “표현력(복잡한 패턴을 잘 잡는 능력)”과 “해석 가능성(어떤 세포·유전자 그룹과 연결되는지)”을 동시에 만족시키는 표현 학습이 필요하다고 보았습니다.[1]

***

## 연구 목적

이 논문의 핵심 목표는 다음과 같습니다.[1]

1. 여러 모달리티(유전자, ATAC peak, 단백질 등)를 한 번에 다루면서,  

2. 세포(샘플)와 유전자/피크/단백질(특징)을 **서로 다른 잠재공간**에 임베딩하고,  

3. 이 두 공간 사이의 비선형 상관관계를 **명시적으로 모델링**해  

4. “어떤 세포 그룹 ↔ 어떤 유전자/피크/단백질 그룹”이 연결되는지 직관적으로 볼 수 있게 하는 것.  

이를 위해 연구진은 **Multi-Omics Multi-Output Gaussian Processes (MOMO‑GP)**라는 새 모델을 제안합니다.[1]

***

## 연구 방법

### 1. 모델 아이디어 (MOMO‑GP)

- MOMO‑GP는 **가우시안 프로세스(Gaussian Process, GP)**라는 확률적 모델을 기반으로 합니다.[1]

- 기존 GP‑LVM은 “세포(입력) 사이의 유사도”만 커널로 모델링하고, 유전자(출력)들은 서로 독립이라고 가정했지만, 이 논문은 **세포–유전자 둘 다 “서로 연관된 다중 출력”으로 취급**합니다.[1]

- 구체적으로는  

  - 세포 잠재공간 A (샘플 임베딩)  

  - 유전자 잠재공간 B, ATAC 피크 잠재공간 C 등 (특징 임베딩)  

  를 따로 두고,  

  - “세포 커널 × 유전자/피크 커널”의 **크로네커 곱** 구조를 가진 다중 출력 GP로 세포–특징 관계를 모델링합니다.[1]

- 하지만 단일세포 데이터는 세포·유전자 수가 너무 많기 때문에, 계산량을 줄이기 위해  

  - **희소 GP(sparse GP)**와 **유도점(inducing points)**을 사용하고,  

  - 세포·유전자 인덱스를 임베딩 레이어에 넣어 잠재공간 벡터로 바꾸는 “임베딩 레이어 + GP 레이어” 구조를 씁니다.[1]

- 이 설계 덕분에 이론적으로는 \(O((세포 수×특징 수)·m^2)\) 수준, 실험적으로는 최대 700만 개 엔트리까지 **선형에 가까운 시간 복잡도**를 보인다고 보고합니다.[1]

### 2. 멀티뷰(멀티오믹스) 확장

- 두 개 이상의 모달리티(예: RNA, ATAC)를 다룰 때는  

  - 세포 임베딩 A는 **공유**,  

  - 각 모달리티별로 다른 특징 임베딩(B: 유전자, C: 피크)을 둡니다.[1]

- 그리고 **MRD(Manifold Relevance Determination)**라는 기법을 써서  

  - 어떤 잠재 차원은 RNA·ATAC 둘 다에 중요한 “공유 차원”인지,  

  - 어떤 차원은 특정 모달리티에만 중요한 “개인(프라이빗) 차원”인지 자동으로 구분합니다.[1]

- 이를 위해 모달리티별로 다른 ARD(자동 관련도 결정) 가중치를 학습하고, 가중치가 큰 차원만 “해당 모달리티에서 의미 있는 축”으로 간주합니다.[1]

### 3. 평가 데이터와 비교 대상

연구는 실제 단일세포 멀티오믹스 데이터에 MOMO‑GP를 적용해 평가합니다.[1]

- 데이터셋  

  - PBMC 10k: 건강한 기증자 PBMC에서 scRNA + scATAC 멀티옴 데이터 (11,909세포, 36,601 유전자, 134,726 피크).[1]

  - Slide‑tag: 멜라노마 샘플에서 T세포·단핵구를 멀티옴으로 측정한 데이터 (2,535세포).[1]

  - PBMC 5k CITE‑seq: PBMC에서 RNA + 32개 표면 단백질 동시 측정 데이터 (5,247세포).[1]

- 비교 알고리즘  

  - PCA, UMAP, BGPLVM(GP‑LVM의 베이지안 버전)  

  - SCVI(단일세포용 딥러닝 임베딩)  

  - SIMBA(세포·특징을 같은 공간에 공임베딩하는 최신 방법)[1]

- 평가지표  

  - 세포 타입 라벨을 이용한 **정확도(ACC)**, **Adjusted Rand Index(ARI)**  

  - 추가로 실루엣 점수, k‑means ARI/NMI, 희귀 세포 분리도 등도 보조적으로 사용.[1]

***

## 핵심 결과

### 1. 세포 임베딩 성능

- PBMC 10k, PBMC 5k CITE‑seq RNA 데이터에서 MOMO‑GP는  

  - 2–4차원 정도의 아주 낮은 잠재공간만으로도  

  - SCVI+UMAP, BGPLVM, UMAP 등과 비슷하거나 경우에 따라 더 좋은 세포 타입 분리를 보여줍니다.[1]

- ACC와 ARI 측면에서 2D UMAP, 2D BGPLVM, 32D SCVI+UMAP, 32D MOMO‑GP+UMAP이 **대체로 비슷한 수준**이지만, MOMO‑GP는 여기에 **해석 가능한 특징 임베딩**까지 함께 제공하는 것이 차별점입니다.[1]

- 멀티뷰 버전에서도, PBMC 10k와 Slide‑tag의 RNA+ATAC 통합에서 세포 임베딩 품질(ACC, ARI)은 SIMBA와 비슷한 수준을 유지합니다.[1]

### 2. 유전자 임베딩: “어떤 유전자가 어떤 세포 타입과 함께 묶이는가”

- 2차원 유전자 잠재공간에 모든 유전자를 넣고, 각 세포 타입의 상위 100개 마커 유전자를 색칠해 보면:[1]

  - 같은 세포 타입의 마커 유전자들은 대체로 **하나의 군집**을 형성합니다.  

  - 특정 세포 타입과 뚜렷하게 관련 없는 유전자들은 가운데 회색 클러스터로 모여, “범용적이거나 비특이적인 유전자” 그룹으로 해석할 수 있습니다.[1]

- PBMC 10k 데이터에서 상위 20개 회색 유전자를 뽑아보면, 여러 종류의 조절 관련 lncRNA들이 포함되어 있고, 특정 세포 타입보다는 광범위한 조절 기능을 가진 것으로 해석됩니다.[1]

- 정량 평가(마커 유전자의 ACC/ARI)를 보면,  

  - ACC는 높지만 ARI는 상대적으로 낮은데, 이는 “라벨이 없는 많은 유전자들을 ‘unknown’ 클래스로 둔 탓에 클래스 불균형이 심하기 때문”이라고 분석합니다.[1]

### 3. SIMBA와의 차이: “세포는 비슷하지만, 유전자는 MOMO‑GP가 더 좋다”

- 같은 데이터에 SIMBA를 적용해 50차원 임베딩 후 UMAP으로 시각화하면, 세포 타입 분리는 괜찮게 나오지만, **유전자 임베딩 쪽 표현력은 상대적으로 떨어지는** 모습을 보입니다.[1]

- 연구진은 그 이유를 “SIMBA는 세포와 유전자를 하나의 공통 공간에 넣기 때문에, 특징 표현력이 제한되고, 유전자 간 구조를 충분히 못 잡는 경향”으로 설명합니다.[1]

- 반대로 MOMO‑GP는  

  - 세포와 유전자를 별도 잠재공간에 둔 뒤,  

  - GP를 통해 둘의 비선형 관계를 연결하므로,  

  - 유전자 임베딩 측면에서 SIMBA보다 ACC·ARI, 시각적 군집 모두 더 우수한 결과를 보입니다.[1]

***

## 해석 도구: 유전자·피크·단백질 “relevance map”과 metagene

이 논문의 중요한 기여 중 하나는 “임베딩이 실제 생물학적 해석으로 이어지도록 만든 것”입니다.[1]

### 1. 메타유전자(metagene)와 유전자 relevance map

- 유전자 임베딩 공간에서 서로 가까운 유전자들끼리 메타유전자(metagene)라는 군집으로 묶습니다.[1]

- 각 메타유전에 대해, 세포 임베딩 공간에서 “어떤 위치의 세포에 이 메타유전자의 영향이 큰지”를 그려주는 것이 **gene relevance map**입니다.[1]

- 예시 (PBMC 10k):[1]

  - 메타유전자 9는 pDC(형질세포형 수지상세포) 마커 유전자가 100% 포함되어 있고, relevance map을 보면 pDC가 모여 있는 세포 영역에서 강하게 발현됩니다.  

  - 다른 메타유전자들도 CD4+ naive T, CD8+ naive T, NK, B세포, 단핵구 등과 잘 대응합니다.  

- 이를 통계적으로 검증하기 위해, 각 메타유전자의 마커 유전자 비율과 p‑value(과대표현 분석)를 계산해, 대부분 매우 유의미한 연결임을 보입니다.[1]

### 2. GSEA로 메타유전자 생물학적 의미 확인

- 메타유전자의 유전자 리스트를 MSigDB의 인간 세포 타입 서명(C8)과 비교하는 **GSEA(과대표현 분석)**를 수행합니다.[1]

- 그 결과 예를 들어:[1]

  - 메타유전자 1: naive T, CD8 T 시그니처와 강하게 연관.  

  - 메타유전자 5·6: 여포 B세포(follicular B), 플라즈마 세포 관련 시그니처와 연관.  

  - 메타유전자 8: 단핵구(monocyte),  

  - 메타유전자 9: 수지상세포(dendritic) 시그니처와 강하게 연결.  

- 동시에 relevance map에서 이 메타유전자가 실제로 해당 세포 타입에 높은 relevance를 보이는지 확인해, **“유전자 임베딩–세포 임베딩–기존 지식”이 모두 일관되게 맞아떨어지는지** 검증합니다.[1]

### 3. 희귀/새로운 세포 상태 탐지 가능성

- 흥미로운 사례로, 메타유전자 11·12는 Pro‑B, CD34+ LMPP 등 “발달 단계에 있는 전구세포” 시그니처와 연관되어 있고,[1]

- relevance map에서는 일부 메모리 B세포나 CD4+ naive T세포 주변 세포들과 연결됩니다.[1]

- 연구진은 이를 통해 “Pro‑B, 조혈 전구세포가 나중에 B세포·T세포로 분화되는 방향성과 연결된 희귀 세포 상태를 포착할 수 있다”는 생물학적 해석 가능성을 제시합니다.[1]

### 4. 피크·단백질에 대한 확장

- ATAC‑seq 피크에도 똑같은 구조를 적용해 **peak 임베딩 + peak relevance map**을 만들 수 있고, PBMC 10k·Slide‑tag에서 SIMBA보다 훨씬 더 잘 분리된 피크 군집(세포 타입별 마커 피크)을 보여줍니다.[1]

- CITE‑seq의 단백질 데이터에서는  

  - 각 단백질에 대해 protein relevance map을 그려  

    - CD16/CD56/TIGIT → NK·memory‑like NK  

    - CD127/CD28/CD27 → 여러 T세포 서브타입  

    - CD14/CD86/HLA‑DR → 단핵구  

    - CD19/CD20 → 성숙 B세포·pre‑B세포  

    와 같은 알려진 마커–세포 타입 관계를 잘 재현합니다.[1]

  - 같은 세포 그룹에 대해 “어떤 메타유전자”와 “어떤 단백질”이 함께 relevance가 높은지 보면, 유전자–단백질 관계도 자연스럽게 연결할 수 있습니다.[1]

***

## 시간·계산 효율

- 5k PBMC CITE‑seq RNA 데이터에서 세포 수(400–4000), 유전자 수(100–2000)를 바꿔가며 실험한 결과, 전체 관측 엔트리 수(세포×유전자)가 늘어날수록 **학습 시간은 거의 직선적으로 증가**하는 것을 보여줍니다.[1]

- 이는 희소 GP·유도점·크로네커 구조를 활용한 설계가 현실적인 대규모 단일세포 데이터에도 적용 가능함을 의미합니다.[1]

***

## 고찰과 한계, 향후 방향

연구진은 MOMO‑GP의 장점과 한계를 다음과 같이 논의합니다.[1]

- 장점  

  - 세포·특징 임베딩을 분리하면서도, GP를 통해 비선형 상관관계를 명시적으로 연결 → **표현력과 해석 가능성을 동시에 확보**.  

  - 멀티뷰 구조(MRD) 덕분에, “모달리티마다 고유한 신호 vs 여러 모달리티에 공통되는 신호”를 구분해서 볼 수 있음.  

  - gene/protein/peak relevance map, metagene 개념으로 실제 생물학적 해석(세포 타입, 희귀 세포 상태, 기능 경로 분석)에 바로 활용 가능.  

- 한계 및 향후 연구 방향  

  - 아직 완전한 베이지안 버전(GP‑LVM처럼 잠재 변수에 사전분포를 두는 형태)은 아니므로, 베이지안 확장 가능성.  

  - 임베딩 위에 더 깊은 신경망 층을 쌓아 비선형 구조를 더 잘 잡는 **딥 GP** 또는 하이브리드 모델로 확장할 수 있음.  

  - 시계열 단일세포, 공간전사체(spatial transcriptomics)처럼 “이웃 관계가 중요한 데이터”에 맞춰, 공간·시간 구조를 반영한 네트워크 설계가 필요함.[1]

***

## 의의와 시사점, 왜 중요한가?

이 연구의 의의는 단순히 “차원축소를 하나 더 만들었다”가 아니라, **단일세포 멀티오믹스 데이터를 바라보는 방식 자체를 한 단계 정교하게 만든 것**에 있습니다.[1]

- 현장의 관점에서 보면, 단일세포 연구자는 늘 다음과 같은 질문을 던집니다.  

  - “이 세포 타입을 결정짓는 핵심 유전자·피크·단백질은 무엇인가?”  

  - “어떤 희귀 세포 집단이 존재하며, 그 분자적 특징은 무엇인가?”  

  - “여러 오믹스 데이터를 함께 봤을 때, 공통된 축과 서로 다른 축은 무엇인가?”  

- MOMO‑GP는  

  - 세포와 유전자를 분리된 잠재공간에 배치하고,  

  - 두 공간 사이의 비선형 관계를 GP로 연결하며,  

  - relevance map과 메타유전자 개념을 통해 “세포 군집 ↔ 유전자/피크/단백질 군집”을 직관적으로 보여줍니다.[1]

이는 실제로 다음과 같은 응용 가능성을 가집니다.[1]

- 새로운 세포 아형과 그 분자 서명을 동시에 발굴  

- 약물 반응, 질병 진행에 관여하는 특정 유전자–세포 타입 축을 찾는 작업 지원  

- 멀티오믹스 기반 환자 분류·표적 발굴 연구에서, “블랙박스 딥러닝” 대신 **설명 가능한 통계 모델**을 제공  

결국 이 연구는 “표현력 높은 딥러닝”과 “해석 가능한 통계모델” 사이의 간극을 줄이면서, 멀티오믹스 단일세포 데이터 분석을 한 단계 더 **정확하고 설명 가능하게** 만드는 기반 기술을 제안했다는 점에서 중요합니다.[1]


Kimi

아래 글은 학술지 《Nucleic Acids Research》에 2025년 6월 게재된  

‘MOMO-GP: interpretable integration of single-cell multi-omics’ 논문을  

블로그에 올릴 만큼 쉽게, 그러나 논문의 핵심 내용을 놓치지 않고 A4 두 장 분량으로 정리한 것입니다.

---

### 1. 연구 배경 – 왜 이 연구가 시작됐을까?

최근에는 한 개의 세포에서 유전자(RNA), 염색질 개방정보(ATAC), 단백질 등  

여러 생물정보를 **동시에** 잴 수 있는 기술이 나왔습니다.  

문제는 “RNA는 A라는 세포군을, 단백질은 B라는 세포군을 만든다”처럼  

각 측정 방식이 서로 다른 언어로 말하기 때문에  

**한눈에 이해할 수 있는 통합 지도**가 없다는 점입니다.

기존 방법은  

① 해석이 쉬운 통계(PCA 등) – 하지만 복잡한 패턴은 못 잡거나  

② 딥러닝(변분형 오토인코더 등) – 정확하지만 **‘왜 그런지’를 설명 못 함**  

이라는 한계가 있었습니다.

---

### 2. 연구 목표 – ‘해석 가능한 통합 지도’ 만들기

저자들은 "RNA·ATAC·단백질 데이터를 한꺼번에 깔끔하게 정리하면서,  

어떤 유전자가 어떤 세포군과 관련 있는지도 **즉시** 알 수 있도록  

세포-유전자-단백질을 **각각 따로** 임베딩하는 모델"을 제안합니다.  

그 이름은 **MOMO-GP**(Multi-Omics Multi-Output Gaussian Processes).

---

### 3. 핵심 기술 – Gaussian Process(GP)를 영리하게 조합

1. **세포 임베딩 A**  

   – 모든 측정 방식(RNA, ATAC, 단백질)이 공유하는 ‘좌표’를 학습합니다.  

2. **특성 임베딩 B, C, …**  

   – 유전자는 유전자끼리, DNA 열린 구간(peak)는 peak끼리  

   **별도**의 지도를 그립니다.  

3. **크로네커 곱(Kronecker product)**  

   – “이 세포 i와 유전자 j가 만나면 값 y가 나온다”는  

   거대한 표를 **효율적으로** 채웁니다(계산복잡도를 inducing point로 줄임).  

4. **Manifold Relevance Determination(MRD)**  

   – “이 차원은 RNA에만 유용하고, 저 차원은 RNA+ATAC 모두에 유용하다”  

   를 자동으로 판단해 **공유·전용 좌표**를 나눕니다.

결국 세포는 ‘하나의 지도’, 각 특성은 ‘각자의 지도’를 얻고,  

두 지도를 **상호 연결**해서 해석이 쉽게 만듭니다.

---

### 4. 실험 결과 – 숫자와 그림으로 확인한 성과

데이터셋  

- 10x Genomics **PBMC 10k** (RNA + ATAC, 9,393개 세포)  

- **Slide-tag** (흑색종 조직, RNA + ATAC, 2,535개 세포)  

- **PBMC 5k CITE-seq** (RNA + 단백질 32종, 3,891개 세포)

#### 4-1. 세포 클러스터링 정확도(ACC) / 조정랜드지수(ARI)

| 방법 | RNA만 | RNA+ATAC | RNA+단백질 |

|------|-------|----------|-------------|

| PCA | 52 % | – | – |

| UMAP | 84 % | – | – |

| SCVI(딥러닝) | 82 % | – | 81 % |

| SIMBA | 83 % | 80 % | 80 % |

| **MOMO-GP** | **80 %** | **75 %** | **78 %** |

*숫자만 보면 비슷해 보이지만, **MOMO-GP는 2~4차원**만으로 이 성능을 내고,  

게다가 **유전자·peak·단백질 지도**까지 동시에 제공합니다.*

#### 4-2. 유전자·peak·단백질 임베딩 품질

- **SIMBA**는 50차원에서 유전자를 그려도 ARI 20~30 수준.  

- **MOMO-GP**는 2차원만으로 ARI 50~65,  

  marker 유전자끼리 뭉치는 모습이 눈에 확 들어옵니다.

#### 4-3. ‘유전자 관련 지도(gene relevance map)’ 예시

임의로 뽑은 9개 **메타유전자**(비슷한 유전자끼리 묶은 그룹)를 세포 지도에  

얹어보니,  

- 메타유전자 4 → NK세포 65 %  

- 메타유전자 9 → pDC세포 95 %  

처럼 **특정 세포군에 정확히 대응**하는 것을 확인했습니다.

#### 4-4. 단백질 관련 지도도 동일하게 가능

CD16, CD56, TIGIT은 NK세포에,  

CD14, CD86, HLA-DR은 단핵구군에 **확실히 몰려** 있었습니다.

#### 4-5. 계산 속도

 inducing-point 덕분에  

세포 4,000 × 유전자 2,000 = 800만 개 데이터도  

**200번 반복 학습에 2~3시간**이면 끝나는 **선형 시간**이 확인됐습니다.

---

### 5. 고찰 – 무엇이 달라졌는가?

1. **“하나의 공간에 모든 것을 집어넣는” SIMBA**와 달리  

   MOMO-GP는 **세포·유전자·peak·단백질 각각의 고유한 공간**을 만들어  

   서로를 **명확히 연결**합니다.  

2. **PCA처럼 해석은 쉽지만** 비선형 구조를 놓치는 문제는  

   GP+임베딩 조합으로 해결했습니다.  

3. **딥러닝보다 적은 차원**만으로도 같은 수준의 세포 구분력을 냅니다.  

4. **‘공통·전용 좌표’를 자동으로 나누는** MRD 기능 덕분에  

   어떤 측정 방식이 서로 **보완**하는지 한눈에 파악할 수 있습니다.

---

### 6. 의의와 시사점 – 이 연구가 왜 중요한가?

1. **“AI가 그려준 지도가 맞는지”를 바로 검증**할 수 있습니다.  

   유전자 A가 B세포에 특이적이라는 기존 지식과 **모델이 계산한 위치**가  

   맞아떨어지기 때문입니다.  

2. **새로운 세포군**이나 **드물게 나타나는 전구체**를 발견할 **실마리**를 줍니다.  

   예: 메타유전자 11이 프로-B세포와 관련 있음이 계산돼,  

   기존에는 잘 몰랐던 **B세포 성숙 단계**를 추적할 수 있게 됐습니다.  

3. **실험비용이 비싼 multi-omics 데이터**를 한 번 측정하면,  

   이후 **어떤 가설이든** 이 지도 위에서 바로 **검증·확장**할 수 있습니다.  

4. **낮은 차원·선형 시간**이라는 효율 덕분에  

   개인 맞춤 의료처럼 **큰 데이터를 빠르게 반복**해야 하는 현장에도  

   충분히 활용 가능합니다.

---

### 한 줄로 정리하자면  

“MOMO-GP는 **복잡한 multi-omics 데이터를 누구나 읽을 수 있는 지도 한 장**으로  

바꿔주면서, **‘이 유전자는 바로 이 세포다’**라는 해석 가능한 증거까지  

즉시 보여준다는 점에서, **단순히 정확한 것을 넘어 ‘믿을 수 있는’ AI 모델**입니다.”





출처: @ye._.vely618


금요일, 3월 13, 2026

안드로이드 공기계에 ollama 설치해보기

작년에 핸드폰을 교체하고 공기계 하나가 굴러다녀서 놀리느니 로컬에서 모델을 설치해서 사용해보고자 공기계에 ollama 설치기를 정리해봤습니다.

#준비물

- 공기계 (Jump2, 엑시노스1280, 메모리는 6GB)

자 그럼 설치를 해보도록 하겠습니다.

- 몇번을 재설치 하면서 그나마 괜찮은 방법으로 정리해봤습니다. 그리고 공기계에서 직접 타이핑하면서 설치 진행한 것입니다. :)


1. F-Droid 설치

Termux라는 에뮬레이터를 Google 스토어 통해서 설치했는데, 몇번 재설치를 하면서 F-Droid라는 설치 플랫폼을 사용해서 하는 것이 현재까지 괜찮아보입니다. 

링크 f-droid 

   

첫번째 이미지가 f-droid를 실행시켰을 때 화면이고, 두번째 이미지가 termux를 검색하였을 때 나오는 화면입니다.


2. Termux 설치

F-Droid를 실행해서 termux 검색해서 클릭하면 자동으로 설치

다만, 구글 스토어를 통해서 설치되는 것이 아니라 "보안 및 개인정보 보호" 메뉴에서 "보안 위험 자동 차단" 기능과 권한 설정을 해제해줘야 합니다.


Termux가 설치되면 아이콘이 화면에 보일것이고 터치하면 잘 실행이 됩니다. 

$ pkg update

$ pkg upgrade

$ termux-setup-storage

위와 같이 명령어를 실행시켜주고, proot-distro를 설치해서 조금 더 작업을 쉽도록 합니다.

$ pkg install proot-distro

$ proot-distro install ubuntu

$ proot-distro login ubuntu

proot-distro에서 ubuntu 설치 시 버전을 설정 할 수 있는 방법을 좀 찾아봤는데 일단 보이지 않는것 같아보입니다.


   

첫번째 화면은 Termux를 실행시킨 화면, 두번째는 proot-distro install ubuntu까지 실행시켜서 ubuntu가 설치된 화면됩니다.

아래 단계는 proot-distro login ubuntu를 실행해서 들어간 환경 안에서 진행되는 단계입니다.


3. Ollama 설치 (Inside ubuntu)

$ apt update

$ apt upgrade 

$ apt install curl wget git cmake python3-venv python3-pip

$ curl -fsSL https://ollama.com/install.sh | sh

$ ollama serve & 

또는 

$ ollama serve (하고 새 termux 세션열기)

$ ollama pull llama3.2:1b
   pull은 네트워크가 안정적으로 연결되지 않을 때 장치에 모델을 미리 다운로드하여 원활하게 작동하도록 모델을 다운로드 하는 명령어)

$ ollama run llama3.2:1b

음.. 테스트한 공기계인 Jump2에서는 파라미터가 1b이하의 파라미터만 문제없이 구동 됩니다. :)


4. 그외

 - open-webui 설치 일단 실패
open-webui 설치는 현재 시도 중인데, 잘 안될것 같습니다. open-webui는 python3.11기준으로 설치하라고 하는데 termux에서 사용하는 proot-distro의 ubuntu는 기본이 python3.13 으로 설치되서 쉽지않더라구요 repository 추가해서 설치해보려고 했는데 생각보다 잘 안되서 우선 잠깐 쉬었다가 다시 시도해 볼 예정입니다.

 - openclaw 설치 일단 실패
openclaw이 하도 핫해서 공기계에 한번 설치해볼까? 했는데 역시나 일단 무리인걸로.. 설치에 적합한 버전, 라이브러리들을 좀 더 찾아서 공부를 좀 해봐야할 것 같네요 :)

어떻게 따라하면 설치는 되는데... 결국 마지막에 Error가 발생해서 더 이상 진행이 되지 않습니다. 

그리고 공기계를 직접 루팅해서 권한을 모두 가져온 상태가 아니다보니 네트워크 관련해서 한계가 있었습니다. 같은 네트워크에서 다른 장치로 IP로 접근하도록 설정을 풀어줄수가 없더라구요...

다음에는 조금 더 유익한 내용으로 찾아뵙도록 하겠습니다. :)

  

출처: @ye._.vely618

수요일, 3월 11, 2026

피 한 방울로 모든 것을 알아보자: 혈장 단백질 분석 기술 어디까지 왔을까

예전에 피 한 방울로 모든 질병을 진단하겠다던 분이 있었는데 오늘도 그런 비슷한 내용입니다. 다만 그분과는 달리 진짜 피 한 방울(보다는 많은..)로 많은 것을 알 수 있도록 하는 기술에 대한 내용입니다. 우리 몸속에 있는 피 안에는 우리 몸의 상태를 알려주는 많은 것들이 담겨져 있습니다. "간이 좀 피곤한거 같은데?", "저기에 염증이 생겼어!" 라고 끊임없이 알려주기 위해 신호들을 주고 받고 있습니다.  이 신호를 잡아내는 기술들이 진짜 맞는지 한번 비교를 해봤다고 합니다. Current landscape of plasma proteomics from technical innovations to biological insights and biomarker discovery라는 제목으로 혈장 속에 있는 단백질들을 분석하는 단백질 분석 플랫폼 경진대회를 한것입니다.

DOI: 10.1038/s42004-025-01665-1

※ 최근에 나온 연구 결과로는 여기서 언급된 단백질 분석 플랫폼 중 하나인 SomaScan이 성능이 가장 좋다는 결과가 있었는데 기회되면 그 논문도 한번 올려보도록 하겠습니다. :)


gemini

안녕하세요! 요청하신 대로 업로드해주신 **"Current landscape of plasma proteomics: from technical innovations to biological insights and biomarker discovery"** 논문의 핵심 내용을 일반 성인 독자들이 이해하기 쉽게 요약해 드립니다.

---

# 🩸 내 몸의 건강 신호등, 혈장 단백질 분석의 미래를 엿보다

우리 몸속을 흐르는 혈액, 그 중에서도 노란빛을 띠는 액체 성분인 '혈장(Plasma)'은 우리 건강 상태를 알려주는 보물창고와 같습니다. 여기에는 수만 가지의 단백질이 들어있는데, 이 단백질들의 종류나 양이 변하는 것을 관찰하면 암이나 치매 같은 질병을 조기에 발견할 수 있습니다. 이를 '혈장 단백질체학(Plasma Proteomics)'이라고 합니다.

하지만 혈장 속 단백질을 분석하는 기술은 매우 다양하고 복잡합니다. 최근 Nature Portfolio 저널인 *Communications Chemistry*에 발표된 이 논문은 현재 사용되는 **8가지 주요 단백질 분석 플랫폼을 직접 비교**하여 어떤 기술이 가장 정확하고 효율적인지를 밝혀냈습니다. 

### 1. 연구 배경: 왜 혈장 단백질이 중요한가요?

단백질은 우리 몸의 모든 생명 현상에 직접 관여합니다. 혈액은 온몸을 돌기 때문에, 특정 장기에 병이 생기면 관련 단백질이 혈액으로 흘러나옵니다. 따라서 혈액 한 방울로 건강을 체크하는 '바이오마커(Biomarker)'를 찾는 것이 과학계의 큰 숙제입니다. 하지만 혈장에는 너무 많은 양의 단백질(예: 알부민)과 아주 극소량만 존재하는 단백질이 섞여 있어, 이를 모두 정확히 찾아내는 것은 기술적으로 매우 어려운 도전이었습니다. 

### 2. 연구 목적: 8가지 기술의 '진검승부'

지금까지 단백질을 분석하는 여러 기술이 나왔지만, 동일한 혈액 샘플을 가지고 이 기술들을 한꺼번에 비교한 연구는 거의 없었습니다. 연구팀은 **젊은 층(18~22세)과 노년층(55~65세) 총 78명의 혈액**을 사용해, 현재 가장 앞서가는 8가지 분석 기술의 성능을 낱낱이 파헤쳤습니다. 어떤 기술이 더 많은 단백질을 찾아내는지, 그리고 얼마나 정확한지를 확인하는 것이 이번 연구의 목표입니다. 

### 3. 연구 방법: 어떻게 비교했나?

연구팀은 크게 두 가지 방식의 기술들을 비교했습니다. 

* **친화성 기반 방식(Affinity-based):** 낚시찌처럼 특정 단백질에만 달라붙는 '압타머'나 '항체'를 이용해 단백질을 잡아내는 방식입니다. (예: SomaScan, Olink, NULISA) 

* **질량 분석 기반 방식(Mass Spectrometry):** 단백질을 잘게 쪼갠 뒤 그 무게를 정밀하게 측정해 종류를 알아내는 방식입니다. (예: Seer Proteograph, Biognosys 등) 

### 4. 연구 결과: 누가 가장 뛰어났을까?

**발견의 제왕, SomaScan:** 'SomaScan 11K'라는 기술은 무려 **10,000개 이상의 단백질**을 감지해내며 가장 넓은 분석 범위를 보여주었습니다. 또한, 여러 번 반복 측정했을 때 결과가 가장 일정하게 나오는 '정밀도' 면에서도 우수했습니다. 

**정확도의 표준, MS-IS Targeted:** 질량 분석 방식 중에서도 특정 표준 물질을 사용하는 방식은 단백질의 정확한 수치를 측정하는 '골드 표준'의 역할을 톡톡히 했습니다. 

**기술마다 결과가 다르다?:** 흥미롭게도 동일한 단백질을 측정하더라도 기술에 따라 수치가 다르게 나타나는 경우가 많았습니다. 이는 각 기술이 단백질의 서로 다른 부위를 인식하거나, 분석 과정에서의 특성이 다르기 때문임이 밝혀졌습니다. 

### 5. 고찰 및 시사점: 연구가 우리에게 주는 메시지

이번 연구를 통해 **"모든 상황에 완벽한 단 하나의 기술은 없다"**는 사실이 확인되었습니다. 

* 새로운 질병 마커를 폭넓게 탐색하고 싶다면 **SomaScan**이나 **Olink** 같은 대규모 분석 플랫폼이 유리합니다. 

* 이미 알고 있는 특정 단백질의 양을 아주 정확하게 재고 싶다면 **질량 분석(MS)** 방식이 더 적합할 수 있습니다. 또한, 연구팀은 이 기술들을 활용해 **나이(Aging)와 관련된 단백질 마커**들을 성공적으로 찾아냈으며, 이는 기존의 대규모 공공 데이터(UK 바이오뱅크)와도 일치함을 확인했습니다. 

### 6. 이 연구가 왜 중요한가요? (결론)

이 연구는 단순한 기술 비교를 넘어, 미래의 **'맞춤형 정밀 의료'를 위한 가이드북**을 제시했다는 점에 큰 의미가 있습니다.

1. 

**질병 진단의 정확도 향상:** 어떤 기술이 특정 질병(예: 노화 관련 질환)을 더 잘 찾아내는지 알려줌으로써, 더 정확한 진단 키트 개발을 가능하게 합니다. 

2. 

**신약 개발 가속화:** 약물을 투여했을 때 단백질 수치가 어떻게 변하는지 가장 잘 관찰할 수 있는 도구를 선택할 수 있게 도와줍니다. 

3. 

**데이터의 신뢰성 확보:** 연구자들이 자신의 연구 목적에 맞는 최적의 플랫폼을 선택할 수 있는 객관적인 근거를 제공하여, 전 세계 단백질 연구의 수준을 한 단계 끌어올렸습니다. 

결국, 이 연구는 우리가 병원에 가서 피 한 방울만 뽑아도 내 몸의 구석구석을 정확히 진단받을 수 있는 세상을 한발 더 앞당기는 중요한 밑거름이 될 것입니다.


chatGPT

아래 내용은 Nature Portfolio의 학술지 Communications Chemistry에 2025년 게재된

**“Current landscape of plasma proteomics: from technical innovations to biological insights and biomarker discovery”** 논문을 바탕으로, 일반 성인 독자를 대상으로 쉽게 풀어 쓴 요약입니다.

---

# 혈액 속 단백질을 얼마나 잘 볼 수 있을까?

## — 8가지 최첨단 혈장 단백질 분석 기술을 한 번에 비교한 연구

---

## 1. 연구 배경

우리 몸의 혈액 속 ‘혈장(plasma)’에는 수천 종의 단백질이 들어 있습니다. 이 단백질들은 염증, 노화, 비만, 심혈관 질환, 신경질환 등 다양한 생리·병리 상태를 반영합니다.

혈장은 채혈만으로 비교적 쉽게 얻을 수 있기 때문에, 질병을 조기에 발견하거나 치료 효과를 예측하는 **바이오마커(질병 지표)**를 찾는 데 매우 유망한 자원입니다.

하지만 문제가 있습니다.

* 혈장 단백질 농도는 **10억 배 이상 차이 나는 넓은 범위**를 가짐

* 개인 간 차이가 크고

* 측정 기술에 따라 결과가 달라질 수 있음

* 일부 기술은 특정 단백질만 측정 가능

* 어떤 기술은 정량 정확도는 높지만 범위가 좁음

그런데 지금까지는 **여러 플랫폼을 동일한 사람들의 샘플로 직접 비교한 연구가 거의 없었습니다.**

이 연구는 바로 그 공백을 메우기 위해 수행되었습니다.

---

## 2. 연구 목적

이 연구의 핵심 목적은 다음과 같습니다.

> 서로 다른 8가지 혈장 단백질 분석 기술을 동일한 샘플에 적용하여

> 기술적 성능, 재현성, 단백질 검출 범위, 생물학적 해석력,

> 바이오마커 발견 가능성을 체계적으로 비교하는 것

특히,

* 어떤 플랫폼이 더 많은 단백질을 보는가?

* 어떤 플랫폼이 더 정확한가?

* 플랫폼 간 결과는 얼마나 일치하는가?

* 실제 생물학적 신호(나이, 성별, BMI 등)는 얼마나 잘 반영하는가?

를 분석했습니다.

---

## 3. 연구 방법

### ① 대상자 구성

* 총 78명 건강인

  * 젊은 그룹 (18–22세) 38명

  * 고령 그룹 (55–65세) 40명

  * 남녀 1:1 비율

* 모두 건강한 혈장 공여자

즉, **질병 환자가 아니라 건강한 사람을 기준으로 비교**한 연구입니다.

---

### ② 비교한 8가지 플랫폼

연구에서는 다음 8개 기술을 비교했습니다.

#### (1) 친화성 기반(항체/압타머 기반) 플랫폼

* SomaLogic의 **SomaScan 11K / 7K**

* Olink Proteomics의 **Olink 3K / Olink 5K**

* Alamar Biosciences의 **NULISA**

이 방식은 “미리 정해진 단백질”을 고감도로 측정합니다.

---

#### (2) 질량분석(MS) 기반 플랫폼

* Seer Inc.의 nanoparticle 기반 MS

* Biognosys의 고농도 단백질 제거 기반 MS

* Thermo SureQuant 기반 표적 MS (내부표준 사용)

MS는 단백질을 직접 분해해 펩타이드 단위로 분석합니다.

더 ‘비편향적’이지만 저농도 단백질에는 약할 수 있습니다.

---

## 4. 주요 결과

### ① 총 13,011개 단백질 확인

8개 플랫폼을 모두 합치면

**13,011개의 고유 단백질**이 검출되었습니다.

하지만 놀라운 사실은:

> 8개 플랫폼 모두에서 공통으로 측정된 단백질은 단 36개뿐이었습니다.

즉, 각 기술이 “다른 세상”을 보고 있다는 의미입니다.

---

### ② 단백질 검출 범위

* SomaScan 11K: 약 9,600개 단백질 (가장 많음)

* MS-Nanoparticle: 약 5,900개

* Olink 5K: 약 5,400개

* 표적 MS: 551개 (적지만 정량 정확도 높음)

**결론:**

많이 보는 기술과 정확하게 보는 기술은 다르다.

---

### ③ 재현성(정밀도)

기술 반복 측정 시 오차(CV)를 비교했을 때:

* SomaScan: 가장 낮은 오차 (≈5%)

* Olink 3K: 중간 수준

* Olink 5K: 상대적으로 높은 오차

* 탐색형 MS: 오차가 더 큼

* 표적 MS: 매우 우수한 정밀도 (≈8%)

즉,

> 표적 MS는 적게 보지만 가장 정확하다.

---

### ④ 플랫폼 간 상관성

같은 단백질이라도 플랫폼 간 상관계수는 낮은 편이었습니다.

하지만 중요한 점은:

> **생물학적으로 의미 있는 단백질(예: 나이 관련 단백질)은 플랫폼 간 상관성이 높았다.**

즉, 진짜 생물학적 신호는 기술이 달라도 비교적 일관되게 나타났습니다.

---

### ⑤ 나이 관련 단백질 분석

노화와 관련된 단백질을 분석한 결과:

* IGFBP2, IGFBP3

* Chromogranin A

* MMP3

* CHI3L1

등이 여러 플랫폼에서 공통으로 검출됨

또한,

* Olink 3K

* SomaScan 11K

이 가장 많은 노화 관련 마커를 발견했습니다.

그리고 영국 대규모 코호트(UK Biobank) 데이터와도 상당 부분 일치했습니다.

---

### ⑥ 플랫폼별 특성 차이

* SomaScan: 가장 넓은 범위

* Olink: 비교적 높은 특이성

* MS-Nanoparticle: 더 많은 저농도 단백질 탐지 가능하지만 혈소판 오염 증가

* 표적 MS: 절대정량 가능 (gold standard 역할)

---

## 5. 고찰

이 연구가 보여준 가장 중요한 메시지는:

> “어떤 기술이 가장 좋다”는 답은 없다.

각 플랫폼은 다음과 같은 트레이드오프가 있습니다.

| 많이 측정     | 정확하게 측정 |

| --------- | ------- |

| 넓은 범위     | 낮은 오차   |

| 낮은 정밀도 가능 | 적은 단백질  |

또한 단백질의 ‘형태(아이소폼)’에 따라

측정 결과가 달라질 수 있음도 보여주었습니다.

예: ApoE4 아이소폼 분석 사례

이는 단순히 단백질 “양”만이 아니라

**어떤 형태를 측정하느냐가 중요함**을 시사합니다.

---

## 6. 의의와 시사점

이 연구의 의의는 다음과 같습니다.

1. **동일 샘플에서 8개 기술을 직접 비교한 최초의 대규모 분석**

2. 13,000개 이상 단백질을 포괄한 광범위 비교

3. 플랫폼 간 기술적·생물학적 차이를 정량적으로 제시

4. 바이오마커 연구자들에게 실질적 선택 가이드 제공

특히 중요한 점은:

* 플랫폼을 하나만 쓰는 것보다

* 서로 보완적으로 사용하는 것이

  더 깊은 생물학적 통찰을 줄 수 있다는 점입니다.

---

## 7. 이 연구가 왜 중요한가?

현재 전 세계적으로:

* 암 조기 진단

* 알츠하이머 예측

* 노화 시계 개발

* 맞춤형 의학

이 모두 혈장 단백질 분석에 기반하고 있습니다.

하지만 만약 기술마다 보는 단백질이 다르다면?

→ 질병 바이오마커 연구 결과도 기술 의존적일 수 있습니다.

이 연구는 말합니다.

> “바이오마커 발견은 기술 선택에 따라 달라진다.”

따라서 이 논문은:

* 임상 진단 개발자

* 제약회사

* 노화 연구자

* 정밀의학 연구자

모두에게 매우 중요한 기준점이 됩니다.

---

## 최종 정리

이 연구는 혈장 단백질 분석 기술의 현재 위치를 보여주는 **지도(map)**와 같습니다.

* 어떤 기술은 넓게 본다.

* 어떤 기술은 깊게 본다.

* 어떤 기술은 정확하다.

* 어떤 기술은 저농도 단백질에 강하다.

그리고 이 모든 기술이 함께할 때

우리는 인간의 생물학을 더 정확하게 이해할 수 있습니다.


grok

**혈액 한 방울로 몸의 비밀을 읽는다? 최신 혈장 단백질체 분석 기술 8종을 한자리에 비교한 연구 요약**

혈액의 액체 부분인 **혈장(플라스마)**에는 수만 가지 단백질이 들어 있습니다. 이 단백질들은 우리 몸의 건강 상태, 질병 초기 신호, 노화 과정 등을 그대로 반영하기 때문에 ‘액체 생검(liquid biopsy)’이라고 불릴 만큼 중요합니다. 하지만 혈장 단백질의 농도가 10조 배 이상 차이 나서(극저농도 단백질은 검출이 매우 어렵습니다) 정확히 측정하기가 쉽지 않았죠.

2025년 9월에 출판된 이 논문은 바로 그 문제를 해결하기 위해 **세계 최초로 동일한 78명의 혈장 샘플을 8가지 최신 단백질체 분석 플랫폼에 동시에 적용**해 직접 비교한 연구입니다. 전문 용어 없이 쉽게 풀어 설명드릴게요.

### 연구 목적

“혈장 단백질을 측정하는 다양한 최신 기술들이 실제로 얼마나 다르고, 각각 어떤 장점이 있을까?”  

→ 연구자들이 “내 연구 목적에 어떤 기술을 써야 할까?”를 쉽게 선택할 수 있게 도와주고, 미래 바이오마커(질병 조기 발견 물질) 개발의 길을 열기 위함입니다.

### 연구 방법 – 누구를, 어떻게?

- 참가자: 건강한 성인 78명 (남녀 동일 비율)

  - 젊은 그룹 38명 (18~22세)

  - 고령 그룹 40명 (55~65세)

- 사용한 8가지 플랫폼 (한 번에 모두 측정!)

  1. SomaScan 11K & 7K (압타머 기반, 가장 많은 단백질 측정)

  2. Olink Explore HT(5K) & 3072(3K) (항체 기반)

  3. NULISA (초고감도, 염증·뇌 질환 특화)

  4. MS-Nanoparticle (나노입자 농축 + 질량분석)

  5. MS-HAP Depletion (고농도 단백질 제거 + 질량분석)

  6. MS-IS Targeted (정밀 타겟 질량분석, ‘황금 표준’)

총 **13,011개**의 서로 다른 단백질이 한 번에 발견됐습니다.

### 주요 결과 – 한눈에 보는 승자표

1. **얼마나 많은 단백질을 잡아내나? (커버리지)**

   - 1위: SomaScan 11K → 9,645개 (FDA 승인 바이오마커 88% 검출!)

   - 2위: SomaScan 7K → 6,401개

   - 3위: 나노입자 질량분석 → 5,943개

   - 나머지는 300~5,000개 수준

2. **측정 정확도 (재현성, CV 값 낮을수록 좋음)**

   - SomaScan: 최고 수준 (오차 5% 내외)

   - NULISA & Targeted MS: 6~8%

   - Olink 5K와 일반 질량분석: 25~30% (상대적으로 불안정)

3. **데이터 완전성 (얼마나 자주 검출되나?)**

   - SomaScan: 95~96% (거의 항상 검출)

   - Olink 3K: 60%, Olink 5K: 36% (최신 버전이 오히려 검출률 떨어짐)

4. **나이·성별·BMI와 관련된 단백질은?**

   - SomaScan 11K가 가장 많은 생물학적 신호를 포착 (나이 관련 628개, BMI 관련 4,040개 등)

   - 하지만 **플랫폼마다 잡아내는 단백질이 크게 달라** 서로 보완적임

   - 나이와 관련된 유명 단백질(IGFBP2, IGFBP3, Chromogranin-A 등)은 거의 모든 플랫폼에서 공통으로 발견

5. **특이한 발견**

   - ApoE4 (알츠하이머 위험 유전자 관련): NULISA와 질량분석은 ‘특정 형태’를 정확히 구분했지만, SomaScan은 총량만 측정해 오차 가능성 있음

   - 나노입자 기술은 저농도 단백질을 잘 잡지만, 혈소판 오염이 많아 주의 필요

### 고찰 – 그래서 어떤 기술을 써야 할까?

- **발견 중심 연구(새로운 바이오마커 찾기)** → SomaScan 11K 또는 나노입자 질량분석 추천 (많이 보고, 넓게 보기)

- **정밀하고 믿을 수 있는 측정** → SomaScan 또는 NULISA, Targeted MS (오차 적고 재현성 높음)

- **극저농도 염증·뇌 단백질** → NULISA 최고

- **비용·처리 속도**를 고려하면 플랫폼마다 장단점이 뚜렷

결론적으로 “하나의 기술이 만능은 아니다. 목적에 따라 조합해서 쓰는 시대”가 왔다는 점을 명확히 보여줍니다.

### 이 연구가 왜 중요한가?

지금까지 혈장 단백질체 연구들은 서로 다른 기술, 다른 사람 샘플로 진행돼 비교가 거의 불가능했습니다.  

이 논문은 **동일한 혈장으로 8개 기술을 한 번에 비교**한 최초의 대규모 연구로, 앞으로 수많은 연구자들이 “내가 어떤 기술을 선택해야 할지” 과학적으로 판단할 수 있는 **지도**를 제공합니다.

특히 노화, 치매, 심혈관질환, 암 등 나이 들면서 생기는 질병의 조기 발견 바이오마커 개발에 직접적인 도움을 줄 것입니다.  

혈액 한 방울로 “내 몸이 지금 몇 살인지, 어떤 질병 위험이 있는지”를 정확히 아는 시대가 가까워지고 있다는 증거입니다.

**한 줄 요약**  

“혈장 단백질 분석 기술 8종을 한자리에 모아 직접 겨뤄보니, 각자 다른 강점이 뚜렷했다. 이제 연구 목적에 맞는 ‘최적의 도구’를 과학적으로 고를 수 있게 됐다!”

이 연구는 혈액 한 방울로 미래 의학을 바꾸는 중요한 이정표입니다. 건강에 관심 있는 모든 분들이 알아두시면 좋은 내용이에요!


NotebookLM

제시해주신 논문 **"Current landscape of plasma proteomics from technical innovations to biological insights and biomarker discovery" (2025)**를 바탕으로, 일반 성인 독자들이 이해하기 쉽게 정리한 블로그 형식의 요약본입니다.

---

## [블로그 포스팅] 혈액 한 방울로 질병을 찾아내는 기술, 어디까지 왔을까? : 8가지 최첨단 단백질 분석 플랫폼 전격 비교

우리 몸의 '혈액'은 건강 상태를 비추는 거울과 같습니다. 혈액 속 액체 성분인 **혈장(Plasma)**에는 우리 몸의 생물학적 변화를 실시간으로 반영하는 수만 개의 **단백질**들이 떠다니고 있기 때문입니다. 

최근 과학계에서는 이 혈장 속 단백질들을 낱낱이 분석하여 질병을 조기에 진단하거나 새로운 치료제를 개발하려는 **'혈장 단백체학(Plasma Proteomics)'** 연구가 뜨겁습니다. 하지만 단백질을 분석하는 기술이 너무 다양해서, 어떤 기술이 가장 정확하고 효율적인지 판단하기 어려웠습니다. 

오늘은 세계적인 학술지 *Nature* 계열 저널에 발표된 최신 연구를 통해, 현재 전 세계에서 가장 앞서가는 **8가지 단백질 분석 기술**을 직접 비교한 결과를 소개해 드립니다.

---

### 1. 연구의 배경과 목적: "왜 이 연구가 시작되었을까?"

우리 혈액 속에는 단백질이 아주 많이 들어있는 것도 있지만, 암이나 치매의 징후를 알려주는 중요한 단백질들은 아주 미량으로 존재합니다. 이 미세한 차이를 잡아내기 위해 여러 기업이 각기 다른 분석 플랫폼을 내놓았습니다. 

하지만 지금까지는 서로 다른 샘플을 사용해 각자의 기술이 좋다고만 홍보해 왔습니다. 본 연구는 **"똑같은 사람의 혈액을 8개의 서로 다른 최신 기술로 동시에 분석하면 어떤 결과가 나올까?"**라는 질문에서 시작되었습니다. 연구팀은 이를 통해 각 기술의 장단점을 명확히 밝히고, 미래의 질병 진단에 어떤 도구가 가장 적합한지 가이드를 제시하고자 했습니다.

### 2. 연구 방법: "어떻게 비교했나?"

연구팀은 건강한 **성인 78명**(20대 청년층과 60대 장년층으로 구성)의 혈액을 채취했습니다. 그리고 이 혈액 샘플 하나를 다음의 8가지 플랫폼에 똑같이 보냈습니다:

*   **항체/압타머 기반 (낚시 방식):** 단백질에 딱 달라붙는 '낚시 바늘' 같은 물질을 사용하는 방식 (SomaScan 7K/11K, Olink 3K/5K, NULISA).

*   **질량 분석 기반 (무게 측정 방식):** 단백질의 무게를 직접 재서 성분을 알아내는 방식 (MS-Nanoparticle, MS-HAP Depletion, MS-IS Targeted).

### 3. 주요 연구 결과: "어떤 기술이 가장 뛰어났나?"

실험 결과, 8개 플랫폼을 모두 합쳐 총 **13,011개의 고유한 단백질**이 검출되었습니다. 주요 발견은 다음과 같습니다.

*   **가장 많은 단백질을 찾아낸 기술:** **SomaScan 11K** 플랫폼이 9,645개의 단백질을 검출하며 가장 넓은 범위를 자랑했습니다. 

*   **정밀도와 안정성:** **SomaScan**과 **NULISA** 기술이 반복 실험에서도 가장 일정한 결과를 보여주며 높은 정밀도를 기록했습니다. 반면, 일부 최신 질량 분석 기술이나 Olink 5K는 상대적으로 결과의 변동성이 컸습니다.

*   **특정 변이 포착의 차이 (ApoE4 사례):** 알츠하이머병 위험 인자로 유명한 **ApoE4** 단백질을 분석했을 때, **NULISA**와 **질량 분석(MS)** 기술은 특정 변이만을 정확히 골라냈습니다. 하지만 SomaScan은 특정 변이뿐만 아니라 일반적인 ApoE 단백질까지 모두 잡아내는 한계를 보였습니다.

*   **오염 물질 주의보:** 나노 입자를 이용해 단백질을 농축하는 방식(MS-Nanoparticle)은 많은 단백질을 찾아내지만, 혈소판 등에서 유래한 '노이즈(불순물)'까지 함께 검출될 확률이 높다는 사실이 밝혀졌습니다.

### 4. 고찰 및 시사점: "완벽한 기술은 없다"

연구 결과, 모든 면에서 완벽한 단일 기술은 없었습니다. 

*   **SomaScan**은 수천 개의 단백질을 한꺼번에 훑어보는 '탐색형 연구'에 유리합니다.

*   **NULISA**는 아주 적은 양의 염증 지표를 정밀하게 추적하는 데 탁월합니다.

*   **질량 분석(MS)** 방식은 미리 정해진 단백질만 보는 것이 아니라, 우리가 미처 몰랐던 새로운 단백질 변이를 발견하는 데 강력한 무기가 됩니다.

결국 연구의 목적(암 진단인지, 노화 연구인지 등)에 따라 적절한 도구를 선택하는 것이 중요하다는 것을 이 논문은 시사합니다.

---

### 💡 이 연구가 왜 중요할까요?

이 연구는 마치 **'단백질 분석 기술계의 컨슈머 리포트'**와 같습니다. 

1.  **진단의 정확성 향상:** 질병의 지표가 되는 단백질(바이오마커)을 찾을 때, 어떤 도구가 '가짜 신호'를 내보내고 어떤 도구가 '진짜 신호'를 잡는지 알려줌으로써 의학 연구의 시행착오를 줄여줍니다.

2.  **맞춤형 의료의 기초:** 사람마다 단백질 분포가 어떻게 다른지, 나이가 들면서 어떤 단백질이 변하는지를 가장 잘 보여주는 기술이 무엇인지 확인했습니다. 

3.  **치료제 개발 가속화:** 제약 회사들이 약의 효과를 측정하기 위해 어떤 분석법을 믿고 사용해야 할지에 대한 과학적 근거를 제시했습니다.

결론적으로, 이 연구는 **혈액 한 방울로 우리의 미래 건강을 예측하는 '정밀 의료' 시대를 앞당기는 중요한 이정표**가 될 것입니다.

---

*본 포스팅은 Douglas Y. Kirsher 등의 논문(2025)을 바탕으로 작성되었습니다.*


Perplexity.ai

이 논문은 ‘혈장 단백질’(플라즈마 프로테옴)을 얼마나 잘, 얼마나 다르게 측정하느냐를 8가지 최신 기술로 정면 비교한 연구입니다. 

***

## 1. 연구 배경: 피 한 번 뽑아서 온몸 상태를 본다

- 혈장은 혈액에서 세포를 뺀 액체 성분으로, 단백질·지질·DNA·대사산물 등 온갖 분자가 섞여 있어 몸 상태를 그대로 반영합니다. 

- 특히 단백질은 질병과 밀접하게 연결되어 있어서 “질병 표지자(biomarker)”를 찾는 데 핵심입니다. 

- 피는 채혈이 간편하고 반복 채혈도 가능하기 때문에, 평생에 걸쳐 건강 상태 변화를 추적하는 데 가장 매력적인 재료입니다. 

- 하지만 혈장 안에는 농도가 극도로 높은 단백질부터 극미량 단백질까지 10자릿수 이상 농도 차이가 나서, 한 번에 넓고 정확하게 측정하는 것이 매우 어렵습니다. 

이 때문에 다양한 회사·연구소에서 서로 다른 혈장 단백질 분석 플랫폼(기술)을 만들어 쓰고 있지만, “어느 기술이 얼마나 다르고, 무엇을 더 잘 측정하는지”를 한꺼번에 비교한 연구는 거의 없었습니다. 

***

## 2. 연구 목적: 8개 플랫폼, 같은 사람 샘플로 ‘정면 승부’

연구진은 다음 질문에 답하고자 했습니다. 

1. 주요 혈장 단백질 분석 플랫폼(친화도 기반, 질량분석 기반)이 같은 혈장 샘플을 어떻게 다르게 읽어내는가?  

2. 어떤 플랫폼이 단백질 종류(커버리지), 정확도, 재현성, 데이터의 완전성 면에서 강점을 가지는가? 

3. 나이·성별·BMI(체질량지수) 같은 실제 생물학적 차이를 얼마나 잘 포착하는가, 그리고 각 플랫폼이 포착하는 “노화 단백질”과 관련 경로는 어떻게 겹치고 무엇이 다른가? 

궁극적으로는 “어떤 연구 목적에 어떤 플랫폼을 쓰는 게 좋은지”에 대한 실질적인 가이드를 주는 것이 목표입니다. 

***

## 3. 방법: 78명 건강인 혈장을 8개 기술로 동시에 측정

### 3-1. 연구 대상

- 78명 건강한 헌혈형 기증자: 남녀 1:1, 젊은 층(18–22세) 38명, 중년·노년층(55–65세) 40명. 

- 키·몸무게·BMI·혈압·흡연 여부·혈액 농도(헤마토크릿·총 단백질) 등 기본 건강 지표도 함께 수집했습니다. 

### 3-2. 8개 혈장 단백질 플랫폼

1. **친화도(항체·압타머) 기반** 

   - SomaScan 7K, SomaScan 11K (압타머 기반, 각각 7천·1만1천개 단백질 타깃)  

   - Olink Explore 3K, Olink Explore 5K (항체+DNA 태그 기반, 약 3천·5천개 단백질 타깃)  

   - NULISA (초고감도 염증·뇌질환 패널, 300여 개 단백질)  

2. **질량분석(MS) 기반** 

   - MS-Nanoparticle (나노입자로 단백질 농축 후 MS 분석, Seer Proteograph XT)  

   - MS-HAP Depletion (고농도 단백질을 제거한 뒤 깊게 보는 MS, Biognosys TrueDiscovery)  

   - MS-IS Targeted (내부 표준을 넣어 특정 단백질을 절대 정량하는 타깃 MS, SureQuant)

모든 플랫폼은 동일한 78개 혈장 샘플(플라스마페레시스 수집)을 사용해 분석하도록 설계했습니다. 

***

## 4. 주요 결과

### 4-1. 얼마나 많은 단백질을 볼 수 있나: 커버리지

- 8개 플랫폼을 합쳐 **13,011개의 고유 단백질**을 검출했습니다. 

- SomaScan 11K가 9,645개로 가장 많은 단백질을 검출했고, SomaScan 7K(6,401개), MS-Nanoparticle(5,943개), Olink 5K(5,416개), MS-HAP Depletion(3,575개) 순이었습니다. 

- 플랫폼마다 “나만 보는 단백질”도 상당히 많아서, SomaScan 두 버전만 합쳐 3,600개, Olink 두 버전도 1,227개의 고유 단백질을 갖고 있었습니다. 

- 8개 모두가 공통으로 검출한 단백질은 겨우 36개에 불과했습니다. 

→ 즉, “어떤 플랫폼을 쓰느냐”에 따라 보이는 혈장 세계가 크게 달라집니다.

### 4-2. 재현성과 데이터 빠짐: 기술적인 완성도

- 같은 샘플을 반복 측정했을 때 변화 정도를 나타내는 지표(CV)를 비교했습니다. 

  - SomaScan 11K, 7K의 **중앙값 CV는 5%대**로, 8개 중 가장 안정적이었습니다. 

  - Olink 3K도 11.4%로 비교적 양호했지만, Olink 5K는 26.8%로 변동성이 커졌습니다. 

  - NULISA는 6.6%, 타깃 MS인 MS-IS Targeted는 8.3%로 “정밀 계측기” 수준의 안정성을 보였습니다. 

  - 반면, 발견형 MS(MS-Nanoparticle, MS-HAP Depletion)는 20% 후반대로 흔들림이 컸습니다. 

- 데이터가 실제로 얼마나 채워져 있는지도 확인했습니다(검출되지 않거나 검출 한계 미만이면 ‘결측값’). 

  - SomaScan 11K/7K: 96% 수준의 높은 데이터 완전성. 

  - Olink 3K: 60.3%, MS-HAP Depletion: 53.6%. 

  - Olink 5K는 35.9%로, 최신 버전이지만 데이터 빠짐이 많았습니다. 

→ 많은 단백질을 본다고 좋은 게 아니라, “얼마나 안정적으로 자주 검출되는가”가 연구·임상에서 매우 중요하다는 점을 보여줍니다.

### 4-3. 실제 농도 범위: 고농도부터 극저농도까지

- Human Protein Atlas에 등록된 혈장 단백질의 추정 농도와 비교해 보니, 대부분 플랫폼이 **약 10⁵–10⁻² ng/mL** 범위에 걸쳐 단백질을 검출했습니다. 

- 나노입자 기반 MS(MS-Nanoparticle)는 MS-HAP Depletion보다 더 많은(거의 두 배) 단백질을 검출하면서도 농도 분포는 비슷했습니다. 

- 다만 나노입자 농축 과정에서 혈소판 단백질이 많이 딸려와 “혈소판 오염 지수”가 크게 증가하는 부작용이 확인되었습니다. 

### 4-4. FDA 승인 바이오마커를 얼마나 커버하나

- 미국 FDA가 승인한 혈중 단백질 바이오마커 리스트를 기준으로 각 플랫폼의 “임상적 커버리지”를 봤습니다. 

  - SomaScan 11K: 88% 커버, SomaScan 7K: 76%. 

  - 발견형 MS 두 플랫폼: 73%. 

  - Olink: 57%. 

  - MS-IS Targeted: 전체 타깃 수는 적지만, FDA 바이오마커의 43%를 정밀 정량. 

→ 폭넓은 탐색에는 압타머/항체 플랫폼이 유리하고, 정밀한 수치가 중요한 소수 표지자에는 타깃 MS가 강점을 보입니다.

### 4-5. 플랫폼끼리 측정값은 얼마나 비슷한가?

- 공통으로 측정한 단백질들에 대해, 사람마다의 단백질 농도 패턴이 플랫폼 간에 얼마나 상관이 있는지(스피어만 상관계수) 비교했습니다. 

  - SomaScan 11K vs 7K: 0.79, Olink 5K vs 3K: 0.74로, 같은 회사 버전끼리는 높은 상관을 보였습니다. 

  - MS-IS Targeted는 다른 모든 플랫폼과 중간 수준(0.35~0.62)의 상관을 보였고, 특히 Olink 3K와는 0.62로 가장 높았습니다. 

- 흥미로운 점은, 상관 분포가 자주 **두 개의 봉우리(이봉 분포)**를 보여 “잘 맞는 단백질 그룹”과 “서로 안 맞는 단백질 그룹”이 뚜렷이 갈린다는 것이었습니다. 

- 그 이유를 보기 위해 공통 259개 단백질을 골라, 기술적 CV가 낮은 그룹(<20%)과 높은 그룹(≥20%)으로 나눴더니, CV가 낮은 단백질일수록 플랫폼 간 상관이 확실히 높았습니다. 

→ 결국 “안정적으로 잘 재는 단백질”은 플랫폼이 달라도 비슷하게 나오고, 불안정하게 재는 단백질은 플랫폼마다 제각각이라는 뜻입니다.

### 4-6. 같은 단백질인데도 플랫폼마다 다르게 보이는 이유: ‘프로테오폼’의 함정

연구진은 아포지단백 E(ApoE)라는 단백질의 세 가지 유전자형(시형) E2, E3, E4를 예로 들어 “얼핏 같은 단백질처럼 보이지만, 실제로는 어느 시형을 재는지에 따라 결과가 완전히 달라질 수 있다”는 점을 보여줍니다. 

- 대부분 플랫폼은 “총 ApoE”만 측정하지만, SomaScan은 E2, E3, E4 각각을 겨냥한 압타머를, NULISA는 ApoE4 특이 항체를 추가로 가지고 있습니다. 

- 실제 데이터를 보면, SomaScan의 E2/E3/E4 압타머들이 서로 매우 높게 상관되어 **실제로는 isoform 선택성이 떨어질 가능성**이 컸고, 회사 자료에서도 ApoE4 압타머가 E2·E3에도 비슷하게 결합한다고 명시돼 있습니다. 

- 반대로, NULISA의 ApoE4 신호는 질량분석에서 ApoE4에만 존재하는 특이 펩타이드와는 강하게 상관되지만, 총 ApoE 신호와는 상관이 거의 없었습니다. 

→ 표면적으로는 모두 “ApoE”를 측정하는 것 같지만, 실제로는 어떤 형태(프로테오폼)를 보는지에 따라 완전히 다른 생물학적 의미를 가질 수 있다는 점을 잘 보여주는 사례입니다. 

***

## 5. 생물학적 분석: 나이·성별·BMI와 단백질의 관계

연구진은 단순 기술 비교를 넘어서, “이 플랫폼들이 실제 사람 특성(나이, 성별, BMI 등)을 얼마나 잘 설명하는가”를 모델링했습니다. 

### 5-1. 어떤 단백질이 나이·성별·BMI와 연관되는가?

- 선형 회귀모델(나이, 성별, 인종, 헤마토크릿, 총 단백질, 흡연, BMI)을 돌려, 각 단백질이 어느 요인과 유의하게 관련되는지 확인했습니다. 

- SomaScan 11K는 가장 많은 단백질과 단백질 클래스를 커버하기 때문에, 나이·성별·BMI 관련 “의미 있는 단백질”을 가장 많이 찾아냈습니다. 

  - 예: 나이 관련 단백질 628개(p-adj 기준), 성별 관련 단백질 1,074개, BMI 관련 단백질 4,040개 등. 

- MS-Nanoparticle도 성별 관련 단백질을 많이 찾았고, Olink 3K/5K는 SomaScan 다음으로 생물학적 마커 탐지력이 좋았습니다. 

하지만 전체 변동 중 모델이 설명할 수 있는 비율은 20% 안팎에 그쳤고, 나머지는 질병·유전 요인처럼 이번 데이터에는 포함되지 않은 요소들이 클 것으로 추정했습니다. 

### 5-2. 대표적인 생물학적 마커 예시

여러 플랫폼에서 공통적으로 잘 잡힌 “교과서 같은” 단백질도 확인했습니다. 

- **렙틴(Leptin)**: 식욕·지방 분포 조절 호르몬으로, 여성에서 더 높고 비만에서 증가하는 것이 잘 알려져 있습니다. 

  - 이 연구에서도 성별과 BMI가 이 단백질 변동의 40% 안팎을 설명했습니다. 

- **Pregnancy Zone Protein(PZP)**: 여성에게 훨씬 높은 단백질로, 성별이 변동의 최대 46%를 설명했습니다. 

- **Chromogranin A, IGFBP2**: 노화 관련 마커로, 나이·BMI와의 연관성이 여러 플랫폼에서 일관되게 나타났습니다. 

→ 플랫폼이 달라도 “진짜 생물학적으로 의미 있는 신호”는 방향과 크기가 꽤 일치한다는 점이 강조됩니다.

***

## 6. 노화(aging) 단백질과 경로 분석

이 논문에서 가장 깊게 파고든 주제가 바로 “혈장 단백질을 이용해 노화를 읽는 것”입니다. 

### 6-1. 나이와 유의하게 연관된 단백질

- Olink 3K가 669개로 가장 많은 나이 관련 단백질을, SomaScan 11K가 628개를 찾아냈습니다. 

- SomaScan 11K는 282개, Olink 3K와 5K는 각각 176개, 99개의 “자기만의 노화 단백질”을 갖고 있었습니다. 

- 8개 플랫폼 중 최소 7개에서 공통으로 “나이와 관련 있다”고 나온 단백질 9개가 특히 주목됩니다. 

  - IGFBP2, IGFBP3(인슐린 유사 성장인자 결합 단백질): 여러 코호트에서 반복적으로 노화 마커로 보고됨. 

  - Chromogranin A, COMP, CKTAC1 등, 장수 노인·극고령자 연구에서 발견된 단백질들. 

  - RNASE1, MMP3, CHI3L1 등도 피부 탄력, 염증성 노화 등과 연관된 단백질로 알려져 있습니다. 

→ 서로 다른 기술, 서로 다른 회사의 플랫폼이지만, 공통된 “노화 시그니처 단백질”이 존재한다는 점을 보여줍니다.

### 6-2. 나이 관련 경로(패스웨이)

- 각 플랫폼에서 나온 노화 관련 단백질들로 GO, KEGG, Reactome 경로 분석을 했습니다. 

- 플랫폼마다 찾아낸 경로 수와 종류는 많이 달랐지만, 모든 플랫폼에서 공통적으로 강화된 경로 10개가 있었고, 이들은  

  - 세포 신호 전달,  

  - 세포·조직 구조 유지,  

  - 기관 기능 유지  

  와 관련된 경로들이었습니다. 

또한, 이 연구에서 찾은 노화 단백질들을, 5만 명 이상을 대상으로 한 UK Biobank–Olink 대규모 코호트의 노화 관련 단백질들과 비교했을 때도 상당한 중복이 있어, “작은 코호트지만 결과의 생물학적 신뢰성이 높다”는 점을 입증했습니다. 

***

## 7. 이 연구의 의의와 시사점

### 7-1. 플랫폼 선택을 위한 ‘실전 가이드’

이 논문이 주는 가장 큰 메시지는 “플라즈마 프로테옴을 본다는 말이, 어떤 기술을 쓰느냐에 따라 완전히 다른 풍경을 본다는 뜻”이라는 점입니다. 

- **폭넓은 탐색·바이오마커 발굴**  

  - SomaScan 11K/7K, Olink 3K/5K처럼 수천~1만개 단백질을 동시에 보는 플랫폼이 유리합니다. 

  - 특히 SomaScan 11K는 커버리지·재현성·데이터 완전성이 모두 좋아 대형 탐색 연구에 적합한 도구로 제시됩니다. 

- **정밀한 수치, 임상 검증·진단용**  

  - MS-IS Targeted 같은 타깃 질량분석은 커버리지(단백질 종류)는 적지만, 농도를 ‘절대값’으로 정확하게 재기 때문에 임상 진단이나 표준값 설정에 강합니다. 

- **저농도 사이토카인, 염증·뇌질환**  

  - NULISA는 매우 낮은 농도의 단백질까지 감지 가능한 초고감도 플랫폼으로, 염증·신경질환 바이오마커 연구에 특화된 도구로 활용될 수 있습니다. 

→ 연구 목적이 “새 표지자를 많이 찾는 것인지”, “이미 알려진 표지자를 정확히 재는 것인지”, “초저농도 신호를 잡는 것인지”에 따라 선택해야 할 플랫폼이 달라진다는 구체적인 통찰을 제공합니다. 

### 7-2. “플랫폼 하나로는 부족하다”는 현실적인 메시지

- 8개 플랫폼 모두가 공통으로 보는 단백질이 36개뿐이라는 사실은, 한 플랫폼에만 의존하면 많은 정보를 놓칠 수 있음을 보여줍니다. 

- 반대로, 여러 플랫폼을 병행하면  

  - 서로 다른 단백질·프로테오폼을 보완적으로 커버하고,  

  - 공통으로 의미 있게 나오는 단백질은 “진짜 유망한 바이오마커”로 자신 있게 골라낼 수 있습니다. 

또한, 플랫폼마다 전처리(혈장 처리, 농축, 고농도 단백질 제거 등)와 데이터 처리 방식이 달라 샘플 오염(예: 혈소판)과 기술적 변동성이 달라진다는 점도, 향후 대규모 혈장 프로테옴 프로젝트에서 반드시 고려해야 할 부분입니다. 

***

## 8. 이 연구가 왜 중요한가?

1. **혈장 단백질 시대의 ‘지도’ 역할**  

   혈장 프로테옴은 앞으로 암, 심혈관질환, 치매, 노화 연구와 정밀의료에서 핵심 역할을 할 가능성이 큽니다. 이 논문은 그 핵심 도구들(8개 플랫폼)에 대해 “무엇을 얼마나, 얼마나 잘 보는지”를 직접 비교한 첫 종합 지도 중 하나입니다. 

2. **바이오마커 개발의 시행착오를 줄이는 기준점**  

   표면적으로는 모두 “단백질을 측정한다”고 말하지만, 실제로는 커버리지, 정밀도, 데이터 빠짐, 프로테오폼 선택성이 크게 다릅니다. 이 차이를 이해하지 못하면, 특정 코호트에서 의미 있어 보인 바이오마커가 다른 연구나 다른 기술에서는 재현되지 않는 문제가 계속 생길 수 있습니다. 이 논문은 그 원인을 구체적인 수치와 사례로 보여주며, 어떤 조합과 전략이 재현성을 높일 수 있는지 방향을 제시합니다. 

3. **노화·건강수명 연구의 기반 데이터 제공**  

   나이 관련 단백질과 경로를 여러 플랫폼에서 동시에 분석하고, UK Biobank 같은 초대형 코호트와도 비교해 일관된 노화 시그니처를 도출했다는 점에서, 향후 “혈액으로 보는 생체 나이” 연구의 중요한 참고 자료가 됩니다. 

4. **기술 발전의 다음 과제를 명확히 제시**  

   - 나노입자 기반 MS의 혈소판 오염 문제,  

   - 특정 플랫폼의 데이터 결측과 CV 문제,  

   - 프로테오폼 선택성 부족,  

   - 전처리·분석 파이프라인 표준화 필요성 등  

   앞으로 해결해야 할 기술적·분석적 과제를 명확히 짚어줍니다. 

결국 이 연구는 “피 한 번 뽑아 몸 전체 건강을 정밀하게 읽고, 질병을 조기에 발견하며, 노화 속도를 측정하는 시대”를 준비하기 위한 **기초 설계도**에 가깝습니다. 어떤 플랫폼을 어떻게 조합해야, 더 정확하고 재현성 높은 바이오마커와 진단법을 만들 수 있는지에 대한 실질적인 기준을 제공한다는 점에서, 학계와 산업계 모두에게 매우 중요한 의미를 갖는 연구입니다. 


Kimi

# 혈장 단백질 분석 기술 비교 연구: 어떤 방법이 가장 정확할까?

## 연구 배경: 왜 혈장 단백질이 중요한가?

혈장은 우리 몸의 '건강 상태를 보여주는 거울'입니다. 혈액을 채취하면 쉽게 얻을 수 있는 혈장에는 수천 가지 단백질이 들어 있어, 질병의 조기 진단과 치료 표적 발굴에 귀중한 정보를 제공합니다. 하지만 혈장 단백질은 농도 차이가 100억 배(10¹⁰)에 달할 정도로 다양해 분석이 매우 어렵습니다. 저농도의 중요한 바이오마커를 찾아내기 위해서는 뛰어난 분석 기술이 필요합니다.

현재 혈장 단백질 분석에는 크게 두 가지 접근법이 있습니다. **친화성 기반 기술**(SomaScan, Olink, NULISA 등)은 DNA aptamer나 항체와 같은 결합 분자를 이용해 특정 단백질을 '낚아채는' 방식입니다. 반면 **질량분석(MS) 기반 기술**은 단백질을 작은 펩타이드로 쪼개어 질량을 측정하는 '바텀업' 방식입니다. 각 기술마다 장단점이 뚜렷하지만, 같은 혈장 샘플로 여러 기술을 직접 비교한 연구는 거의 없었습니다.

---

## 연구 목적: 8가지 최신 기술의 공정한 비교

본 연구는 **같은 건강한 성인 78명의 혈장 샘플**을 사용해 8가지 최신 단백질 분석 플랫폼을 직접 비교했습니다. 연령(청년 38명, 중년 40명)과 성비를 맞춘 코호트를 구성해, 기술적 성능뿐 아니라 생물학적 통찰도 함께 평가했습니다.

**비교 대상 플랫폼:**

- **친화성 기반**: SomaScan 11K/7K (aptamer), Olink Explore HT/3072 (항체), NULISA (항체)

- **질량분석 기반**: Seer Proteograph XT (나노입자 농축), Biognosys TrueDiscovery (고농도 단백질 제거), SureQuant (표적 분석)

---

## 연구 방법: 어떻게 비교했나?

모든 플랫폼에 동일한 혈장 샘플을 제공하고, 각 회사의 표준 분석 파이프라인으로 데이터를 생성했습니다. 핵심 평가 지표는 다음과 같습니다:

1. **단백질 커버리지**: 얼마나 많은 단백질을 검출하는가?

2. **정밀도**: 기술적 반복 측정 시 얼마나 일관적인가? (CV%, 변동계수)

3. **데이터 완전성**: 얼마나 많은 샘플에서 단백질이 검출되는가?

4. **선형성**: 단백질 농도가 실제로 비례해서 측정되는가?

5. **생물학적 관련성**: 나이, 성별, BMI 등 알려진 요인과 얼마나 잘 연관되는가?

---

## 핵심 결과: 각 기술의 강점과 약점

### 1. 단백질 검출 범위: SomaScan이 압도적

| 플랫폼 | 검출 단백질 수 | 특징 |

|--------|--------------|------|

| **SomaScan 11K** | 9,645개 | 가장 광범위한 커버리지 |

| **SomaScan 7K** | 6,401개 | 안정적인 커버리지 |

| **Seer 나노입자** | 5,943개 | MS 기술 중 최고 |

| **Olink 5K** | 5,416개 | 새 버전이지만 3K보다 완성도 낮음 |

| **Olink 3K** | 2,925개 | 안정적인 성능 |

| **Biognosys** | 3,575개 | 전통적 MS 방식 |

| **SureQuant** | 551개 | 소수 단백질 정밀 정량 |

| **NULISA** | 325개 | 초저농도 감지 특화 |

**놀라운 점**: 8개 플랫폼을 합쳐 총 13,011개의 고유 단백질을 찾았지만, **모든 플랫폼에서 공통으로 검출된 단백질은 단 36개**에 불과했습니다. 이는 각 기술이 상당히 다른 단백질 집합을 '보고' 있음을 의미합니다.

### 2. 정밀도: SomaScan과 SureQuant가 우수

기술적 변동계수(CV)를 비교한 결과, **SomaScan 11K와 7K가 각각 5.3%와 5.8%로 가장 정밀**했습니다. Olink 3K(11.4%)도 양호했지만, Olink 5K는 26.8%로 높은 변동성을 보였습니다. MS 기반 기술 중에서는 SureQuant(8.3%)만 친화성 기술과 비슷한 수준을 보였고, 나머지 MS 기술은 26-30% 수준의 CV를 보였습니다.

**중요 발견**: Olink 5K의 높은 CV는 검출 한계 아래 데이터를 제외하면 12.4%로 개선되지만, 이 경우 40%의 단백질이 사라집니다. 즉, 새 버전이 더 많은 단백질을 '보려고' 하지만 정확도는 떨어지는 trade-off가 있었습니다.

### 3. 데이터 완전성: SomaScan이 최고

SomaScan 11K와 7K는 각각 96.2%와 95.8%의 데이터 완전성을 보여 거의 모든 샘플에서 대부분의 단백질이 검출되었습니다. 반면 Olink 5K는 35.9%로, MS 기반 기술들도 53-55% 수준에 그쳤습니다. **데이터가 없는 경우가 많을수록 통계적 분석의 신뢰도가 떨어집니다.**

### 4. 생물학적 검증: 나이 관련 마커에서 플랫폼별 특성 드러나

나이와 관련된 단백질 마커를 분석한 결과, **Olink 3K가 669개로 가장 많은 마커를 찾았고, SomaScan 11K가 628개로 뒤를 이었습니다**. 하지만 SomaScan 11K는 282개의 '독점 마커'를 가지고 있어, 다른 플랫폼에서는 발견할 수 없는 나이 관련 단백질 변화를 포착했습니다.

흥미롭게도, 9개의 단백질(IGFBP2, IGFBP3, Chromogranin-A 등)은 7개 이상의 플랫폼에서 공통적으로 나이와 연관되었습니다. 이들은 이미 알려진 노화 바이오마커로, 여러 기술이 동시에 검출함으로써 신뢰성이 높아졌습니다.

### 5. 플랫폼 간 상관관계: 생물학적으로 중요한 단백질일수록 일치

모든 공통 단백질에 대한 플랫폼 간 상관계수는 낮았지만(0.34-0.75), **통계적으로 유의미한 나이 관련 마커로 좁히면 상관계수가 0.66-0.95로 크게 향상**되었습니다. 이는 '중요한' 단백질은 여러 기술에서 비슷하게 측정된다는 의미입니다.

특히 SureQuant(표적 MS)와 Olink 3K의 상관계수는 0.62로, 친화성 기술과 MS 기술 간 가장 높은 일치도를 보였습니다. 이는 Olink 3K의 측정 특이성이 높음을 시사합니다.

### 6. 단백질 형태(Proteoform) 선택성: 숨겨진 차이

ApoE(아포지단백질 E) 단백질을 예로 들면, SomaScan은 총 ApoE와 3가지 isoform(E2, E3, E4)을 모두 측정하지만, 실제로는 isoform 간 구분이 명확하지 않았습니다. 반면 NULISA의 ApoE4 특이적 검출은 MS 데이터와 강한 상관관계를 보여 **진정한 isoform 특이성**을 가졌음을 확인했습니다. 이는 '같은 단백질을 측정한다'고 해도 실제로는 다른 형태를 보고 있을 수 있음을 보여줍니다.

---

## 깊이 있는 고찰: 왜 결과가 다른가?

### 1. 기술적 원인: 뭐를 '보는가'가 다르다

- **친화성 기술**: 미리 정해진 단백질만 측정(targeted). 낮은 농도 단백질도 민감하게 감지하지만, 결합 분자의 특이성에 의존

- **MS 기술**:理論적으로는 모든 단백질을 발견 가능(discovery), 하지만 고농도 단백질에 압도되어 저농도 단백질을 놓칠 수 있음

### 2. 생물학적 해석의 복잡성

각 플랫폼이 설명하는 분산(Variance) 비율을 비교한 결과, **NULISA와 SureQuant는 적은 단백질 수에도 불구하고 Olink 5K나 MS-HAP Depletion보다 더 많은 생물학적 변동을 설명**했습니다. 이는 '많이 보는 것'보다 '정확하게 보는 것'이 중요할 수 있음을 시사합니다.

### 3. 전처리의 영향: 나노입자 농축의 함정

Seer 나노입자 기술은 단백질 커버리지를 크게 늘렸지만, **혈소판 오염이 4배 증가**하는 부작용이 있었습니다. 이는 나노입자가 특정 세포 잔해와 선택적으로 결합하기 때문으로, 바이오마커 연구에서 잘못된 해석으로 이어질 수 있습니다.

---

## 연구의 의의와 시사점

### 학술적 기여

이 연구는 **동일한 코호트를 사용한 최대 규모의 다중 플랫폼 비교**입니다. 기존 연구들이 다른 샘플 집단을 사용해 직접 비교가 어려웠던 한계를 극복했습니다.

### 실무적 지침: 어떤 기술을 선택할까?

| 연구 목적 | 추천 플랫폼 | 이유 |

|----------|-----------|------|

| **최대한 많은 단백질 발굴** | SomaScan 11K | 9,600+ 단백질, 높은 완전성 |

| **정밀한 정량이 필요한 소수 단백질** | SureQuant | 낮은 CV, 절대 정량 가능 |

| **초저농도 염증성/신경퇴행성 마커** | NULISA | 낮은 검출 한계 |

| **새로운 바이오마커 발굴 (발견 연구)** | Seer 나노입자 + SomaScan | 서로 보완적 커버리지 |

| **대규모 인구 코호트** | Olink 3K | 안정적인 성능, 상대적 저렴 |

### 미래 방향

연구진은 **여러 플랫폼을 병행 사용**할 것을 권장합니다. 각 기술의 독점적 마커를 합치면 더 완전한 생물학적 그림을 얻을 수 있습니다. 또한 UK Biobank 데이터와의 비교를 통해, 비록 작은 샘플 수(78명)라도 발굴한 마커가 대규모 코호트(5만+ 명)에서도 유효함을 확인했습니다.

---

## 왜 이 연구가 중요한가?

**첫째, '비싼 기술이 항상 좋은 것은 아니다'는 사실을 보여줍니다.** 최신 버전의 Olink 5K는 3K보다 더 많은 단백질을 약속했지만, 정밀도와 데이터 완전성에서는 오히려 퇴행했습니다. 연구자들은 버전 업그레이드가 항상 성능 향상을 의미하지 않는다는 점을 인지해야 합니다.

**둘째, '같은 단백질'이라도 실제로는 다른 것을 측정할 수 있다는 경고입니다.** 8개 플랫폼의 공통 단백질이 36개에 불과한 것은, 우리가 '혈장 단백질 프로파일링'이라고 할 때 실제로는 서로 다른 생물학적 실체를 보고 있을 수 있음을 의미합니다. 바이오마커 연구의 재현성 위기가 이와 무관하지 않습니다.

**셋째, 정밀도와 커버리지의 trade-off를 명확히 했습니다.** SomaScan은 커버리지와 정밀도 모두에서 우수했지만, MS 기술은 커버리지를 늘리면 정밀도가 떨어지는 경향이 있었습니다. 연구 목적에 따라 적절한 기술을 선택하는 것이 중요합니다.

**마지막으로, 이 연구는 혈장 단백질 분석의 '현재 위치'를 정확히 진단했습니다.** 13,000개 이상의 단백질을 검출할 수 있는 기술이 있음에도, 우리는 여전히 혈장 프로테옴의 전체 그림을 보지 못하고 있습니다. 각 기술이 서로 다른 '창'을 통해 혈장을 바라보고 있으며, 이 창들을 어떻게 조합하느냐가 차세대 바이오마커 발굴의 핵심이 될 것입니다.

이 연구는 혈장 단백질 연구자들에게 기술 선택의 과학적 근거를 제공하고, 임상 진단 개발자들에게는 검증 전략 수립의 로드맵을 제시하는 중요한 이정표입니다.



출처: @ye._.vely618