레이블이 LLM인 게시물을 표시합니다. 모든 게시물 표시
레이블이 LLM인 게시물을 표시합니다. 모든 게시물 표시

월요일, 12월 08, 2025

작지만 강력한 언어 모델, SLM이 온다

이제 많은 방송과 전문가들이 에이전트 AI에 대해서 많이 떠들고 있습니다. 그래서 LLM대신에 에이전트 AI가 적합한 SLM, Small Language Models에 대한 내용의 논문이 있어 가져와봤습니다. 제목은 Small Language Models are the Future of Agentic AI 으로 에이전트 AI는 LLM이 아닌 SLM에 있고, 점점 더 중요해 질 것이라는 내용되겠습니다.

SLM으로도 충분히 에이전트 AI 작업을 할 수 있지만 진짜 생산성을 위해서는 아직도 추론을 떠들기에는 이른감이 있지 않나싶은데 많은 전문가분들께서 벌써 추론을 얘기하고 미래를 나아가고 있네요.

언제 이상과 현실이 같은 적이 있었나요? ㅎㅎ 현실은 이제 시궁창에서 벗어나려고 하는데 장밋빛 단면만 보고서 다 이룬것처럼 떠들어대다가 현실이 들어나면 태세변환해서 맛좋은 희생양을 찾아다니겠죠 :)


DOI: 10.48550/arXiv.2506.02153


clova-x

small language models (SLMs)은 agentic AI 시스템에서 large language models (LLMs)보다 더 적합하고 경제적이며, 향후 AI agent 산업에서의 변화를 주도할 것입니다.

1. **SLM의 장점**

   - SLMs은 낮은 지연 시간, 적은 메모리 및 계산 요구량, 그리고 낮은 운영 비용을 제공합니다.

   - SLMs은 특정 도메인에서 적절한 작업 성능을 유지하면서도 효율적이고 예측 가능합니다.

2. **LLM과의 비교**

   - LLMs은 광범위한 작업과 대화 능력을 제공하지만, 대부분의 agentic 작업은 반복적이고 범위가 정해져 있습니다.

   - SLMs은 이러한 작업에 더 적합하며, 자원의 비효율적 할당을 방지합니다.

3. **경제적 이점**

   - SLMs은 LLMs보다 더 저렴하고 유연한 배포가 가능하여, agentic 워크플로우에서의 비용 절감과 적응성을 높입니다.

   - SLM-first 아키텍처는 비용 효율적이고 모듈화된 agentic AI를 구현하는 데 유리합니다.

4. **기술적 발전**

   - 최근 SLMs은 LLMs와 유사한 성능을 발휘하면서도 더 작은 규모로 운영될 수 있도록 발전하고 있습니다.

   - SLMs은 다양한 분야에서 LLMs를 대체할 수 있는 충분한 능력을 갖추고 있습니다.


gemini

## 📝 업로드하신 논문 요약: 에이전트 AI의 미래는 ‘작은 언어 모델(SLM)’에 달려있다

---

### 연구 배경: 에이전트 AI, LLM에 과도하게 의존하다

최근 인공지능(AI) 업계에서 **에이전트 AI 시스템**의 성장은 매우 폭발적입니다. [cite_start]2024년 말 기준으로 이 분야의 경제적 가치는 수십억 달러에 달하며, 앞으로도 막대한 성장이 예상되고 있습니다[cite: 1770, 1772]. [cite_start]이러한 에이전트 AI는 사용자 대신 복잡한 작업을 계획하고 도구를 활용하며, 문제를 해결하는 **기초 지능**을 제공하기 위해 주로 **거대 언어 모델(LLM)**을 사용해 왔습니다[cite: 1774, 1775].

그러나 현재의 운영 모델은 하나의 범용적인 LLM이 모든 에이전트 요청을 처리하도록 설계되어 있습니다. [cite_start]이는 LLM 호스팅 클라우드 인프라에 막대한 자본 투자를 낳는 산업 구조를 형성했습니다[cite: 1779, 1780]. 본 논문은 이러한 업계 관행에 대해 의문을 제기합니다. [cite_start]에이전트 AI가 실제로 수행하는 작업의 대부분은 **반복적이고, 범위가 좁으며, 특화된** 소수의 작업인데 [cite: 1761, 1808][cite_start], 과연 이 모든 요청을 방대한 LLM 하나에 의존하는 것이 최선인지에 대한 근본적인 질문을 던집니다[cite: 1782].

---

### 연구 목적: SLM이 에이전트 AI의 미래가 될 것이라는 입장 표명

[cite_start]이 연구의 핵심 목적은 **작은 언어 모델(SLM)**이 에이전트 AI 시스템을 위한 충분한 성능을 갖추고 있으며, LLM보다 **더 적합하고(suitable), 더 경제적(economical)인** 선택이므로, SLM이 에이전트 AI의 미래가 될 것이라는 강력한 입장을 제시하고 논증하는 것입니다[cite: 1762, 1783, 1801].

**SLM의 정의**는 특정 기기에 국한되지 않고, **일반 소비자 전자 기기에 탑재 가능**하며, 단일 사용자의 에이전트 요청을 실용적인 수준의 낮은 지연 시간으로 처리할 수 있는 언어 모델을 의미합니다. [cite_start]2025년 기준으로, 이는 일반적으로 **100억 개 미만의 매개변수**를 가진 모델을 포함합니다[cite: 1790, 1793].

---

### 연구 방법 및 주요 논거: SLM의 세 가지 핵심 가치 (V1-V3)

[cite_start]논문은 SLM이 에이전트 AI에 적합한 이유를 세 가지 핵심 가치(V1, V2, V3)와 이를 뒷받침하는 구체적인 논거를 통해 제시합니다[cite: 1797].

1.  **V1: 충분한 성능 (Sufficiently Powerful)**

    * [cite_start]**논거:** 최근의 SLM은 훈련 및 설계의 발전 덕분에, **상식 추론, 도구 호출(Tool Calling), 코드 생성**과 같은 에이전트 작업에 필수적인 영역에서 이전 세대의 수십억, 심지어 수백억 개 매개변수를 가진 LLM과 동등하거나 더 나은 성능을 보이고 있습니다[cite: 1798, 1821, 1825].

    * [cite_start]예를 들어, Microsoft Phi-2(27억 개)는 300억 개 모델과 유사한 성능을 보이며 약 15배 더 빠르게 실행됩니다[cite: 1829]. [cite_start]이제 매개변수 개수가 아닌 **모델의 능력**이 제약 조건이 되고 있습니다[cite: 1869].

2.  **V2: 뛰어난 운영 적합성 (Operationally Suitable)**

    * [cite_start]**논거:** 에이전트 시스템은 코드와의 상호작용(도구 호출, 출력 파싱)이 잦기 때문에, LLM의 광범위한 일반 능력보다는 **정확하고 일관된 출력 형식(예: JSON/XML)**을 유지하는 **행동 정렬(Behavioral Alignment)**이 필수적입니다[cite: 1909, 1912, 1915].

    * [cite_start]단일 형식으로 미세 조정된 SLM은 범용 LLM이 가끔 저지르는 환각적인 형식 오류를 방지할 수 있어 에이전트 맥락에서 더 선호됩니다[cite: 1915]. [cite_start]또한, LLM과 SLM을 조합하는 **이종(Heterogeneous) 시스템** 구성이 에이전트의 모듈식 설계에 자연스럽게 들어맞습니다[cite: 1814, 1917, 1920].

3.  **V3: 압도적인 경제성 (Necessarily More Economical)**

    * [cite_start]**논거:** SLM은 크기가 작기 때문에 700억~1750억 개 LLM보다 **추론 비용(지연 시간, 에너지 소비, FLOPs)이 10~30배 저렴**합니다[cite: 1872, 1877].

    * [cite_start]또한, SLM은 미세 조정(Fine-tuning)에 GPU 시간이 적게 들어 **행동을 빠르게 추가, 수정 또는 전문화**할 수 있어 개발 민첩성이 높습니다[cite: 1881]. [cite_start]심지어 소비자급 GPU에서도 로컬로 실행(Edge Deployment)될 수 있어 낮은 지연 시간과 데이터 통제를 가능하게 합니다[cite: 1882]. [cite_start]이러한 비용 절감은 대규모 에이전트 워크플로우에 가장 적합한 경로입니다[cite: 1890].

---

### 고찰 및 시사점: 전환의 장벽과 로드맵

#### 고찰: 반론과 재반론

[cite_start]LLM 옹호론자들은 LLM이 더 넓은 언어 이해 능력(일명 '의미 허브' 메커니즘)을 가지고 있어, 아무리 좁은 작업이라도 SLM보다 항상 성능이 우월할 것이라고 주장합니다[cite: 1931, 1939].

[cite_start]이에 대해 논문은, 에이전트 시스템 자체가 복잡한 문제를 단순한 **하위 작업으로 분해**하도록 설계되므로[cite: 1954, 1955], LLM의 광범위한 일반 이해력은 하위 작업에서는 효용이 적다고 반박합니다. [cite_start]또한, SLM은 **미세 조정(Fine-tuning)**과 **추론 시 컴퓨팅 확장(Reasoning)** 기술을 통해 필요한 신뢰성 수준까지 성능을 높일 수 있습니다[cite: 1948, 1950].

#### SLM 채택의 장벽

[cite_start]SLM의 장점에도 불구하고, LLM 중심의 현 상태가 지속되는 이유는 현실적인 장벽 때문입니다[cite: 1970]. [cite_start]가장 큰 장벽은 **중앙 집중식 LLM 인프라에 대한 막대한 선행 투자**로 인한 산업적 관성입니다[cite: 1973]. [cite_start]또한, SLM 개발 및 평가 시 에이전트의 효용성보다는 LLM이 사용하는 **범용 벤치마크**에 초점을 맞추는 관행과, SLM의 이점에 대한 **대중적 인식 부족**도 장애물입니다[cite: 1976, 1979].

#### LLM-to-SLM 전환 알고리즘

[cite_start]논문은 LLM 중심에서 SLM 중심으로 전환할 수 있는 구체적인 5단계 알고리즘을 제시합니다[cite: 1985].

1.  [cite_start]**사용 데이터 수집:** 모든 에이전트 호출 데이터를 안전하게 로깅[cite: 1988].

2.  [cite_start]**데이터 큐레이션 및 필터링:** 수집된 데이터에서 민감 정보를 제거 및 익명화[cite: 1992].

3.  [cite_start]**작업 클러스터링:** 프롬프트 패턴을 분석하여 반복되는 요청을 그룹화하고, SLM 특화 작업으로 정의[cite: 1995].

4.  [cite_start]**SLM 선정:** 각 특화 작업에 적합한 SLM 후보를 선택 (성능, 크기, 라이선스 등을 고려)[cite: 1998].

5.  [cite_start]**특화된 SLM 미세 조정:** 클러스터링된 데이터셋을 사용하여 SLM을 작업별 전문가 모델로 미세 조정[cite: 2001].

---

### 이 연구가 중요한 이유: 지속 가능하고 민주적인 AI의 길

이 연구는 에이전트 AI 분야에서 **효율성, 경제성, 지속 가능성**이라는 세 가지 핵심 가치를 강조하며 패러다임 전환의 필요성을 역설한다는 점에서 매우 중요합니다.

1.  [cite_start]**지속 가능한 AI 구현:** LLM에 대한 과도한 의존은 막대한 컴퓨팅 자원 낭비와 환경 문제로 이어집니다[cite: 1813]. [cite_start]SLM 우선 아키텍처로의 전환은 인프라 비용을 절감하고, **책임감 있고 지속 가능한 AI 배포**를 위한 기술적, **도덕적 의무(Humean moral ought)**를 이행하는 길을 제시합니다[cite: 1816, 1817].

2.  **AI 민주화 촉진:** SLM의 낮은 비용과 유연성은 더 많은 개발자와 조직이 AI 에이전트 생태계에 참여할 수 있게 하여, AI 개발의 **민주화**를 가져옵니다. [cite_start]이는 시스템적 편향의 위험을 줄이고 혁신을 촉진하는 데 기여할 것입니다[cite: 1896, 1897, 1898].

3.  [cite_start]**산업적 로드맵 제공:** LLM-to-SLM 전환 알고리즘을 구체적으로 제시함으로써, 이 논문은 단순히 주장을 하는 것을 넘어, 산업계가 경제적이고 효율적인 SLM 기반 에이전트 시스템으로 실질적으로 이행할 수 있는 **구체적인 기술적 로드맵**을 제공합니다[cite: 1785, 1985].

[cite_start]결론적으로, 본 연구는 에이전트 AI의 미래를 결정하는 핵심 요소가 **'크기'가 아닌 '효율적인 적응성'**이라는 메시지를 던지며, AI 기술의 미래 방향에 대한 중요한 논의를 촉발하고 있습니다[cite: 1767].


chatGPT

좋습니다. 업로드하신 논문 **〈Small Language Models are the Future of Agentic AI〉(작은 언어 모델이 에이전트형 AI의 미래다, NVIDIA Research, 2025)** 의 주요 내용을 일반 독자도 이해하기 쉽게 정리해드리겠습니다.

(A4 2장 이내 분량 / 연구 배경–목적–방법–결과–의의 순서로 구성)

---

## 🧠 작은 언어 모델이 에이전트형 AI의 미래다

*(Small Language Models are the Future of Agentic AI, NVIDIA Research, 2025)*

### 1. 연구 배경

최근 인공지능의 핵심 화두는 **‘에이전트형 AI(agentic AI)’**, 즉 스스로 판단하고 행동하는 인공지능입니다.

이러한 에이전트의 두뇌 역할을 하는 것은 지금까지 대부분 **거대한 언어 모델(LLM, Large Language Model)** 이었습니다.

GPT-4, Claude, Gemini 같은 모델이 그 예죠.

하지만 이런 대형 모델은 엄청난 연산 자원과 비용이 필요합니다.

기업들은 막대한 투자를 해 클라우드 인프라를 유지하지만, 정작 에이전트가 수행하는 일 대부분은 **단순하고 반복적인 업무**입니다.

예를 들어 이메일 요약, 코드 자동화, 문서 분류 같은 일들이죠.

그렇다면 정말 이런 간단한 작업에도 수십억 달러짜리 LLM이 필요할까요?

NVIDIA 연구팀은 여기에 “아니오”라고 답하며, **작은 언어 모델(SLM, Small Language Model)** 이 더 효율적이고 실용적인 대안이 될 수 있다고 주장합니다.

---

### 2. 연구 목적

이 논문의 핵심 목표는 단 하나입니다.

> **“에이전트형 AI의 미래는 거대한 LLM이 아니라, 작고 효율적인 SLM에 있다.”**

연구진은 세 가지 근거로 이를 주장합니다.

1. **충분히 강력하다:** 최신 SLM은 이미 필요한 수준의 언어 이해력과 추론 능력을 갖췄다.

2. **운영에 더 적합하다:** SLM은 빠르고 안정적이며, 특정 작업에 맞게 쉽게 조정할 수 있다.

3. **경제적이다:** 에너지, 비용, 유지보수 면에서 훨씬 저렴하다.

---

### 3. 연구 방법 및 근거

논문은 실험보다는 **기술적 비교와 사례 분석** 중심으로 구성되어 있습니다.

연구진은 다양한 최신 SLM들의 성능을 검토하고, 실제 ‘AI 에이전트’ 시스템이 어떤 구조로 작동하는지 분석했습니다.

#### (1) SLM의 성능 비교

* **Microsoft Phi-3 (7B)** : GPT-3급(175B)에 가까운 성능을 보여주며 70배 빠름

* **NVIDIA Nemotron-H (2~9B)** : 30B 모델 수준의 코드 생성 능력

* **DeepSeek-R1-Distill (7B)** : Claude 3.5나 GPT-4o와 비슷한 추론 성능

* **DeepMind RETRO (7.5B)** : GPT-3보다 25배 작은 모델로 동일한 결과

즉, 모델 크기가 10분의 1~100분의 1로 줄어들어도 실제 업무 성능은 거의 비슷한 수준에 도달했습니다.

#### (2) 운영 효율성

* **비용:** 7B SLM의 추론 비용은 LLM의 1/10~1/30 수준

* **속도:** 더 짧은 대기 시간, 더 적은 전력 소모

* **현장 배치:** 개인용 GPU나 노트북에서도 실행 가능 (예: ChatRTX)

* **유연성:** LoRA, QLoRA 같은 경량 학습 기법으로 빠른 미세 조정 가능

#### (3) 구조적 장점

에이전트 시스템은 사실 하나의 모델이 모든 걸 하는 게 아닙니다.

“명령 해석 → 도구 실행 → 결과 정리” 등 여러 단계로 쪼개져 있습니다.

이 각 단계에 맞는 작은 모델을 따로 두면, 훨씬 효율적이고 안정적으로 운영할 수 있습니다.

이런 방식을 연구진은 “**모듈형(agentic modularity)**”이라 부릅니다.

---

### 4. 주요 결과와 논의

연구진은 실제 오픈소스 에이전트 세 가지를 분석했습니다.

| 사례                         | 대체 가능성 | 설명                             |

| -------------------------- | ------ | ------------------------------ |

| **MetaGPT** (소프트웨어 개발용)    | 약 60%  | 코드 작성·문서화 등 단순 업무는 SLM으로 충분    |

| **Open Operator** (업무 자동화) | 약 40%  | 간단한 명령 처리나 보고서 작성은 SLM으로 대체 가능 |

| **Cradle** (GUI 제어 에이전트)   | 약 70%  | 반복적인 조작 업무는 SLM으로 충분           |

즉, **현재도 전체 에이전트 작업의 절반 이상은 작은 모델로 수행 가능**하다는 결론입니다.

이는 AI 산업의 비용 구조를 근본적으로 바꿀 잠재력이 있습니다.

---

### 5. 논의 및 반론

물론 반대 의견도 있습니다.

* “LLM은 더 깊은 언어 이해력을 갖고 있어 여전히 필요하다.”

* “LLM은 중앙화되어 있어 대규모 서비스에 더 효율적이다.”

  연구진은 이에 대해 이렇게 반박합니다.

> “SLM은 특정 업무에 맞춰 쉽게 미세조정이 가능하고, 실제로 필요한 기능만 수행한다면 ‘더 작고 단순한 모델’이 오히려 더 적합하다.”

또한, 장기적으로는 **‘혼합형 시스템(heterogeneous system)’**, 즉 SLM이 기본으로 돌고,

필요할 때만 LLM을 호출하는 형태가 이상적이라고 제안합니다.

---

### 6. LLM → SLM 전환 절차 제안

연구진은 기업이 실제로 LLM을 SLM으로 대체할 수 있는 절차를 제시합니다.

1. **데이터 수집:** 에이전트가 수행한 명령·응답 데이터를 안전하게 기록

2. **데이터 정제:** 개인정보나 민감한 정보 제거

3. **작업 분류:** 유사한 업무를 묶어 SLM이 처리할 수 있는 단위로 분할

4. **모델 선정 및 미세조정:** 각 업무에 맞는 SLM을 선택해 학습

5. **지속 개선:** 새로운 데이터로 주기적으로 업데이트

이 과정을 거치면 기존 LLM 기반 에이전트를 단계적으로 SLM 중심으로 바꿀 수 있다고 합니다.

---

### 7. 연구의 의의와 시사점

이 논문이 던지는 메시지는 단순하지만 강력합니다.

> **“AI의 미래는 크기가 아니라 효율성에 달려 있다.”**

SLM의 확산은 단지 기술적 선택이 아니라,

* **환경적 지속가능성** (전력 사용량 절감)

* **AI 접근성 향상** (누구나 모델 개발 가능)

* **비용 혁신** (운영비 대폭 절감)

  을 동시에 달성할 수 있는 변화입니다.

즉, 지금까지의 “더 크고 복잡한 AI 경쟁”에서 벗어나,

**“작고 똑똑한 AI의 시대”**로 전환하자는 선언이기도 합니다.

---

### 🔍 이 연구가 중요한 이유

AI가 사회 전반으로 확산될수록 “누가 AI를 운영하고, 얼마나 효율적으로 돌리느냐”가 핵심 경쟁력이 됩니다.

이 논문은 “모두가 거대한 모델을 쓸 필요는 없다”는 점을 수학적·경제적으로 뒷받침하며,

AI 산업의 구조를 **집중형(LLM 중심)** 에서 **분산형(SLM 중심)** 으로 바꾸는 방향을 제시합니다.

결국, 이 연구는 **AI 기술의 민주화(democratization)** —

즉, 더 많은 개인과 기업이 자신만의 ‘맞춤형 AI’를 직접 만들 수 있는 미래 —

그 첫걸음을 보여주는 선언문이라 할 수 있습니다.


grok

### 작은 언어 모델(SLM)이 에이전트 AI의 미래가 될 이유

#### 연구 배경

AI 에이전트(자율적으로 작업을 수행하는 AI 시스템)가 빠르게 성장하고 있습니다. 2024년 말 기준으로 대형 IT 기업의 절반 이상이 AI 에이전트를 사용 중이며, 시장 규모는 52억 달러에서 2034년 2,000억 달러로 확대될 전망입니다. 현재 대부분의 에이전트는 대형 언어 모델(LLM, 예: GPT 시리즈)을 기반으로 하며, 이는 클라우드 서버에서 중앙 집중식으로 운영됩니다. 하지만 에이전트 작업은 반복적이고 단순한 경우가 많아, LLM의 범용성은 과도할 수 있습니다.

#### 연구 목적

NVIDIA 연구팀은 SLM(소비자 기기에 탑재 가능하고 빠른 응답이 가능한 작은 모델, 대개 10억 파라미터 이하)이 에이전트 AI에 더 적합하다고 주장합니다. SLM은 충분한 성능을 발휘하면서 운영 비용을 절감하고 유연성을 제공하며, LLM과 결합된 혼합 시스템을 제안합니다. 이는 AI 자원의 효율적 사용을 촉진하고 비용을 낮추는 것을 목표로 합니다.

#### 연구 방법

이 논문은 '포지션 페이퍼' 형식으로, 기존 SLM 사례(마이크로소프트 Phi, NVIDIA Nemotron, Hugging Face SmolLM 등)를 분석하고 논증합니다. SLM의 강점(상식 추론, 도구 호출, 지시 따르기)을 벤치마크로 입증하며, 반대 의견(LLM의 일반성 우월, 중앙화 비용 이점)을 반박합니다. 또한 LLM에서 SLM으로 전환하는 알고리즘을 제안: 데이터 수집, 큐레이션, 작업 클러스터링, SLM 선택, 파인튜닝, 반복 개선의 6단계입니다. 부록에서는 오픈소스 에이전트(MetaGPT, Open Operator, Cradle) 사례 연구로 교체 가능성을 추정합니다.

#### 연구 결과

SLM은 LLM과 비슷한 성능을 보이면서 10~30배 빠르고 저비용입니다. 예를 들어 Phi-2(27억 파라미터)는 300억 파라미터 LLM과 동등한 추론·코드 생성을 하며, Nemotron-H는 30억 파라미터로 300억 LLM 수준의 지시 따르기를 달성합니다. 에이전트 시스템에서 SLM은 반복 작업(도구 호출, 출력 형식화)에 적합하며, 비용 절감(에너지, 미세 조정 시간)과 엣지 배포(개인 기기 실행)를 가능하게 합니다. 사례 연구 결과, LLM 호출의 40~70%를 SLM으로 대체 가능합니다.

#### 고찰

반대 의견으로 LLM의 '의미 허브'(다양한 지식 통합)와 중앙화 비용 이점이 제기되지만, 연구팀은 SLM의 특화 미세 조정과 추론 확장으로 반박합니다. 채택 장애물로는 대규모 LLM 투자, 범용 벤치마크 중심 개발, SLM 인식 부족을 지적하며, 이는 기술 발전(예: NVIDIA Dynamo)으로 극복 가능하다고 봅니다. 혼합 시스템(주요 작업 SLM, 복잡 작업 LLM)이 이상적이며, 데이터 수집을 통해 자연스러운 SLM 전문화가 가능합니다.

#### 의의와 시사점

이 연구는 에이전트 AI를 비용 효과적이고 지속 가능하게 만듭니다. SLM 도입으로 에너지 소비와 서버 비용을 줄여 환경 부담을 완화하고, 민주화(더 많은 개발자 참여)를 촉진합니다. 실무적으로 LLM-to-SLM 전환 알고리즘은 기존 시스템을 쉽게 업그레이드할 수 있게 하며, 오픈소스 에이전트 사례는 실제 적용 가능성을 보여줍니다. 이는 AI 산업이 자원을 낭비하지 않고 효율적으로 발전할 방향을 제시합니다.

이 연구가 중요한 이유는 AI의 폭발적 성장 속에서 자원 낭비를 막고 비용을 낮춤으로써, 더 많은 사람이 AI 혜택을 누릴 수 있게 하기 때문입니다. 논문은 토론을 촉진하며, AI의 미래를 더 접근 가능하고 책임감 있게 만들려는 노력을 강조합니다.


NotebookLM

이 논문은 "에이전트 AI의 미래는 소형 언어 모델(SLM)에 달려 있다"는 입장을 명확히 밝히고 있으며, 왜 거대 언어 모델(LLM) 대신 SLM이 에이전트 시스템에 더 적합하고 경제적이며 강력한 솔루션인지를 논리적으로 설명합니다.

---

## 블로그 포스팅: 에이전트 AI의 미래: 작지만 강력한 언어 모델(SLM)의 시대가 온다

### 1. 연구 배경: 거대 언어 모델(LLM)이 장악한 에이전트 AI 시장

최근 인공지능(AI) 에이전트의 배포가 급증하고 있으며, IT 대기업의 절반 이상이 AI 에이전트를 적극적으로 사용하고 있을 정도로 시장 가치는 매우 높습니다.

현재 대부분의 AI 에이전트는 **LLM(거대 언어 모델)**을 핵심 구성 요소로 사용합니다. LLM은 인간에 가까운 광범위한 성능과 일반적인 대화 능력을 인정받으며, 에이전트가 전략적 의사 결정, 복잡한 작업을 관리 가능한 하위 작업으로 분해, 그리고 도구 사용 시점을 계획하는 데 필요한 근본적인 지능을 제공해왔습니다. 이러한 운영 방식은 일반적인 LLM 하나가 다양한 대규모 요청을 처리하는 중앙 집중식 클라우드 인프라에 막대한 자본 투자를 유치하며 업계의 표준으로 깊이 자리 잡았습니다.

하지만 이 논문은 이러한 **표준적인 운영 모델의 한 측면**에 대해 이의를 제기합니다. 에이전트의 요청 대부분은 비교적 단순함에도 불구하고 단일의 범용 LLM에 의존하여 처리되는 현재의 관행을 문제 삼습니다.

### 2. 연구 목적 및 핵심 주장: SLM으로의 전환이 필연적이다

이 연구의 목적은 다음과 같습니다. 에이전트 시스템에서 언어 지능을 활용하는 요청이 비교적 단순함에도 불구하고 범용 LLM을 사용하는 관행에 도전하고, **SLM(소형 언어 모델)**이 에이전트 AI의 미래가 될 것이라는 입장을 제시하고 방어하는 것입니다.

**SLM은 무엇인가요?**

SLM은 일반 소비자용 전자 기기에 탑재될 수 있으며, 한 사용자에게 에이전트 요청을 제공할 때 실용적인 수준의 낮은 지연 시간으로 추론을 수행할 수 있는 언어 모델입니다. (참고: 2025년 기준, 100억 개 미만의 매개변수를 가진 모델이 SLM으로 간주될 수 있습니다).

저자들은 **SLM이 에이전트 AI의 미래**가 될 것이라고 주장하며, 이는 SLM이 다음과 같은 세 가지 핵심 가치(V1~V3)를 가지고 있기 때문이라고 설명합니다:

*   **V1 (능력):** 에이전트 애플리케이션의 언어 모델링 작업을 처리하기에 **원칙적으로 충분히 강력합니다**.

*   **V2 (적합성):** LLM보다 에이전트 시스템에서 사용하기에 **운영적으로 더 적합합니다**.

*   **V3 (경제성):** 작은 크기 덕분에 범용 LLM보다 에이전트 시스템 내 LM 사용의 **대부분 경우에 반드시 더 경제적입니다**.

### 3. 주요 논거 및 증거: 작지만 강력한 SLM

논문은 SLM이 LLM을 대체해야 하는 이유를 구체적인 논거(Arguments)를 통해 제시합니다.

#### A. SLM은 이미 충분히 강력합니다 (V1 지원)

최근 몇 년 동안 SLM의 성능은 비약적으로 발전했습니다. 새로운 SLM들은 과거의 LLM에 필적하거나 그 이상의 성능을 보여주고 있습니다. 특히 에이전트 작업에 필수적인 상식 추론, 도구 호출, 코드 생성, 명령어 준수 능력에서 뛰어난 성과를 보입니다.

*   **예시:** Microsoft Phi-2 (27억 개 매개변수)는 300억 개 모델과 유사한 상식 추론 및 코드 생성 점수를 달성하면서 약 15배 더 빠르게 실행됩니다. Salesforce xLAM-2-8B (80억 개)는 GPT-4o나 Claude 3.5와 같은 최신 모델을 능가하는 도구 호출(Tool Calling) 성능을 보였습니다.

*   결론적으로, 현대의 훈련 기법과 에이전트 증강 기법을 사용하면 **성능은 이제 매개변수 수가 아니라 역량에 의해 좌우됩니다**.

#### B. SLM은 훨씬 경제적입니다 (V3 지원)

에이전트 워크플로우에서 비용 효율성, 적응성, 배포 유연성은 매우 중요하며, SLM은 여기서 상당한 이점을 제공합니다.

*   **추론 효율성:** 700억~1750억 개 매개변수 LLM을 서비스하는 것보다 70억 개 SLM을 서비스하는 것이 **10~30배 더 저렴**하며, 이는 대규모 실시간 에이전트 응답을 가능하게 합니다.

*   **미세 조정(Fine-tuning) 민첩성:** SLM의 미세 조정은 몇 시간의 GPU 작업으로 가능하여, 행동 추가, 수정 또는 전문화가 몇 주가 아닌 하룻밤 사이에 가능합니다.

*   **모듈식 시스템 설계:** 복잡한 작업을 하나의 거대한 모델(LLM)에 맡기기보다, 작고 특화된 전문가(SLM) 모델들을 추가하여 시스템을 확장하는 접근 방식(‘레고’ 같은 구성)이 비용 효율적이며, 디버깅이 빠르고, 배포가 용이하며, 지속 가능한 에이전트 AI를 위한 최적의 경로를 제공합니다.

#### C. SLM은 에이전트 작업에 더 유연하고 적합합니다 (V2 지원)

에이전트 애플리케이션은 실제로 **LLM의 제한된 기능만을 사용**합니다. 범용 모델은 까다롭게 작성된 프롬프트와 정교한 컨텍스트 관리를 통해 본래의 넓은 능력 중 작은 영역에서만 작동하도록 제한됩니다.

*   **행동 정렬의 필요성:** 에이전트가 코드를 호출하거나 코드가 모델의 출력을 구문 분석할 때(예: JSON, XML 형식) **엄격한 형식 요구 사항을 준수**하는 것이 필수적입니다. 범용 LLM은 때때로 기대와 다른 형식으로 응답하는 환각적 오류를 일으킬 수 있으나, 단일 형식 결정에 맞춰 미세 조정된 SLM이 에이전트 시스템의 맥락에서는 선호됩니다.

*   **자연스러운 이종 시스템:** 에이전트 시스템은 기본적으로 여러 크기와 능력을 가진 모델을 혼합하여 사용할 수 있도록 설계되어 있습니다. 예를 들어, 복잡한 추론이 필요한 부분에는 LLM을, 간단하고 반복적인 작업에는 SLM을 사용하여 효율을 높이는 **이종 에이전트 시스템**을 구축할 수 있습니다.

### 4. 고찰: LLM에서 SLM으로의 전환 방법 (전환 알고리즘)

현재 LLM을 사용하고 있는 에이전트 애플리케이션도 SLM 전문가로 전환할 수 있습니다. 논문은 고통 없이 모델을 교체하는 6단계 알고리즘을 제시합니다.

1.  **사용 데이터 수집:** 모든 비(非)인간-컴퓨터 인터페이스(HCI) 호출을 기록하고 프롬프트, 응답, 도구 호출 내용을 수집합니다.

2.  **데이터 큐레이션 및 필터링:** 수집된 데이터(미세 조정에는 보통 1만~10만 개의 예시가 충분)에서 민감한 데이터나 개인 식별 정보(PII)를 제거합니다.

3.  **작업 클러스터링:** 수집된 프롬프트와 에이전트 행동에 비지도 클러스터링을 적용하여 반복되는 패턴(예: 의도 인식, 데이터 추출, 요약 등)을 식별하고 SLM 전문화 후보 작업을 정의합니다.

4.  **SLM 선택:** 각 식별된 작업에 대해 SLM의 능력, 벤치마크 성능, 라이선스, 배포 공간 등을 기준으로 후보 SLM을 선택합니다.

5.  **전문 SLM 미세 조정:** 큐레이션된 데이터를 사용하여 선택된 SLM 후보를 작업별 데이터셋으로 미세 조정합니다. 계산 비용을 줄이기 위해 LoRA/QLoRA와 같은 PEFT 기법이나, 더 강력한 LLM의 출력을 모방하도록 SLM을 훈련하는 지식 증류(Knowledge Distillation) 기법을 사용할 수 있습니다.

6.  **반복 및 개선:** 성능 유지를 위해 새로운 데이터를 사용하여 SLM과 라우터 모델을 주기적으로 재훈련합니다.

### 5. 의의와 시사점: 왜 이 연구가 중요한가?

이 연구는 **에이전트 AI 산업의 운영 및 경제적 측면에서 중대한 변화**를 예고합니다.

LLM 중심에서 SLM 중심 아키텍처로의 패러다임 전환은 단순한 기술적 개선을 넘어섭니다. AI 커뮤니티가 인프라 비용 상승 및 환경 문제에 직면함에 따라, 에이전트 워크플로우에서 SLM 사용을 채택하고 일반화하는 것은 **책임감 있고 지속 가능한 AI 배포를 촉진하는 데 결정적인 역할**을 할 수 있습니다.

현재 SLM 채택을 가로막는 장벽(중앙 집중식 LLM 인프라에 대한 대규모 초기 투자, 일반적인 벤치마크에 대한 SLM 설계의 집중, 낮은 대중적 인식 등)은 기술적인 결함이 아닌 **실질적인 관성**에 불과합니다.

이 연구가 중요한 궁극적인 이유는 다음과 같습니다.

> 에이전트 AI 산업은 화이트칼라 업무 등에 혁신적인 영향을 미칠 잠재력을 보여주고 있으며, **AI 인프라의 비용 절감 및 지속 가능성 개선은 이러한 혁신을 가속하는 촉매제 역할**을 할 것이기 때문입니다. SLM은 비용 효율성(A2)과 운영 적합성(A5)을 통해 이 목표를 달성하는 가장 확실한 경로를 제시합니다.

---

마치 복잡한 대형 병원(LLM)이 모든 환자(에이전트 요청)를 진료하는 대신, 작고 전문화된 동네 병원(SLM)들이 반복적이고 특화된 경증 환자들을 맡아 훨씬 빠르고 저렴하며 효율적으로 처리하는 시스템으로 전환되는 것과 같습니다. 이는 전체 의료 시스템(AI 에이전트 산업)의 효율성과 지속 가능성을 획기적으로 향상시킬 수 있습니다.


perplexity.ai

다음은 첨부하신 논문 "Small Language Models are the Future of Agentic AI"의 핵심 내용을 일반인도 이해하기 쉽게 요약한 글입니다.

***

### 연구 배경

최근 몇 년간 대형 언어모델(LLM, 예: GPT-4 등)이 뛰어난 능력을 보여주며 AI 산업의 중심으로 자리잡았습니다. 이 대형모델들은 대화와 다양한 작업에서 사람과 비슷한 수준의 성능을 보이며, 많은 기업과 서비스에서 활용되고 있습니다. 한편, AI 요원(에이전트) 시스템이 부상하며, 반복적이고 특화된 소규모 작업이 급증하고 있는데, 이런 환경에 꼭 '대형' 모델만이 필요한지에 대한 의문이 커지고 있습니다. 이 논문은 "실제로는 많은 에이전트 작업에서 대형모델보다 소형 언어모델(SLM)이 더 적합할 수 있다"고 주장합니다.[1]

### 연구 목적

논문의 주된 목적은 "AI 에이전트 분야에서 대형모델 대신 소형 언어모델이 더 효율적이고 적합하며, 미래에는 소형모델이 주요한 역할을 차지하게 될 것"이라는 점을 논리적으로 제시하는 것입니다. 특히, 경제적·환경적 관점에서 볼 때 소형모델의 장점이 점점 더 중요해질 것임을 강조합니다.[1]

### 연구 방법

논문은 다음과 같은 방식으로 주장을 펼칩니다.[1]

- **현재 SLM 기술의 수준**: 최신 SLM이 실제로 어떤 작업에서 LLM과 비슷한 성능을 보이는지 실제 사례와 벤치마크 데이터를 제시합니다.

- **경제성 분석**: SLM이 LLM보다 비용 면에서 얼마나 유리한지, 유지·운영, 파인튜닝(미세수정), 에지 디바이스(일반 PC나 스마트폰 등) 적용성 측면에서 설명합니다.

- **시스템 구조 논의**: 여러 모델(LLM, SLM)이 함께 동작하는 복합 시스템의 효율성과 실용성을 논의합니다.

- **대체 가능성 사례**: 실제 오픈소스 에이전트 프로젝트에서 SLM이 LLM을 대체할 수 있는 비율을 분석합니다.

### 연구 결과

- **소형모델의 기능적 충분성**: 최신 소형모델은 특정한 반복 작업, 도구 호출, 코드 생성, 지시 수행 등에서 대형모델과 대등하거나 더 빠른 성능을 보이기도 합니다(예: Phi-2, Nemotron, SmolLM 등).[1]

- **경제적 이점**: SLM은 LLM 대비 최대 수십 배 저렴한 비용, 낮은 에너지 소비, 더 적은 컴퓨팅 자원으로 운영할 수 있어 실시간·대량 서비스에 적합합니다.[1]

- **유연성 및 현장 배치 용이성**: SLM은 보다 쉽고 빠르게 특정 작업에 맞게 미세수정할 수 있고, 일반 PC나 모바일에서도 작동할 수 있어 개인화·현장배치가 용이합니다.[1]

- **실제 적용 사례**: 메타GPT, 크래들(Cradle), 오픈 오퍼레이터 등 대표 에이전트 플랫폼의 40~70% 작업에서 SLM이 충분히 대체 가능하다고 분석했습니다.[1]

### 고찰 및 시사점

- **기존 관행 비판**: 지금 대부분의 에이전트 시스템이 대형모델 일변도에 기반하는데, 실제 필요성이나 효율성보다는 인프라 투자 등 관성에 의해 그렇게 된 면이 있다는 점을 지적합니다.[1]

- **SLM 중심 구조로의 전환 필요**: 대규모 파워와 범용성만을 강조하기보다는, 실제 현장에서는 단순·특화된 반복 작업이 많으므로, SLM 중심 구조가 데이터센터 비용과 에너지, 환경부하까지 줄일 수 있습니다.

- **혁신과 다양성 촉진**: SLM은 개발과 배포의 진입장벽이 낮아져 다양한 개발자·조직의 참여가 가능해지고, 결과적으로 AI 활용의 민주화·다양성을 높일 수 있습니다.

### 의의와 본 연구의 중요성

이 논문은 앞으로의 AI 에이전트 및 산업에서 '더 크고, 더 범용적인 모델'이 아닌 '적절히 작은, 목적에 맞는 모델'이 더 적합할 수 있음을 실증적으로 보여주고, 실제 서비스와 산업 생태계에 큰 변화를 시사합니다. 중앙 집중형 LLM 인프라 일변도에서 벗어나, 에너지를 덜 쓰고 더 많은 기기에, 사용자 맞춤형으로 AI를 공급할 길을 제시합니다. 이 변화는 AI의 경제적 효율성과 환경 지속가능성 두 측면에서 모두 매우 의미 있으며, 앞으로 AI 기술 발전과 사회적 활용 방식 전반에 걸쳐 깊은 함의를 가질 것입니다.[1]




출처: @ye._.vely618

수요일, 12월 03, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (5)

한달여 정도 chatGPT와 gemini에 물어보면서 개발 기획서를 정리한 내용으로 각각의 LLM들이 작성한 코드들을 한번 돌려보는 시간을 가져본 내용을 공유하려고 합니다. :)

지금까지의 요청 내용은 줄글, 풀어쓴 내용들이어서 LLM이 이해하기 쉽게 작성하라고 하니 아래처럼 작성한다고 하길래 가급적 한번 구성을 맞춰보았습니다.


# 금융 데이터 시각화/관리 웹 플랫폼 개발 기획서

## 1\. 개요

  * **목표:** MongoDB에 저장된 한국/미국 주식, 지수, 환율 데이터를 로컬 웹 환경에서 시각화하여 조회하고, 관련 메타데이터(티커명 등)를 관리할 수 있는 대시보드 구축
  * **핵심 가치:** 다양한 금융 데이터의 직관적인 차트 시각화(캔들스틱, 이동평균선) 및 상호 비교 분석 기능 제공

## 2\. 기술 스택 및 환경

  * **Language:** Python 3.12
  * **Web Framework:** Flask 3.0.3
  * **Database:** MongoDB (PyMongo 4.15.3)
  * **Data Processing:** Pandas 2.2.2, NumPy 1.26.4
  * **Frontend (권장):** Jinja2 템플릿 + 차트 라이브러리 (Plotly.js 또는 ApexCharts, Highcharts 등 금융 차트 지원 라이브러리 활용 예정)

## 3\. 데이터 모델링 (Database Schema)

finance.json 참고

## 4\. 기능 상세 명세

### 4.1. 공통 기능 (User Interface)

  * **검색 기능:**
      * 모든 뷰어 상단에 검색바 제공
      * **검색 기준:** Ticker(코드) 또는 Name(종목명)
      * **자동 완성(Autocomplete):** 키워드 입력 시 매칭되는 종목 리스트 드롭다운 제공
      * **신규 생성하는 ticker_metadata의 ticker나 name을 참조 할것

  * **차트 공통 요건 (캔들스틱):**
      * **X축(시간):** 휴장일(데이터가 없는 날)은 차트에서 제외하여 캔들이 연속적으로 보이도록 처리 (Gap 제거).
      * **기간 설정:** 기본 1개월 뷰. 마우스 휠 또는 슬라이더로 기간 축소/확대(Zoom In/Out) 가능.
      * **축소/확대:** 축소 확대 시 기본적으로 보여주는 1개월 외에 이전 정보들을 보여줘야함
      * **뷰 기간:** 차트 상단에 일주일, 1개월, 3개월, 6개월, 금년, 1년, 3년 5년 10년, 최대 등 버튼으로 초기 설정된 기간의 차트를 확인 할 수 있어야함.
      * **차트 타입:** OHLC(시가, 고가, 저가, 종가) 캔들스틱 차트.

### 4.2. 페이지별 상세 요건

#### A. 한국 주식 뷰어 (`korean_stocks`)

  * **검색:** Ticker(숫자 6자리) 및 종목명(예: 삼성전자)
  * **보조 지표 (이동평균선):** 5일, 20일, 60일, 120일 선 표시

#### B. 미국 주식 뷰어 (`us_stocks`)

  * **검색:** Ticker(영문) 및 종목명(예: Microsoft)
  * **보조 지표 (이동평균선):** 5일, 10일, 20일, 50일, 200일 선 표시

#### C. 지수 정보 뷰어 (`indices`)

  * **검색:** Ticker 및 관리자가 지정한 지수명
  * **보조 지표 (옵션 선택 가능):**
      * 옵션 1: 5, 20, 60, 120일 이평선
      * 옵션 2: 5, 10, 20, 50, 200일 이평선

#### D. 환율 정보 뷰어 (`currencies`)

  * **검색:** Ticker 및 관리자가 지정한 환율명
  * **차트:** 기본 캔들스틱 차트 (이동평균선 필수 요건 없음, 필요시 추가)

#### E. 통합 비교 뷰어 (Comparison)

  * **기능:**
      * 한국주식, 미국주식, 지수, 환율 중 2개 이상의 대상을 검색하여 추가/삭제 가능.
      * 서로 다른 스케일(가격 단위) 문제 해결 로직 적용.
  * **비교 로직 (해결 방안):**
    1.  **2개 종목 비교 시:** **Dual Y-Axis (이중 축)** 적용. 왼쪽 축은 A종목 가격, 오른쪽 축은 B종목 가격 표시.
    2.  **3개 이상 또는 스케일 차이가 극심할 때:** **정규화(Normalization)** 차트 옵션 제공.
          * 시작 시점을 0% 또는 100으로 기준 잡고 **등락률(%)** 그래프로 변환하여 비교.


### 4.3. 관리자(Admin) 페이지

  * **데이터 업데이트 관리:**
      * 각 카테고리별(한국주식, 미국주식, 지수, 환율) 데이터 수집/업데이트 실행 버튼 제공 (백엔드 크롤러/API 트리거).
      * 한국주식: update_kr.py
      * 미국주식: update_us.py
      * 지수: update_index.py
      * 환율: update_currency.py
      * 각 업데이트 버튼시 각각의 스크립트가 백그라운드에서 작동되도록 구현
      * 업데이트 시 `finance_db`내 각각의 종목 중 마지막 날짜 이후 정보만 업데이트 하도록 구성
  * **관리 리스트 편집:**
      * 데이터를 수집/관리할 대상 종목 리스트(Ticker 목록) 추가/삭제 기능.
      * 참고할 collection은 `ticker_metadata` 임.
      * 관리 리스트 편집 페이지는 한국주식, 미국주식,지수,환율운 각각 tab이나 별도의 페이지에서 리스트를 확인 할 수 있을 것
      * 한 페이지에 많은 데이터를 보여줄 수 없기에 pagination 기능이 필요
  * **메타데이터 관리 (Ticker Map):**
      * `ticker_metadata` 컬렉션에 대한 CRUD 제공.
      * Ticker에 매핑되는 `name`(사용자 표시 이름) 수정 기능.
      * 동일한 페이지에서 update할 수 있는 기능이 필요 개별 item별로 name과 marker type을 수정해서 적용하거사 해당 페이지에서 수정된 item들을 적용하도록 기능을 구현할 것.

-----

## 5\. UI/UX 제안 사항 (추가 제안)

  * **반응형 레이아웃:** 뷰어 영역을 최대한 확보하기 위해 사이드바 메뉴(Collapsible Sidebar) 형태 권장.
  * **차트 라이브러리:** `Plotly` 또는 `Lightweight Charts (TradingView)` 사용 권장. (휴장일 스킵 기능 및 줌/팬 성능이 우수함).

-----

## 6. 실행
1.  **데이터 업데이트 로직:**
      * 관리자 페이지의 '업데이트 버튼'을 눌렀을 때 실제로 데이터를 가져오는 python script는 02.mongodb_update_fix.py 파일을 참고하면 됩니다. 이 파일을 참고해서 각각의 항목에 맞도록 스크립트를 분리/작성해줘.

2. **바로 사용 가능하도록 코드 작성**
     * 지금 바로 수행가능한 app.py파일과, html, js, css 모든 파일을 flask가 작동가능한 디렉토리 구조에 맞게 작성해줘
     * 가능하면 zip으로 압축해서 한번에 다운로드 받을 수 있게 해줘


결과적으로 gemini 제외하고 zip파일을 다운로드 받을 수 있게 링크는 제공해 주었으나 그 링크를 통해서 zip파일을 다운로드 받을 수 있는 것은 없었습니다. 다만 gemini는 링크 대신에 위의 기능을 구현한 파일을 zip파일로 압축하는 python 스크립트를 제공해주었습니다. 한... 30kb짜리 파이썬 스크립트를 내놓더라구요 ㅎㅎ 

위 내용을 바탕으로 chatGPT, gemini, grok, kimi, perplexity에 코드를 작성해달라고 25년 12월 1일 월요일에 요청하였고, 모두 무료 버전의 LLM으로 한번 물어보고 테스트를 진행하였습니다.

아, pseudo zip파일 링크만 준 녀석들은 다시 코드 내놔해서 한땀 한땀 코드를 복붙 했습니다. ㅎㅎ 


gemini : flask 구동시 필요한 파일이 모두 작성되었던 유일한 모델

chatGTP: 압축파일은 못 만들었지만 GTP도 필요한 파일은 모두 제시해 줬음

grok: flask의 app.파일에는 작성되어져 있었지만 template 폴더 내 일부 html 파일이 없어서 다시 요청했었음. 필요했던 파일이 5개 였다면 2개 정도가 비어 있음

kimi: 압축파일은 못만들었지만 GTP도 필요한 파일은 모두 제시해 줬음

perplexity: grok처럼 flask의 app.py파일에는 작성되어져 있었지만 template 폴대내 대부분의 생성되어 있어야할 html 파일들이 대부분 누락(10개가 필요하다면 8개가 없음). perplexite는 별 기대 안하고 요청해본 모델이어서 별 기대 없었습니다. :)

그리고 각 flask를 한번씩 돌려본 것을 남겨보자면...

요청서가 자세하지 않아서 모델들이 제대로 이해를 못한 결과 제대로된 결과물이 나오지 않은 것으로 각각의 화면을 한땀 한땀 설명하는 프롬프트를 작성해야할듯으로 보이네요

모든 모델에서 이상하게 mongodb에서 주가정보를 load하지 못했다는 공통점이 있어서 요청서에 문제가 있어보이긴 합니다. 그래도 grok와 kimi 모델에서는 메타데이터 관리를 위한 기능은 작동되는 것이 신기하긴 했습니다. :)

결론: 요청서나 설명하는 문장을 좀 더 다듬어 보는 걸로 



출처: @ye._.vely618

화요일, 11월 04, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (2)

기존에 사용하던 sqlite3 기반으로는 매주 없데이트 하는데 시간이 오래 걸려서 mongodb로 한번 변경해보는 작업을 진행하였는데 만족스러웠습니다. 

※ mongodb가 상장되어 있는지도 몰랐는데 이번 Dan ives의 ETF(IVES, IVE아닙니다. 물론 IVE도 있고 IVE도 있습니다.)에 mongodb(MDB)가 포함되어 있어 간만에 다시 mongodb를 사용해보기로 하여 아래와 같이 환율, 지수, 주가 정보를 업데이트하는 코드를 수정해 보았습니다.


첫번째 수정작업(Gemini)

(기존에 sqlite3로 사용하던 스크립트 업로드) 첨부한 파일은 기존에 sqlite3를에 테이블을 생성해서 파이썬으로 야후 파이낸스에서 각 ticker 정보를 검색해서 sqlite3로 저장하는 스크립트들 입니다.
환율과 지수, 한국주식, 미국주식 정보를 가져와서 sqlite3 테이블에 저장하는 것입니다.
나는 이 스크립트를 mongodb와 python을 사용해서 작동하도록 하고 싶습니다.
몽고디비는 내 컴퓨터에 설치하였습니다.
첨부한 파일의 스크립트를 참고하여 데이터베이스와 table을 생성하는 코드를 작성해줘 그리고 두번째로는 설치한 몽고DB(mongodb://localhost:27017)에 ticker를 업데이트하는 파이썬 코드를 작성해줘.
현재는 sqlite3에서 table lock로 한번에 한개의 정보만 다운로드 받아 insert하도록 되어있습니다. 환율,야후파이낸스에서 지수,한국주식,미국주식정보를 빠르게 받을 수 있도록 개선된 파이썬 코드를 작성해줘.
python 3.12 버전, yfinance 0.2.61 기준으로 코드를 작성해줘


아쉽게도 기존에 LLM으로는 해결하지 못했던 Session 문제가 그대로 노출되어서 아래와 같이 기존에 문제없이 사용하는 Session 코드를 그대로 보여주고 참고하라고 해서 다행이 잘 해결되었네요

두번째 수정작업(chatGPT)

(생성한 파일 중 update.py파일을 업로드)오류가 발생하여 정상적으로 db에 정보가 쌓이지 않고 있습니다. 문제가 있는 부분을 확인해서 수정해줘.

그리고
# 세션 생성 및 User-Agent 설정 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36'} session = requests.Session(impersonate="chrome", headers=headers, verify=False)
이 코드를 참고해서 세션 연결을 ticker 다운로드 할 떄마가 하는것이 아니라 스크립트 시작시 세션을 연결하고 모든 작업이 끝나면 세션을 닫으세요


chatGPT가 확인해준 원인들 
(일부 원인이 될 수 있지만 정확하게 해결해주지는 못하더라구요) 

구분 원인 설명
1 requests.Session()yfinance.download()의 호환성 문제 yfinance.download()requests가 아닌 yfinance.shared._session 기반으로 동작합니다. curl_cffi.requests.Session을 전달하면 TypeError 또는 AttributeError가 발생할 수 있습니다.
2 ❌ MongoDB date 필드 처리 오류 datetime.date 객체는 PyMongo가 BSON 변환 시 오류를 일으킬 수 있습니다. datetime.datetime 객체로 저장해야 합니다.
3 latest_dates 집계 시 strftime() 호출 오류 doc['max_date']datetime이 아닌 str로 들어오는 경우 .strftime() 호출 시 AttributeError 발생 가능성이 있습니다.
4 ⚠️ 중복 삽입 방지 미비 insert_many()를 단순 실행하면 중복 데이터가 계속 쌓이거나 오류로 중단될 수 있습니다.
5 ⚠️ 병렬 실행 시 세션 공유 문제 ThreadPoolExecutor 내부에서 yfinance.download() 호출 시 세션/캐시 충돌 가능성이 있습니다.
6 ⚠️ 한국 주식 Ticker 일부 .KQ 종목이 오류 발생 코스닥 종목이 .KS로 지정되어 다운로드 실패 가능성 있습니다.



그래서 아래와 같이 정상 적동하는 2개의 스크립트를 얻게 되었습니다. 

01.mongodb_setup.py

02.mongodb_update.py

다음에는 국내 부동산시세 정보도 알아서 모아올 수 있는 방법이 있는지 확인해보도록 하겠습니다. 물론 다른 서비스들이 있는것으로 봐서는 방법이 없지는 않겠지만 저는 실시간까지는 필요없으니 평이한 방법으로 시도해보도록 하겠습니다. :)



출처: @ye._.vely618


월요일, 10월 27, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (1)

오늘은 머리속으로만 생각해오던 Vibe coding 작업을 한번 해본 것 한번 끄적끄적 적어 올립니다.

이번 작업은 아마 좀 그럴듯해지는 결과물이 나올때 까지 시리즈로 올릴 계획입니다.

첫번째로 올리는게 LLM을 활용하고 AI를 도입한 무슨 무슨 유전체 분석 파이프라인이면 좋았을 수 도 있겠지만 자본주의 시장에서 Cash is King이니 환율, 주식, 지수를 한눈에 볼 수 있도록 하는 그럴듯한 차트를 만들어보는 것을 첫번째 주제로 잡아보았습니다.

당연히 제가 수정할 수 있도록 python, flask를 사용해서 작업해달라고 하고 있습니다.

지금은 chatGPT와 gemini에게 만들어달라고 해보고 있는데 grok와 perplexity를 이용할 예정입니다.

작성된 코드는 업데이트하여 계속 아래 제 github에 commit하도록 하겠습니다. :)

github: dashboard_poc


chatGPT에게 요청

나는 환율가격정보와 여러국가의 증권시장 지수 정보, 한국에 상장되어 있는 상장사들의 주가정보, 미국에 상장되어 있는 상장사들의 주가정보를 일자별로 개시가, 종가, 고가, 저가, 거래량 정보를 가지고 있습니다. 나는 이 정보들을 실시간으로 특정 기간 동안 또는 확인 할 수 있는 전체 기간 동안 비교 하고 싶어. 예를 들어 달라/원 환율정보, 한국의 삼성전자 주가, 미국의 나스닥 지수를 한국의 코스피 지수를 한 화면에 비교하면서 보고 싶어 환율가격정보와 여러국가의 증권시장 지수 정보, 한국에 상장되어 있는 상장사들의 주가정보, 미국에 상장되어 있는 상장사들의 주가정보들은 각각 sqlite3 데이터베이스 파일로 저장되어 있어.
환율가격정보는 finance_currency.db 파일에 currency라는 테이블에
symbol TEXT,
date DATE, open REAL,
high REAL,
low REAL,
close REAL,
volume INTEGER,
dividends REAL,
stock_splits TEXT 구조로 되어 있어. 
여러국가의 증권시장 지수 정보는 finance_index.db 파일에 stocks라는 테이블에, 한국에 상장되어 있는 상장사들의 주가정보는 finance_stock_kr.db파일에 stocks라는 테이블에, 미국에 상장되어 있는 상장사들의 주가정보는 finance_stock.db 파일에 stocks라는 테이블에 stocks라는 테이블에 저장되어 있습니다. 
stocks 테이블은 
symbol TEXT,
date DATE, open REAL,
high REAL,
low REAL,
close REAL,
volume INTEGER,
dividends REAL,
stock_splits TEXT 구조로 되어 있어. 
나는 Python 3.12 기준으로 FLASK를 사용해서 데이터베이스에 있는 환율가격정보와 여러국가의 증권시장 지수 정보, 한국에 상장되어 있는 상장사들의 주가정보, 미국에 상장되어 있는 상장사들의 주가정보들을 실시간으로 확인할 수 있는 웹페이지를 개발해줘.




gemini에게 요청
1. 환율, 인덱스지수, 한국주식종목, 미국주식종목은 각 데이터베이스에서 로딩하여 항목들을 보여주면 좋겠습니다. flask를 시작할 때 환율, 인덱스지수, 한국주식종목, 미국주식종목 의 데이터베이스에서 symbol 항목들을 먼저 불어와서 선택시 지연이 생기지 않으면 합니다.

2. 화면에서 환율, 인덱스지수, 한국주식종목, 미국주식종목 을 선택하는 하는 방법은 드랍다운 메뉴를 통해서 환율, 인덱스지수, 한국주식종목, 미국주식종목 을 선택 할 수 있으면 좋겠습니다. 동일한 화면에서 여러개의 항목을 보여주어야합니다. 추가할 때는 "추가"버튼 또는 "+" 아이콘을 클릭하면 추가 할 수 있으면 좋겠습니다. 그리고 추가한 항목을 삭제할 떄는 "-" 버튼을 클릭하여 항목을 언제나 추가, 삭제할 수 있어 사용자가 편리하게 환율, 인덱스지수, 한국주식종목, 미국주식종목의 항목을 조회할 수 있으면 좋겠습니다.

3. 환율, 인덱스지수, 한국주식종목, 미국주식종목 등 한 chart화면에 다양한 단위의 정보를 부여줘야합니다. Y축의 척도를 환율, 인덱스지수, 한국주식종목, 미국주식종목등 선택한 항목에 따라 동적(dynamic)으로 단위를 자동으로 확인하여 표시해주면 좋겠습니다.

환율은 교환하는 통화의 단위에 따라 표시가 어렵기에 인덱스지수 처럼 단위가 없이 표시해주면 됩니다.

한국주식종목은 원화 기준이기에 달라 기준인 미국주식종목과 단위가 없는 환율, 인덱스지수와 함께 표시할 때 상대적으로 큰 숫자로 표시되어 다른 항목들의 값이 정상적으로 표현되지 않을 수 있습니다.

사용자가 각 항목을 확인 할 때 불편하지 않도록 항목에 따라 Y축의 척도, 단위를 자동으로 구성해주면 좋겠습니다.

4. 환율, 인덱스지수, 한국주식종목, 미국주식종목 등 여러가지 그래프를 하나의 chart화면에서 보여 줄 때 모든 정보들이 보이지 않고 마지막으로 추가한 항목의 그래프만 보이는 오류가 발생할 수 있습니다. 이런 오류가 발생하지 않도록 코드를 오류 없이 작성해주세요.

5. 업로드한 파일은 초기에 작성한 python FLASK로 작성한 파일입니다. 참고하여 위의 요청사항들을 반영하여 사용자가 사용하기 편리하고 오류없는 python기반의 FLASK 사이트를 작성해줘.


첫번째는 chatGPT에게 대략적인 내용을 설명하고 코드를 작성해달라고 하였고, 이후 gemini에게 chatGPT가 작성한 코드를 바탕으로 추가 요청사항을 알려주었습니다.


그래서 아래와 같이 결과물이 나왔는데... 

물론 아직 멀었습니다. 일단 이쁘지가 않습니다. 그리고 Y축의 척도가 선택한 항목에 따라 동적으로 scale이 조정되면 좋을 것 같은데... 그렇지 않다보니 숫자가 작은 항목을 선택하면... 바닥에 기어가는 그래프들만 볼때가 있네요..


그래도 머리에 있는 내용을 타이핑해서 상대방에게 알려주는 것이 얼마나 어려운것인지 다시한번 느끼고 있으며 그럼에도 불구하고 이 내용을 A부터 Z까지 python이라지만 내가 코드를 작성할 수 있었을까? 라는 생각을 가지고 감탄하고 있습니다. :)


아이디어와 설명, 표현을 LLM에게 잘 한다면 사실 못할게 없을것 같네요. :)

그리고 위에서 얘기한것과 같이 다른 LLM들도 사용할 예정인데 품질 향상을 위해서가 아니라 무료 버전을 사용하고 있어서 하나의 모델에게 많은 일을 시키지 못해서 그렇습니다. :) 

음... 좀 번거롭긴 하지만 생각보다 약간씩 모델에 차이가 있다보니 여러 LLM을 돌려사용하면 품질이 조금 더 향상되지 않을까 합니다. ㅎㅎ
더 업데이트해서 지금보다 나은 결과물을 가지고 두번째 글을 쓰도록 하겠습니다. :)




출처: @ye._.vely618

수요일, 10월 08, 2025

AI 의사를 육성하는 가상 병원 ㄷㄷㄷㄷ

LLM기반으로 Agent를 알파고처럼 기본적인 role만 습득한채 환자를 진단하는 시뮬레이션을 무한히 돌려서 시행착오를 격게 함으로써 경험을 쌓게했는데 이게 또 현실에서의 의사 사람만큼의 성능을 발휘한다? 이게 되네? 

논문제목은 Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents 입니다. chatGPT의 답변중에 가장의 환자가 등장하는 스토리텔링으로 내용을 설명한것도 있습니다.

하.. 진짜 이게 되네;;;

DOI: 10.48550/arXiv.2405.02957


clova-x

Agent Hospital은 대규모 언어 모델(LLM)을 기반으로 한 자율 에이전트들이 의료 환경을 시뮬레이션하고 의사 에이전트들이 경험을 통해 전문성을 향상시킬 수 있도록 설계되었습니다. 이 연구는 Simulacrum-based Evolutionary Agent Learning (SEAL)이라는 새로운 패러다임을 도입하여, 인공지능이 실제 의료 문제 해결에 적용될 수 있는 가능성을 제시합니다.

1. **Agent Hospital의 개요**

   - Agent Hospital은 가상의 병원으로, 환자, 간호사, 의사 모두 LLM 기반의 자율 에이전트로 구성됩니다.

   - 병원의 모든 절차를 시뮬레이션하여 환자 치료 과정을 재현합니다.

2. **인공지능 기술의 발전**

   - LLM은 방대한 텍스트 데이터를 학습하여 의학 지식을 습득하며, 이를 통해 USMLE 스타일 질문에 인간 수준의 성능을 발휘합니다.

   - 자율 에이전트는 LLM을 두뇌로 삼아 환경과 상호작용하며, 인간처럼 계획하고 반성할 수 있습니다.

3. **Simulacrum-based Evolutionary Agent Learning (SEAL)**

   - SEAL은 두 가지 주요 요소인 시뮬라크럼 구축과 에이전트 진화로 구성됩니다.

   - 시뮬라크럼은 병원 환경을 생성하여 의사 에이전트가 다양한 의료 데이터를 통해 전문성을 갖출 수 있도록 돕습니다.

   - 에이전트 진화는 성공 및 실패 사례를 통해 의사 에이전트가 시간이 지남에 따라 능력을 향상시키도록 합니다.

4. **연구의 의의와 적용 가능성**

   - SEAL은 LLM을 특정 사용 사례로 맞춤화하고 수동으로 데이터를 주석화하는 대신, 자동으로 데이터를 생성하여 애플리케이션의 요구사항을 충족시킵니다.

   - 이 연구는 의료 AI뿐만 아니라 다양한 분야에 적용될 수 있는 잠재력을 지니고 있습니다.


gemini

## 🏥 AI 의사를 키우는 가상 병원: '에이전트 병원(Agent Hospital)' 논문 요약

---

이 논문은 대규모 언어 모델(LLM) 기반의 **자율 에이전트**를 활용하여 의사들이 실제 임상 경험을 통해 전문성을 쌓는 과정을 가상으로 구현한 혁신적인 연구입니다. 마치 게임처럼 작동하는 가상 병원에서 AI 의사들이 무한대의 가상 환자를 치료하며 스스로 진화하고, 이 전문성이 실제 의학 시험에서도 통한다는 것을 입증했습니다.

### 1. 연구 배경: 왜 가상 병원을 만들었나?

---

[cite_start]AI가 의학 분야에서 눈부신 발전을 거듭하고 있지만, 이는 주로 **지식 습득** 단계에 머물러 있습니다[cite: 1136]. [cite_start]기존의 대규모 언어 모델(LLM)은 방대한 의학 텍스트를 학습하여 미국 의사 면허 시험(USMLE) 수준의 문제도 풀 수 있을 정도로 지식은 뛰어나지만[cite: 1138], 이는 의사가 되는 과정 중 **교과서 지식 습득**에 해당합니다.

[cite_start]하지만 실제 의사가 되기 위해서는 환자를 직접 치료하는 **임상 전문성 습득**이 필수적입니다[cite: 1135]. [cite_start]기존 LLM은 실제와 같은 복잡한 병원 시나리오에서 경험을 쌓고 진화하는 능력이 부족합니다[cite: 1139]. 이 연구는 이 "임상 경험 습득" 단계를 AI에 구현하는 것을 목표로 했습니다.

### 2. 연구 목적: '경험'을 통해 진화하는 AI 의사

---

[cite_start]이 연구의 핵심 목표는 **'에이전트 병원(Agent Hospital)'**이라는 가상 환경을 구축하여 [cite: 1128, 1170][cite_start], 환자, 간호사, 의사 모두 LLM 기반의 자율 에이전트로 구성된 시뮬레이션을 만드는 것입니다[cite: 1171]. [cite_start]이 안에서 **AI 의사 에이전트**는 수많은 가상 환자를 치료하는 **실습**을 통해 **데이터를 수동으로 라벨링하지 않고도** 스스로 의료 전문성을 향상시키고 진화하는 것입니다[cite: 1129].

### 3. 연구 방법: SEAL 프레임워크와 MedAgent-Zero

---

[cite_start]이 연구는 **'시뮬레이션 기반 진화적 에이전트 학습(SEAL, Simulacrum-based Evolutionary Agent Learning)'**이라는 새로운 패러다임을 제안합니다[cite: 1183].

#### 1) 시뮬레이션 환경 구축 (Agent Hospital)

[cite_start]에이전트 병원은 환자의 발병, 분류, 접수, 진료, 검사, 진단, 투약, 회복, 퇴원 후 관리까지 **질병 치료의 전체 폐쇄 주기**를 시뮬레이션합니다[cite: 1163, 1177].

* **가상 환자 자동 생성:** 가장 중요한 것은 **환자 에이전트**입니다. LLM이 의학 지식 기반(Medical Knowledge Base)과 결합하여 질병의 종류, 증상, 병력, 검사 결과 등을 **자동으로 생성**합니다. [cite_start]이로써 AI 의사에게 무제한에 가까운 다양한 학습 데이터를 제공하며, 사람이 일일이 데이터를 라벨링할 필요가 없습니다[cite: 1186, 1187, 1294].

#### 2) 에이전트 진화 방법론 (MedAgent-Zero)

AI 의사들이 전문성을 쌓는 방법은 **MedAgent-Zero**라고 불립니다. [cite_start]'Zero'는 수동으로 라벨링된 훈련 데이터를 사용하지 않는다는 의미입니다[cite: 1290]. AI 의사는 다음 두 가지 방식으로 진화합니다.

* [cite_start]**성공으로부터 학습 (Medical Case Base):** 환자를 성공적으로 치료한 진료 사례는 **'의학 사례 기반(Medical Case Base)'**에 저장되어, 이후 비슷한 환자를 진료할 때 참고 자료로 활용됩니다[cite: 1361].

* [cite_start]**실패로부터 학습 (Experience Base):** 오진 등 치료에 실패했을 경우, AI 의사는 실제 정답과 자신의 결정을 비교하며 **'반성(Reflection)'**하여 실수를 피하기 위한 **새로운 규칙(Principle)**을 생성합니다[cite: 1178, 1362]. [cite_start]이 규칙이 검증 과정을 거쳐 성공적으로 적용되면 **'경험 기반(Experience Base)'**에 추가됩니다[cite: 1363]. 이는 인간 의사가 임상 경험을 통해 노하우를 쌓는 과정과 유사합니다.

### 4. 연구 결과: 가상 경험이 현실 능력이 되다

---

연구 결과, AI 의사 에이전트의 진화는 가상 세계와 현실 세계 모두에서 뚜렷한 성능 향상을 보였습니다.

* [cite_start]**가상 세계의 성능 향상:** 치료한 환자 에이전트 수가 증가함에 따라 AI 의사의 진단 정확도는 꾸준히 향상되었습니다[cite: 1195, 1455]. [cite_start]예를 들어, 심장내과에서 류마티스성 심장 질환에 대한 진단 정확도는 **9%에서 82%**로 급격히 상승했습니다[cite: 1460].

* [cite_start]**현실 세계 의학 지식 시험(MedQA) 성능:** 가상 병원에서 얻은 전문성은 실제 세계의 의학 문제에도 적용 가능했습니다[cite: 1196]. [cite_start]진화된 AI 의사는 수동 라벨링 데이터를 전혀 사용하지 않았음에도 불구하고, MedQA 벤치마크(USMLE 스타일 질문)에서 기존의 **최신 의료 AI 방법들(MedAgents, CoT, Medprompt)을 능가**하는 **최고 정확도(92.2%)**를 달성했습니다[cite: 1130, 1198, 1458, 1450].

### 5. 고찰 및 의의와 시사점

---

**에이전트 병원**은 단순한 시뮬레이션 이상의 의미를 가집니다.

* [cite_start]**시간 가속기 역할:** 사람이 수년이 걸려야 경험할 수 있는 **수만 명의 환자 진료 케이스**를 AI 의사는 가상 병원이라는 '시간 가속기' 속에서 단기간에 처리하고 학습할 수 있습니다[cite: 1130, 1180].

* [cite_start]**새로운 AI 개발 패러다임:** 이 연구가 제시한 **SEAL** 방식은 의료 AI뿐만 아니라, 복잡한 워크플로우를 가진 모든 분야(산업, 법률 등)의 AI 개발에 적용될 수 있는 새로운 청사진을 제시합니다[cite: 1204]. [cite_start]사람이 데이터를 라벨링하고 도메인 특화 LLM을 훈련하는 막대한 비용과 노력을 획기적으로 줄일 수 있습니다[cite: 1201].

* [cite_start]**AI 환자의 활용 가능성:** 자동으로 생성된 AI 환자는 의료 교육(학생 및 주니어 의사 훈련)이나 특정 질병 코호트 모델링 등에 활용될 수 있으며, 실제 환자의 **개인 정보 보호** 문제를 해결하면서도 임상 연구를 진행하는 데 기여할 수 있습니다[cite: 1285, 1286].

### 이 연구가 왜 중요한가?

[cite_start]이 연구는 마치 **알파고 제로(AlphaGo Zero)가 바둑을 스스로 학습하고 초인적인 기량이 되었던 것처럼** [cite: 1181][cite_start], AI 의사가 가상 환경에서의 **자체적인 실습과 진화**를 통해 빠르게 임상 전문성을 쌓을 수 있는 경로를 제시했습니다[cite: 1287]. [cite_start]가상 환경에서 얻은 전문성이 실제 의학 지식 시험에서 인간 전문가 수준을 뛰어넘는 결과를 보여주면서, **데이터 라벨링 없이도 초인적인 AI 의사를 개발할 수 있는** **확장 가능하고 비용 효율적인** 새로운 가능성을 열었습니다[cite: 1198, 1204]. 이는 미래 의료 산업의 혁명을 이끌 핵심 기술이 될 것입니다.


chatGPT

다음은 업로드하신 논문 \*\*〈Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents〉\*\*의 주요 내용을 일반 독자들이 이해하기 쉽게 정리한 요약본입니다. 블로그에 올릴 수 있는 설명 형식으로 작성했으며, 연구 배경·목적·방법·결과·고찰·의의와 시사점까지 담았습니다.

---

# AI로 만든 가상병원, **에이전트 병원(Agent Hospital)**

### ― 스스로 성장하는 AI 의사들의 탄생

## 연구 배경

의사가 되려면 보통 20년 이상의 교육과정을 거쳐야 합니다. 학교에서 지식을 배우고, 병원 현장에서 실습을 하면서 실제 의술을 익히게 되죠. 그런데 지금까지의 **의료 인공지능(AI)** 연구는 대부분 ‘교과서 학습’, 즉 텍스트와 데이터로 지식을 쌓는 단계에 집중했습니다. 문제는 실제 병원처럼 “환자를 진료하면서 배우는 경험”을 AI가 얻기 어렵다는 점이었습니다.

최근 등장한 **대규모 언어모델(LLM)** 기반의 자율 에이전트는 단순히 텍스트를 읽고 쓰는 것을 넘어서, 환경과 상호작용하며 계획하고 반성하고 도구를 활용하는 능력을 보이기 시작했습니다. 연구팀은 이를 활용해, AI가 마치 인간 의사처럼 진료 경험을 쌓고 성장할 수 있는 환경을 만들고자 했습니다.

## 연구 목적

연구진은 \*\*“에이전트 병원(Agent Hospital)”\*\*이라는 가상병원을 구축했습니다. 이 안에서 **환자, 간호사, 의사** 모두가 AI 에이전트로 구현됩니다. 의사 에이전트들은 수많은 환자를 진료하면서 스스로 경험을 쌓고, 잘한 점과 실수에서 교훈을 얻어 점점 더 유능한 의사로 성장합니다.

핵심 질문은 다음과 같았습니다:

* AI 의사가 가상의 환자를 치료하며 정말로 “경험 기반 의료 능력”을 습득할 수 있을까?

* 이렇게 배운 능력이 실제 의료 문제 해결에도 통할까?

## 연구 방법

연구팀은 **SEAL (Simulacrum-based Evolutionary Agent Learning)** 이라는 방법론을 제안했습니다.

* **시뮬라크럼 구축**: 병원 환경을 가상으로 재현. 환자의 발병, 접수, 진료, 검사, 처방, 회복까지 실제 병원과 같은 과정을 모두 포함. 환자 데이터는 의학 지식 기반을 참고해 자동으로 생성되므로, 사람이 일일이 라벨링하지 않아도 됩니다.

* **에이전트 진화**: 의사 AI는 환자를 치료하면서 성공 사례는 축적하고, 실패는 반성하여 규칙을 만들어 개선합니다. 또한 여가 시간에 “의학 서적”을 읽으며 지식을 보강하도록 설계했습니다.

이 시스템에서 의사 AI는 마치 바둑 AI인 알파고 제로(AlphaGo Zero)처럼 수십 년에 해당하는 임상 경험을 단기간에 축적할 수 있습니다.

## 연구 결과

* **가상 세계 성과**: 의사 에이전트는 수만 명의 환자를 치료하면서 진단 정확도가 크게 향상되었습니다. 예컨대, 처음에는 9%에 불과했던 심장질환 진단 정확도가 80% 이상으로 뛰었습니다.

* **현실 세계 적용**: 의사 에이전트가 가상병원에서 훈련한 뒤 미국 의사 국가시험(USMLE) 스타일 문제로 평가했을 때, 기존 최신 모델보다 더 높은 정확도를 보였습니다. (별도의 라벨링 데이터 없이도 성능 향상 달성)

* **확장 가능성**: 21개 임상과, 339개 질환을 포함해, 대부분의 진료 영역에서 성능이 고르게 개선됨을 확인했습니다.

## 고찰

이 연구는 몇 가지 중요한 시사점을 줍니다.

1. **데이터 라벨링 부담 해소**: 기존에는 의료 AI를 훈련시키려면 방대한 환자 데이터를 사람이 직접 라벨링해야 했지만, Agent Hospital은 가상 환자가 자동으로 데이터를 생성해 이 문제를 해결했습니다.

2. **실제와의 정합성**: 가상에서 배운 의료 경험이 현실 문제 해결에도 적용될 수 있음을 보여주었습니다. 이는 AI 의사 양성의 가능성을 열어줍니다.

3. **한계와 과제**: 현재 AI 의사는 고수준의 치료 계획만 제시할 수 있고, 복잡한 다학제 협력(예: 여러 진료과 협진)은 구현되지 않았습니다. 또한 AI의 편향, 윤리 문제, 신뢰성 확보는 여전히 중요한 숙제로 남아 있습니다.

## 의의와 시사점

* **의료 교육 혁신**: 실제 의대생이나 전공의가 훈련하기 어려운 드문 질환이나 대량의 증례를 AI 환자로 대신할 수 있습니다.

* **의료 불평등 완화**: 충분한 인력이 없는 지역에서도 AI 의사가 지원 역할을 할 수 있어, 의료 접근성을 높일 수 있습니다.

* **AI 응용 확장**: 병원뿐만 아니라 법정, 교육, 경제 등 사람이 경험으로 배우는 다른 영역에도 이 방법을 적용할 수 있습니다.

## 왜 중요한가?

이 연구는 단순히 “의료 AI의 정확도를 높였다”는 수준을 넘어, **AI가 인간처럼 경험을 통해 성장할 수 있는 새로운 길**을 보여줍니다. 즉, AI가 단순한 지식 검색기가 아니라 **실습과 경험을 통해 스스로 진화하는 존재**로 발전할 수 있음을 입증했습니다. 이는 미래에 “슈퍼 AI 의사”가 등장할 가능성을 시사하며, 장기적으로 의료 서비스의 혁신과 대중화에 크게 기여할 수 있습니다.

---

👉 정리하면, 이 논문은 \*\*“AI 의사 훈련을 위한 가상병원 플랫폼”\*\*을 구축하고, 그 안에서 AI 의사가 실제처럼 경험을 쌓아 진짜 의료 문제에도 적용할 수 있음을 보여준 획기적인 연구입니다.


chatGPT(스토리텔링 형식, 가상의 환자가 등장하는 사례중심)

# “AI 병원에서 진료받은 남자, 그리고 성장하는 의사 AI”

한 남자가 있습니다. 이름은 **케네스 모건(Kenneth Morgan)**, 55세.

어느 날 아침, 그는 피부에 붉은 발진과 물집이 생기고 심한 통증까지 느꼈습니다. 걱정이 된 케네스는 근처에 새로 생겼다는 \*\*‘에이전트 병원(Agent Hospital)’\*\*을 찾았습니다.

## 1. 접수와 진료 시작

병원에 도착한 케네스는 먼저 간호사 AI에게 증상을 설명합니다.

* “피부가 붉고, 물집이 잡히고, 많이 아픕니다.”

간호사 AI는 그를 피부과로 안내합니다. 진료실에 들어서니 의사 AI인 **로버트 톰슨**이 기다리고 있었습니다. 로버트는 피부질환 전문 AI 의사입니다.

## 2. 검사와 진단

로버트는 환자의 과거 병력과 증상을 확인하고 몇 가지 검사를 권합니다.

검사 결과, 환자의 혈액에서 **수두-대상포진 바이러스(VZV)** 항체가 발견되었고, 피부 물집에서도 바이러스 DNA가 확인되었습니다.

로버트는 곧바로 진단을 내립니다.

* “케네스 씨, 이건 \*\*대상포진(Shingles, Herpes Zoster)\*\*입니다. 다행히 빠르게 발견해서 치료가 가능합니다.”

케네스는 약을 받고 집으로 돌아가 요양합니다.

## 3. AI 의사의 학습 과정

여기서 중요한 건 진단 자체가 아니라, **의사 AI가 어떻게 성장했는가**입니다.

로버트는 이번 진료를 기록합니다.

* 성공적으로 진단했으니, 이 사례는 \*\*“의료 사례 데이터베이스”\*\*에 저장됩니다.

* 만약 진단을 틀렸다면? 그는 왜 틀렸는지 반성하고 새로운 규칙을 만들어 \*\*“경험 데이터베이스”\*\*에 추가했을 겁니다.

즉, AI 의사는 **성공에서 배우고, 실패에서도 배우는** 과정을 거듭하며 점점 더 똑똑해집니다. 마치 인간 의사가 수많은 환자를 만나며 경험을 쌓는 것과 똑같습니다.

## 4. 현실보다 빠른 시간

재미있는 건, 이 가상병원에서는 시간이 훨씬 빨리 흐른다는 겁니다.

현실에서 인간 의사가 수십 년 동안 겪어야 할 진료 경험을, AI 의사는 단 며칠 혹은 몇 주 만에 쌓을 수 있습니다. 케네스 같은 환자가 수만 명 등장하기 때문이죠.

결과적으로, AI 의사는 짧은 시간에 \*\*“초고속 진료 수련 과정”\*\*을 거치며 인간보다 빠르게 의술을 연마할 수 있습니다.

## 5. 연구 성과

연구진은 이렇게 훈련된 AI 의사들을 시험했습니다.

* 실제 미국 의사 자격시험(USMLE) 스타일 문제를 풀게 했더니, 기존 최고 성능을 보이던 AI 모델들보다 더 높은 정확도를 기록했습니다.

* 가상의 환자와 진료 경험만으로 현실 문제 해결 능력이 향상된 것입니다.

즉, **가상에서의 경험이 현실로 이어질 수 있다**는 사실을 입증한 거죠.

## 6. 왜 중요한가?

이 사례는 단순한 “AI가 환자를 진단했다”라는 이야기가 아닙니다.

* **의료 교육 혁신**: 학생이나 전공의가 수십 명의 환자를 만나기 힘든 드문 질환도, AI 환자로 무제한 생성해 학습할 수 있습니다.

* **의료 격차 해소**: 전문 의사가 부족한 지역에서 AI 의사가 지원할 수 있습니다.

* **AI의 진화 모델**: 단순히 데이터를 읽는 AI가 아니라, **실제 경험을 통해 스스로 성장하는 AI**라는 점이 획기적입니다.

---

## 마무리: 가상병원에서 태어난 ‘AI 의사’

케네스 모건 같은 환자 수만 명을 진료하면서, 로버트 톰슨 같은 AI 의사는 점점 더 뛰어난 의사로 진화합니다.

연구팀이 보여준 건 하나의 미래 시나리오입니다.

“**의사 AI가 실제처럼 경험을 쌓으며, 인간 의사의 든든한 동료가 될 수 있다.**”

이는 단순한 기술 시연이 아니라, 앞으로의 의료가 어떻게 더 빠르고, 더 공평하며, 더 스마트해질 수 있는지를 보여주는 청사진입니다.


grok3

### Agent Hospital: AI가 병원에서 배우는 가상 세계

#### 연구 배경

의사가 되려면 학교에서 책으로 지식을 배우고, 병원에서 실제 환자를 치료하며 전문성을 쌓아야 합니다. 최근 대형 언어 모델(LLM)처럼 AI가 의료 텍스트를 잘 이해하게 되었지만, 이는 책 학습에 불과합니다. 실제 병원처럼 AI가 환자를 직접 '치료'하며 경험을 쌓는 방법이 부족했습니다. 이 연구는 LLM을 '뇌'로 삼아 AI 에이전트가 가상 환경에서 행동하며 배우는 '자율 에이전트' 아이디어를 활용합니다. 기존 연구는 의료 AI가 다중 에이전트 협력으로 추론하는 데 초점을 맞췄지만, 병원 실습처럼 장기적으로 전문성을 키우는 건 미해결 과제였습니다.

#### 연구 목적

이 논문은 'Agent Hospital'이라는 가상 병원을 만들어, AI 의사 에이전트가 수많은 환자 에이전트를 치료하며 자동으로 전문성을 진화시키는 걸 목표로 합니다. 실제 병원처럼 질병 발병부터 진단, 치료, 회복까지 전체 과정을 시뮬레이션하며, AI가 사람처럼 경험을 쌓게 합니다. 궁극적으로, 수작업 데이터 라벨링 없이 AI를 훈련해 실세계 의료 문제(예: USMLE 시험 문제)를 풀 수 있게 하는 게 목적입니다.

#### 연구 방법

연구팀은 SEAL(Simulacrum-based Evolutionary Agent Learning)이라는 새 패러다임을 제안합니다. 이는 두 부분으로 나뉩니다. 첫째, 시뮬레이션 구축: 게임 엔진으로 가상 병원을 만들고, 환자·간호사·의사 에이전트를 LLM으로 구동합니다. 환자 에이전트는 LLM과 의료 지식 베이스를 결합해 자동 생성되는데, 질병 선택 → 기본 정보(나이, 성별) → 병력 → 증상 → 검사 보고서 순으로 만듭니다. 예를 들어, 대상포진 환자는 50세 이상, 수두 병력이 있는 식으로 현실적으로 생성합니다.

둘째, 에이전트 진화(MedAgent-Zero): 의사 에이전트는 환자 증상과 검사 결과를 보고 검사 선택, 진단, 치료 계획을 결정합니다. 성공하면 사례를 '의료 사례 베이스'에 저장해 참조합니다. 실패하면 반성해 '경험 베이스'에 규칙(예: "50세 이상은 대상포진 가능성 높음")을 추가합니다. 의사 에이전트는 여가 시간에 의학 서적도 읽습니다. 가상 세계라 시간이 빨라, AI 의사가 사람 의사보다 훨씬 많은 환자(수만 명)를 치료할 수 있습니다. 32개 진료과, 339개 질병을 커버합니다.

#### 연구 결과

가상 병원에서 의사 에이전트의 성능을 검사 선택, 진단, 치료 계획 세 가지 작업으로 평가했습니다. 초기에는 LLM 지식만 쓰지만, 환자 치료 수가 늘수록 정확도가 올라갔습니다. 예를 들어, 수만 명 치료 후 진단 정확도가 크게 향상됐습니다. 흥미롭게, 이 가상 학습이 실세계에도 적용됐습니다. MedQA(USMLE 문제 벤치마크)에서 기존 방법보다 높은 정확도를 달성했는데, 라벨링 데이터 없이도 최신 기술(SOTA)을 능가했습니다. '스케일링 법칙'처럼 환자 수가 많아질수록 성능이 지속적으로 좋아졌습니다.

#### 고찰

이 방법은 의료 데이터가 무한히 생성되므로, 실제 병원 피드백 부족 문제를 해결합니다. 실패 사례 반성이 AI의 실수 반복을 막아줍니다. 다만, 가상 데이터가 현실을 완벽히 반영하지 않을 수 있으니, 품질 관리 에이전트로 검증합니다. 기존 의료 AI처럼 대량 텍스트 학습 대신, 시뮬레이션으로 맞춤형 전문성을 키우는 게 강점입니다. 의료 외 분야(예: 금융, 교육)에도 확장 가능합니다.

#### 의의와 시사점

이 연구는 AI 훈련 패러다임을 바꿉니다. 수작업 라벨링 비용을 줄이고, 기초 LLM과 지식 베이스를 유연히 결합해 특정 분야 AI를 만듭니다. 의료 AI가 더 안전하고 효과적으로 발전할 수 있으며, 환자 코호트(예: 특정 연령·질병 그룹) 시뮬레이션으로 희귀병 연구도 돕습니다. 궁극적으로, AI가 사람처럼 '경험'으로 배우는 길을 열어줍니다.

이 연구가 중요한 이유는 AI가 의료처럼 복잡한 분야에서 사람 수준으로 성장할 수 있음을 보여주기 때문입니다. 실제 의료 비용과 시간을 절감하며, 미래 AI 응용을 폭넓게 확대할 잠재력을 가집니다.


NotebookLM

## 가상 병원 '에이전트 병원(Agent Hospital)'을 통한 초진화 AI 의사 육성 연구 요약

이 연구는 **대규모 언어 모델(LLM)**을 기반으로 환자와 의료진 모두를 자율 에이전트(Autonomous Agents)로 구현한 가상 병원 시뮬레이션 환경인 **'에이전트 병원(Agent Hospital)'**에 대한 내용을 담고 있습니다. 이 혁신적인 접근 방식은 AI 의사가 수동으로 레이블링된 데이터 없이도 방대한 실습 경험을 통해 스스로 의료 전문성을 습득하고 진화할 수 있도록 하는 것을 목표로 합니다.

---

### 1. 연구 배경: 왜 AI 의사의 실습이 중요한가?

최근 몇 년 동안 대규모 언어 모델(LLM)의 급속한 발전은 의료 인공지능(AI) 분야에 큰 혁명을 가져왔습니다. 기존의 의료 AI 연구(예: Med-PaLM)는 방대한 텍스트 데이터로부터 의학 지식을 습득하는 데 중점을 두어, 미국 의사 면허 시험(USMLE) 수준의 지식 기반 질문 답변에서 인간 전문가 수준에 도달하기도 했습니다.

그러나 의료 전문가가 되는 과정은 단순히 책에서 지식을 얻는 것 외에도, **병원에서의 실습을 통해 전문성을 습득**하는 2단계 과정이 매우 중요합니다. 기존 LLM은 언어를 이해하고 생성하는 기본적인 능력만 제공할 뿐, 실제 세계의 작업별 시나리오를 다루도록 설계되지 않았기 때문에, 실제 병원에서처럼 전문 지식을 습득하는 과정을 모델링하기는 어려웠습니다.

이러한 한계를 극복하기 위해, 이 연구는 LLM을 '두뇌'로 사용하는 **자율 에이전트**에 주목했습니다. 에이전트는 계획, 반성, 도구 사용 등 텍스트 처리 이상의 능력을 보여주며, 인간처럼 환경과 상호작용하며 행동할 수 있습니다. 이 연구는 의사 에이전트가 실제 인간 의사처럼 병원에서의 실습을 통해 전문 지식을 습득할 수 있도록 하는 새로운 패러다임을 제시합니다.

### 2. 연구 목적: 가상 실습을 통한 AI 닥터 진화

본 연구의 핵심 목적은 **'에이전트 병원'**이라는 병원 시뮬레이션 환경을 구축하여 **의료 전문성 습득 과정을 시뮬레이션**하는 것입니다. 특히, 의사 에이전트가 수만 명의 환자 에이전트를 치료하는 과정에서 **수동으로 레이블링된 훈련 데이터 없이도 스스로 진화**하고 치료 성능을 향상시키는 방법을 개발하는 데 중점을 두었습니다.

### 3. 연구 방법: SEAL 패러다임과 MedAgent-Zero

연구진은 **SEAL(Simulacrum-based Evolutionary Agent Learning)**이라는 새로운 AI 기술 패러다임을 제안했습니다. SEAL은 시뮬라크럼 구축(Simulacrum Construction)과 에이전트 진화(Agent Evolution)라는 두 가지 주요 구성 요소로 이루어집니다.

#### 1) 시뮬라크럼 구축 (Agent Hospital)

에이전트 병원은 환자 에이전트가 질병 발병, 분류(Triage), 등록, 진료, 검사, 진단, 조제, 회복에 이르는 **전체 치료 순환 과정**을 시뮬레이션합니다.

*   **자율 에이전트 구성:** 병원 내의 환자, 간호사, 의사 모두 LLM 기반의 자율 에이전트입니다. 의사 에이전트는 총 32개의 진료과(임상과 21개, 비임상과 11개)를 커버하며 339개의 질병을 다룹니다.

*   **자동 데이터 생성:** 이 가상 세계는 **LLM을 의료 지식 기반과 유연하게 결합**하여 훈련 데이터를 자동으로 생성합니다. 질병, 증상, 검사 결과, 치료 경과 등 환자 에이전트와 관련된 모든 데이터는 가상 세계 자체에서 생성되며, 인간이 수동으로 주석을 달 필요가 없습니다.

#### 2) 의사 에이전트 진화 (MedAgent-Zero)

의사 에이전트의 진화 방법론을 **MedAgent-Zero**라고 명명했는데, 'Zero'는 수동으로 레이블링된 데이터를 전혀 사용하지 않는다는 것을 의미합니다. 의사 에이전트의 기반 LLM은 고정되어 있으며, 진화는 두 가지 핵심 모듈을 통해 이루어집니다.

*   **의료 사례 기반 (Medical Case Base):** 의사 에이전트가 환자를 성공적으로 치료하면 해당 사례(질문-답변 쌍)는 의료 사례 기반에 저장되어 향후 유사한 사례를 진료할 때 참고 자료로 사용됩니다.

*   **경험 기반 (Experience Base):** 의사 에이전트가 치료에 실패했을 때, 잘못된 결정과 정답을 비교하여 **실수를 피하기 위한 규칙(원칙)**을 스스로 만들어냅니다. 이 규칙이 검증 과정을 거쳐 효과가 입증되면 경험 기반에 추가되어 지식으로 축적됩니다.

또한, 의사 에이전트는 쉬는 시간에 의학 서적을 읽으며 지식과 전문성을 통합합니다. 가상 병원의 시간은 현실보다 훨씬 빠르게 흐르므로, AI 의사는 현실의 인간 의사가 평생 동안 치료하는 것보다 훨씬 많은 수의 환자 에이전트를 치료하며 진화할 수 있습니다.

### 4. 연구 결과: 인간 의사의 실습 시간을 뛰어넘는 진화

이 연구는 가상 세계와 실제 세계(MedQA 벤치마크) 모두에서 접근 방식을 평가했습니다.

#### 1) 가상 세계에서의 성능 향상

*   **지속적인 정확도 향상:** 의사 에이전트가 치료한 환자 에이전트 수가 증가할수록 진단 정확도가 지속적으로 향상되는 것이 관찰되었습니다. 이는 의사 에이전트가 가상 병원에서 실습을 통해 의료 전문성을 습득하고 있음을 시사합니다.

*   **극적인 개선 사례:** 진화 전에는 기본 모델만 사용할 경우 심장학 부서의 류마티스성 심장 질환 진단 정확도가 9%에 불과했지만, 진화 후에는 82%로 **극적으로 향상**되었습니다.

*   **전 부서 적용 가능성:** 모든 임상과에서 진화 후 진단 및 검사 선택 정확도가 **평균 95% 이상**을 달성하며, 모든 임상 시나리오에서 효과적이고 일반화 가능하다는 것을 보여주었습니다.

#### 2) 실제 세계(MedQA)에서의 우수성

*   **실제 문제 해결 능력:** 가상 세계에서 학습한 의료 기술이 실제 세계 문제에 적용 가능하다는 긍정적인 결과가 관찰되었습니다. 치료한 환자 수가 증가함에 따라 MedQA 데이터셋(USMLE 시험 질문)의 질문에 답변하는 정확도도 함께 증가했습니다.

*   **최신 기술 능가:** 진화된 의사 에이전트는 MedQA 데이터셋에서 기존의 최신 의료 에이전트 방법(MedAgents, CoT, Medprompt 등)보다 **우수한 성능**을 보였습니다.

### 5. 고찰 및 의의: 새로운 AI 훈련 패러다임

이 연구는 LLM 기반 에이전트 훈련에 있어 획기적인 **SEAL 패러다임**을 제시합니다. 이는 데이터 수동 레이블링이나 도메인별 LLM 훈련의 필요성을 제거하고, 실제 워크플로우에 맞는 시뮬라크럼을 구축하여 데이터를 자동으로 생성합니다.

#### 1) AI 환자의 잠재적 영향

AI 환자는 단순한 훈련 데이터 이상의 역할을 수행할 수 있습니다. 질병 발병 및 진행 모델링, 특정 질병 및 지역의 환자 코호트 시뮬레이션, 의대생 및 주니어 의사 훈련, 그리고 **인간 환자의 개인 정보 보호** 상태에서 복수의 의사와 동시에 상담하는 대리인 역할 등 다양한 시나리오에 적용될 수 있습니다.

#### 2) AI 의사의 잠재적 영향

AI 의사는 인간 의사가 처리할 수 있는 양을 훨씬 초과하는 방대한 데이터를 활용하여 질병 치료법을 빠르게 학습할 잠재력을 가지고 있습니다. 이는 인간 의사의 **업무 부담을 줄이고 효율성을 개선**하며, 궁극적으로 **더욱 공평하고 효과적인 의료 시스템**을 구축하는 데 기여할 수 있습니다.

---

### 이 연구가 중요한 이유

이 연구는 **에이전트 병원**이 단순한 시뮬레이터가 아니라, **의료 세계 시뮬레이터이자 시간 가속기** 역할을 한다는 점에서 혁명적입니다. 의사 에이전트는 가상 세계에서 빠르게 전문성을 습득하고 진화할 수 있으며, 이 기술이 실제 의료 문제를 해결하는 데 성공적으로 이전된다는 점이 입증되었습니다.

이는 마치 **AlphaGo Zero**가 바둑에서 했던 것처럼, 가상 환경에서의 자가 학습 및 진화 능력을 통해 **초인적인 수준의 AI 의사**를 탄생시킬 가능성을 열어줍니다. 연구의 장기적인 목표는 이러한 AI 기술을 활용하여 **대중에게 저렴하고, 접근 가능하며, 고품질의 의료 서비스**를 제공하는 것입니다.


perplexity.ai

이 논문은 인공지능(AI) 기술이 실제 의료 현장에서 어떻게 전문가로 성장할 수 있는지, 그리고 이것이 의료 시스템에 어떤 혁신을 가져올 수 있는지를 보여주는 최신 연구입니다.[1]

***

### 연구 배경

국내외 의료계에서 의사가 되기까지 오랜 시간과 풍부한 경험이 필요하다는 것은 잘 알려져 있습니다. 하지만 최근 인공지능, 특히 대형 언어 모델(LLM, 예: GPT-4 등)의 비약적 발전으로, AI가 방대한 의학 지식을 빠르게 습득하면서도 실제 의료 현장에서 전문가로 성장할 수 있는 가능성에 대한 관심이 커지고 있습니다. 기존 AI는 주로 의학 지식 습득에 집중해왔으나, 실제 진료 경험을 통한 전문성 획득은 여전히 인간 의사만의 영역으로 여겨졌습니다.[1]

***

### 연구 목적

이 논문의 목표는 'Agent Hospital'이라는 가상의 병원 시뮬레이션을 통해, LLM 기반의 AI가 어떻게 의학적 경험을 쌓으며 진짜 의사처럼 진화할 수 있는지에 대한 방법론과 실제 성능을 검증하는 것입니다. 즉, AI가 단순히 이론적 지식이 아닌, 실제 진료 경험·실패·성공을 반복하면서 전문성을 키울 수 있다는 것을 입증하고자 합니다.[1]

***

### 연구 방법

- 모든 환자, 간호사, 의사가 각각 독립적인 LLM 기반 AI 에이전트로 구성된 '가상 병원' 환경을 구축합니다.

- 환자 AI는 질병에 걸려 병원을 방문하고, 문진부터 진료, 검사, 약 처방, 회복까지 실제처럼 진료 과정을 거칩니다.

- 의사 AI는 환자 AI를 진료하며, 각각의 성공과 실패 사례를 자체적으로 기록하고, 반성(reflection)을 통해 진단 및 치료 경험을 쌓습니다.

- 기존 AI 개발 시 필요한 수작업 데이터 라벨링 없이, 가상 세계 내에서 생성된 다양하고 방대한 의료 데이터를 활용해 경험을 축적합니다.

- 수만 명의 환자를 짧은 시간 내에 진료할 수 있어, 경험의 양과 질이 인간 의사에 비해 월등히 빠르게 향상됩니다.[1]

***

### 주요 결과

- AI 의사가 가상 환자를 반복적으로 진료함으로써, 진단력과 치료 제안 능력이 꾸준히 향상되는 것을 확인했습니다.

- 가상 병원에서 얻은 진료 경험과 의학적 전문성이 실제 의료 문제(예: 의사 자격 시험, MedQA 데이터셋)에 적용 가능한지를 검증했으며, 발전된 AI 의사 에이전트가 기존의 최첨단 AI 의학 모델들보다 우수한 성과를 내는 것을 확인했습니다.

- 의사 AI의 진화 속도가 환자 수 증가에 따라 급격히 상승하며, 경험 데이터와 반성 규칙이 축적될수록 진단 정확도가 향상되었습니다.[1]

***

### 고찰 및 논의

- 본 연구에서 제시한 'Simulacrum-based Evolutionary Agent Learning(SEAL)' 방식은 기존의 대형 언어 모델을 특정 의료 업무에 맞춰 강제로 조정하고 라벨링하던 부담을 줄였습니다.

- 실험 결과, 단순히 대형 언어 모델의 지식만으로는 어려웠던 실제 의료 현장 문제 해결이, 시뮬레이션 내 반복 경험과 데이터 축적으로 개선될 수 있음을 확인했습니다.

- 반면, 실제 데이터를 사용하지 않고 가상 환경에서만 진화하는 AI 에이전트의 한계(예: 현실 데이터와의 차이, 윤리적 문제 및 편향 가능성 등)도 분명히 남아 있어, 향후 실세계와의 조화 및 안전성 확보가 중요한 과제로 남습니다.[1]

***

### 의의와 시사점

- 이 연구는 대형 언어 모델과 가상 환경에서 생성된 풍부한 의료 사례 데이터의 결합이 의학적 전문성 진화에 매우 효과적임을 보여줍니다.

- 라벨링 작업 없이, 자동화된 데이터 생성과 에이전트 진화가 가능해져 의료 AI 개발의 효율성과 확장성이 크게 향상됩니다.

- 가까운 미래에는 AI가 실제 의사 수준, 혹은 그 이상으로 빠르고 정확한 의료 의사결정과 진료를 할 수 있을 잠재력도 있음을 시사합니다.

- 의료 교육, 인력 부족 문제, 의료비 증가, 지역 간 의료 격차 해소 등 다양한 실제적 문제에 대한 혁신적 해법이 기대됩니다.[1]

***

### 연구의 중요성

이 연구가 중요한 이유는, 인간 의사만이 가능했던 '실제 진료 경험을 통한 전문성 획득' 과정을 AI가 가상 환경에서 반복할 수 있게 되었고, 이렇게 성장한 AI가 실제 의료 문제에서 높은 성과를 보인다는 것입니다. 즉, AI가 인간 전문가의 성장 과정을 모방하면서 빠르고 안전하게 발전할 수 있다는 데에 큰 의미가 있습니다.[1]



출처: @ye._.vely618

금요일, 10월 03, 2025

과학연구를 향상시켜줄 AI

AI라는 용어가 나온지 50년정도가 지난거 같은데 이제서야 우리 삶에 많이 들어온 것 같습니다.

그중에서도 연구를 하는데에 있어서도 AI의 능력, AI를 활용하는 것은 필수적이 된 것 같습니다.

AI와 협업하여 기존의 방법보다 더 낳은 방법들을 빠르게 고안해서 적용 하게 되었으니 말입니다.

아직 정식 저널지에 올라간 것은 아니나 논문 작성자들이 구글 직원들이라는 점에서 들여다보면 좋을것 같아서 한번 가져와봤습니다. 제목은 An AI system to help scientists write expert-level empirical software 입니다.

DOI: 10.48550/arXiv.2509.06503


추석 연휴 시작인데 풍성하고 건강하며 무탈한 추석 연휴들 보내시기 바랍니다 :)


gemini

### 과학자를 돕는 AI 시스템: 과학 연구를 가속화하는 새로운 방법

---

#### 📌 연구 배경 및 목적

[cite_start]과학 연구는 종종 복잡한 계산 소프트웨어를 직접 만들어야 하는 문제에 부딪힙니다[cite: 1, 15]. [cite_start]이러한 '실증적 소프트웨어'는 특정 관측 데이터를 바탕으로 성능을 측정하고 최적화하는 데 사용됩니다[cite: 1, 15]. [cite_start]하지만 이 소프트웨어를 개발하는 데는 수년이 걸리기도 하고, 체계적인 탐색 없이 직관이나 편의에 따라 설계되는 경우가 많아 과학적 발견의 속도를 늦추는 병목 현상이 발생합니다[cite: 15].

[cite_start]이 논문은 이러한 문제를 해결하기 위해 AI 시스템을 개발하고 그 성능을 보여주는 것을 목표로 합니다[cite: 15, 20]. [cite_start]이 시스템은 과학자들이 직접 작성하는 것보다 훨씬 뛰어나고, 새로운 과학적 아이디어를 빠르게 탐색하고 구현할 수 있습니다[cite: 26].

---

#### 🧪 연구 방법

[cite_start]연구팀은 **대규모 언어 모델(LLM)**과 **트리 탐색(Tree Search)** 알고리즘을 결합한 AI 시스템을 만들었습니다[cite: 21, 22]. 이 시스템은 다음과 같이 작동합니다.

1.  [cite_start]**AI 소프트웨어 작성:** AI는 과학적 문제와 관련 연구 자료(논문, 교과서 등)를 입력받아 문제를 해결할 수 있는 소프트웨어 코드를 생성합니다[cite: 24, 52].

2.  [cite_start]**트리 탐색:** 생성된 여러 후보 코드들을 시험해보고, 성능이 높은 코드를 중심으로 더 나은 해결책을 탐색하는 과정을 반복합니다[cite: 22, 53].

3.  [cite_start]**아이디어 통합:** 이 과정에서 AI는 기존에 발표된 여러 논문의 아이디어들을 조합하여 새로운 해결책을 만들어내기도 합니다[cite: 68].

[cite_start]이렇게 AI는 무수히 많은 해결책 후보를 체계적으로 탐색하고, 사람이라면 발견하기 어려웠을 '최고 품질의 해결책'을 찾아냅니다[cite: 27].

---

#### 📊 연구 결과

[cite_start]이 AI 시스템은 여러 과학 분야의 다양한 문제에서 사람의 능력을 뛰어넘는 성과를 보였습니다[cite: 26].

* [cite_start]**생물정보학:** 단일 세포 데이터 분석에서 기존 인간이 개발한 방법보다 우수한 40가지의 새로운 분석법을 찾아냈습니다[cite: 1, 91].

* [cite_start]**역학:** 미국 질병통제예방센터(CDC)의 예측 모델보다 뛰어난 코로나19 입원 환자 수 예측 모델 14개를 생성했습니다[cite: 1, 84, 85, 87, 88].

* [cite_start]**지리공간 분석:** 위성 이미지 분석에서 최신 기술보다 뛰어난 소프트웨어를 만들었습니다[cite: 1, 144].

* [cite_start]**수학:** 기존 수치 계산으로는 풀기 어려운 적분 문제를 해결하는 새로운 방법을 발견했습니다[cite: 166].

[cite_start]특히, AI는 단일 세포 분석 연구에서 두 가지 기존 방법을 결합하여 성능을 획기적으로 향상시키는 새로운 방법을 찾아냈는데 [cite: 64][cite_start], 이는 단순히 코드를 작성하는 것을 넘어 **창의적인 과학적 아이디어까지 조합**할 수 있음을 보여줍니다[cite: 67].

---

#### 💡 고찰, 의의 및 시사점

[cite_start]이 연구는 AI가 단순한 도구를 넘어 과학 연구의 **'공동 과학자(co-scientist)'**가 될 수 있음을 보여줍니다[cite: 90]. AI가 복잡하고 반복적인 소프트웨어 개발 작업을 대신 수행하면서, 과학자들은 더 창의적인 사고와 실험 설계에 집중할 수 있게 됩니다.

이 시스템은 다음과 같은 중요한 의미를 가집니다.

* [cite_start]**과학 발견의 가속화:** AI의 지칠 줄 모르는 탐색 능력을 통해 새로운 해결책을 빠르게 찾고, 과학적 발견의 속도를 획기적으로 높일 수 있습니다[cite: 27].

* [cite_start]**혁신적인 아이디어 창출:** AI가 기존 연구들의 아이디어를 새로운 방식으로 결합하는 능력을 보여주면서, 사람이 생각하지 못한 혁신적인 방법을 제시할 수 있습니다[cite: 64, 67, 83].

* [cite_start]**범용성:** 이 시스템은 생물학, 역학, 지구과학 등 다양한 분야에 적용될 수 있어, 여러 과학 분야에 걸쳐 혁신을 가져올 잠재력이 있습니다[cite: 27, 47, 89, 144, 166].

---

#### 🌟 이 연구가 왜 중요한가요?

이 연구는 AI가 과학자의 단순한 보조 역할에 머무르지 않고, 직접 문제를 해결하고 새로운 지식을 창출하는 데 핵심적인 역할을 할 수 있다는 것을 증명합니다. 이는 인류가 직면한 다양한 난제(질병, 기후 변화 등)를 해결하는 데 필요한 소프트웨어를 훨씬 더 빠르고 효율적으로 개발할 수 있는 새로운 가능성을 열어줍니다. 앞으로 AI와 인간 과학자가 협력하여 이전에는 불가능했던 속도와 규모로 과학적 발전을 이룰 수 있을 것입니다.


chatGPT

다음은 업로드하신 논문 **「An AI system to help scientists write expert-level empirical software」(2025, Google Research & DeepMind 등 공동 연구)** 내용을 일반 성인 독자도 이해할 수 있도록 정리한 요약입니다.

---

## 연구 배경

오늘날 과학 연구는 복잡한 데이터를 다루고, 실험을 뒷받침하는 소프트웨어 없이는 진행하기 어렵습니다. 예를 들어, 단일세포 분석, 날씨 예측, 감염병 확산 모델링 등 거의 모든 과학 분야가 맞춤형 소프트웨어를 필요로 합니다. 그러나 이런 소프트웨어를 개발하려면 많은 시간이 걸리고, 연구자가 일일이 새로운 아이디어를 코드로 구현하는 과정은 매우 느리고 비효율적입니다. 이로 인해 과학 발전 속도가 제한되기도 합니다.

## 연구 목적

연구팀은 **과학자들이 직접 코드를 작성하지 않아도, 인공지능이 전문가 수준의 과학 소프트웨어를 자동으로 만들어 줄 수 있는 시스템**을 개발하고자 했습니다. 목표는 단순히 코드 생성이 아니라, **기존 최고 성능을 넘어서는 ‘새로운 해결책’을 찾는 것**입니다.

## 연구 방법

* **핵심 기술**: 대규모 언어모델(LLM, ChatGPT 같은 모델) + **트리 탐색(Tree Search, TS)**

* **작동 방식**:

  1. AI가 초기 코드(해결 시도)를 작성

  2. 실행 → 성능 점수 평가

  3. 성능이 좋은 후보를 중심으로 다시 코드 변형 및 개선

  4. 반복하며 점점 더 좋은 해법을 찾아감

* 단순히 무작정 변형하는 것이 아니라, **논문, 교과서, 검색 결과 등 외부 연구 아이디어를 흡수**해 새로운 조합이나 혁신적 방법을 제안할 수 있습니다.

## 연구 결과

AI 시스템은 여러 과학 분야에서 **인간 전문가보다 뛰어난 성능**을 보여주었습니다.

1. **생명과학 (단일세포 데이터 분석)**

   * 40개의 새로운 분석 방법을 고안 → 현재 인간이 개발한 최고 알고리즘보다 더 높은 정확도를 기록.

2. **공중보건 (코로나19 입원 환자 예측)**

   * 미국 CDC가 운영하는 예측 모델 집합(Ensemble)보다 뛰어난 14개 모델을 개발.

   * 이는 전염병 대응 정책과 자원 배분을 개선할 수 있는 잠재력을 보여줌.

3. **지구환경 연구 (위성 이미지 분석)**

   * 산불, 홍수, 토지 이용 변화 감지 같은 위성 이미지 분류 문제에서 최신 논문 성과를 크게 능가.

4. **신경과학 (제브라피시 뇌 활동 예측)**

   * 7만 개 이상의 뉴런 활동 데이터를 예측하는 데 기존 모델보다 정확하고 빠른 성과를 냄.

5. **시계열 분석 (기후, 경제, 의료 데이터 예측)**

   * 다양한 데이터셋에서 기존 통계/딥러닝 모델보다 우수한 범용 예측 모델 생성.

6. **수학적 계산 (난해한 적분 문제 해결)**

   * 기존 표준 라이브러리(scipy.integrate.quad)가 실패하는 복잡한 적분도 정확히 계산할 수 있는 코드 작성.

## 고찰

이 연구는 단순한 코드 자동화가 아니라, **새로운 과학적 아이디어 창출 도구**로서 AI의 가능성을 보여줍니다. 특히 AI가 기존 연구 결과를 "재조합"하여 인간이 생각하지 못한 방법을 발견하는 점이 핵심입니다. 즉, AI는 단순한 조수(Assistant)를 넘어, \*\*공동 연구자(Co-scientist)\*\*로 기능할 수 있습니다.

또한 이 방식은 몇 주, 몇 달 걸릴 실험적 시도를 **단 몇 시간\~며칠** 만에 수행할 수 있어 연구 속도를 비약적으로 가속화합니다.

## 의의와 시사점

* 과학자들은 더 이상 코딩에 많은 시간을 쓸 필요 없이, AI가 제시하는 다양한 후보 해법을 빠르게 검증하고 적용할 수 있습니다.

* 이는 연구 효율을 높이고, 새로운 과학적 발견을 앞당길 수 있습니다.

* 특히 **질병 예측, 환경 변화 분석, 신약 개발** 등 사회적으로 긴급한 문제 해결에 큰 도움이 될 수 있습니다.

---

## 왜 중요한가?

이 연구는 \*\*“AI가 단순히 인간의 작업을 돕는 도구를 넘어, 과학 발전의 속도를 혁신적으로 끌어올릴 수 있다”\*\*는 가능성을 보여줍니다. 앞으로 AI가 새로운 과학 이론이나 방법론을 발견하는 과정에 적극적으로 참여하게 된다면, 과학의 패러다임 자체가 바뀔 수 있습니다.

즉, 인류가 직면한 복잡한 문제들—팬데믹, 기후 위기, 난치병—을 해결하는 속도를 지금보다 훨씬 앞당길 수 있는 길을 연 것입니다.


chatGPT (스토리텔링 형식의 블로그 글)

# 과학자가 코드를 짜지 않아도 되는 시대가 온다면?

“과학자는 아이디어가 넘치는데, 왜 늘 시간이 부족할까?”

많은 연구자들이 이렇게 말합니다. 새로운 가설을 세우고 데이터를 모아도, 정작 그걸 분석하고 검증하는 데 필요한 소프트웨어를 만드는 건 또 다른 큰일이기 때문입니다.

예를 들어, 코로나19가 한창일 때 매주 환자 수를 예측하는 소프트웨어가 필요했지만, 그것을 만드는 건 전문가들에게도 몇 달이 걸리는 어려운 작업이었습니다. 단일세포 유전자 분석, 위성 사진을 이용한 산불 감지, 뇌 신호 해석 같은 연구도 마찬가지입니다. 연구자가 머릿속에서 떠올린 아이디어를 코드로 구현하는 데 너무 많은 시간이 소요되다 보니, 과학의 속도는 늘 한계에 부딪혔습니다.

---

## AI를 공동 연구자로 삼다

이번에 구글 리서치와 딥마인드 연구진이 내놓은 시스템은 이 문제를 정면으로 해결합니다.

바로 \*\*“AI가 과학자를 대신해 전문가 수준의 소프트웨어를 작성하는 시스템”\*\*입니다.

이 AI는 단순히 코드 몇 줄을 자동으로 써주는 ‘프로그래밍 비서’가 아닙니다. 스스로 코드를 만들어내고, 실행해보고, 점수를 매기고, 또 개선하면서 수백·수천 가지의 대안을 탐색합니다. 마치 끊임없이 아이디어를 던지고 실험하는 대학원생 수십 명이 동시에 일하는 것과 비슷합니다.

게다가 이 AI는 사람처럼 논문이나 교과서에서 연구 아이디어를 가져와 재조합할 수도 있습니다. “이 논문의 방식과 저 논문의 방식을 합치면 더 나을까?” 같은 발상을 실제로 코드로 옮겨 실행해보는 것이죠.

---

## 실제 성과는 어땠을까?

연구진은 이 AI를 여러 과학 분야에 적용했습니다. 놀랍게도, 결과는 단순한 ‘보조’ 수준을 넘어섰습니다.

* **단일세포 유전자 데이터 분석**: 기존 최고 성능 알고리즘을 능가하는 **40개의 새로운 방법**을 만들어냈습니다.

* **코로나19 입원 환자 예측**: 미국 CDC가 운영하는 ‘최고의 예측 모델 집합’을 뛰어넘는 **14개의 모델**을 개발했습니다.

* **위성 이미지 분석**: 산불, 홍수, 토지 이용 변화 같은 환경 모니터링에서 최신 논문 성과를 압도했습니다.

* **신경과학**: 물고기(제브라피시)의 7만여 개 뇌세포 활동을 예측하는 데 기존 최고 모델보다 정확했습니다.

* **시계열 예측**: 기후, 경제, 의료 데이터를 다루는 여러 데이터셋에서 범용적으로 성능이 좋은 모델을 창조했습니다.

* **복잡한 수학적 적분 계산**: 기존 표준 라이브러리가 실패한 문제도 정확히 풀어냈습니다.

즉, 이 AI는 단순히 “사람이 만든 방법을 흉내 내는 수준”이 아니라, **새로운 과학적 도구를 직접 발명하는 단계**로 나아간 것입니다.

---

## 왜 이것이 중요한가?

과학의 속도는 종종 ‘코드 작성 속도’에 의해 제한됩니다. 하지만 이제 연구자들은 더 이상 수개월 동안 코드에 매달릴 필요가 없습니다. AI가 수많은 후보 해법을 빠르게 시도하고, 연구자는 그중 의미 있는 결과를 확인해 과학적 통찰에 집중할 수 있습니다.

예를 들어, 전염병이 확산할 때 정책 결정자들이 더 정확한 예측을 하루라도 빨리 얻을 수 있다면, 수많은 생명을 구할 수 있습니다. 기후 변화 대응도 마찬가지입니다. 위성 데이터를 더 정밀하게 분석해 산불을 조기에 발견한다면 피해를 크게 줄일 수 있습니다.

---

## 앞으로의 과학은 어떻게 달라질까?

이제 AI는 단순한 “연구 도우미”가 아니라, 함께 아이디어를 실험하고 새로운 방법을 만들어내는 \*\*“공동 연구자(co-scientist)”\*\*가 될 수 있습니다.

과학자가 아이디어를 던지면, AI는 수백 가지의 코드 버전을 만들어 시험해보고, 때로는 인간이 미처 생각지 못한 길을 찾아냅니다.

이는 결국 과학 발전의 패러다임을 바꿀 수 있습니다.

연구 속도가 몇 배 빨라지고, 새로운 발견이 더 자주 이루어지며, 인류가 직면한 큰 문제들—팬데믹, 기후 위기, 난치병—에 대한 해답을 더 빨리 찾을 수 있게 되는 것입니다.

---

# 맺으며

이번 연구는 “AI가 인간을 대체할까?”라는 낡은 질문보다 더 근본적인 물음을 던집니다.

**“AI와 인간이 함께 새로운 과학을 만들어갈 수 있다면, 우리의 미래는 얼마나 더 빨리 바뀔까?”**

아마 머지않아, 과학자의 실험실 풍경에는 논문과 현미경 옆에 “AI 공동 연구자”가 당당히 자리잡고 있을지도 모릅니다.


grok3

### AI가 과학자를 도와 전문가 수준의 소프트웨어를 만드는 시스템

#### 연구 배경

과학 연구는 종종 컴퓨터 실험을 위한 소프트웨어 제작 때문에 지연됩니다. 이 소프트웨어는 '경험적 소프트웨어'로 불리며, 데이터를 바탕으로 품질 점수를 최대화하도록 설계됩니다. 예를 들어, 위성 사진으로 삼림 벌채를 분석하거나, 단백질 구조를 예측하는 프로그램이 이에 해당하죠. 과학자들은 이런 소프트웨어를 만드는 데 수년이 걸리지만, 직관에 의존해 최적의 방법을 놓치기 쉽습니다. 이 논문은 Google DeepMind와 Google Research 팀이 이러한 문제를 해결하기 위해 개발한 AI 시스템을 소개합니다. 이 시스템은 과학 분야에서 흔한 '점수화 가능한 작업'(scorable tasks)을 자동으로 풀기 위한 소프트웨어를 만듭니다.

#### 연구 목적

이 연구의 목적은 AI를 이용해 과학자들이 수동으로 만드는 소프트웨어를 자동화하는 것입니다. 구체적으로, 대형 언어 모델(LLM)과 트리 검색(Tree Search)을 결합해 품질 점수를 높이는 소프트웨어를 생성합니다. 이를 통해 기존 인간 전문가 수준을 넘어서는 결과를 내고, 다양한 과학 분야(유전학, 역학, 지리학, 신경과학, 시계열 예측, 수치 적분)에서 효과를 검증합니다. 궁극적으로 과학 발견을 가속화하는 도구를 만드는 게 목표입니다.

#### 연구 방법

시스템은 LLM(Gemini 모델 사용)을 통해 코드를 생성하고, 트리 검색으로 최적의 코드를 탐색합니다. 트리 검색은 나뭇가지처럼 후보 코드를 확장하며, 점수가 높은 방향으로 집중합니다. 초기 아이디어는 과학 논문 요약, 검색 엔진, 또는 기존 방법 조합에서 가져옵니다. 예를 들어, 유전학 문제에서는 기존 알고리즘을 재조합해 새로운 코드를 만듭니다. 벤치마크로 Kaggle 대회 16개를 사용해 시스템을 테스트하고, 실제 과학 문제에 적용합니다. 각 문제에서 훈련 데이터로 점수를 높인 후, 별도 테스트 데이터로 평가합니다.

#### 연구 결과

Kaggle 벤치마크에서 트리 검색은 인간 평균을 넘어서는 성능을 보였습니다. 유전학(단일 세포 RNA 시퀀싱 배치 통합)에서는 40개의 새로운 방법을 발견해 기존 최고 기록을 14% 초과했습니다. 예를 들어, 두 기존 알고리즘(ComBat과 BBKNN)을 결합해 더 나은 코드를 만들었습니다. COVID-19 입원 예측에서는 CDC 앙상블 모델을 능가하는 14개 모델을 생성, 미국 52개 주 대부분에서 더 정확했습니다. 지리학(위성 이미지 분할)에서는 mIoU 점수 0.80 이상으로 최신 논문 결과를 초과했습니다. 신경과학(제브라피시 뇌 활동 예측)에서는 기존 최고 모델보다 빠르고 정확한 코드를 만들었고, 시계열 예측(GIFT-Eval)에서는 리더보드 상위권을 차지했습니다. 수치 적분에서는 기존 라이브러리의 실패 사례 17/19를 정확히 풀었습니다.

#### 고찰

이 시스템은 아이디어를 재조합하거나 새로운 개념(예: 시뮬레이션 기반 불확실성)을 도입해 인간 한계를 넘습니다. 그러나 LLM이 지시를 따르는 데 한계가 있어, 복잡한 문제에서 실패할 수 있습니다. 또한, 검색 공간이 방대해 컴퓨팅 자원이 많이 듭니다. 기존 방법(유전자 프로그래밍, AutoML)과 비교해 더 유연하지만, 과학 에이전트로서의 일반화가 과제입니다. 결과적으로, 시스템은 아이디어 탐색을 가속화하지만, 인간 검증이 여전히 필요합니다.

#### 의의와 시사점

이 연구는 AI가 과학 소프트웨어를 자동화해 연구 속도를 높일 수 있음을 보여줍니다. 예를 들어, 단일 세포 데이터 통합은 인간 세포 아틀라스 같은 대형 프로젝트를 촉진하고, COVID 예측은 공공 보건 정책을 개선합니다. 시사점으로는 AI가 '시도와 오류'를 무한히 반복해 혁신을 이끌 수 있다는 점입니다. 앞으로 과학 분야에서 점수화 가능한 작업이 많아지면, AI가 인간 연구자를 보조해 새로운 발견을 촉진할 것입니다.

이 연구가 중요한 이유는 과학 발전의 병목현상을 해소하기 때문입니다. 소프트웨어 제작이 빨라지면, 과학자들이 아이디어 실험에 더 집중할 수 있어 인류의 지식 축적이 가속화됩니다. AI가 '과학자' 역할을 하며, 의학·환경·수학 같은 분야에서 혁명을 일으킬 잠재력이 큽니다.


NotebookLM

## AI가 과학자들의 혁신을 가속화하는 새로운 도구: 전문가 수준 소프트웨어 자동 생성 시스템

**연구 배경 및 목적**

과학자들은 새로운 지식을 탐구하고 세상을 이해하기 위해 수많은 실험을 수행합니다. 특히 현대 과학은 컴퓨터를 활용한 계산 실험에 크게 의존하고 있죠. 하지만 이러한 실험을 뒷받침하는 **소프트웨어 개발은 종종 매우 느리고 수동적인 과정**이어서 과학적 발견의 속도를 저해하는 '병목 현상'으로 지적되어 왔습니다.

예를 들어, 숲 파괴를 분석하는 위성 기반 감지기를 만들거나(이는 특정 과학적 질문에 답하기 위한 소프트웨어입니다), 복잡한 시스템의 모델을 만드는 것 등 수많은 과학 분야에서 소프트웨어가 필수적입니다. 이러한 소프트웨어는 일반적으로 특정 목표(예: 기존 관측치에 대한 적합도 최대화)를 달성하도록 설계되며, 연구자들은 이를 '측정 가능한 과제(scorable task)'를 해결하는 '경험적 소프트웨어(empirical software)'라고 부릅니다. 문제는 이러한 경험적 소프트웨어를 개발하는 것이 **오랜 시간과 노력을 필요로 하며, 디자인 선택이 직관이나 편의에 의해 좌우되는 경우가 많아 혁신적인 탐색이 제한된다**는 점입니다.

이 연구는 이러한 한계를 극복하기 위해 **인공지능(AI) 시스템을 개발하여 과학자들이 전문가 수준의 소프트웨어를 자동으로 생성하고 개선할 수 있도록 돕는 것**을 목표로 합니다. 궁극적으로 과학 연구의 속도를 획기적으로 가속화하는 것이 이 시스템의 핵심적인 의의입니다.

**연구 방법**

이 AI 시스템은 크게 두 가지 핵심 기술을 결합하여 작동합니다. 바로 **대규모 언어 모델(Large Language Model, LLM)과 트리 탐색(Tree Search, TS)**입니다.

1.  **아이디어와 프롬프트 주입 (연구 아이디어 통합):**

    *   시스템은 먼저 과학적 과제에 대한 설명, 평가 지표, 관련 데이터를 LLM에 제공합니다 [57, Supplementary Fig. 22].

    *   사람 과학자들이 연구 아이디어를 얻기 위해 학술 논문, 전문 교과서, 검색 엔진 등을 참고하는 것처럼, 이 시스템도 외부 자료에서 얻은 연구 아이디어를 LLM에 주입하여 코드 작성에 활용하도록 안내합니다.

    *   심지어는 **Gemini Deep Research나 AI co-scientist와 같은 다른 LLM 기반 검색 전략**을 통해 자동으로 새로운 연구 아이디어를 생성하고 구현하기도 합니다.

    *   또한, 기존에 개발된 코드 솔루션들의 핵심 원리를 파악하고, 이들을 **'재조합(recombination)'하여 새로운 하이브리드 전략을 창출**하도록 LLM을 지시합니다. 이는 여러 기존 방법의 장점을 결합하여 더 나은 성능을 목표로 하는 접근 방식입니다.

2.  **LLM 기반 코드 재작성 및 트리 탐색 (솔루션 공간 탐색):**

    *   LLM은 제공된 프롬프트와 연구 아이디어를 바탕으로 파이썬 코드를 생성하거나 기존 코드를 재작성합니다.

    *   생성된 코드는 '샌드박스'라는 안전한 환경에서 실행되고, 그 성능은 미리 정의된 '품질 점수(quality score)'에 따라 평가됩니다.

    *   이때 **트리 탐색(Tree Search)** 알고리즘이 중요한 역할을 합니다. 트리 탐색은 LLM이 생성한 여러 후보 코드 솔루션들을 마치 나무 가지처럼 탐색하며, 어떤 코드가 품질 점수를 가장 잘 개선하는지 체계적으로 평가합니다.

    *   **점수가 높은(성능이 좋은) 코드 솔루션은 더 깊이 탐색하고, 점수가 낮은 솔루션은 가지치기하여 불필요한 탐색을 줄이는 방식**으로 효율적으로 최적의 코드를 찾아냅니다. 이 과정은 AlphaZero에서 영감을 받은 상위 신뢰 경계(UCB) 전략을 사용하며, PUCT(Predictor + Upper Confidence bound applied to Trees) 알고리즘을 통해 실행됩니다.

    *   이를 통해 시스템은 전문가 수준의 솔루션을 찾을 때까지 **끊임없이 코드를 개선하고 평가하는 반복적인 피드백 루프**를 만들어냅니다. 연구자들은 Kaggle 경연 대회를 벤치마크로 활용하여 이 코드 변형 시스템을 개발하고 개선했습니다.

**연구 결과**

이 AI 시스템은 다양한 과학 분야의 '측정 가능한 과제'에서 놀라운 성능을 보였습니다.

*   **생물정보학 (단일 세포 RNA 서열 데이터 분석):**

    *   단일 세포 데이터에서 배치 효과(실험 환경으로 인한 오류)를 제거하는 어려운 과제에서, **인간이 개발한 최고 성능 방법보다 14% 향상된 40가지 새로운 방법**을 발견했습니다.

    *   특히, BBKNN (TS)라는 시스템이 만든 솔루션은 기존의 ComBat과 BBKNN이라는 두 가지 방법을 독창적으로 결합하여 성능을 크게 높였습니다. 이는 아이디어를 재조합하는 시스템의 능력을 보여줍니다.

*   **역학 (미국 COVID-19 입원 예측):**

    *   미국 질병통제예방센터(CDC)의 COVID-19 예측 허브 벤치마크에서, **CDC 앙상블 모델과 다른 모든 개별 모델보다 뛰어난 14가지 예측 모델**을 생성했습니다.

    *   이 시스템이 만든 'Google Retrospective' 모델은 평균 WIS(Weighted Interval Score, 낮을수록 좋음)에서 CDC 앙상블의 29점보다 낮은 26점을 기록했습니다.

    *   다양한 모델들의 강점을 시너지 효과로 결합하는 '재조합' 전략이 성공적인 예측 모델을 만드는 데 크게 기여했습니다.

*   **지리공간 분석 (원격 탐사 이미지 분할):**

    *   위성 이미지에서 픽셀 단위로 객체를 분류하는 복잡한 작업에서, **최근 학술 논문의 보고된 결과를 훨씬 뛰어넘는 최고 수준의 소프트웨어**를 개발했습니다 (mIoU 0.80 이상). UNet++ 및 SegFormer와 같은 최신 아키텍처를 활용하고 데이터 증강 및 예측 전략을 최적화했습니다.

*   **신경과학 (제브라피시 뇌 활동 예측):**

    *   제브라피시 뇌 전체의 신경 활동을 예측하는 벤치마크(ZAPBench)에서 **기존의 모든 베이스라인 모델을 능가하는 성능**을 보였습니다.

    *   특히 주목할 점은, 시스템이 개발한 모델은 가장 성능이 좋았던 기존 비디오 모델보다 **훈련 속도가 수십 배에서 수백 배 빨랐다**는 것입니다 (단일 T4 GPU에서 2시간 미만 vs 16 A100 GPU에서 36시간).

*   **시계열 예측 (GIFT-Eval):**

    *   다양한 시계열 데이터셋에 대한 예측 벤치마크(GIFT-Eval)에서 **기존의 딥러닝 및 통계 모델들을 능가하는 성능**을 달성했습니다. 여러 데이터셋에 걸쳐 작동하는 단일 통합 예측 솔루션도 높은 경쟁력을 보였습니다.

*   **수치 해석 (어려운 적분 계산):**

    *   표준 파이썬 라이브러리 `scipy.integrate.quad()`가 실패하는 19개의 어려운 적분 문제 중 **17개를 3% 미만의 오차로 정확하게 해결**하는 새로운 방법을 개발했습니다. 이 방법은 무한 영역을 유한 부분으로 나누고, 오일러 변환이라는 기법을 적용하여 수렴 속도를 가속화하는 것이 특징입니다.

**고찰**

이 연구는 AI가 단순한 코딩 도우미를 넘어, **과학적 발견 과정을 직접적으로 가속화하는 강력한 에이전트가 될 수 있음**을 보여줍니다. 시스템은 과학 소프트웨어 개발을 '측정 가능한 과제'로 재정의하고, LLM과 트리 탐색을 결합하여 이 문제를 체계적으로 해결합니다.

기존의 자동화된 프로그래밍 연구와 비교했을 때 이 시스템의 강점은 다음과 같습니다.

*   **지능적인 코드 변형:** 유전 프로그래밍(Genetic Programming)이 무작위 변형에 의존하는 반면, 이 시스템은 LLM을 통해 **의미론적으로 코드를 이해하고 지능적으로 재작성**하여 훨씬 복잡하고 의미 있는 변형을 만들어냅니다.

*   **유연한 생성 엔진:** 전통적인 생성 프로그래밍이 템플릿 기반의 제한적인 방식인 데 비해, LLM과 트리 탐색은 **방대한 솔루션 공간을 탐색하고 다양한 도메인 지식을 통합하여 새로운 프로그램을 유연하게 합성**합니다.

*   **반복적인 개선 루프:** 단순히 한 번의 프롬프트로 코드를 생성하는 LLM과 달리, 이 시스템은 **반복적인 피드백 루프**를 통해 기존 소프트웨어 후보를 재작성하고 품질 점수를 활용하여 코드를 지속적으로 개선합니다.

*   **일반화된 탐색 능력:** Google DeepMind의 FunSearch와 유사하지만, 이 시스템은 **트리 탐색 프로세스를 일반화**하고 학술 문헌에서 얻은 지식을 통합하여 더 넓은 범위의 문제에 적용될 수 있습니다.

*   **광범위한 적용 가능성:** 자동화된 머신러닝(AutoML)이 특정 ML 프레임워크 내에서 최적의 모델을 찾는 데 초점을 맞추는 반면, 이 시스템은 **전처리, 복잡한 시뮬레이션, 수학적 발견 등 AutoML의 범위를 넘어서는 모든 소프트웨어**를 재작성할 수 있습니다.

*   **다목적 문제 해결사:** 특정 과학 분야에 특화된 기존 AI 에이전트와 달리, 이 시스템은 **여러 분야에 걸쳐 전문가 수준을 뛰어넘는 일반적인 문제 해결 능력**을 입증했습니다.

**의의와 시사점 / 연구의 중요성**

이 연구는 과학자들이 직면하는 **소프트웨어 개발의 '병목 현상'을 AI의 힘으로 해결**할 수 있음을 입증했습니다. 가장 중요한 의의와 시사점은 다음과 같습니다.

*   **혁신적인 연구 가속화:** 이 시스템은 전문가 수준의 소프트웨어 솔루션을 **수주에서 수개월이 걸리던 작업을 단 몇 시간 또는 며칠 만에 생성**할 수 있습니다. 이는 과학자들이 더 많은 가설을 탐색하고, 더 복잡한 문제를 해결하며, 훨씬 빠른 속도로 새로운 지식을 발견할 수 있게 할 것입니다.

*   **인간 과학자의 역량 강화:** 이 AI 시스템은 인간 과학자를 대체하는 것이 아니라, **강력한 'AI 공동 과학자'로서 인간의 창의적인 연구를 지원하고 확장**하는 역할을 합니다. 과학자들은 이제 번거로운 코딩 작업 대신, 더 높은 수준의 개념적 사고와 실험 설계에 집중할 수 있게 될 것입니다.

*   **측정 가능한 과학 분야의 혁명:** 이 연구는 **기계가 성능을 객관적으로 평가할 수 있는 모든 과학 분야**에서 혁명적인 가속이 임박했음을 시사합니다. 생물정보학, 역학, 신경과학, 지리공간 분석, 시계열 예측, 수치 해석 등 다양한 분야에서 이미 뛰어난 성능을 보였듯이, 앞으로 더 많은 과학 분야에서 이러한 AI 시스템이 활용될 가능성이 매우 높습니다.

이 연구는 인공지능이 과학적 발견의 새로운 시대를 여는 중요한 전환점이 될 것이며, 인류가 직면한 다양한 문제에 대한 해결책을 찾는 속도를 획기적으로 향상시키는 데 기여할 것으로 기대됩니다.


perplexity.ai

이 논문은 구글 딥마인드와 구글 리서치가 주도한 최신 인공지능 연구로, 과학자들이 복잡한 연구 소프트웨어를 빠르고 정확하게 만들 수 있도록 돕는 **AI 시스템**을 소개합니다.[1]

***

## 연구 배경  

현대 과학의 대부분은 데이터를 분석하거나 예측하는 다양한 소프트웨어에 크게 의존합니다. 예를 들어, 산림의 벌채 감지, 기후 변화 예측, 유전자 분석 등 모두 특수한 연구 코드를 필요로 합니다. 그런데 이런 **전문 소프트웨어**를 직접 개발하는 일은 보통 수개월에서 수년까지 걸리고, 다양한 방법을 다 시도해 보기 어려워 새로운 아이디어 실험이 제한됩니다.[1]

## 연구 목적  

이 논문의 목표는 “과학 문제를 자동으로 해결하는 소프트웨어”를 **AI로 만들어내는 방법을 제안**하는 것입니다. 즉, 사람이 오랜 기간에 걸쳐 연구했던 작업을 AI가 빠르고 다양하게 탐색하고, 기존의 최고 방법을 능가하는 새 코드를 만드는 것입니다.[1]

## 연구 방법  

AI 시스템은 다음과 같이 작동합니다:

- 사용자가 해결하고자 하는 문제와 평가 지표(예: 정확도, 예측의 평균오차 등)를 입력합니다.

- **대형 언어 모델(LLM)**이 여러 가지 해법을 코드로 제시합니다.

- 코드별로 실제 데이터를 넣어 결과 점수를 계산합니다.

- 기존 코드들을 바탕으로 새로운 아이디어(논문, 교과서, 인터넷 등에서 얻은)를 추가해 코드를 계속 발전시키며, **트리 탐색(Tree Search)**라는 방식으로 최고의 결과를 찾습니다.

- 이 과정은 사람의 직관에만 의존하지 않고, 산더미 같은 아이디어를 자동 실험하고 평가하는 'AI 반복 탐색'입니다.[1]

## 핵심 결과  

이 시스템은 다양한 실제 과학 작업에서 놀라운 성과를 보여줍니다:

- **유전체 단일세포 분석**: 전 세계 연구자들이 개발한 최고 방법보다 40개가 더 우수한 새 분석법을 AI가 자동으로 완성합니다.

- **코로나19 입원환자 예측**: 미국 CDC가 관리하는 공식 모델보다 더욱 정확한 14개의 모델을 만들어냅니다.

- **위성지도 분석, 뇌 활동 예측, 복잡한 시계열 데이터 예측, 어려운 수학적 적분 계산** 등에서도 기존 최고 수준 소프트웨어를 뛰어넘는 결과를 연이어 보여줍니다.[1]

## 논의와 해석  

- 이 AI 시스템은 "실험 → 평가 → 개선"의 과정을 자동화하여, 새로운 아이디어 실험을 **사람보다 훨씬 빠르게, 더 넓고 깊게** 탐색할 수 있습니다.

- 새로운 연구 아이디어를 스스로 생성·조합할 수 있고, 외부 논문 내용, 전문가의 조언 등을 적극적으로 탐색하여 코드에 반영합니다.

- 기존의 유전 프로그래밍, 자동 머신러닝(AutoML), 코드 생성 AI 등을 발전시킨 방식으로, 특히 소프트웨어의 진화를 **학습·탐색·재설계**로 반복합니다.[1]

## 의의와 시사점  

- 앞으로 과학의 많은 분야에서 **풀고 싶은 문제가 명확히 점수화될 경우(예를 들어, 더 정확하게 예측, 잘 분류, 빠르게 계산 등)**, 이런 AI가 사람 대신 수많은 아이디어를 자동으로 실험하고, 가장 우수한 연구 방법을 빠르게 찾아낼 수 있습니다.

- 덕분에 과학 연구의 속도와 품질이 급격하게 올라갈 것으로 기대됩니다.

- 실제로 이 방법은 이미 여러 분야에서 기존 최고 방법을 능가하고 있습니다.[1]

***

## 왜 이 연구가 중요한가요?  

이 AI 시스템은 '과학적 탐구의 자동화'라는 미래를 현실로 만듭니다. 이제 과학자뿐 아니라 일반인도 복잡한 연구 소프트웨어 개발에 AI의 도움을 받아, 더 빠르게 실험하고 더 좋은 결과를 얻을 수 있습니다. 새로운 과학적 발견, 사회 문제 해결, 의료 혁신 등 **모든 분야의 연구 속도를 획기적으로 높일 수 있는 잠재력**을 보여줬다는 점에서, 매우 중요한 연구입니다.[1]




출처: @ye._.vely618


수요일, 9월 10, 2025

의료분야에서 LLM와 AI를 어떻게 활용 할 것인가

24년 3월에 출판되었던 논문을 좀 늦었지만 한번 훑어보았습니다. 이제 생성형 AI에 대해서 논하는것에서는 입이 아픈 시대가 되었죠. 당연하는데 어떻게 할것인가? 의미있게 할것이가? 개인이나 의료정보와 같은 민감정보의 유출 위험을 낮추면서 할 수 있을까? 라는 내용에 대해서 더 고민하는 시대이긴하나 그럼에도 찬찬히 훑어볼 필요가 있을 것 같아서 한번 가져와봤습니다. 제목은 Generative AI and large language models in health care: pathways to implementation 입니다.

병원에서 LLM을 EMR에 적용 시킬 때 어떻게 도입하고 어떻게 활용할 수 있는지 뿐만 아니라 LLM 결과가 도리어 해를 끼치게 되면은, 민감정보다 많은데 보안에 문제가 없는지에 대해서 한번 조목조목 따져봤습니다.

DOI: 10.1038/s41746-023-00988-4


clova-x

Generative AI는 의료 분야에서 전자의무기록(EMR) 데이터를 활용하여 다양한 애플리케이션을 개발하고 있으며, 이러한 모델의 평가와 구현을 위한 프레임워크가 제시되고 있습니다. 그러나 데이터 프라이버시와 일반화 문제로 인해 아직까지는 제한적인 적용이 이루어지고 있습니다.

1. **Generative AI의 개념과 현황**

   - Generative AI는 대규모 데이터를 학습하여 새로운 콘텐츠를 생성하는 기술입니다.

   - ChatGPT와 같은 Large Language Models (LLMs)는 인간의 대화를 시뮬레이션하며, 여러 산업 분야에서 활용되고 있습니다.

2. **의료 분야에서의 Generative AI 적용**

   - Generative AI는 전자의무기록 데이터를 활용하여 예측 성능을 향상시키고, 모델 개발과 배포를 단순화할 수 있는 잠재력을 가지고 있습니다.

   - 일부 모델은 의료시험 통과, 연구 논문 작성, EMR 데이터 해석에 이미 사용되고 있습니다.

3. **Generative AI 모델의 평가와 도전 과제**

   - Wornow et al.은generative AI 모델의 평가를 위한 개선된 프레임워크를 제안하였습니다.

   - 모델의 예측 성능, 데이터 라벨링, 모델 배포, 임상 애플리케이션, 멀티모달리티, 인간-AI 인터페이스를 기준으로 평가가 이루어져야 합니다.

4. **Implementatio을 위한 리더십, 인센티브, 규제**

   - Generative AI의 성공적인 구현을 위해서는 명확한 리더십, 도입 인센티브, 지속적인 규제가 필요합니다.

   - FDA와 같은 기관이 AI 기술을 의료 기기로 다루기 위한 지침을 마련해야 하며, 보험사 인센티브도 고려되어야 합니다.



chatGPT

물론입니다! 아래는 사용하신 논문 **「Generative AI and large language models in health care: pathways to implementation」**을 바탕으로 작성한 블로그 스타일의 쉬운 요약 글입니다. 일반 대중도 이해할 수 있도록 풀어썼으며, 요청하신 구조에 맞춰 정리했습니다.

---

# 병원에 인공지능이 들어온다면? – 생성형 AI와 전자의무기록 이야기

## 🧠 연구 배경 – 이 연구가 왜 필요했을까요?

최근 ChatGPT와 같은 **생성형 AI**가 큰 주목을 받고 있죠. 이미 다양한 분야에서 활약 중인데, 의료 분야도 예외는 아닙니다. 특히 병원에서는 **전자의무기록(EMR)**이라는 아주 방대한 환자 정보를 다루는데, 이 데이터를 활용해 **AI가 진료를 돕는다면 얼마나 편리할까요?**

하지만 한편으로는 "AI가 실수를 하면 어떻게 하지?", "환자 데이터는 민감한데 괜찮을까?" 같은 걱정도 있죠. 그래서 이 연구는, **의료에서 생성형 AI가 실제로 제대로 쓸 수 있을지를 평가할 기준을 만들기 위해** 진행되었습니다.

---

## 🔍 연구 목적 – 연구진이 알고 싶었던 것

연구팀은 이렇게 물었습니다:  

> “의료용 생성형 AI, 특히 전자의무기록을 다루는 모델이 실제 현장에서 유용할까? 그리고 그런 모델들을 평가하려면 어떤 기준이 필요할까?”

결국, 다양한 AI 모델들을 비교 분석하고, **병원에서 유용한 AI 모델을 고르는 데 도움이 되는 ‘체크리스트’를 제안**하려 한 것이죠.

---

## 🧪 데이터 또는 재료 설명 – 어떤 데이터를 썼나요?

이 논문은 실험 연구가 아닌 **리뷰 논문**입니다. 즉, 연구팀이 직접 실험한 건 아니고, 지금까지 발표된 **84개의 AI 모델**을 분석해서 공통된 특징, 장점, 한계 등을 정리했어요.

여기서 다룬 데이터는 **병원에서 쓰는 전자의무기록**(예: 의사 소견, 검사 결과, 진단서 등)이고, 이 데이터를 바탕으로 훈련된 **생성형 AI 모델**들이 주요 분석 대상이었습니다.

---

## 🧭 연구 방법 – 연구는 어떻게 진행됐을까요?

연구진은 기존의 여러 논문과 모델을 정리해서 크게 두 가지로 나눴습니다:

1. **임상 언어 모델** – 의사나 간호사의 기록을 이해하고, 다시 의료 문장으로 답하는 모델

2. **EMR 전체 모델** – 환자의 모든 의료 정보를 요약해, **‘디지털 쌍둥이(Digital Twin)’**처럼 하나의 환자 모델을 만들어내는 방식

이 모델들이 실제 병원에서 얼마나 정확하고, 얼마나 잘 작동할지를 보기 위해 평가 기준 6가지를 제안했어요. 예를 들면:

- 예측 정확도는 얼마나 좋은가?

- 데이터를 얼마나 많이 필요로 하는가?

- 실제로 도입하기까지 시간이 얼마나 걸리나?

- 의사나 환자의 만족도는 어떤가?

---

## 📊 연구 결과 및 예시 – 어떤 결과가 나왔나요?

연구진은 여러 모델이 꽤 유용하긴 하지만, **아직은 한계가 많다**고 결론 내렸어요. 예를 들어:

- 대부분의 모델은 **한 병원 데이터만 사용**해서 훈련되어, 다른 병원에선 잘 작동하지 않음

- 모델의 내부 구조(가중치 등)가 **공개되지 않아** 신뢰도가 떨어짐

- 환자의 목소리, 영상 등 **다양한 데이터를 함께 쓰는 모델은 거의 없음**

예시로는, 마이크로소프트와 Epic의 협업 사례가 있어요. 이들은 **환자 질문에 자동으로 답해주는 AI**, 또는 **의사의 음성을 받아 자동으로 진료 기록을 써주는 도구**를 개발 중입니다. Oracle Cerner도 **AI 비서**처럼 의사를 도와주는 시스템을 만들고 있어요.

---

## 🌍 의미와 영향 – 이 연구가 우리에게 주는 메시지

이 연구가 말하는 핵심은 간단해요:

> "의료용 AI가 유행처럼 끝나지 않으려면, 체계적인 평가와 신뢰할 수 있는 기준이 필요하다."

병원은 단순한 기술이 아니라 **생명과 직결된 곳**이기 때문에, 아무리 똑똑한 AI라도 제대로 검증되지 않으면 사용할 수 없어요. 이 논문은 의료용 생성형 AI가 **진짜 실무에서 쓰이려면 어떤 조건을 갖춰야 하는지 알려주는 나침반** 역할을 합니다.

만약 이런 기준이 잘 정착된다면, 언젠가는 환자와 의사가 **AI와 함께 진료를 보고, 기록을 관리하고, 치료 계획을 세우는 시대**가 올지도 모르겠죠.



NotebookLM

안녕하세요! 개인 블로그에 올리실 연구 논문 요약글 작성을 도와드리겠습니다. 제공해주신 논문 내용을 바탕으로 비전공자도 쉽게 이해할 수 있도록 친절한 블로그 톤으로 요약해 드릴게요.

**연구 배경 – 왜 이 연구가 필요했을까요?**

최근 들어 **생성형 인공지능(Generative AI)**이라는 기술이 정말 뜨겁게 떠오르고 있어요. 이 기술은 마치 사람이 글을 쓰거나 그림을 그리는 것처럼, **새로운 콘텐츠를 스스로 만들어낼 수 있다**고 합니다. 특히 챗GPT와 같은 **대규모 언어 모델(LLM)**이 등장하면서 사람들의 관심을 더욱 집중시켰죠. 챗GPT는 엄청난 양의 데이터를 학습해서 사람과 자연스럽게 대화하는 것처럼 보일 뿐만 아니라, 의료 분야에서도 다양한 활용 가능성이 제시되고 있습니다. 예를 들어, 의학 시험에 합격하거나, 연구 논문을 쓰거나, 심지어 환자의 **전자 건강 기록(EMR)** 데이터를 이해하는 데에도 활용될 수 있다는 기대감이 커지고 있어요. 하지만 동시에, 이 기술이 아직 해결해야 할 문제점들도 지적되고 있습니다. 때로는 **사실이 아닌 내용을 지어내거나(‘환각’이라고 부르기도 해요)**, 실제 의료 현장에 적용하기에는 여러 어려움이 있다는 의견도 있습니다. 그래서 **이러한 생성형 AI 모델들이 실제로 의료 분야에 어떻게 적용될 수 있을지, 또 어떤 점들을 주의해야 할지에 대한 깊이 있는 논의가 필요한 시점**입니다.

**연구 목적 – 연구진은 무엇을 알고 싶어 했을까요?**

이 연구는 특별히 **전자 건강 기록 데이터에 기반하여 훈련된 생성형 AI 모델들**에 주목했습니다. 최근 한 연구에서 이러한 모델들의 특징과 강점, 약점을 분석한 것에 영감을 받아, 이 연구에서는 **의료 환경에서 사용될 생성형 AI 모델들을 평가할 수 있는 기준을 제시**하고자 했습니다. 다시 말해, 여러 회사나 연구팀에서 개발하고 있는 AI 모델들이 실제 병원에서 얼마나 유용하고 안전하게 사용될 수 있을지를 판단하는 데 도움이 되는 **평가 체크리스트**를 만들려고 한 것이죠.

**데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었을까요?**

이 논문 자체에서는 **새로운 데이터를 직접 수집하거나 분석하지는 않았습니다**. 대신, 이미 발표된 **다양한 연구 논문들과 자료들을 참고**하여 논의를 진행했습니다. 특히, Wornow et al.이라는 연구자들이 **전자 건강 기록 데이터로 학습된 84개의 인공지능 모델**을 분석한 내용을 중요한 기반으로 삼았습니다. 전자 건강 기록은 병원에서 환자의 진료 기록, 검사 결과, 처방 내역, 비용 청구 정보 등 **다양하고 중요한 의료 정보**들을 모아놓은 것을 말합니다. 이러한 데이터를 활용하여 AI 모델을 학습시키는 것이 의료 분야에서 큰 관심을 받고 있는 것이죠.

**연구 방법 – 연구는 어떻게 진행되었을까요?**

연구진은 Wornow et al.의 연구를 바탕으로, 의료 환경에 적용될 생성형 AI 모델들을 더 효과적으로 평가하기 위한 **새로운 평가 기준 틀(프레임워크)**을 제시했습니다. Wornow et al.은 전자 건강 기록 데이터를 입력받아 임상 텍스트를 생성하는 **‘임상 언어 모델’**과 환자의 전체 전자 건강 기록을 이해하기 쉬운 형태로 변환하는 **‘EMR 모델’**을 구분하여 분석했습니다. 그리고 현재 개발된 AI 모델들의 **일반화 가능성 부족**과 **데이터 개인 정보 보호 문제** 등의 한계점을 지적했습니다. 이러한 한계점을 극복하고, 실제 의료 현장에서 AI 모델의 가치를 제대로 평가하기 위해 **예측 성능, 데이터 라벨링 필요성, 모델 배포 용이성, 새로운 임상 응용 가능성, 다양한 형태의 데이터 활용 능력(멀티모달리티), 그리고 인간-AI 상호작용 방식**이라는 여섯 가지 중요한 기준을 제시하고, 이를 바탕으로 **평가 체크리스트**를 만들었습니다.

**연구 결과 및 예시 – 어떤 결과가 나왔고, 이해하기 쉬운 예시가 있을까요?**

이 연구 자체의 주요 결과는 **새로운 AI 모델 평가 기준과 체크리스트를 제시**한 것입니다. 연구진은 이 체크리스트를 통해 의료 시스템이 다양한 생성형 AI 모델들을 더 객관적으로 평가하고, 각 의료 환경에 가장 적합한 모델을 선택할 수 있도록 돕고자 했습니다.

실제 적용 예시로는 다음과 같은 것들이 있습니다:

*   **마이크로소프트와 Epic의 협력:** 환자들이 자주 묻는 질문이나 시간이 오래 걸리는 메시지에 대한 **자동 응답 초안을 작성**하는 데 생성형 AI를 활용할 수 있습니다. 예를 들어, “제 다음 진료 예약은 언제인가요?”와 같은 질문에 AI가 환자의 기록을 바탕으로 답변 초안을 만들어 의사가 확인 후 전송하는 방식입니다.

*   **Oracle Cerner의 임상 디지털 보조 도구:** 음성과 화면 기반으로 작동하며, 진료 중 **자동으로 진료 내용을 기록**하고, 약물 처방, 검사, 다음 진료 예약과 같은 **추천 행동을 제안**할 수 있습니다. 예를 들어, 의사가 환자와 이야기하는 내용을 AI가 실시간으로 기록하고, 이전 병력을 바탕으로 필요한 검사를 제안해 줄 수 있습니다. 환자 역시 이 도구를 통해 예약을 하거나 간단한 질문을 할 수 있게 됩니다.

하지만 동시에, AI 모델이 **정확하지 않은 정보나 답변을 내놓을 수 있다는 점(환각)**을 항상 주의해야 합니다. 따라서 이러한 AI 도구를 사용할 때에는 반드시 의료 전문가의 확인이 필요합니다.

**의미와 영향 – 이 연구가 우리 일상이나 사회에 어떤 영향을 줄 수 있을까요?**

이 연구는 **생성형 AI 기술이 의료 분야에 안전하고 효과적으로 도입되는 데 중요한 발판**을 마련해 줄 수 있습니다. 제시된 평가 기준을 통해 의료기관들은 다양한 AI 모델의 실제적인 가치를 판단하고, 환자들에게 더 나은 의료 서비스를 제공할 수 있는 기술을 선택하는 데 도움을 받을 수 있습니다. 궁극적으로는 **의료진의 업무 부담을 줄여주고, 환자들은 더 편리하고 정확한 의료 서비스를 경험**할 수 있게 될지도 모릅니다. 하지만 이러한 기술이 실제로 의료 현장에 널리 사용되기 위해서는 **명확한 리더십, 도입을 장려하는 정책, 그리고 지속적인 규제**가 필요합니다. 데이터 공유, 개인 정보 보호, AI 모델의 오류로 인한 책임 문제 등에 대한 사회적 논의와 제도 마련도 중요한 과제입니다. 이 연구에서 제시된 평가 기준과 앞으로의 노력들을 통해 생성형 AI가 단순한 유행을 넘어 **실질적으로 의료 발전에 기여하는 핵심 기술**로 자리매김할 수 있기를 기대해 봅니다.



grok3

인공지능이 병원에서 새 바람을 일으킨다: 생성형 AI 연구 쉬운 요약

안녕하세요, 여러분! 오늘은 병원에서 인공지능(AI)이 어떻게 활용될 수 있는지에 대한 흥미로운 연구를 쉽게 풀어 소개해드릴게요. 이 연구는 npj Digital Medicine에 실린 논문으로, 생성형 AI와 대형 언어 모델(LLM)이 의료 현장에서 어떻게 쓰일 수 있는지 탐구했어요. 전문 용어는 최대한 쉽게 풀어 설명할게요. 자, 시작해볼까요?

연구 배경 – 이 연구가 왜 필요했나요?

요즘 AI가 화제죠! 특히 챗GPT 같은 AI가 사람처럼 대화하고 글을 쓰는 모습을 보면서, 많은 사람이 "이걸 병원에서도 쓸 수 있지 않을까?"라는 생각을 했어요. 병원에서는 의사들이 환자 기록을 정리하거나 진단을 내리는 데 많은 시간을 쓰는데, 이 과정에서 AI가 도움을 줄 수 있다면 얼마나 좋을까요? 하지만 AI를 병원에 바로 적용하기엔 해결해야 할 문제들이 많아요. 예를 들어, AI가 잘못된 정보를 만들어내면 어쩌지? 그래서 이 연구는 AI를 의료 현장에 안전하고 효과적으로 도입하려면 어떤 점을 고려해야 하는지 알아보려고 시작됐어요.

연구 목적 – 연구진이 알고자 했던 것

연구진은 생성형 AI, 특히 전자 의료 기록(EMR)을 기반으로 한 AI 모델이 병원에서 얼마나 잘 작동할 수 있는지 평가하고 싶었어요. EMR은 환자의 진료 기록, 검사 결과, 처방전 같은 정보를 디지털로 저장한 거예요. 연구진은 이런 AI가 의사와 간호사의 일을 덜어주고, 환자에게 더 나은 서비스를 제공할 수 있는지 확인하고, 이를 위해 어떤 기준으로 AI를 평가해야 하는지 정리하려 했습니다.

데이터 또는 재료 설명 – 어떤 데이터가 사용되었나요?

이 연구는 특정한 데이터를 직접 분석하지는 않았지만, 전자 의료 기록(EMR)을 기반으로 한 생성형 AI 모델을 다뤘어요. EMR은 병원에서 환자 한 명 한 명의 정보를 기록한 디지털 파일이라고 생각하면 돼요. 예를 들어, 여러분이 병원에 갔을 때 의사가 컴퓨터에 입력하는 진료 기록, 혈액 검사 결과, 약 처방 내역 등이 EMR에 포함됩니다. 이 데이터는 텍스트(의사 메모), 숫자(검사 수치), 코드(질병 코드) 등 다양한 형태로 저장돼요. 연구진은 이런 데이터를 AI가 학습해서 의사처럼 정보를 이해하고 새로운 정보를 만들어낼 수 있는지 살펴봤어요.

연구 방법 – 연구가 어떻게 진행되었나요?

연구진은 생성형 AI 모델이 의료 현장에서 잘 작동하려면 어떤 점을 확인해야 하는지 체크리스트를 만들었어요. 이 체크리스트는 AI가 얼마나 정확한지, 얼마나 쉽게 병원에 도입할 수 있는지, 의사와 환자가 만족하는지를 평가하는 항목들로 구성됐습니다. 예를 들어:

정확성: AI가 환자 기록을 보고 정확한 진단이나 처방을 제안하는지.

오류율: AI가 엉뚱한 정보를 만들어내는 "할루시네이션"이 얼마나 적은지.

시간과 비용: AI를 병원에 도입하는 데 얼마나 많은 시간과 돈이 드는지.

만족도: 의사와 환자가 AI를 사용하고 나서 얼마나 편리하다고 느끼는지.

또한, 연구진은 AI를 병원에 성공적으로 적용하려면 리参考: 리더십, 인센티브, 규제가 필요하다고 제안했어요. 리더십은 AI 개발과 검증을 이끌 조직이 필요하고, 인센티브는 병원이 AI를 도입하도록 재정적 지원을 제공하는 거예요. 규제는 AI가 안전하고 공정하게 사용되도록 법적 기준을 만드는 걸 의미해요.

연구 결과 및 예시 – 어떤 결과가 나왔나요?

이 연구는 새로운 데이터를 분석한 게 아니라, 기존 연구를 바탕으로 생성형 AI 모델의 강점과 약점을 정리했어요. 결과적으로, 생성형 AI는 다음과 같은 가능성을 보여줬습니다:

강점: AI가 EMR 데이터를 학습해 의사처럼 환자 기록을 요약하거나, 자동으로 의료 기록을 작성할 수 있어요. 예를 들어, 의사가 환자와 대화한 내용을 AI가 듣고 자동으로 진료 기록을 작성해준다면, 의사는 환자와 더 많은 시간을 보낼 수 있겠죠!

약점: AI가 가끔 잘못된 정보를 만들어내는 "할루시네이션" 문제가 있어요. 예를 들어, 환자가 감기인데 AI가 엉뚱하게 심각한 병을 진단할 수도 있죠. 또, AI를 병원에 도입하려면 많은 돈과 시간이 필요해요.

예시로, Oracle Cerner라는 회사에서는 AI를 사용해 의사가 말하는 내용을 듣고 자동으로 의료 기록을 작성하는 시스템을 도입했어요. 또 Microsoft는 Epic이라는 전자 의료 기록 시스템에 AI를 통합해 의사의 업무를 줄이는 데 성공했답니다.

의미와 영향 – 이 연구가 우리 일상이나 사회에 어떤 영향을 줄까?

이 연구는 생성형 AI가 의료 현장에서 어떻게 쓰일 수 있는지, 그리고 그 과정에서 어떤 점을 신경 써야 하는지 길잡이를 제시해줬어요. 만약 AI가 병원에서 잘 자리 잡는다면, 다음과 같은 변화가 생길 수 있어요:

의사와 환자 모두 행복해져요: AI가 반복적인 일을 대신하면 의사는 환자와 더 많은 시간을 보내고, 환자는 더 빠르고 정확한 진료를 받을 수 있어요.

의료 비용 절감: AI가 효율적으로 일하면 병원 운영 비용이 줄어들고, 결국 환자의 의료비 부담도 줄어들 수 있어요.

새로운 가능성: AI가 환자 데이터를 분석해 새로운 치료법을 제안하거나, 드문 질병을 조기에 발견하는 데 도움을 줄 수 있어요.

하지만, AI가 잘못된 정보를 만들거나 데이터 프라이버시 문제가 생기지 않도록 규제와 리더십이 중요하다는 점도 강조했어요. 예를 들어, 유럽연합은 AI 사용을 규제하는 법(AI Act)을 만들었는데, 이런 규제가 우리나라에서도 필요할 거예요.

이 연구는 AI가 단순히 멋진 기술이 아니라, 우리 일상을 더 편리하고 건강하게 만들 수 있는 도구라는 걸 보여줬어요. 병원에서 AI를 잘 활용한다면, 의사와 환자 모두에게 더 나은 미래가 기다리고 있을 거예요. 여러분은 AI가 병원에서 어떻게 쓰였으면 좋겠나요? 댓글로 의견 나눠주세요! 😊



perplexity.ai

## 연구 배경 – 이 연구가 왜 필요했는지

최근 몇 년 사이에 ChatGPT와 같은 생성형 인공지능(AI)이 큰 주목을 받으면서, 의료 분야에서도 이러한 AI를 활용하려는 시도가 활발해졌습니다. 특히, 병원에서 환자 진료 기록(전자 의무기록, EMR)을 분석하고 예측하는 데 생성형 AI가 도입되면, 의료진의 업무 효율이 크게 올라가고 환자 맞춤형 진료가 가능해질 수 있다는 기대가 커졌습니다. 하지만 실제로 이런 AI 모델들이 얼마나 정확하고, 다양한 환경에서 잘 작동하는지, 그리고 개인정보 보호 등 현실적인 문제는 없는지에 대한 체계적인 평가가 부족했습니다. 그래서 이 연구는 생성형 AI가 의료 현장에서 제대로 활용될 수 있는지 평가하고, 앞으로의 발전 방향을 제시하기 위해 필요했습니다[1].

## 연구 목적 – 연구진이 알고자 했던 것

연구진은 생성형 AI, 특히 대형 언어모델(LLM)이 의료 데이터(EMR)에 적용될 때의 장점과 한계를 종합적으로 분석하고, 실제 의료 현장에 적용할 때 어떤 기준으로 평가해야 하는지 새로운 평가 프레임워크(체크리스트)를 제안하고자 했습니다. 즉, 단순히 AI가 잘 작동하는지뿐만 아니라, 환자와 의료진 모두에게 도움이 되는지, 데이터 보안은 잘 지켜지는지 등 다양한 측면에서 AI를 평가하는 방법을 찾고자 했습니다[1].

## 데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지

이 연구는 실제로 새로운 데이터를 직접 수집해 분석한 것이 아니라, 기존에 발표된 84개의 생성형 AI 및 대형 언어모델(LLM)이 의료 데이터, 특히 전자 의무기록(EMR)에 적용된 사례들을 종합적으로 검토(리뷰)했습니다. 여기에는 환자 진료 기록, 검사 결과, 진료 메모, 청구 코드 등 다양한 의료 데이터가 포함되어 있습니다. 쉽게 말해, 여러 병원에서 이미 사용 중인 또는 연구된 AI 모델들이 어떤 데이터를 바탕으로 만들어졌고, 어떻게 성능을 보였는지를 모아서 분석했습니다[1].

## 연구 방법 – 연구가 어떻게 진행되었는지

연구진은 의료 분야에서 사용된 생성형 AI와 대형 언어모델 사례들을 체계적으로 수집해 비교·분석했습니다. 그리고 기존 평가 방식의 한계를 보완하기 위해, AI 모델을 평가할 때 꼭 고려해야 할 6가지 기준을 새롭게 제시했습니다. 이 기준에는 예측 정확도, 데이터 라벨링(정답 표시) 필요성, 실제 현장에 적용하는 데 드는 시간과 비용, 새로운 임상 활용 가능성, 다양한 데이터(음성, 영상 등) 처리 능력, 그리고 환자·의료진과의 소통 방식 등이 포함됩니다. 이처럼 복잡한 용어 대신, 실제로 AI가 얼마나 잘 작동하고, 의료진과 환자가 쉽게 쓸 수 있는지, 그리고 비용과 시간은 얼마나 드는지 등 실질적인 부분에 초점을 맞췄습니다[1].

## 연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시

연구 결과, 생성형 AI와 대형 언어모델은 의료 데이터 분석에서 기존보다 더 정확한 예측을 보여주기도 했지만, 아직 한계도 많았습니다. 예를 들어, 대부분의 AI 모델이 한 병원이나 소수의 데이터에만 맞춰져 있어서, 다른 병원이나 환경에서는 잘 작동하지 않을 수 있다는 점이 확인됐습니다. 또, 개인정보 보호 문제로 인해 모델의 세부 정보가 공개되지 않는 경우가 많아, 다른 연구자들이 검증하거나 개선하기 어렵다는 점도 지적됐습니다.

예시로, 최근 마이크로소프트와 오라클 같은 기업이 병원 진료 기록 시스템에 생성형 AI를 도입해, 환자 문의에 자동으로 답변을 작성하거나, 진료 중 음성으로 기록을 남기는 기능을 선보이고 있습니다. 하지만 이런 시스템도 실제로 얼마나 정확하고, 의료진과 환자 모두에게 만족스러운지, 그리고 데이터가 안전하게 보호되는지 등은 더 많은 평가가 필요합니다[1].

## 의미와 영향 – 이 연구가 우리 일상이나 사회에 어떤 영향을 줄 수 있는지

이 연구는 생성형 AI가 의료 현장에 안전하고 효과적으로 도입되기 위해서는 단순한 기술적 성능뿐만 아니라, 실제 임상 환경에서의 적용 가능성, 비용, 데이터 보안, 사용자 만족도 등 다양한 요소를 함께 평가해야 한다는 점을 강조합니다. 앞으로 병원에서 AI를 활용해 진료 효율을 높이고, 환자 맞춤형 서비스를 제공하는 데 큰 도움이 될 수 있지만, 이를 위해서는 명확한 평가 기준과 규제가 필요합니다. 이 연구가 제안한 평가 프레임워크는 앞으로 의료 AI 도입을 준비하는 병원이나 정책 입안자들에게 중요한 지침이 될 수 있습니다. 결국, 우리 모두가 더 안전하고 편리한 의료 서비스를 누릴 수 있도록 하는 데 기여할 수 있습니다[1].



출처: @ye._.vely618


수요일, 5월 07, 2025

유전자에 대해서 정확하게 답변해주는 GeneGPT

오늘은 LLM을 활용해서 Biomedical 정보에 더 쉽게 접근 할 수 있는 방법을 소개하려고 합니다.  이미 2024년 작년에 출판된 논문으로 NCBI 훃아들이 자기들 DB 활용해서 만들었다고 합니다. 여튼 제목은 GeneGPT: augmenting large language models with domain tools for improved access to biomedical information 입니다.

DOI: 10.1093/bioinformatics/btae075


clova-x

GeneGPT는 대규모 언어 모델(LLM)을 생물의학 정보에 더 쉽게 접근할 수 있도록 NCIB 웹 API를 활용하여 향상시키는 방법입니다. 이 연구는 GeneGPT가 GenoTuring 벤치마크에서 기존의 LLM보다 우수한 성능을 발휘함을 보여줍니다.

1. **연구 배경 및 목적**

   - LLM은 다양한 작업에 성공적으로 적용되었지만, 환각 현상이라는 도전에 직면해 있습니다.

   - 도메인 특정 도구를 통해 LLM의 생물의학 지식 접근성을 향상시키고자 합니다.

2. **GeneGPT의 설계 및 작동 방식**

   - GeneGPT는 Codex를 사용하여 NCBI 웹 API를 통해 유전체 질문에 답하도록 가르칩니다.

   - API 사용법을 시연하고, API 호출을 감지하고 실행할 수 있는 증강 디코딩 알고리즘을 사용합니다.

3. **성능 평가 및 결과**

   - GeneGPT는 GenoTuring 벤치마크의 여덟 가지 작업에서 평균 점수 0.83으로 최고 성능을 달성하였습니다.

   - 이는 New Bing(0.44), BioMedLM(0.08), BioGPT(0.04), GPT-3(0.16), ChatGPT(0.12)보다 훨씬 높은 성과입니다.

4. **GeneGPT의 특징 및 기여**

   - API 시연은 문맥 학습에 문서화보다 더 유용하며, 여러 API 호출을 일반화할 수 있습니다.

   - GeneGPT는 새로운 GeneHop 데이터셋을 통해 다단계 유전체 질문에 응답할 수 있습니다.



chatGPT

# 유전학 질문에 똑똑하게 답하는 AI, GeneGPT 이야기

## 연구 배경 – 왜 이런 연구가 필요했을까?

요즘은 ChatGPT 같은 인공지능이 사람처럼 글을 쓰고, 질문에도 똑똑하게 답하죠. 하지만 이런 AI도 전문 지식이 필요한 분야에서는 가끔 “지어내는” 답을 하기도 해요. 특히 생명과학이나 유전학처럼 정보가 방대하고 복잡한 분야에서는 더더욱 그렇습니다. 그래서 연구자들은 AI가 믿을 수 있는 데이터베이스를 직접 찾아보게 하면 더 정확한 답을 할 수 있지 않을까 하는 아이디어를 떠올렸습니다.

## 연구 목적 – 연구진은 무엇을 알고 싶었을까?

연구팀은 “AI가 유전학 정보를 정확하게 검색하고 활용할 수 있도록 도와주는 방법”을 만들고 싶었습니다. 그래서 미국 국립생명공학정보센터(NCBI)의 유전학 데이터베이스를 AI가 직접 사용할 수 있도록 훈련시킨 ‘GeneGPT’라는 시스템을 만들었죠.

## 사용된 데이터 – 어떤 자료를 활용했을까?

이 연구에서 사용한 데이터는 NCBI에서 제공하는 공식 유전학 데이터베이스(API)를 기반으로 합니다. 쉽게 말하면, 인터넷 주소를 통해 유전자, 단백질, 질병 정보 등을 검색할 수 있는 시스템이에요. 연구팀은 이 API를 사용해 유전 정보를 찾는 과정을 AI에게 가르쳤습니다.

## 연구 방법 – 어떻게 연구를 진행했을까?

연구팀은 OpenAI의 Codex 모델(코드를 잘 이해하는 AI)을 활용해, 특정한 질문이 들어오면 필요한 정보를 NCBI 데이터베이스에서 검색하고 그 결과를 분석한 뒤 답변을 만들도록 했어요. 예를 들어 "이 DNA 조각이 어느 유전자에 해당하나요?" 같은 질문을 받으면, AI가 단계별로 관련 정보를 찾아서 답을 구성하죠.

이를 위해 연구팀은 AI에게 API를 사용하는 예시를 여러 개 보여주고, 그 패턴을 스스로 익히도록 했습니다. 이 과정을 ‘인컨텍스트 러닝’이라고 해요. 복잡하게 들리지만, 쉽게 말해 "이런 식으로 검색해 봐~"라고 보여주는 식입니다.

## 연구 결과 및 예시 – 어떤 결과가 나왔을까?

GeneGPT는 ‘GeneTuring’이라는 유전학 질문 시험에서 매우 높은 성적(평균 0.83점)을 기록했어요. 기존의 ChatGPT나 바이오 전문 AI보다 훨씬 나은 성능이었습니다. 예를 들어 다른 모델이 "이 SNP(유전변이)는 어떤 유전자와 관련이 있나요?"라는 질문에 잘 답하지 못했지만, GeneGPT는 정확하게 찾아낼 수 있었어요.

또한, GeneGPT는 한 번에 여러 단계를 거쳐 답해야 하는 복잡한 질문(예: 특정 질병에 관련된 유전자의 위치는 어디인가요?)에도 잘 대응했답니다.

## 의미와 영향 – 이 연구가 우리에게 주는 의미는?

이 연구는 AI가 단순히 '아는 척' 하는 것을 넘어서, 실제로 믿을 수 있는 데이터를 찾아서 답하도록 진화할 수 있다는 것을 보여줍니다. 특히 생명과학, 의학처럼 정밀한 정보가 중요한 분야에서는 큰 도움이 될 수 있어요. 앞으로 GeneGPT 같은 시스템이 발전하면, 일반 사람들도 더 쉽게 유전 정보를 검색하고 활용할 수 있는 시대가 열릴지도 모릅니다.



NotebookLM

## 안녕하세요! 유전자 정보, 이제 똑똑하게 물어보세요: GeneGPT 연구 이야기

안녕하세요, 오늘 여러분께 **인공지능이 유전자와 질병 정보를 더 쉽고 정확하게 알려줄 수 있는 흥미로운 연구**를 소개해 드리려고 합니다. 복잡한 유전체 정보에 대한 궁금증, 이제 어렵게 검색하거나 전문가에게 물어보지 않아도 될 날이 머지않았는지도 모릅니다!

### 연구 배경 – 왜 이런 연구가 필요했을까요?

최근 인공지능, 특히 **사람처럼 자연스럽게 글을 쓰고 이해하는 거대 언어 모델(LLM)**이 정말 많은 분야에서 활용되고 있습니다. 하지만 이러한 모델들도 **정확하지 않은, 그럴듯해 보이는 답변(‘환각’이라고 부릅니다)**을 할 때가 있어서, 특히 **정확성이 중요한 의학이나 유전체 분야**에서는 큰 문제로 지적되어 왔습니다. 예를 들어, 어떤 유전자의 정확한 위치나 특정 질병과 관련된 유전자를 물어봤을 때, 모델이 사실과 다른 정보를 제공할 수 있다는 것이죠. 그래서 연구자들은 이러한 문제를 해결하기 위해 고민하기 시작했습니다. **“인공지능에게 정확한 정보를 찾고 활용할 수 있는 ‘도구’를 알려주면 어떨까?”** 하고 말이죠.

### 연구 목적 – 연구진은 무엇을 알고 싶었을까요?

이 연구를 진행한 연구진은 **거대 언어 모델이 전문적인 도구를 사용할 수 있도록 가르치는 새로운 방법**을 개발하고자 했습니다. 특히, **국립생물정보센터(NCBI)**에서 제공하는 다양한 **생물학 데이터베이스와 분석 도구의 웹 API**를 거대 언어 모델이 직접 활용할 수 있도록 하는 것이 목표였습니다. 마치 우리가 스마트폰 앱을 사용하듯이, 인공지능이 필요한 유전자 정보를 NCBI 데이터베이스에서 정확하게 찾아내고, 이를 바탕으로 질문에 답변할 수 있게 만드는 것이죠. 이렇게 하면 **부정확한 답변의 가능성을 줄이고, 더욱 신뢰할 수 있는 정보를 얻을 수 있을 것**이라고 연구진은 생각했습니다.

### 데이터 또는 재료 설명 – 어떤 ‘재료’들이 사용되었나요?

이 연구에서는 다음과 같은 중요한 ‘재료’들이 사용되었습니다.

*   **NCBI 웹 API:** NCBI는 유전자, 단백질, 질병 등 **다양한 생물학 정보를 담고 있는 거대한 데이터베이스**입니다. NCBI 웹 API는 이러한 데이터베이스에 **인터넷을 통해 접근하고 필요한 정보를 가져올 수 있도록** 만들어진 일종의 ‘문’과 같습니다. 마치 식당에서 메뉴판을 보고 음식을 주문하는 것처럼, 정해진 ‘주문 방식’(URL)에 따라 원하는 정보를 요청할 수 있습니다. 주요 API로는 **E-utilities** (유전자, 단백질 정보 검색 및 요약)와 **BLAST URL API** (DNA 또는 단백질 서열 유사성 검색)가 있습니다.

*   **GeneTuring:** 연구진들은 개발한 방법의 성능을 평가하기 위해 **유전체학 관련 질문과 답변으로 이루어진 ‘시험 문제’ 세트인 GeneTuring**을 사용했습니다. 이 시험에는 다양한 종류의 유전자 관련 질문들이 포함되어 있습니다.

*   **GeneHop:** 더 나아가, **하나의 질문에 여러 단계를 거쳐 답해야 하는 복잡한 질문 세트인 GeneHop**을 새롭게 만들어 인공지능의 추론 능력을 시험했습니다. 예를 들어, “특정 SNP와 관련된 유전자의 기능은 무엇인가?”와 같은 질문은 먼저 SNP와 관련된 유전자를 찾고, 그 유전자의 기능을 다시 찾아야 답할 수 있는 다단계 질문입니다.

*   **Codex:** 연구진은 처음에는 **코딩 능력이 뛰어난 거대 언어 모델인 Codex**를 사용하여 NCBI 웹 API를 활용하도록 가르쳤습니다.

### 연구 방법 – 인공지능에게 ‘도구 사용법’을 어떻게 가르쳤을까요?

연구진은 **GeneGPT**라는 새로운 방법을 개발하여 인공지능에게 NCBI 웹 API 사용법을 가르쳤습니다. 이 방법의 핵심은 다음과 같습니다.

*   **프롬프트 디자인:** 인공지능에게 **“당신의 임무는 NCBI API를 사용하여 유전체학 질문에 답변하는 것입니다.”**라는 **명확한 지시**를 내립니다. 그리고 NCBI 웹 API의 기능과 사용법에 대한 **설명서 (Documentation)**와 **실제 사용 예시 (Demonstration)**를 함께 제공합니다. 마치 요리책의 레시피처럼, API의 ‘문법’과 실제 ‘요리 과정’을 보여주는 것이죠. 흥미로운 점은 **단순한 설명서보다 실제 사용 예시가 인공지능의 학습에 더 효과적이었다**는 것입니다.

*   **추론 알고리즘:** 인공지능이 답변을 생성하는 과정에서 **“->”라는 특별한 표시**를 감지하면, 그 시점에서 생성을 멈추고 **API 호출 URL을 만들어 실제로 NCBI 웹 API를 실행**합니다. API 실행 결과로 얻은 **생생한 데이터**를 다시 인공지능에게 입력하여 답변 생성을 이어가도록 합니다. 마치 숙련된 연구원처럼, 필요한 정보를 데이터베이스에서 직접 찾아보고, 그 결과를 바탕으로 결론을 내리는 방식입니다.

### 연구 결과 및 예시 – 어떤 결과가 나왔나요?

GeneGPT를 사용하여 GeneTuring 문제들을 풀어본 결과, **기존의 다른 어떤 인공지능 모델들보다 훨씬 높은 정확도**를 보였습니다. 특히, **새로운 Bing (0.44점) 이나 BioMedLM (0.08점), BioGPT (0.04점), 심지어 GPT-3 (0.16점)와 ChatGPT (0.12점)보다 평균 0.83점이라는 압도적인 성능**을 나타냈습니다.

예를 들어, GeneGPT는 다음과 같은 질문에 NCBI 웹 API를 활용하여 정확하게 답변할 수 있습니다 (실제 블로그 글에서는 더 쉬운 예시로 각색될 수 있습니다):

*   **질문:** “BRCA1 유전자의 다른 이름들은 무엇인가?”

    *   GeneGPT는 NCBI의 E-utilities API를 사용하여 ‘BRCA1’을 검색하고, 그 결과에서 BRCA1 유전자의 공식 명칭 외에 알려진 다른 이름들(이명)을 정확하게 찾아낼 수 있습니다.

*   **질문:** “특정 DNA 서열과 가장 유사한 인간 염색체는 무엇인가?”

    *   GeneGPT는 BLAST URL API를 사용하여 주어진 DNA 서열과 인간 유전체 데이터베이스를 비교 분석하고, 가장 유사한 염색체 위치를 찾아낼 수 있습니다.

더욱 놀라운 점은 GeneGPT가 **여러 단계를 거쳐야 하는 복잡한 질문(GeneHop)**에도 비교적 잘 답변했다는 것입니다. 예를 들어, “특정 질병과 관련된 유전자들의 염색체 위치는 어디인가?”라는 질문에 대해, 먼저 질병과 관련된 유전자 목록을 찾고, 각 유전자의 염색체 위치를 순차적으로 파악하는 능력을 보여주었습니다.

### 의미와 영향 – 이 연구가 우리 삶에 어떤 의미를 가질까요?

이 연구는 **인공지능이 생물 의학 분야의 전문 지식에 더욱 쉽고 정확하게 접근**할 수 있는 가능성을 보여줍니다. 특히, 전문 지식이 없는 일반 대중도 **유전자나 질병에 대한 궁금증을 해소하는 데 큰 도움**을 받을 수 있을 것으로 기대됩니다. 더 이상 복잡한 전문 용어와 씨름하거나 여러 웹사이트를 뒤적거리지 않아도, **인공지능에게 질문하면 필요한 정보를 정확하게 얻을 수 있는 시대**가 다가올 수 있다는 의미입니다.

또한, 연구자들이 **방대한 생물학 데이터를 분석하고 새로운 발견을 하는 과정**에서도 GeneGPT와 같은 기술이 중요한 역할을 할 수 있습니다. 데이터베이스 관리의 부담을 줄이고, 더 효율적인 연구를 가능하게 할 잠재력을 가지고 있습니다.

물론 아직 연구 단계이지만, GeneGPT가 보여준 가능성은 **미래의 의료 및 생명 과학 분야에 큰 변화를 가져올 수 있을 것**으로 기대됩니다. 복잡하고 방대한 유전체 정보를 누구나 쉽게 이해하고 활용할 수 있는 날을 꿈꿔봅니다!



grok3

안녕하세요, 여러분! 오늘은 흥미로운 연구 논문 하나를 소개하려고 해요. 이 논문은 'GeneGPT'라는 이름으로, 생물학 정보를 더 쉽게 찾을 수 있도록 도와주는 새로운 기술에 관한 거예요. 전문 용어가 많을 수 있지만, 제가 최대한 쉽게 풀어서 설명할게요. 자, 시작해볼까요?

---

### 연구 배경 – 이 연구가 왜 필요했는지

우리는 요즘 인공지능(AI), 특히 대형 언어 모델(LLM, 쉽게 말해 똑똑한 챗봇 같은 거예요)을 많이 사용하죠. 이 AI들은 책, 뉴스, 웹사이트 같은 텍스트를 학습해서 질문에 답할 수 있어요. 하지만 문제는, 가끔 AI가 잘못된 정보를 만들어내거나(이걸 '환각'이라고 불러요), 전문적인 생물학 정보는 잘 찾지 못한다는 거예요. 예를 들어, 특정 유전자에 대해 물어보면, AI가 엉뚱한 답을 내놓거나 "모르겠어요"라고 할 때가 많죠.

특히 생물학이나 유전학 같은 분야는 전문 데이터베이스에서 정확한 정보를 찾아야 하는데, 일반 AI는 이런 데이터베이스를 잘 활용하지 못해요. 그래서 연구진은 AI가 생물학 정보를 더 정확하고 쉽게 찾을 수 있도록 도와주는 방법을 만들어보자고 생각했어요.

---

### 연구 목적 – 연구진이 알고자 했던 것

이 연구의 목표는 AI가 생물학 전문 데이터베이스(특히 미국 국립생물공학정보센터, NCBI의 데이터베이스)를 직접 활용해서 유전자 관련 질문에 정확히 답할 수 있게 만드는 거였어요. 연구진은 AI가 검색엔진처럼 웹을 뒤지는 대신, 전문 도구를 사용해 더 믿을 만한 답을 주도록 하고 싶었죠. 또, 단순한 질문뿐 아니라 복잡한 질문(예: "이 유전자와 관련된 질병은 뭐야?" 같은)에도 잘 대답할 수 있는지 확인하고 싶었어요.

---

### 데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지

이 연구에서는 실제로 물리적인 재료 대신, 컴퓨터와 데이터베이스를 사용했어요. 핵심은 두 가지 도구예요:

1. **NCBI 웹 API**: NCBI는 생물학 정보를 모아놓은 거대한 도서관 같은 곳이에요. 여기에는 유전자, 단백질, DNA 정보가 가득하죠. 웹 API는 이 도서관에서 정보를 꺼내오는 '사서' 같은 역할을 해요. 예를 들어, 특정 유전자의 이름을 검색하거나 DNA 조각이 어디에 맞는지 찾아줄 수 있죠.

2. **GeneTuring과 GeneHop 데이터셋**: 연구진은 AI가 얼마나 잘 답하는지 테스트하기 위해 두 가지 질문 모음을 사용했어요. 

   - **GeneTuring**은 유전자 이름, 위치, 기능 같은 단순한 질문 450개가 담긴 시험지예요. 예: "이 유전자는 어디에 있어?" 같은 질문이죠.

   - **GeneHop**은 좀 더 복잡한 질문 150개로, 여러 단계를 거쳐야 답을 찾을 수 있어요. 예: "이 DNA 조각이 속한 유전자의 별칭은 뭐야?"처럼요.

이 질문들은 일반인이 이해하기 쉽게 비유하자면, 도서관에서 책 제목 찾기(단순 질문)와 책 내용을 읽고 저자 정보까지 알아내기(복잡 질문) 같은 차이예요.

---

### 연구 방법 – 연구가 어떻게 진행되었는지

연구진은 AI(여기서는 Codex라는 모델을 주로 사용했어요)에게 NCBI 데이터베이스를 사용하는 법을 가르쳤어요. 어떻게 했냐면, 마치 선생님이 학생에게 예제를 보여주듯이 AI에게 몇 가지 예시를 보여줬어요. 예를 들어:

- "이 유전자 이름을 찾으려면 NCBI에서 이렇게 검색해"라며 검색 방법과 결과를 보여줬죠.

- 또, "DNA 조각을 비교하려면 BLAST라는 도구를 이렇게 써"라고 알려줬어요.

이걸 전문 용어로 '인컨텍스트 학습'이라고 하는데, 쉽게 말하면 AI에게 "이렇게 해봐!"라고 예시를 주고 따라 하게 만드는 거예요. 그리고 AI가 질문에 답할 때, NCBI 데이터베이스에서 정보를 직접 가져오도록 했어요. 예를 들어, AI가 "이 유전자는 뭐야?"라는 질문을 받으면, NCBI에 접속해서 정확한 답을 찾아오는 식이죠.

또, 복잡한 질문에는 AI가 문제를 작은 조각으로 나눠서 하나씩 해결하도록 했어요. 이를 '생각의 연쇄(chain-of-thought)'라고 부르는데, 마치 퍼즐을 맞추듯 단계별로 답을 찾아가는 방식이에요.

---

### 연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시

결과는 정말 놀라웠어요! GeneGPT라는 이 새로운 AI는 기존 AI들보다 훨씬 잘했어요. GeneTuring 시험지에서 8개 과목(유전자 이름 찾기, 위치 확인, DNA 비교 등) 평균 점수가 0.83(1점 만점)이었어요. 비교하자면, 다른 AI들은 0.44(뉴 빙), 0.08(바이오메드LM) 정도로 훨씬 낮았죠.

**예시 하나**: 

질문: "SNP rs1241371358이라는 유전 변이가 어떤 유전자와 관련이 있지?"

GeneGPT는 NCBI 데이터베이스에서 이 변이를 검색해서 "LRRC23"이라는 유전자를 찾아냈어요. 심지어 "이 유전자의 기능은 뭐야?"라는 추가 질문에도 "세포질에서 활동할 가능성이 있다"고 정확히 답했죠.

**일반인에게 비유**: 이건 마치 여러분이 도서관에서 책 제목만 알고 저자를 찾아야 할 때, 사서가 정확한 책을 찾아서 저자 이름까지 알려주는 것과 같아요. 다른 AI들은 책을 대충 뒤져서 엉뚱한 답을 줄 때가 많았지만, GeneGPT는 제대로 찾아줬어요.

복잡한 질문에서도 GeneGPT는 잘했어요. GeneHop 시험지에서 평균 0.50점을 받았는데, 뉴 빙은 0.24점에 그쳤죠. 예를 들어, "이 질병과 관련된 유전자는 어디에 있어?" 같은 질문에서 GeneGPT는 질병을 먼저 찾아보고, 관련 유전자를 확인한 뒤, 그 유전자의 위치까지 정확히 알려줬어요.

---

### 의미와 영향 – 이 연구가 우리 일상이나 사회에 어떤 영향을 줄 수 있는지

이 연구는 우리 삶에 큰 도움을 줄 수 있어요! 왜냐하면:

1. **의료와 건강**: 유전자 정보를 빠르고 정확히 찾을 수 있으면, 의사나 연구자들이 질병 원인을 더 쉽게 파악할 수 있어요. 예를 들어, 특정 유전자가 암과 관련이 있는지 알아내면 더 나은 치료법을 찾는 데 도움이 되죠.

2. **일반인의 접근성**: 생물학은 복잡하지만, GeneGPT 같은 기술이 발전하면 우리 같은 일반인도 유전자 정보를 쉽게 이해할 수 있어요. 예를 들어, "내 유전자 검사 결과가 뭐를 의미하지?" 같은 질문에 AI가 친절히 설명해줄 날이 올지도 몰라요.

3. **과학 연구 속도 UP**: 연구자들이 유전자 데이터를 찾는 데 시간을 덜 쓰고, 새로운 발견에 더 집중할 수 있게 돕죠. 이건 결국 신약 개발이나 질병 예방 같은 분야에서 큰 진전을 가져올 수 있어요.

4. **AI의 신뢰도 향상**: AI가 엉뚱한 답을 덜 내놓고, 전문 데이터베이스를 활용하면 더 믿을 만한 답변을 들을 수 있어요. 이건 생물학뿐 아니라 다른 분야에서도 비슷한 기술로 확장될 가능성이 크죠.

---

### 마무리

GeneGPT는 AI가 생물학 정보를 더 똑똑하게 찾아주는 첫걸음이에요. 아직 완벽하지는 않지만, 이 기술이 발전하면 우리 모두가 유전자와 건강에 대해 더 쉽게 알 수 있는 날이 올 거예요. 여러분은 이 연구에서 어떤 점이 가장 흥미로웠나요? 댓글로 알려주세요! 😊



perplexity.ai

### 연구 요약: GeneGPT - 대형 언어 모델의 생물정보학 활용 증대

---

**연구 배경 – 이 연구가 왜 필요했는지**  

대형 언어 모델(LLMs)은 자연어 처리(NLP) 분야에서 뛰어난 성과를 내고 있지만, 여전히 잘못된 정보를 생성하거나 과도한 일반화를 하는 "환각(hallucination)" 문제를 겪고 있습니다. 특히 생물정보학과 같은 전문 분야에서는 정확한 데이터 접근이 중요하기 때문에, 기존 LLM의 한계를 극복하고 더 신뢰할 수 있는 답변을 제공할 수 있는 방법이 필요했습니다[1].

---

**연구 목적 – 연구진이 알고자 했던 것**  

이 연구는 LLM에 생물정보학 데이터베이스를 활용하는 능력을 부여하여 전문적인 질문에 더 정확히 답변할 수 있도록 하는 새로운 방법을 개발하는 것을 목표로 했습니다. 이를 위해 연구진은 GeneGPT라는 시스템을 설계하여, LLM이 NCBI(National Center for Biotechnology Information)의 웹 API를 통해 데이터를 검색하고 활용할 수 있도록 했습니다[1].

---

**데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지**  

GeneGPT는 NCBI의 웹 API를 사용하여 생물정보학 데이터베이스에 접근합니다. 이 API는 유전자 정보, 단백질 구조, DNA 서열 등을 포함한 38개의 데이터베이스를 제공합니다. 또한 BLAST API를 통해 DNA 또는 단백질 서열을 비교하여 유사성을 분석할 수 있습니다. 일반 사용자는 인터넷 연결만으로 이러한 데이터를 활용할 수 있습니다[1].

---

**연구 방법 – 연구가 어떻게 진행되었는지**  

GeneGPT는 두 가지 주요 구성 요소로 이루어져 있습니다:

1. **특별히 설계된 프롬프트**: API 사용법에 대한 문서와 예시를 포함하여 LLM이 API 호출을 학습하도록 돕습니다.

2. **추론 알고리즘**: LLM이 질문을 이해하고 필요한 데이터를 검색한 후 API 호출 결과를 기반으로 답변을 생성하도록 설계되었습니다.

GeneGPT는 Codex라는 LLM을 기반으로 작동하며, 생물정보학 관련 질문에 대해 NCBI API를 호출해 데이터를 검색하고 이를 바탕으로 답변을 생성합니다[1].

---

**연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시가 있다면 함께 설명**  

GeneGPT는 GeneTuring이라는 생물정보학 질문 벤치마크에서 평균 점수 0.83을 기록하며 기존 모델(Bing, BioGPT 등)을 크게 능가했습니다. 예를 들어, 특정 질병과 관련된 유전자를 찾거나 DNA 서열의 위치를 인간 염색체와 매칭하는 작업에서 매우 높은 정확도를 보였습니다. 이는 일반인에게도 유용한 정보로, 특정 질병의 원인을 이해하거나 유전자 분석 결과를 해석하는 데 도움이 될 수 있습니다[1].


그냥 LLM에 물어보는 것보다는 이런 전문화된 LLM에 물어보면 조금 더 내가 원하는 답에 가까운 답변을 얻을 수 있었어요가 결론이네요. 각각 분야마다 특화된 LLM들을 만들면.... 근데 그러기에는 너무 세분화되어야하는 문제도 있을거 같은데.... 어떻게든 해결하겠죠 :)



출처: @ye._.vely618