레이블이 LLM인 게시물을 표시합니다. 모든 게시물 표시
레이블이 LLM인 게시물을 표시합니다. 모든 게시물 표시

월요일, 1월 12, 2026

LLM을 돌릴 때 GPU가 꼭 필요할까?

OpenAI에서 chatGPT를 공개한 후부터 LLM이 각광을 받으면서 NVDIA의 GPU가 품귀현상으로 다들 못구해서 난리인 이 지금(사실 OpenAI전부터 코인 덕분이더라도 GPU는 잘 팔리고 있기는 했습니다.), 꼭 전력도 많이 사용하고 제때 구하기도 힘든 GPU써서 LLM을 돌려야 겠냐라는 생각을 누가 하지 않았을까요? 

행렬 연산을 해야하는 작업이라서 어쩔 수 없다라는 생각들이었는데 이것을 보기좋게 해결한 분들이 나왔씁니다. 아직 arvix에 떠돌고 있기는 한데 상업적으로 꽤나 쏠쏠한 내용이라서 성능에서 차이가 없는데 CPU에서 가능하다면 많이 활용되지 않을까합니다. 제목은 Scalable MatMul-free Language Modeling으로 기존에 행렬 곱산 연산을 더하기 연산으로 메모리 사용량과 전력량을 획기적으로 줄였고, 꼭 GPU가 아니어도 성능저하없이 LLM을 사용할 수 있는 것을 증명했습니다.

나중에 기회가되면 한번 테스트를... (할 수 있다면요)

DOI: 10.48550/arXiv.2406.02528


clova-x

# MatMul-free Language Models: 효율성과 성능의 혁신

## 연구 배경

현대의 대규모 언어 모델(Large Language Models, 이하 LLMs)은 주로 행렬 곱셈(MatMul) 연산에 의존하는데, 이는 계산 비용과 메모리 접근 시간을 많이 소모합니다. 특히, 이러한 연산은 GPU에서 최적화되지만, 여전히 자원 집약적이고 병목 현상을 일으킬 수 있습니다. 따라서, MatMul을 제거하면서도 성능을 유지할 수 있는 방법이 필요했습니다.

## 연구 목적

이 연구의 목적은 MatMul 연산을 제거한 언어 모델을 개발하여 메모리 사용량을 줄이고, 뉴로모픽 하드웨어에서의 효율성을 높이는 것입니다. 이를 위해 덧셈과Hadamard곱연산을활용하여MatMul을대체하는방법을제안합니다.

## 연구 방법

연구팀은 MatMul 연산을 대체하기 위해 다음과 같은 방법을 사용했습니다:

1. **Dense Layer**: 텐서 가중치를ternary(세 가지 값: −1, 0, +1)로 변환하여 덧셈 연산만을 사용하도록 했습니다.

2. **Self-Attention Mechanism**: Gated Recurrent Unit(GRU)을 최적화하여element-wise곱연산만을사용하도록했습니다.

이러한 방식으로 모든 MatMul 연산을 제거하면서도Transformer모델과비슷한성능을유지할수있었습니다.

## 연구 결과

실험 결과, MatMul-free 언어 모델은 기존의 Transformer 모델과 비교하여 성능 저하 없이 메모리 사용량을 크게 줄일 수 있었습니다. 특히, 뉴로모픽 하드웨어인인텔의Loihi 2플랫폼에서높은throughput과에너지효율성을달성했습니다. 또한, 다양한언어작업에서경쟁력있는성능을발휘하였으며,제로샷학습에도효과적이었습니다.

## 고찰

이 연구는 LLMs의경량화와고성능화를위한새로운방향을제시합니다. MatMul-free 아키텍처는뉴로모픽컴퓨팅패러다임에자연스럽게적합하며,기존하드웨어보다훨씬더효율적입니다. 이는대규모언어모델링작업,특히추론단계에서매우유용합니다.

## 의의와 시사점

MatMul-free 언어 모델은 다음과 같은 의의를 가집니다:

1. **메모리 절약**: MatMul 연산을 제거함으로써 메모리 사용량을 크게 줄여, 더 큰 모델을 효율적으로 학습하고 실행할 수 있게 됩니다.

2. **뉴로모픽 하드웨어와의 호환성**: 뉴로모픽 하드웨어에서 높은 효율성을 보여주며, 이는 향후 더 작고 빠르며 에너지 효율적인 언어 모델의 개발 가능성을 열어줍니다.

3. **다양한 응용 분야**: 다양한 언어 작업에서 우수한 성능을 발휘하므로, 여러 도메인에서 유용하게 사용될 수 있습니다.

## 결론

MatMul-free 언어 모델은 기존의 Transformer 모델과 비교하여 성능 저하 없이 메모리 사용량을 크게 줄이고, 뉴로모픽 하드웨어에서의 효율성을 높였습니다. 이는 대규모 언어 모델링 작업뿐만 아니라, 다양한 응용 분야에서 매우 유용하게 사용될 수 있을 것입니다. 이러한 연구는 앞으로의 언어 모델 발전에 중요한 기여를 할 것으로 기대됩니다.


gemini

본 요약은 업로드하신 논문 **"Scalable MatMul-free Language Modeling" (2025)**의 내용을 바탕으로, 전문 지식이 없는 일반 성인 독자들이 이해하기 쉽게 블로그 포스팅 형식으로 작성되었습니다.

---

# [IT/AI] 드디어 '곱셈' 없이 말하는 AI가 나왔다? 거대 언어 모델(LLM)의 혁명

최근 챗GPT 같은 인공지능(AI)이 일상의 필수가 되었지만, 이들을 유지하는 데는 엄청난 비용과 전기가 소모됩니다. 그 핵심 원인은 바로 AI의 두뇌 속에서 쉼 없이 일어나는 '행렬 곱셈(MatMul)' 연산 때문입니다. 그런데 최근, 이 **'곱셈'을 아예 없애버리고도 똑똑하게 작동하는 새로운 AI 모델**이 발표되어 학계와 산업계의 주목을 받고 있습니다.

### 1. 연구 배경: AI는 왜 그렇게 '전기 먹는 하마'가 되었을까?

현재의 거대 언어 모델(LLM)은 '트랜스포머(Transformer)'라는 구조를 기반으로 합니다. 이 구조의 핵심은 문장 속 단어 간의 관계를 계산하는 것인데, 이 과정에서 **'행렬 곱셈(Matrix Multiplication, MatMul)'**이라는 복잡한 수학 연산이 전체 계산량의 거의 대부분을 차지합니다. 문제는 이 연산이 너무 무겁고 메모리를 많이 잡아먹어, 값비싼 고성능 GPU 없이는 AI를 돌리기 힘들다는 점입니다.

### 2. 연구 목적: "곱셈 없이도 AI가 가능할까?"

연구진은 한 가지 대담한 질문을 던졌습니다. **"성능을 유지하면서 AI 모델에서 모든 곱셈 연산을 제거할 수 있을까?"**. 만약 이것이 가능하다면, 훨씬 저렴한 칩에서도 AI를 돌릴 수 있고, 스마트폰 같은 기기 내에서도 초절전형 AI를 구현할 수 있기 때문입니다.

### 3. 연구 방법: 곱셈 대신 '더하기'와 '선택'으로!

연구팀은 기존의 무거운 곱셈 연산을 두 가지 혁신적인 방법으로 대체했습니다.

**더하기 연산으로 대체**: AI 모델의 무게를 결정하는 '가중치'를 단순하게 만들어, 복잡한 곱셈 대신 **단순한 덧셈(Addition)**만으로 계산이 가능하게 했습니다.

**새로운 기억 방식(MLGRU)**: 문장의 흐름을 파악할 때 사용하는 복잡한 계산 방식을 **'원소별 곱셈'과 '더하기'만 사용하는 방식(MLGRU)**으로 바꿨습니다. 이는 마치 뇌가 정보를 처리하는 방식과 더 유사합니다.

**뉴로모픽 칩 활용**: 이 모델의 효율을 극대화하기 위해 인간의 뇌 신경망을 모방한 '로이히 2(Loihi 2)'라는 특수 칩에 모델을 탑재해 성능을 테스트했습니다.

### 4. 연구 결과: 가볍지만 강력한 성능

실험 결과는 놀라웠습니다. 27억 개의 매개변수(Parameter) 규모에서도 기존 AI와 대등한 수준의 언어 처리 능력을 보여주었습니다.

**메모리 절감**: 학습 시 메모리 사용량을 **최대 61%까지 줄였고**, 추론(실제 사용) 시에는 **10배 이상 효율적**이었습니다.

**압도적 전력 효율**: 특수 칩(뉴로모픽 시스템)에서 작동할 때, 일반적인 GPU보다 **전력 소모는 10배 적으면서 속도는 4배 더 빨랐습니다**.

**규모의 경제**: 모델의 크기가 커질수록 기존 모델과의 성능 격차가 줄어들어, 향후 더 큰 모델에서도 충분히 사용 가능하다는 가능성을 증명했습니다.

### 5. 고찰 및 의의: '하드웨어 복권'을 넘어서

그동안 AI는 GPU라는 특정 하드웨어에 최적화된 '곱셈' 연산에만 매달려 왔습니다. 이번 연구는 AI 설계가 특정 하드웨어의 한계에 갇힐 필요가 없음을 보여줍니다. 특히 고가의 장비 없이도 강력한 AI를 구현할 수 있는 **'가볍고 똑똑한 AI(Lightweight LLM)'**의 시대를 여는 중요한 이정표가 될 것입니다.

---

### 💡 이 연구가 왜 중요할까요? (결론)

1. 

**지속 가능한 AI**: AI 학습과 운영에 드는 막대한 탄소 배출과 전기료 문제를 해결할 수 있는 현실적인 대안을 제시합니다.

2. 

**내 손안의 AI (On-Device AI)**: 클라우드 서버를 거치지 않고 우리 스마트폰이나 웨어러블 기기 자체에서 강력한 AI가 돌아갈 수 있는 환경을 만들어줍니다.

3. 

**AI 민주화**: 값비싼 GPU 인프라를 갖추지 못한 기업이나 개인도 거대 언어 모델을 연구하고 활용할 수 있는 길을 열어줍니다.

결국 이 연구는 **"AI가 얼마나 더 커질 것인가"**의 경쟁에서 **"AI가 얼마나 더 효율적이고 인간의 뇌를 닮아갈 것인가"**로 패러다임을 전환했다는 점에서 매우 큰 의미가 있습니다.


chatGPT

아래는 업로드하신 논문 **「Scalable MatMul-free Language Modeling」**의 실제 내용을 바탕으로,

**전문 지식이 없는 일반 성인 독자도 이해할 수 있도록 풀어 쓴 블로그용 요약 글**입니다.

형식은 요청하신 대로 **연구 배경 → 목적 → 방법 → 결과 → 고찰 → 의의와 시사점 → 왜 중요한가**의 흐름을 따르며,

논문에서 **직접 얻을 수 있는 핵심 메시지**를 중심으로 구성했습니다.

---

## 1. 연구 배경: 왜 “행렬 곱 없는 언어 모델”이 필요한가?

오늘날 ChatGPT나 LLaMA와 같은 대규모 언어 모델(LLM)은 대부분 **트랜스포머(Transformer)** 구조를 사용합니다.

이 구조의 핵심 계산은 **행렬 곱셈(Matrix Multiplication, MatMul)** 입니다.

행렬 곱은 GPU에서 매우 빠르게 계산할 수 있도록 최적화되어 있어, 지난 10여 년간 딥러닝 발전의 중심에 있었습니다. 하지만 동시에 다음과 같은 한계를 낳았습니다.

* **막대한 전력 소모** (훈련·추론 모두)

* **큰 메모리 사용량**

* **고성능 GPU에 대한 강한 의존성**

* 엣지 디바이스나 저전력 환경에서는 사실상 사용 불가

최근에는 모델을 “더 크게” 만드는 방식이 한계에 부딪히면서,

**“꼭 행렬 곱을 써야만 좋은 언어 모델을 만들 수 있을까?”**라는 근본적인 질문이 제기되고 있습니다.

이 논문은 바로 그 질문에 정면으로 도전합니다.

---

## 2. 연구 목적: 행렬 곱을 완전히 제거한 LLM은 가능한가?

이 연구의 목표는 매우 명확합니다.

> **행렬 곱 연산을 완전히 제거한 언어 모델을 만들고,

> 그럼에도 불구하고 기존 트랜스포머 수준의 성능과 확장성을 유지할 수 있는지 검증한다.**

기존 연구들에서도

* 가중치를 1비트·3값(−1, 0, +1)으로 줄이거나

* 일부 곱셈을 덧셈으로 대체하려는 시도는 있었습니다.

그러나 대부분은 **어텐션(attention)** 단계에서 여전히 행렬 곱이 필요했습니다.

이 논문은 **어텐션까지 포함해 모든 행렬 곱을 제거**하는 데 성공했다는 점에서 차별성이 있습니다.

---

## 3. 연구 방법: 트랜스포머를 어떻게 “곱셈 없이” 재설계했나?

### 1) 핵심 전략 ① 가중치를 3값(ternary)으로 제한

모든 선형층(Dense layer)의 가중치를

**−1, 0, +1 중 하나만 갖도록 제한**합니다.

이렇게 하면 곱셈은 사라지고,

* +1 → 더하기

* −1 → 빼기

* 0 → 무시

로 계산할 수 있습니다. 즉, **곱셈 없이 덧셈만으로 계산**이 가능합니다.

---

### 2) 핵심 전략 ② 어텐션을 RNN 기반 구조로 대체

트랜스포머에서 가장 계산량이 큰 부분은 **자기어텐션(Self-Attention)** 입니다.

이 단계는 입력 길이가 길어질수록 행렬 곱 비용이 폭증합니다.

연구진은 이를 **GRU 기반 순환 신경망(RNN)** 구조로 대체했습니다.

* 단, 기존 GRU를 그대로 쓰지 않고

* **행렬 곱을 모두 제거하도록 선형화(linearization)** 하고

* 게이트 연산은 **원소별 곱(element-wise product)** 만 사용하도록 재설계했습니다.

이렇게 만들어진 구조를 논문에서는

**MLGRU (MatMul-free Linear Gated Recurrent Unit)** 라고 부릅니다.

이 MLGRU는:

* 어텐션처럼 문맥 정보를 누적할 수 있고

* 긴 시퀀스도 처리 가능하며

* 계산은 덧셈과 원소별 연산만 사용합니다.

---

### 3) 토큰 믹서 + 채널 믹서 구조 유지

중요한 점은, 연구진이 **트랜스포머의 핵심 철학은 유지**했다는 것입니다.

* 토큰 간 정보 결합(Token Mixing) → MLGRU

* 채널 간 정보 결합(Channel Mixing) → 곱셈 없는 GLU 구조

즉, “완전히 다른 모델”이 아니라

**트랜스포머의 기능을 곱셈 없이 구현**한 구조라고 볼 수 있습니다.

---

## 4. 연구 결과: 성능은 정말 유지되었는가?

### 1) 모델 규모 확장 실험 (370M → 1.3B → 2.7B)

연구진은 최대 **27억(2.7B) 파라미터**까지 모델을 확장해 실험했습니다.

결과는 인상적입니다.

* 모델이 커질수록

  **기존 트랜스포머와의 성능 격차가 점점 줄어듦**

* 손실 함수 기준으로 보면

  **확장 추세(scaling law)가 오히려 더 가파름**

이는 이 구조가 **“작은 장난감 모델”이 아니라,

대규모 모델로도 충분히 성장 가능함**을 보여줍니다.

---

### 2) 언어 이해 벤치마크 성능

ARC, HellaSwag, WinoGrande, PIQA 등

대표적인 **제로샷 언어 이해 과제**에서:

* 전통적인 Transformer++ 모델과 **거의 동일한 평균 성능**

* 일부 과제에서는 **MatMul-free 모델이 더 높은 점수**

즉, 계산 방식은 훨씬 단순하지만

**언어 이해 능력은 유지**되었습니다.

---

### 3) 메모리·속도·에너지 효율

GPU 기준으로:

* **훈련 시 메모리 사용량 최대 61% 감소**

* **추론 시 메모리 사용량 10배 이상 감소**

* 추론 지연(latency)도 크게 감소

---

### 4) 뉴로모픽 하드웨어(Loihi 2)에서의 성능

이 모델은 특히 **뉴로모픽 칩**에서 진가를 발휘합니다.

* 토큰 생성 속도: 기존 엣지 GPU 대비 **약 4배**

* 에너지 효율: **토큰당 에너지 10배 이상 절감**

* 저전력(수 와트) 환경에서도 안정적 동작

이는 기존 LLM으로는 거의 불가능했던 결과입니다.

---

## 5. 고찰: 이 접근의 한계와 의미

### 한계

* RNN 기반 구조 특성상

  **아주 긴 문맥(Long-context)** 처리에서는 불리할 수 있음

* 최신 초거대 모델(수백억 파라미터)과의 직접 비교는 아직 없음

* 하이브리드 구조(Transformer + RNN)가 필요할 가능성

### 그럼에도 불구하고

이 연구는 “속도를 조금 희생하고 성능을 얻는” 방식이 아니라

**계산 패러다임 자체를 바꾸는 접근**이라는 점에서 의미가 큽니다.

---

## 6. 의의와 시사점

이 논문이 주는 가장 큰 메시지는 다음과 같습니다.

1. **행렬 곱은 언어 이해의 본질이 아니다**

2. LLM은 **훨씬 단순한 연산만으로도 충분히 작동**할 수 있다

3. 미래의 AI는 “더 큰 GPU”가 아니라

   **더 효율적인 구조 + 새로운 하드웨어**로 갈 가능성이 크다

4. 엣지 AI, 의료·웨어러블·로봇 분야에서

   **실시간 LLM 활용의 문이 열린다**

---

## 7. 이 연구는 왜 중요한가?

이 연구는 단순한 성능 개선 논문이 아닙니다.

**“AI는 반드시 비싸고, 크고, 전기를 많이 먹어야 한다”는 전제를 깨뜨린 연구**입니다.

* 데이터센터 밖에서도

* GPU 없이도

* 인간의 뇌처럼 에너지 효율적으로

언어 모델이 작동할 수 있다는 가능성을 처음으로 **실험적으로 증명**했습니다.

앞으로 AI가 의료, 공공, 개인 기기, 생체 신호 분석 등

**에너지와 비용이 중요한 영역으로 확장될수록**,

이 논문에서 제시한 방향은 점점 더 중요해질 것입니다.


grok

### Scalable MatMul-free Language Modeling: 행렬 곱셈 없는 대형 언어 모델

#### 연구 배경

대형 언어 모델(LLM), 예를 들어 ChatGPT 같은 AI는 행렬 곱셈(MatMul)이라는 계산에 크게 의존합니다. 이 MatMul은 모델의 주된 부분인 어텐션(attention)과 피드포워드 네트워크(FFN)에서 발생하며, 컴퓨터 자원(메모리, 에너지)을 많이 소모합니다. GPU는 MatMul에 최적화되어 있지만, 모델이 커질수록 학습과 실행 비용이 폭증합니다. 기존 연구들은 일부 MatMul을 더 간단한 덧셈으로 대체하려 했으나, 완전 제거는 어려웠습니다. 이 논문은 MatMul을 완전히 없애면서도 성능을 유지하는 방법을 탐구합니다.

#### 연구 목적

목적은 MatMul을 제거한 LLM을 개발해, 10억 파라미터 규모에서도 기존 Transformer 모델과 비슷한 성능을 내는 것입니다. 이를 통해 학습 시 메모리 61% 절감, 추론 시 10배 이상 메모리 절감, 그리고 뉴로모픽(뇌 모방) 하드웨어에서 에너지 효율을 높이는 데 초점을 맞춥니다. 궁극적으로 AI를 더 가볍고 효율적으로 만들어, 모바일 기기나 에지 컴퓨팅에 적합하게 하는 것입니다.

#### 방법

논문은 Transformer의 두 핵심 부분(토큰 믹싱: 어텐션, 채널 믹싱: FFN)을 MatMul 없이 재설계합니다. 

- FFN(채널 믹싱): 가중치를 -1, 0, +1 세 값(삼진 가중치)으로 제한해 MatMul을 덧셈과 뺄셈으로 바꿈(BitLinear 레이어). GPU 효율을 위해 RMSNorm(정규화)과 양자화를 한 번에 처리하는 'Fused BitLinear' 개발.

- 어텐션(토큰 믹싱): GRU(게이트드 순환 유닛)를 최적화해 요소별 곱셈(Hadamard product)만 사용. 이는 시퀀스(문장) 의존성을 포착하면서 MatMul을 피함.

- 배포: Intel Loihi 2 뉴로모픽 칩(1,152개 칩 클러스터)에서 모델을 실행. 비동기 처리로 에너지 효율 높임. 양자화(8비트 가중치, 16비트 활성화)로 하드웨어 적합성 확보.

모델 크기는 370M, 1.3B, 2.7B 파라미터로 테스트, 학습 데이터는 100B 토큰 사용.

#### 결과

370M~2.7B 모델에서 Transformer++(기존 최적화 모델)와 비슷한 성능: 예를 들어 2.7B 모델은 ARC-Challenge(29.7% 정확도) 등 벤치마크에서 Transformer++(27.4%)를 앞섬. 평균 정확도 49.9% vs 50.7%. 학습 시 GPU 메모리 61% 줄고 속도 25.6% 빨라짐. 추론 시 메모리 10배 이상 절감(13B 모델: 4.19GB vs 48.5GB). Loihi 2에서 토큰 생성 속도 59.4개/초(기존 GPU 14개/초), 에너지 70.8mJ/토큰(기존 700mJ 이상). 스케일링 분석: MatMul-free 모델 손실 감소가 더 가파름, 10^23 FLOPs(대형 LLM 수준)에서 Transformer 추월 예상.

#### 고찰

삼진 가중치로 MatMul 제거 시 성능 저하가 적고, 모델 크기 커질수록 격차 좁힘. 양자화(W8A16)로 Loihi 2 적합, 하지만 8비트 활성화(W8A8)는 정확도 5% 하락. GPU 최적화(Fused BitLinear)는 배치 크기 클수록 효과적. 뉴로모픽 배포는 희소성(35% 구조적 희소) 활용해 에너지 효율 극대화, 하지만 GPU처럼 대규모 병렬화 어려움.

#### 의의와 시사점

이 접근은 LLM을 뇌처럼 효율적으로 만듦: 에너지 10배 절감으로 모바일/엣지 기기에서 고성능 AI 가능. 기존 모델 재훈련 없이 가벼운 대안 제공, AI 민주화 촉진. 시사점으로는 하드웨어(뉴로모픽)와 소프트웨어(MatMul-free) 결합이 미래 AI 트렌드 될 수 있음.

이 연구가 중요한 이유는 LLM의 고비용 문제를 해결해, 누구나 접근 가능한 AI 시대를 앞당기기 때문입니다. 에너지 절감으로 환경 영향도 줄이고, 새로운 하드웨어 혁신을 유발할 수 있습니다.


NotebookLM

## 인공지능의 '계산 다이어트': 행렬 곱셈 없이 돌아가는 거대언어모델(LLM)의 등장

**참고 논문:** *Scalable MatMul-free Language Modeling* (2024)

최근 챗GPT와 같은 거대언어모델(LLM)은 놀라운 성능을 보여주고 있지만, 이를 유지하기 위해 막대한 연산량과 전력이 소모된다는 치명적인 단점이 있습니다. 이번에 소개해 드릴 논문은 AI 모델의 핵심 연산인 **'행렬 곱셈(MatMul)'을 완전히 제거**하면서도 강력한 성능을 유지하는 혁신적인 모델 설계법을 다루고 있습니다.

---

### 1. 연구 배경: AI의 발목을 잡는 '행렬 곱셈'

현재 거의 모든 인공지능 모델은 '행렬 곱셈(Matrix Multiplication, MatMul)'이라는 연산에 절대적으로 의존하고 있습니다. 문제는 이 연산이 AI 모델의 **실행 시간과 메모리 사용량의 대부분을 차지**한다는 점입니다. 지금까지의 딥러닝 발전은 GPU와 같은 하드웨어가 이 행렬 곱셈을 얼마나 빨리 처리하느냐에 달려 있었다고 해도 과언이 아닙니다. 하지만 모델이 커질수록 계산 비용이 기하급수적으로 늘어나면서, 더 가볍고 효율적인 차세대 모델에 대한 필요성이 커졌습니다.

### 2. 연구 목적: 행렬 곱셈이 없어도 똑똑할 수 있을까?

본 연구의 목적은 **거대언어모델에서 행렬 곱셈을 완전히 제거(MatMul-free)해도 성능이 유지될 수 있음을 증명**하는 것입니다. 연구진은 모델 크기를 27억 개(2.7B)의 매개변수 수준까지 확장했을 때도 기존의 고성능 트랜스포머(Transformer) 모델과 대등한 성능을 낼 수 있는지, 그리고 이를 통해 얼마나 많은 자원을 아낄 수 있는지 확인하고자 했습니다.

### 3. 연구 방법: 덧셈과 뺄셈으로 바꾸는 마법

연구팀은 행렬 곱셈을 없애기 위해 크게 두 가지 핵심 기술을 도입했습니다.

*   **삼진법 가중치(Ternary Weights):** 복잡한 소수점 숫자로 이루어진 가중치를 **-1, 0, +1**이라는 세 가지 정수로만 제한했습니다. 이렇게 하면 복잡한 '곱셈' 연산이 단순히 숫자를 더하거나 빼는 **'덧셈/뺄셈' 연산**으로 바뀌어 계산이 매우 단순해집니다.

*   **MLGRU(MatMul-free Linear GRU):** 트랜스포머의 핵심인 '셀프 어텐션(Self-attention)' 기능 역시 행렬 곱셈 덩어리입니다. 연구진은 이를 대신해 행렬 곱셈 없이 요소별 곱(Element-wise product)만으로 정보를 처리하는 **새로운 형태의 순환 신경망(MLGRU)**을 설계하여 적용했습니다.

*   **하드웨어 최적화:** 겉으로만 계산이 줄어든 것이 아니라, 실제 하드웨어에서도 빠르게 돌아가도록 알고리즘을 하나로 합치는(Fused) 기법을 사용했습니다.

### 4. 연구 결과: 가벼워진 몸집, 유지되는 지능

*   **성능 대등:** 27억 개의 매개변수 규모에서 실험한 결과, 행렬 곱셈이 없는 이 모델은 최신 트랜스포머 모델과 **거의 비슷한 성능**을 보여주었습니다. 특히 모델이 커질수록 성능 차이가 줄어드는 경향을 보였습니다.

*   **메모리 획기적 절감:** GPU에서 학습할 때 메모리 사용량을 **최대 61%까지 줄였으며**, 실제로 모델을 사용할 때(추론)는 메모리 소모를 **10배 이상 감소**시켰습니다.

*   **저전력 하드웨어에서의 압도적 효율:** 인간의 뇌를 모방한 칩인 **뉴로모픽 칩(Intel Loihi 2)**에서 이 모델을 돌렸을 때, 기존의 엣지 GPU보다 **전력 효율은 10배 높고 처리 속도는 4배 빨랐습니다**.

### 5. 고찰 및 시사점: 미래의 AI는 '뇌'를 닮아간다

이번 연구는 AI 모델이 반드시 비싸고 전기를 많이 먹는 하드웨어에 얽매일 필요가 없음을 시사합니다. 연구진은 '스케일링 법칙(Scaling Law)'을 분석한 결과, 이 모델이 더 커진다면(예: Llama-3 8B 규모) **오히려 기존 트랜스포머 모델보다 더 뛰어난 성능을 낼 수도 있다**는 흥미로운 예측을 내놓았습니다. 이는 복잡한 계산보다 효율적인 구조가 대규모 모델에서 더 중요할 수 있음을 보여줍니다.

---

### 💡 이 연구가 왜 중요한가요?

이 연구는 **'AI의 민주화'와 '지속 가능성'** 측면에서 엄청난 가치를 지닙니다.

1.  **스마트폰 속의 거대 AI:** 행렬 곱셈을 제거함으로써 값비싼 서버용 GPU 없이도 스마트폰이나 소형 가전기기(Edge device)에서 강력한 AI를 직접 구동할 수 있는 길을 열었습니다.

2.  **환경 보호:** 현재 AI 학습과 운영에 들어가는 전력 소모는 환경 문제로 대두되고 있습니다. 전력 효율을 10배 이상 높인 이 기술은 **'친환경 AI'** 시대를 앞당길 수 있습니다.

3.  **하드웨어 독립:** 특정 하드웨어(GPU)에 최적화된 기존 방식에서 벗어나, 다양한 저사양 칩에서도 AI가 잘 돌아가게 함으로써 하드웨어 공급 부족 문제 해결에도 기여할 수 있습니다.

**요약하자면:** 이 논문은 AI에게서 '무거운 계산기'를 뺏고 '가벼운 덧셈판'을 쥐어주었더니, 놀랍게도 속도는 훨씬 빨라지고 에너지는 적게 쓰면서 여전히 똑똑했다는 사실을 밝혀낸 것입니다.

**비유하자면:** 수조 원짜리 정밀 부품으로 만든 슈퍼카(기존 LLM) 대신, 단순하지만 효율적인 설계로 연료 효율을 10배 높이면서도 속도는 그대로인 혁신적인 차(MatMul-free LM)를 개발한 것과 같습니다.


Perplexity.ai

이 논문은 “대형 언어모델(LLM)을 행렬 곱(MatMul) 없이 만들 수 있는가?”라는 도전적인 질문에 실제 동작하는 답을 제시합니다. 기존 GPT·Llama 같은 모델이 가장 많이 쓰는 연산인 행렬 곱을 완전히 없애면서도, 수십억 개 파라미터 규모에서 성능을 유지하고, 메모리·속도·에너지 효율을 크게 개선하는 방법을 제안합니다.[1]

***

## 연구 배경: 왜 MatMul이 문제인가

- 오늘날 LLM은 대부분 GPU가 가장 잘하는 연산인 “행렬 곱(MatMul)”에 거의 전부를 의존합니다. 예를 들어 Transformer의 **주의(attention)**, **피드포워드(FFN)** 층은 모두 대규모 행렬 곱으로 이뤄져 있고, 이게 연산량과 메모리 사용의 대부분을 차지합니다.[1]

- 그러나 MatMul 중심 구조는 GPU에는 잘 맞지만, 메모리 이동이 많고, 전력 소모가 커서 모바일·엣지 기기나 뇌처럼 에너지 효율이 중요한 환경에는 비효율적입니다.[1]

- 최근 1비트·저비트 양자화(예: BitNet, 1.58bit LLM)가 등장해 계산량을 크게 줄였지만, 여전히 **주의(attention)의 핵심인 Q·K 행렬 곱**은 남아 있어 완전히 MatMul을 없애지는 못했습니다.[1]

이 논문은 “행렬 곱을 완전히 버리고도, 제대로 된 LLM을 만들 수 있는가?”라는 근본적인 문제에 정면으로 답합니다.[1]

***

## 연구 목적: 완전 MatMul-free LLM 만들기

논문의 목표는 단순한 “최적화 트릭”이 아니라 아키텍처 차원의 변화입니다.[1]

- 목표 1: **모든 층에서 MatMul을 제거**해도, 수억~수십억 파라미터 규모에서 기존 Transformer와 비슷한 언어 성능을 내는가?[1]

- 목표 2: 이렇게 만든 모델이 **훈련·추론 시 메모리 사용과 지연(latency)을 얼마나 줄일 수 있는가?**[1]

- 목표 3: **GPU가 아닌, 뇌처럼 동작하는 뉴로모픽 칩(Loihi 2)**에 올렸을 때, 기존 GPU 대비 어느 정도의 **에너지 효율·처리량** 이득을 얻을 수 있는가?[1]

***

## 방법: MatMul 대신 “더 단순한 연산”으로 바꾸기

### 1. Dense 층: 3값(−1, 0, +1)만 쓰는 BitLinear

일반적인 완전연결(Dense) 층은 “입력 벡터 × 실수 행렬(가중치)”라는 MatMul 구조입니다.[1]

저자들은 여기서 **가중치 값을 −1, 0, +1 세 값으로 제한한 ‘3값(ternary) 가중치’**를 사용합니다.[1]

- 가중치가 1이면 그냥 더하기, −1이면 빼기, 0이면 무시하면 되므로, **곱셈이 사라지고 덧셈/뺄셈 누적만 남습니다.**[1]

- 이 구조를 BitLinear라고 부르고, Transformer의 모든 Dense 층(주의 Q·K·V 생성, FFN 등)을 이 BitLinear로 치환합니다.[1]

- 또, GPU 메모리 계층(HBM–SRAM)을 고려해, 정규화(RMSNorm)와 양자화를 연산 하나로 **“퓨전(fused)”**해 I/O를 최소화하는 커널을 설계해, 훈련 시 **메모리 사용 최대 61% 감소**(1.3B 모델, 특정 배치 크기 기준)를 달성합니다.[1]

### 2. Attention 제거: MatMul-free GRU 기반 토큰 믹서(MLGRU)

Self-attention은 Q·K·V 행렬을 만들어 \(QK^T\)를 계산하는데, 이게 본질적으로 거대한 MatMul입니다.[1]

논문에서는 여기서 한 단계 더 나아가, **아예 attention을 RNN(순환신경망) 기반 구조로 대체**합니다.[1]

- 기존 GRU에서 “숨겨진 상태 간 MatMul”과 tanh 같은 비싼 연산을 없애고, **모든 곱셈을 “3값 가중치 × 요소별(element-wise) 곱” 형태로 바꾼 변형 GRU(MLGRU)를 제안**합니다.[1]

- 시간 축을 따라 비선형성이 줄어들도록 구성해, 긴 시퀀스에서도 학습이 안정적이고, 병렬화 가능한 “선형 RNN” 계열 아이디어(Linear Recurrent Unit, RWKV 등)를 적극적으로 활용합니다.[1]

- 이렇게 만든 MLGRU는 **토큰 간 정보를 섞는 역할(token mixing)을 하면서도 MatMul 없이 동작**합니다.[1]

### 3. 채널 믹싱(FFN): MatMul-free GLU

채널 방향(임베딩 차원)으로 정보를 섞는 FFN은, Llama 등에서 사용하는 **SwiGLU/GLU 구조**를 기반으로, 모든 Linear를 BitLinear로 대체해 **덧셈과 요소별 곱만으로 구성**합니다.[1]

### 4. 전체 아키텍처

정리하면, 한 블록은 다음 두 축으로 구성됩니다.[1]

- 토큰 믹서: MLGRU (MatMul-free RNN)  

- 채널 믹서: BitLinear 기반 GLU  

결과적으로 **모든 층에서 MatMul이 사라진, 완전 MatMul-free LLM**이 완성됩니다.[1]

***

## 결과 1: 성능 – Transformer와 얼마나 비슷한가?

논문은 3가지 규모의 모델을 비교합니다.[1]

- 370M 파라미터  

- 1.3B 파라미터  

- 2.7B 파라미터  

각각에 대해, 기존 Transformer++와 제안한 MatMul-free LM을 동일한 데이터 토큰 수로 학습시키고, 여러 영어 벤치마크(ARC-Easy/Challenge, HellaSwag, Winogrande, PIQA, OpenBookQA)를 **제로샷(추가 학습 없이 바로 평가)**으로 비교합니다.[1]

대표적인 결과는 다음과 같습니다.[1]

- 370M 규모에서는 평균 정확도가 Transformer++ 대비 약간 낮지만(41.1% → 40.3% 수준), 큰 차이는 아닙니다.[1]

- 1.3B에서는 평균 성능 차이가 조금 줄어듭니다(48.0% vs 46.2%).[1]

- 2.7B에서는 평균 성능이 거의 비슷하고(50.7% vs 49.9%), 일부 과목(ARC-Challenge, OpenbookQA)에서는 오히려 MatMul-free LM이 더 높게 나옵니다.[1]

또한 **스케일링 법칙(모델 크기·연산량이 커질수록 오류가 어떻게 줄어드는지)**을 분석했을 때, MatMul-free LM의 손실 감소 곡선이 Transformer++보다 더 가파르게 내려가, **충분히 큰 연산량(약 10²³ FLOPs)에서는 오히려 Transformer를 능가할 것으로 예측**됩니다.[1]

즉, **모델이 커질수록 “MatMul이 없어도 된다”는 주장이 더 강해진다는 점**이 중요합니다.[1]

***

## 결과 2: GPU에서의 메모리·속도 이득

GPU 상에서도 MatMul-free 구조가 실제로 이득을 주는지 실험합니다.[1]

- 훈련 중: Fused BitLinear를 쓴 1.3B 모델은, 특정 조건에서 **훈련 속도 25.6% 향상**, 메모리 사용 **82GB → 32GB(61% 감소)**를 달성합니다.[1]

- 추론 중: 13B까지 확장해 시뮬레이션한 결과,  

  - 1층 기준 MatMul-free LM은 0.12GB 메모리, 3.79ms 지연  

  - 동일 크기 Transformer++는 0.21GB, 13.87ms  

  로 **메모리·지연 모두 MatMul-free가 유리**합니다.[1]

- 13B 전체 모델 기준으로도, MatMul-free LM은 약 4.19GB 메모리로 추론 가능한 반면, 동일 크기 Transformer++는 48.50GB가 필요해, **대형 모델에서 메모리 측면 차이가 극단적으로 벌어집니다.**[1]

이는 “모바일·엣지 GPU에서 더 큰 모델을 띄우고 싶지만 메모리가 부족한 상황”에 현실적인 대안을 제시합니다.[1]

***

## 결과 3: 뉴로모픽 칩(Loihi 2)에서의 에너지 효율

이 논문의 진짜 하이라이트는 **MatMul-free LLM을 뉴로모픽 칩(Loihi 2)에 올렸을 때의 효율**입니다.[1]

- Loihi 2는 120개의 비동기 “뉴로코어”로 이루어진, **저전력·이벤트 기반** 뉴로모픽 프로세서입니다.[1]

- MatMul-free LM은 본질적으로 **저비트(ternary)·요소별 연산·재귀 구조**라, Loihi 2의 구조와 매우 잘 맞습니다.[1]

370M 모델을 기준으로, Loihi 2와 엣지 GPU(NVIDIA Jetson Orin Nano)를 비교하면:[1]

- 오토리그레시브 생성(한 번에 한 토큰씩 생성)  

  - Jetson에서 400~500M급 Transformer들은 약 13~15 토큰/초, 700~900 mJ/토큰 수준입니다.[1]

  - Loihi 2의 MatMul-free LM은 **약 59.4 토큰/초, 70.8 mJ/토큰**으로,  

    - **속도 최소 4배↑**,  

    - **에너지 효율 최소 10배↑**입니다.[1]

- 긴 프롬프트를 한 번에 집어넣는 prefill 단계에서도, Loihi 2는 수만 토큰/초 수준의 처리량과 매우 낮은 mJ/token을 보여줍니다.[1]

또한, Loihi 2는 완전 비동기 구조라, 여러 칩으로 이루어진 시스템(Alia Point, Hala Point)에서 **칩 개수가 늘어나도 시퀀스 처리 시간과 에너지 효율이 거의 일정하게 유지**되는 등, 매우 좋은 스케일링을 보입니다.[1]

***

## 추가 분석: 양자화·고정소수점 처리

뉴로모픽 칩에서는 부동소수점 대신 **고정소수점 정수 연산**을 쓰기 때문에, 모델을 그에 맞게 양자화해야 합니다.[1]

- 가중치는 이미 ternary(−1,0,1)이므로, 8비트 정수로 쉽게 표현됩니다.[1]

- 정규화 계수와 활성값은 8비트·16비트 정수로 양자화했을 때,  

  - 8비트 활성(W8A8)은 정확도가 눈에 띄게 떨어지지만,  

  - **8비트 가중치 + 16비트 활성(W8A16)는 원래 모델 대비 평균 정확도 1%pt 이내 손실로 거의 유지**됩니다.[1]

- Sigmoid, 역제곱근 등 부동소수점 함수는 **Look-up Table + 뉴턴 방법**을 이용한 고정소수점 근사로 구현해, 하드웨어에서 효율적으로 계산합니다.[1]

즉, 이 구조는 “논문에서만 돌아가는 이론적인 모델”이 아니라, **실제 칩 위에 맞춰 끝까지 구현·검증된 시스템**이라는 점이 중요합니다.[1]

***

## 의의와 시사점

이 논문으로부터 얻을 수 있는 중요한 메시지는 다음과 같습니다.

1. **“행렬 곱 없는 LLM”도 충분히 쓸 만하다.**  

   - 2.7B 규모까지 실험한 결과, 기존 Transformer와 거의 비슷한 제로샷 성능을 보였고, 더 크게 키우면 오히려 Transformer보다 나아질 가능성도 스케일링 분석으로 뒷받침됩니다.[1]

2. **대형 LLM의 병목은 ‘알고리즘’뿐 아니라 ‘연산 종류’와 ‘하드웨어 구조’라는 점을 보여준다.**  

   - 지금까지는 “더 큰 GPU, 더 많은 MatMul”이 주류였지만, 이 논문은 **연산을 MatMul에서 단순 덧셈·요소 곱으로 바꾸는 것만으로도, 메모리와 전력 효율을 크게 개선할 수 있음**을 보여줍니다.[1]

3. **엣지·모바일·친환경 AI의 가능성을 넓힌다.**  

   - Jetson 같은 작은 GPU에서 더 큰 모델을 띄울 수 있고, 뉴로모픽 칩에서는 **사람이 읽는 속도보다 빠르게 텍스트를 생성하면서도 10배 이상 낮은 에너지로 동작**할 수 있습니다.[1]

   - 이는 배터리 기반 기기, 로봇, 웨어러블, 혹은 전력 제약이 심한 환경에서 **제대로 된 LLM을 실시간으로 쓰는 길**을 여는 연구입니다.[1]

4. **뇌와 닮은 “에너지 효율 좋은 지능”을 향한 한 단계**  

   - 논문은 이 MatMul-free LLM이 뉴로모픽 하드웨어와 결합될 때, **“뇌처럼 효율적인” 계산 방식에 한 발 더 다가간다**고 주장합니다.[1]

   - 단순히 모델 정확도만이 아니라, **“같은 일을 훨씬 적은 에너지로 할 수 있는가”라는 질문에 기술적 근거를 제시**했다는 점에서 의미가 큽니다.[1]

***

## 이 연구가 왜 중요한가?

이 연구는 “더 큰 GPU, 더 많은 FLOPs”라는 기존 LLM 발전 방향에 **대안적인 길**을 제시합니다. 완전 MatMul-free 구조로도 대형 언어 모델이 충분히 잘 동작하며, 메모리·지연·에너지 측면에서 획기적으로 효율적일 수 있고, 특히 뉴로모픽 같은 새로운 하드웨어 플랫폼과 결합될 때 **실제 시스템 차원에서 엄청난 이득**을 줄 수 있음을 실험으로 보여줍니다.[1]

앞으로 LLM이 일상 기기와 로봇, 온디바이스 AI로 깊게 들어갈수록, “얼마나 똑똑한가?”만큼이나 “얼마나 적은 에너지로 동작하는가?”가 중요해집니다. 이 논문은 그 미래를 위해 **모델 구조와 하드웨어 설계를 함께 바꾸는 통합적인 방향**을 제시했다는 점에서, 연구·산업 모두에 큰 시사점을 주는 작업입니다.[1]


Kimi

아래는 2406.02528v7 “Scalable MatMul-free Language Modeling”을 A4 두 장 분량으로 쉽게 풀어 쓴 블로그용 요약입니다. 논문에 없는 일반 상식은 최대한 배제하고, 논문에서 직접 제시한 사실·수치·그림·표만을 바탕으로 정리했습니다.

---

### 1. 연구 배경  

- 오늘날 ChatGPT 같은 대형 언어 모델(LLM)은 ‘행렬곱(MatMul)’이라는 연산에 의존한다.  

- 행렬곱은 GPU에서 잘 돌지만, 전력·메모리·칩 면적을 가장 많이 잡아먹는 작업이다.  

- 그래서 “행렬곱 없이도 성능을 유지할 수 있을까?”는 딥러닝의 오랜 질문이었다.  

- 기존 시도(얼마 전 화제가 된 ‘BitNet’ 등)는 dense(완전 연결) 부분만 바꾸고, **어텐션(자기 주의) 매커니즘 안의 행렬곱은 그대로**였다.  

- **문제는 바로 이 어텐션**: 두 동적 행렬(Q × K^T)을 매 시점 곱해야 해서 길이가 늘어날수록 계산량이 **제곱**으로 증가한다.  

- 게다가 BitNet처럼 Q, K를 3값(–1, 0, 1)으로 양자화하면 학습이 **수렴하지 않는다**는 사실이 이번 실험에서 처음으로 드러났다(Fig. 4).

---

### 2. 연구 목표  

“행렬곱을 **완전히** 없애고, 10억 개 이상의 파라미터 규모에서도 기존 트랜스포머 못지않은 성능을 내면서, **메모리·에너지를 수십 % 이상 절감**하는 LLM을 만들자.”

---

### 3. 핵심 아이디어(방법)  

1) **dense(FFN) 부분**  

   - 가중치를 –1, 0, +1로 제한 → 곱셈이 사라지고 **덧셈/부호 반전**만 남는다.  

   - 이걸 “BitLinear”라 부른다.  

2) **어텐션(토큰 믹서) 부분**  

   - 기존 어텐션 대신 **GRU 기반 RNN**을 쓴다.  

   - 게이트 값과 은닉 상태 갱신을 **모두 원소별 곱(⊙)**과 **덧셈**만으로 처리한다.  

   - 이 RNN은 시간 축이 **선형**이므로 긴 문장에서도 계산량이 문장 길이에 **비례**한다(기존은 제곱).  

   - 최종 구조를 “MLGRU(MatMul-free Linear Gated Recurrent Unit)”라 이름 붙였다.  

3) **채널 믹서 부분**  

   - GLU(Gated Linear Unit)를 BitLinear로 바꿔서 **행렬곱 없이** 임베딩 차원끼리 정보를 섞는다.  

4) **최적화**  

   - GPU용 “Fused BitLinear” 커널을 만들어 **활성화 값을 한 번만 읽고** RMSNorm→양자화→계산을 한꺼번에 처리 → 메모리 이동 61 % 절감.  

   - 뉴로모픽 칩 Loihi 2 전용 **고정소수점 마이크로코드**를 직접 작성.

---

### 4. 실험 결과(논문에 나온 숫자 그대로)  

#### 4-1. 성능  

- 370M·1.3B·2.7B 세 모델을 15B/100B 토큰으로 학습.  

- 6개 대표 벤치(ARC-e/c, HellaSwag, Winogrande, PIQA, OpenBookQA) **평균 정확도**는 트랜스포머++와 **오차 1 %p 이내**.  

- 2.7B에서 ARC-Challenge·OpenBookQA는 오히려 **기존보다 높은 점수** 기록.  

#### 4-2. 메모리·지연  

- **학습** : 1.3B 모델, 배치 28 → Fused BitLinear 적용 시  

  – 시간 25.6 % 단축(1.52 s → 1.21 s/iter)  

  – GPU 메모리 61 % 절감(82 GB → 32 GB)  

- **추론** : 시퀀스 2048, 배치 1 기준  

  – 370M : 0.12 GB & 3.8 ms vs 트랜스 0.21 GB & 13.9 ms  

  – 13B : 4.2 GB & 0.7 s vs 트랜스 48.5 GB & 3.2 s  

#### 4-3. 뉴로모픽 칩(Loihi 2)  

- 370M 24블록을 31칩(1152칩 중)에 배치.  

- **생성 모드** : 59.4 토큰/s, 70.8 mJ/토큰  

  – Jetson Orin Nano 대비 **처리량 4배, 에너지 10배** 절감.  

- **프리필 모드** : 11 637 토큰/s, 3.4 mJ/토큰  

  – 동일 보드 대비 **처리량 7~18배, 에너지 2~5배** 절감.  

- **전력** : 4.2 W로 동작, **인간 읽기 속도의 8배** 성능.  

#### 4-4. 확장 법칙(Scaling Law)  

- 파라미터·컴퓨트 증가에 따른 손실 감소 기울기가 **트랜스포머보다 더 가파르다**.  

- 10²³ FLOP(약 Llama-3 8B·Llama-2 70B 수준) 지점에서 **손실 곡선이 교차** → 같은 비용이면 **더 좋은 성능**, 또는 **같은 성능에 더 적은 비용** 가능.

---

### 5. 고찰 & 시사점  

1) **행렬곱 없이도** 최신 트랜스포머급 성능이 가능하다는 **실증적 증거**를 처음으로 제시.  

2) **메모리 대역폭**이 병목인 엣지·뉴로모픽 하드웨어에서 **구조적 이점**이 폭발적이다.  

3) **학습 비용이 큰** 초거형 모델을 만들기 전, **1/10 000 크기의 MatMul-free 모델**로 성능을 예측·최적화할 수 있다.  

4) **RNN의 단점(긴 문단 약점)**은 **몇 개만 섞어 쓰는 하이브리드 구조**로 보완 가능(논문 인용 §6.3).  

---

### 6. 왜 이 연구가 중요한가?  

- **“GPU 없이도 LLM을 돌릴 수 있을까?”**라는 물음에 정량적인 **YES**를 준 첫 사례다.  

- **전력 10분의 1**로 **인간 읽기 속도의 8배**를 내는 칩이 이미 존재한다는 사실 자체가, **스마트워치·IoT·우주선** 같은 전력 제약 환경에 **대형 언어 모델을 심는 문**을 열었다.  

- **확장 법칙이 기존보다 좋다**는 점은 **같은 예산으로 더 똑똑한 모델**을 만들 수 있음을 시사한다.  

- 무엇보다 **행렬곱이라는 60년 된 연산 패러다임 자체를 뒤집는** ‘증명’이 나왔다는 데, 연구·산업적 의미가 크다.  

“언젠가 휴대폰에서도 10B 파라미터 AI를 1W로 돌리는 날”이 이 논문으로 한 걸음 더 가까워졌다.



출처: @ye._.vely618


월요일, 12월 08, 2025

작지만 강력한 언어 모델, SLM이 온다

이제 많은 방송과 전문가들이 에이전트 AI에 대해서 많이 떠들고 있습니다. 그래서 LLM대신에 에이전트 AI가 적합한 SLM, Small Language Models에 대한 내용의 논문이 있어 가져와봤습니다. 제목은 Small Language Models are the Future of Agentic AI 으로 에이전트 AI는 LLM이 아닌 SLM에 있고, 점점 더 중요해 질 것이라는 내용되겠습니다.

SLM으로도 충분히 에이전트 AI 작업을 할 수 있지만 진짜 생산성을 위해서는 아직도 추론을 떠들기에는 이른감이 있지 않나싶은데 많은 전문가분들께서 벌써 추론을 얘기하고 미래를 나아가고 있네요.

언제 이상과 현실이 같은 적이 있었나요? ㅎㅎ 현실은 이제 시궁창에서 벗어나려고 하는데 장밋빛 단면만 보고서 다 이룬것처럼 떠들어대다가 현실이 들어나면 태세변환해서 맛좋은 희생양을 찾아다니겠죠 :)


DOI: 10.48550/arXiv.2506.02153


clova-x

small language models (SLMs)은 agentic AI 시스템에서 large language models (LLMs)보다 더 적합하고 경제적이며, 향후 AI agent 산업에서의 변화를 주도할 것입니다.

1. **SLM의 장점**

   - SLMs은 낮은 지연 시간, 적은 메모리 및 계산 요구량, 그리고 낮은 운영 비용을 제공합니다.

   - SLMs은 특정 도메인에서 적절한 작업 성능을 유지하면서도 효율적이고 예측 가능합니다.

2. **LLM과의 비교**

   - LLMs은 광범위한 작업과 대화 능력을 제공하지만, 대부분의 agentic 작업은 반복적이고 범위가 정해져 있습니다.

   - SLMs은 이러한 작업에 더 적합하며, 자원의 비효율적 할당을 방지합니다.

3. **경제적 이점**

   - SLMs은 LLMs보다 더 저렴하고 유연한 배포가 가능하여, agentic 워크플로우에서의 비용 절감과 적응성을 높입니다.

   - SLM-first 아키텍처는 비용 효율적이고 모듈화된 agentic AI를 구현하는 데 유리합니다.

4. **기술적 발전**

   - 최근 SLMs은 LLMs와 유사한 성능을 발휘하면서도 더 작은 규모로 운영될 수 있도록 발전하고 있습니다.

   - SLMs은 다양한 분야에서 LLMs를 대체할 수 있는 충분한 능력을 갖추고 있습니다.


gemini

## 📝 업로드하신 논문 요약: 에이전트 AI의 미래는 ‘작은 언어 모델(SLM)’에 달려있다

---

### 연구 배경: 에이전트 AI, LLM에 과도하게 의존하다

최근 인공지능(AI) 업계에서 **에이전트 AI 시스템**의 성장은 매우 폭발적입니다. [cite_start]2024년 말 기준으로 이 분야의 경제적 가치는 수십억 달러에 달하며, 앞으로도 막대한 성장이 예상되고 있습니다[cite: 1770, 1772]. [cite_start]이러한 에이전트 AI는 사용자 대신 복잡한 작업을 계획하고 도구를 활용하며, 문제를 해결하는 **기초 지능**을 제공하기 위해 주로 **거대 언어 모델(LLM)**을 사용해 왔습니다[cite: 1774, 1775].

그러나 현재의 운영 모델은 하나의 범용적인 LLM이 모든 에이전트 요청을 처리하도록 설계되어 있습니다. [cite_start]이는 LLM 호스팅 클라우드 인프라에 막대한 자본 투자를 낳는 산업 구조를 형성했습니다[cite: 1779, 1780]. 본 논문은 이러한 업계 관행에 대해 의문을 제기합니다. [cite_start]에이전트 AI가 실제로 수행하는 작업의 대부분은 **반복적이고, 범위가 좁으며, 특화된** 소수의 작업인데 [cite: 1761, 1808][cite_start], 과연 이 모든 요청을 방대한 LLM 하나에 의존하는 것이 최선인지에 대한 근본적인 질문을 던집니다[cite: 1782].

---

### 연구 목적: SLM이 에이전트 AI의 미래가 될 것이라는 입장 표명

[cite_start]이 연구의 핵심 목적은 **작은 언어 모델(SLM)**이 에이전트 AI 시스템을 위한 충분한 성능을 갖추고 있으며, LLM보다 **더 적합하고(suitable), 더 경제적(economical)인** 선택이므로, SLM이 에이전트 AI의 미래가 될 것이라는 강력한 입장을 제시하고 논증하는 것입니다[cite: 1762, 1783, 1801].

**SLM의 정의**는 특정 기기에 국한되지 않고, **일반 소비자 전자 기기에 탑재 가능**하며, 단일 사용자의 에이전트 요청을 실용적인 수준의 낮은 지연 시간으로 처리할 수 있는 언어 모델을 의미합니다. [cite_start]2025년 기준으로, 이는 일반적으로 **100억 개 미만의 매개변수**를 가진 모델을 포함합니다[cite: 1790, 1793].

---

### 연구 방법 및 주요 논거: SLM의 세 가지 핵심 가치 (V1-V3)

[cite_start]논문은 SLM이 에이전트 AI에 적합한 이유를 세 가지 핵심 가치(V1, V2, V3)와 이를 뒷받침하는 구체적인 논거를 통해 제시합니다[cite: 1797].

1.  **V1: 충분한 성능 (Sufficiently Powerful)**

    * [cite_start]**논거:** 최근의 SLM은 훈련 및 설계의 발전 덕분에, **상식 추론, 도구 호출(Tool Calling), 코드 생성**과 같은 에이전트 작업에 필수적인 영역에서 이전 세대의 수십억, 심지어 수백억 개 매개변수를 가진 LLM과 동등하거나 더 나은 성능을 보이고 있습니다[cite: 1798, 1821, 1825].

    * [cite_start]예를 들어, Microsoft Phi-2(27억 개)는 300억 개 모델과 유사한 성능을 보이며 약 15배 더 빠르게 실행됩니다[cite: 1829]. [cite_start]이제 매개변수 개수가 아닌 **모델의 능력**이 제약 조건이 되고 있습니다[cite: 1869].

2.  **V2: 뛰어난 운영 적합성 (Operationally Suitable)**

    * [cite_start]**논거:** 에이전트 시스템은 코드와의 상호작용(도구 호출, 출력 파싱)이 잦기 때문에, LLM의 광범위한 일반 능력보다는 **정확하고 일관된 출력 형식(예: JSON/XML)**을 유지하는 **행동 정렬(Behavioral Alignment)**이 필수적입니다[cite: 1909, 1912, 1915].

    * [cite_start]단일 형식으로 미세 조정된 SLM은 범용 LLM이 가끔 저지르는 환각적인 형식 오류를 방지할 수 있어 에이전트 맥락에서 더 선호됩니다[cite: 1915]. [cite_start]또한, LLM과 SLM을 조합하는 **이종(Heterogeneous) 시스템** 구성이 에이전트의 모듈식 설계에 자연스럽게 들어맞습니다[cite: 1814, 1917, 1920].

3.  **V3: 압도적인 경제성 (Necessarily More Economical)**

    * [cite_start]**논거:** SLM은 크기가 작기 때문에 700억~1750억 개 LLM보다 **추론 비용(지연 시간, 에너지 소비, FLOPs)이 10~30배 저렴**합니다[cite: 1872, 1877].

    * [cite_start]또한, SLM은 미세 조정(Fine-tuning)에 GPU 시간이 적게 들어 **행동을 빠르게 추가, 수정 또는 전문화**할 수 있어 개발 민첩성이 높습니다[cite: 1881]. [cite_start]심지어 소비자급 GPU에서도 로컬로 실행(Edge Deployment)될 수 있어 낮은 지연 시간과 데이터 통제를 가능하게 합니다[cite: 1882]. [cite_start]이러한 비용 절감은 대규모 에이전트 워크플로우에 가장 적합한 경로입니다[cite: 1890].

---

### 고찰 및 시사점: 전환의 장벽과 로드맵

#### 고찰: 반론과 재반론

[cite_start]LLM 옹호론자들은 LLM이 더 넓은 언어 이해 능력(일명 '의미 허브' 메커니즘)을 가지고 있어, 아무리 좁은 작업이라도 SLM보다 항상 성능이 우월할 것이라고 주장합니다[cite: 1931, 1939].

[cite_start]이에 대해 논문은, 에이전트 시스템 자체가 복잡한 문제를 단순한 **하위 작업으로 분해**하도록 설계되므로[cite: 1954, 1955], LLM의 광범위한 일반 이해력은 하위 작업에서는 효용이 적다고 반박합니다. [cite_start]또한, SLM은 **미세 조정(Fine-tuning)**과 **추론 시 컴퓨팅 확장(Reasoning)** 기술을 통해 필요한 신뢰성 수준까지 성능을 높일 수 있습니다[cite: 1948, 1950].

#### SLM 채택의 장벽

[cite_start]SLM의 장점에도 불구하고, LLM 중심의 현 상태가 지속되는 이유는 현실적인 장벽 때문입니다[cite: 1970]. [cite_start]가장 큰 장벽은 **중앙 집중식 LLM 인프라에 대한 막대한 선행 투자**로 인한 산업적 관성입니다[cite: 1973]. [cite_start]또한, SLM 개발 및 평가 시 에이전트의 효용성보다는 LLM이 사용하는 **범용 벤치마크**에 초점을 맞추는 관행과, SLM의 이점에 대한 **대중적 인식 부족**도 장애물입니다[cite: 1976, 1979].

#### LLM-to-SLM 전환 알고리즘

[cite_start]논문은 LLM 중심에서 SLM 중심으로 전환할 수 있는 구체적인 5단계 알고리즘을 제시합니다[cite: 1985].

1.  [cite_start]**사용 데이터 수집:** 모든 에이전트 호출 데이터를 안전하게 로깅[cite: 1988].

2.  [cite_start]**데이터 큐레이션 및 필터링:** 수집된 데이터에서 민감 정보를 제거 및 익명화[cite: 1992].

3.  [cite_start]**작업 클러스터링:** 프롬프트 패턴을 분석하여 반복되는 요청을 그룹화하고, SLM 특화 작업으로 정의[cite: 1995].

4.  [cite_start]**SLM 선정:** 각 특화 작업에 적합한 SLM 후보를 선택 (성능, 크기, 라이선스 등을 고려)[cite: 1998].

5.  [cite_start]**특화된 SLM 미세 조정:** 클러스터링된 데이터셋을 사용하여 SLM을 작업별 전문가 모델로 미세 조정[cite: 2001].

---

### 이 연구가 중요한 이유: 지속 가능하고 민주적인 AI의 길

이 연구는 에이전트 AI 분야에서 **효율성, 경제성, 지속 가능성**이라는 세 가지 핵심 가치를 강조하며 패러다임 전환의 필요성을 역설한다는 점에서 매우 중요합니다.

1.  [cite_start]**지속 가능한 AI 구현:** LLM에 대한 과도한 의존은 막대한 컴퓨팅 자원 낭비와 환경 문제로 이어집니다[cite: 1813]. [cite_start]SLM 우선 아키텍처로의 전환은 인프라 비용을 절감하고, **책임감 있고 지속 가능한 AI 배포**를 위한 기술적, **도덕적 의무(Humean moral ought)**를 이행하는 길을 제시합니다[cite: 1816, 1817].

2.  **AI 민주화 촉진:** SLM의 낮은 비용과 유연성은 더 많은 개발자와 조직이 AI 에이전트 생태계에 참여할 수 있게 하여, AI 개발의 **민주화**를 가져옵니다. [cite_start]이는 시스템적 편향의 위험을 줄이고 혁신을 촉진하는 데 기여할 것입니다[cite: 1896, 1897, 1898].

3.  [cite_start]**산업적 로드맵 제공:** LLM-to-SLM 전환 알고리즘을 구체적으로 제시함으로써, 이 논문은 단순히 주장을 하는 것을 넘어, 산업계가 경제적이고 효율적인 SLM 기반 에이전트 시스템으로 실질적으로 이행할 수 있는 **구체적인 기술적 로드맵**을 제공합니다[cite: 1785, 1985].

[cite_start]결론적으로, 본 연구는 에이전트 AI의 미래를 결정하는 핵심 요소가 **'크기'가 아닌 '효율적인 적응성'**이라는 메시지를 던지며, AI 기술의 미래 방향에 대한 중요한 논의를 촉발하고 있습니다[cite: 1767].


chatGPT

좋습니다. 업로드하신 논문 **〈Small Language Models are the Future of Agentic AI〉(작은 언어 모델이 에이전트형 AI의 미래다, NVIDIA Research, 2025)** 의 주요 내용을 일반 독자도 이해하기 쉽게 정리해드리겠습니다.

(A4 2장 이내 분량 / 연구 배경–목적–방법–결과–의의 순서로 구성)

---

## 🧠 작은 언어 모델이 에이전트형 AI의 미래다

*(Small Language Models are the Future of Agentic AI, NVIDIA Research, 2025)*

### 1. 연구 배경

최근 인공지능의 핵심 화두는 **‘에이전트형 AI(agentic AI)’**, 즉 스스로 판단하고 행동하는 인공지능입니다.

이러한 에이전트의 두뇌 역할을 하는 것은 지금까지 대부분 **거대한 언어 모델(LLM, Large Language Model)** 이었습니다.

GPT-4, Claude, Gemini 같은 모델이 그 예죠.

하지만 이런 대형 모델은 엄청난 연산 자원과 비용이 필요합니다.

기업들은 막대한 투자를 해 클라우드 인프라를 유지하지만, 정작 에이전트가 수행하는 일 대부분은 **단순하고 반복적인 업무**입니다.

예를 들어 이메일 요약, 코드 자동화, 문서 분류 같은 일들이죠.

그렇다면 정말 이런 간단한 작업에도 수십억 달러짜리 LLM이 필요할까요?

NVIDIA 연구팀은 여기에 “아니오”라고 답하며, **작은 언어 모델(SLM, Small Language Model)** 이 더 효율적이고 실용적인 대안이 될 수 있다고 주장합니다.

---

### 2. 연구 목적

이 논문의 핵심 목표는 단 하나입니다.

> **“에이전트형 AI의 미래는 거대한 LLM이 아니라, 작고 효율적인 SLM에 있다.”**

연구진은 세 가지 근거로 이를 주장합니다.

1. **충분히 강력하다:** 최신 SLM은 이미 필요한 수준의 언어 이해력과 추론 능력을 갖췄다.

2. **운영에 더 적합하다:** SLM은 빠르고 안정적이며, 특정 작업에 맞게 쉽게 조정할 수 있다.

3. **경제적이다:** 에너지, 비용, 유지보수 면에서 훨씬 저렴하다.

---

### 3. 연구 방법 및 근거

논문은 실험보다는 **기술적 비교와 사례 분석** 중심으로 구성되어 있습니다.

연구진은 다양한 최신 SLM들의 성능을 검토하고, 실제 ‘AI 에이전트’ 시스템이 어떤 구조로 작동하는지 분석했습니다.

#### (1) SLM의 성능 비교

* **Microsoft Phi-3 (7B)** : GPT-3급(175B)에 가까운 성능을 보여주며 70배 빠름

* **NVIDIA Nemotron-H (2~9B)** : 30B 모델 수준의 코드 생성 능력

* **DeepSeek-R1-Distill (7B)** : Claude 3.5나 GPT-4o와 비슷한 추론 성능

* **DeepMind RETRO (7.5B)** : GPT-3보다 25배 작은 모델로 동일한 결과

즉, 모델 크기가 10분의 1~100분의 1로 줄어들어도 실제 업무 성능은 거의 비슷한 수준에 도달했습니다.

#### (2) 운영 효율성

* **비용:** 7B SLM의 추론 비용은 LLM의 1/10~1/30 수준

* **속도:** 더 짧은 대기 시간, 더 적은 전력 소모

* **현장 배치:** 개인용 GPU나 노트북에서도 실행 가능 (예: ChatRTX)

* **유연성:** LoRA, QLoRA 같은 경량 학습 기법으로 빠른 미세 조정 가능

#### (3) 구조적 장점

에이전트 시스템은 사실 하나의 모델이 모든 걸 하는 게 아닙니다.

“명령 해석 → 도구 실행 → 결과 정리” 등 여러 단계로 쪼개져 있습니다.

이 각 단계에 맞는 작은 모델을 따로 두면, 훨씬 효율적이고 안정적으로 운영할 수 있습니다.

이런 방식을 연구진은 “**모듈형(agentic modularity)**”이라 부릅니다.

---

### 4. 주요 결과와 논의

연구진은 실제 오픈소스 에이전트 세 가지를 분석했습니다.

| 사례                         | 대체 가능성 | 설명                             |

| -------------------------- | ------ | ------------------------------ |

| **MetaGPT** (소프트웨어 개발용)    | 약 60%  | 코드 작성·문서화 등 단순 업무는 SLM으로 충분    |

| **Open Operator** (업무 자동화) | 약 40%  | 간단한 명령 처리나 보고서 작성은 SLM으로 대체 가능 |

| **Cradle** (GUI 제어 에이전트)   | 약 70%  | 반복적인 조작 업무는 SLM으로 충분           |

즉, **현재도 전체 에이전트 작업의 절반 이상은 작은 모델로 수행 가능**하다는 결론입니다.

이는 AI 산업의 비용 구조를 근본적으로 바꿀 잠재력이 있습니다.

---

### 5. 논의 및 반론

물론 반대 의견도 있습니다.

* “LLM은 더 깊은 언어 이해력을 갖고 있어 여전히 필요하다.”

* “LLM은 중앙화되어 있어 대규모 서비스에 더 효율적이다.”

  연구진은 이에 대해 이렇게 반박합니다.

> “SLM은 특정 업무에 맞춰 쉽게 미세조정이 가능하고, 실제로 필요한 기능만 수행한다면 ‘더 작고 단순한 모델’이 오히려 더 적합하다.”

또한, 장기적으로는 **‘혼합형 시스템(heterogeneous system)’**, 즉 SLM이 기본으로 돌고,

필요할 때만 LLM을 호출하는 형태가 이상적이라고 제안합니다.

---

### 6. LLM → SLM 전환 절차 제안

연구진은 기업이 실제로 LLM을 SLM으로 대체할 수 있는 절차를 제시합니다.

1. **데이터 수집:** 에이전트가 수행한 명령·응답 데이터를 안전하게 기록

2. **데이터 정제:** 개인정보나 민감한 정보 제거

3. **작업 분류:** 유사한 업무를 묶어 SLM이 처리할 수 있는 단위로 분할

4. **모델 선정 및 미세조정:** 각 업무에 맞는 SLM을 선택해 학습

5. **지속 개선:** 새로운 데이터로 주기적으로 업데이트

이 과정을 거치면 기존 LLM 기반 에이전트를 단계적으로 SLM 중심으로 바꿀 수 있다고 합니다.

---

### 7. 연구의 의의와 시사점

이 논문이 던지는 메시지는 단순하지만 강력합니다.

> **“AI의 미래는 크기가 아니라 효율성에 달려 있다.”**

SLM의 확산은 단지 기술적 선택이 아니라,

* **환경적 지속가능성** (전력 사용량 절감)

* **AI 접근성 향상** (누구나 모델 개발 가능)

* **비용 혁신** (운영비 대폭 절감)

  을 동시에 달성할 수 있는 변화입니다.

즉, 지금까지의 “더 크고 복잡한 AI 경쟁”에서 벗어나,

**“작고 똑똑한 AI의 시대”**로 전환하자는 선언이기도 합니다.

---

### 🔍 이 연구가 중요한 이유

AI가 사회 전반으로 확산될수록 “누가 AI를 운영하고, 얼마나 효율적으로 돌리느냐”가 핵심 경쟁력이 됩니다.

이 논문은 “모두가 거대한 모델을 쓸 필요는 없다”는 점을 수학적·경제적으로 뒷받침하며,

AI 산업의 구조를 **집중형(LLM 중심)** 에서 **분산형(SLM 중심)** 으로 바꾸는 방향을 제시합니다.

결국, 이 연구는 **AI 기술의 민주화(democratization)** —

즉, 더 많은 개인과 기업이 자신만의 ‘맞춤형 AI’를 직접 만들 수 있는 미래 —

그 첫걸음을 보여주는 선언문이라 할 수 있습니다.


grok

### 작은 언어 모델(SLM)이 에이전트 AI의 미래가 될 이유

#### 연구 배경

AI 에이전트(자율적으로 작업을 수행하는 AI 시스템)가 빠르게 성장하고 있습니다. 2024년 말 기준으로 대형 IT 기업의 절반 이상이 AI 에이전트를 사용 중이며, 시장 규모는 52억 달러에서 2034년 2,000억 달러로 확대될 전망입니다. 현재 대부분의 에이전트는 대형 언어 모델(LLM, 예: GPT 시리즈)을 기반으로 하며, 이는 클라우드 서버에서 중앙 집중식으로 운영됩니다. 하지만 에이전트 작업은 반복적이고 단순한 경우가 많아, LLM의 범용성은 과도할 수 있습니다.

#### 연구 목적

NVIDIA 연구팀은 SLM(소비자 기기에 탑재 가능하고 빠른 응답이 가능한 작은 모델, 대개 10억 파라미터 이하)이 에이전트 AI에 더 적합하다고 주장합니다. SLM은 충분한 성능을 발휘하면서 운영 비용을 절감하고 유연성을 제공하며, LLM과 결합된 혼합 시스템을 제안합니다. 이는 AI 자원의 효율적 사용을 촉진하고 비용을 낮추는 것을 목표로 합니다.

#### 연구 방법

이 논문은 '포지션 페이퍼' 형식으로, 기존 SLM 사례(마이크로소프트 Phi, NVIDIA Nemotron, Hugging Face SmolLM 등)를 분석하고 논증합니다. SLM의 강점(상식 추론, 도구 호출, 지시 따르기)을 벤치마크로 입증하며, 반대 의견(LLM의 일반성 우월, 중앙화 비용 이점)을 반박합니다. 또한 LLM에서 SLM으로 전환하는 알고리즘을 제안: 데이터 수집, 큐레이션, 작업 클러스터링, SLM 선택, 파인튜닝, 반복 개선의 6단계입니다. 부록에서는 오픈소스 에이전트(MetaGPT, Open Operator, Cradle) 사례 연구로 교체 가능성을 추정합니다.

#### 연구 결과

SLM은 LLM과 비슷한 성능을 보이면서 10~30배 빠르고 저비용입니다. 예를 들어 Phi-2(27억 파라미터)는 300억 파라미터 LLM과 동등한 추론·코드 생성을 하며, Nemotron-H는 30억 파라미터로 300억 LLM 수준의 지시 따르기를 달성합니다. 에이전트 시스템에서 SLM은 반복 작업(도구 호출, 출력 형식화)에 적합하며, 비용 절감(에너지, 미세 조정 시간)과 엣지 배포(개인 기기 실행)를 가능하게 합니다. 사례 연구 결과, LLM 호출의 40~70%를 SLM으로 대체 가능합니다.

#### 고찰

반대 의견으로 LLM의 '의미 허브'(다양한 지식 통합)와 중앙화 비용 이점이 제기되지만, 연구팀은 SLM의 특화 미세 조정과 추론 확장으로 반박합니다. 채택 장애물로는 대규모 LLM 투자, 범용 벤치마크 중심 개발, SLM 인식 부족을 지적하며, 이는 기술 발전(예: NVIDIA Dynamo)으로 극복 가능하다고 봅니다. 혼합 시스템(주요 작업 SLM, 복잡 작업 LLM)이 이상적이며, 데이터 수집을 통해 자연스러운 SLM 전문화가 가능합니다.

#### 의의와 시사점

이 연구는 에이전트 AI를 비용 효과적이고 지속 가능하게 만듭니다. SLM 도입으로 에너지 소비와 서버 비용을 줄여 환경 부담을 완화하고, 민주화(더 많은 개발자 참여)를 촉진합니다. 실무적으로 LLM-to-SLM 전환 알고리즘은 기존 시스템을 쉽게 업그레이드할 수 있게 하며, 오픈소스 에이전트 사례는 실제 적용 가능성을 보여줍니다. 이는 AI 산업이 자원을 낭비하지 않고 효율적으로 발전할 방향을 제시합니다.

이 연구가 중요한 이유는 AI의 폭발적 성장 속에서 자원 낭비를 막고 비용을 낮춤으로써, 더 많은 사람이 AI 혜택을 누릴 수 있게 하기 때문입니다. 논문은 토론을 촉진하며, AI의 미래를 더 접근 가능하고 책임감 있게 만들려는 노력을 강조합니다.


NotebookLM

이 논문은 "에이전트 AI의 미래는 소형 언어 모델(SLM)에 달려 있다"는 입장을 명확히 밝히고 있으며, 왜 거대 언어 모델(LLM) 대신 SLM이 에이전트 시스템에 더 적합하고 경제적이며 강력한 솔루션인지를 논리적으로 설명합니다.

---

## 블로그 포스팅: 에이전트 AI의 미래: 작지만 강력한 언어 모델(SLM)의 시대가 온다

### 1. 연구 배경: 거대 언어 모델(LLM)이 장악한 에이전트 AI 시장

최근 인공지능(AI) 에이전트의 배포가 급증하고 있으며, IT 대기업의 절반 이상이 AI 에이전트를 적극적으로 사용하고 있을 정도로 시장 가치는 매우 높습니다.

현재 대부분의 AI 에이전트는 **LLM(거대 언어 모델)**을 핵심 구성 요소로 사용합니다. LLM은 인간에 가까운 광범위한 성능과 일반적인 대화 능력을 인정받으며, 에이전트가 전략적 의사 결정, 복잡한 작업을 관리 가능한 하위 작업으로 분해, 그리고 도구 사용 시점을 계획하는 데 필요한 근본적인 지능을 제공해왔습니다. 이러한 운영 방식은 일반적인 LLM 하나가 다양한 대규모 요청을 처리하는 중앙 집중식 클라우드 인프라에 막대한 자본 투자를 유치하며 업계의 표준으로 깊이 자리 잡았습니다.

하지만 이 논문은 이러한 **표준적인 운영 모델의 한 측면**에 대해 이의를 제기합니다. 에이전트의 요청 대부분은 비교적 단순함에도 불구하고 단일의 범용 LLM에 의존하여 처리되는 현재의 관행을 문제 삼습니다.

### 2. 연구 목적 및 핵심 주장: SLM으로의 전환이 필연적이다

이 연구의 목적은 다음과 같습니다. 에이전트 시스템에서 언어 지능을 활용하는 요청이 비교적 단순함에도 불구하고 범용 LLM을 사용하는 관행에 도전하고, **SLM(소형 언어 모델)**이 에이전트 AI의 미래가 될 것이라는 입장을 제시하고 방어하는 것입니다.

**SLM은 무엇인가요?**

SLM은 일반 소비자용 전자 기기에 탑재될 수 있으며, 한 사용자에게 에이전트 요청을 제공할 때 실용적인 수준의 낮은 지연 시간으로 추론을 수행할 수 있는 언어 모델입니다. (참고: 2025년 기준, 100억 개 미만의 매개변수를 가진 모델이 SLM으로 간주될 수 있습니다).

저자들은 **SLM이 에이전트 AI의 미래**가 될 것이라고 주장하며, 이는 SLM이 다음과 같은 세 가지 핵심 가치(V1~V3)를 가지고 있기 때문이라고 설명합니다:

*   **V1 (능력):** 에이전트 애플리케이션의 언어 모델링 작업을 처리하기에 **원칙적으로 충분히 강력합니다**.

*   **V2 (적합성):** LLM보다 에이전트 시스템에서 사용하기에 **운영적으로 더 적합합니다**.

*   **V3 (경제성):** 작은 크기 덕분에 범용 LLM보다 에이전트 시스템 내 LM 사용의 **대부분 경우에 반드시 더 경제적입니다**.

### 3. 주요 논거 및 증거: 작지만 강력한 SLM

논문은 SLM이 LLM을 대체해야 하는 이유를 구체적인 논거(Arguments)를 통해 제시합니다.

#### A. SLM은 이미 충분히 강력합니다 (V1 지원)

최근 몇 년 동안 SLM의 성능은 비약적으로 발전했습니다. 새로운 SLM들은 과거의 LLM에 필적하거나 그 이상의 성능을 보여주고 있습니다. 특히 에이전트 작업에 필수적인 상식 추론, 도구 호출, 코드 생성, 명령어 준수 능력에서 뛰어난 성과를 보입니다.

*   **예시:** Microsoft Phi-2 (27억 개 매개변수)는 300억 개 모델과 유사한 상식 추론 및 코드 생성 점수를 달성하면서 약 15배 더 빠르게 실행됩니다. Salesforce xLAM-2-8B (80억 개)는 GPT-4o나 Claude 3.5와 같은 최신 모델을 능가하는 도구 호출(Tool Calling) 성능을 보였습니다.

*   결론적으로, 현대의 훈련 기법과 에이전트 증강 기법을 사용하면 **성능은 이제 매개변수 수가 아니라 역량에 의해 좌우됩니다**.

#### B. SLM은 훨씬 경제적입니다 (V3 지원)

에이전트 워크플로우에서 비용 효율성, 적응성, 배포 유연성은 매우 중요하며, SLM은 여기서 상당한 이점을 제공합니다.

*   **추론 효율성:** 700억~1750억 개 매개변수 LLM을 서비스하는 것보다 70억 개 SLM을 서비스하는 것이 **10~30배 더 저렴**하며, 이는 대규모 실시간 에이전트 응답을 가능하게 합니다.

*   **미세 조정(Fine-tuning) 민첩성:** SLM의 미세 조정은 몇 시간의 GPU 작업으로 가능하여, 행동 추가, 수정 또는 전문화가 몇 주가 아닌 하룻밤 사이에 가능합니다.

*   **모듈식 시스템 설계:** 복잡한 작업을 하나의 거대한 모델(LLM)에 맡기기보다, 작고 특화된 전문가(SLM) 모델들을 추가하여 시스템을 확장하는 접근 방식(‘레고’ 같은 구성)이 비용 효율적이며, 디버깅이 빠르고, 배포가 용이하며, 지속 가능한 에이전트 AI를 위한 최적의 경로를 제공합니다.

#### C. SLM은 에이전트 작업에 더 유연하고 적합합니다 (V2 지원)

에이전트 애플리케이션은 실제로 **LLM의 제한된 기능만을 사용**합니다. 범용 모델은 까다롭게 작성된 프롬프트와 정교한 컨텍스트 관리를 통해 본래의 넓은 능력 중 작은 영역에서만 작동하도록 제한됩니다.

*   **행동 정렬의 필요성:** 에이전트가 코드를 호출하거나 코드가 모델의 출력을 구문 분석할 때(예: JSON, XML 형식) **엄격한 형식 요구 사항을 준수**하는 것이 필수적입니다. 범용 LLM은 때때로 기대와 다른 형식으로 응답하는 환각적 오류를 일으킬 수 있으나, 단일 형식 결정에 맞춰 미세 조정된 SLM이 에이전트 시스템의 맥락에서는 선호됩니다.

*   **자연스러운 이종 시스템:** 에이전트 시스템은 기본적으로 여러 크기와 능력을 가진 모델을 혼합하여 사용할 수 있도록 설계되어 있습니다. 예를 들어, 복잡한 추론이 필요한 부분에는 LLM을, 간단하고 반복적인 작업에는 SLM을 사용하여 효율을 높이는 **이종 에이전트 시스템**을 구축할 수 있습니다.

### 4. 고찰: LLM에서 SLM으로의 전환 방법 (전환 알고리즘)

현재 LLM을 사용하고 있는 에이전트 애플리케이션도 SLM 전문가로 전환할 수 있습니다. 논문은 고통 없이 모델을 교체하는 6단계 알고리즘을 제시합니다.

1.  **사용 데이터 수집:** 모든 비(非)인간-컴퓨터 인터페이스(HCI) 호출을 기록하고 프롬프트, 응답, 도구 호출 내용을 수집합니다.

2.  **데이터 큐레이션 및 필터링:** 수집된 데이터(미세 조정에는 보통 1만~10만 개의 예시가 충분)에서 민감한 데이터나 개인 식별 정보(PII)를 제거합니다.

3.  **작업 클러스터링:** 수집된 프롬프트와 에이전트 행동에 비지도 클러스터링을 적용하여 반복되는 패턴(예: 의도 인식, 데이터 추출, 요약 등)을 식별하고 SLM 전문화 후보 작업을 정의합니다.

4.  **SLM 선택:** 각 식별된 작업에 대해 SLM의 능력, 벤치마크 성능, 라이선스, 배포 공간 등을 기준으로 후보 SLM을 선택합니다.

5.  **전문 SLM 미세 조정:** 큐레이션된 데이터를 사용하여 선택된 SLM 후보를 작업별 데이터셋으로 미세 조정합니다. 계산 비용을 줄이기 위해 LoRA/QLoRA와 같은 PEFT 기법이나, 더 강력한 LLM의 출력을 모방하도록 SLM을 훈련하는 지식 증류(Knowledge Distillation) 기법을 사용할 수 있습니다.

6.  **반복 및 개선:** 성능 유지를 위해 새로운 데이터를 사용하여 SLM과 라우터 모델을 주기적으로 재훈련합니다.

### 5. 의의와 시사점: 왜 이 연구가 중요한가?

이 연구는 **에이전트 AI 산업의 운영 및 경제적 측면에서 중대한 변화**를 예고합니다.

LLM 중심에서 SLM 중심 아키텍처로의 패러다임 전환은 단순한 기술적 개선을 넘어섭니다. AI 커뮤니티가 인프라 비용 상승 및 환경 문제에 직면함에 따라, 에이전트 워크플로우에서 SLM 사용을 채택하고 일반화하는 것은 **책임감 있고 지속 가능한 AI 배포를 촉진하는 데 결정적인 역할**을 할 수 있습니다.

현재 SLM 채택을 가로막는 장벽(중앙 집중식 LLM 인프라에 대한 대규모 초기 투자, 일반적인 벤치마크에 대한 SLM 설계의 집중, 낮은 대중적 인식 등)은 기술적인 결함이 아닌 **실질적인 관성**에 불과합니다.

이 연구가 중요한 궁극적인 이유는 다음과 같습니다.

> 에이전트 AI 산업은 화이트칼라 업무 등에 혁신적인 영향을 미칠 잠재력을 보여주고 있으며, **AI 인프라의 비용 절감 및 지속 가능성 개선은 이러한 혁신을 가속하는 촉매제 역할**을 할 것이기 때문입니다. SLM은 비용 효율성(A2)과 운영 적합성(A5)을 통해 이 목표를 달성하는 가장 확실한 경로를 제시합니다.

---

마치 복잡한 대형 병원(LLM)이 모든 환자(에이전트 요청)를 진료하는 대신, 작고 전문화된 동네 병원(SLM)들이 반복적이고 특화된 경증 환자들을 맡아 훨씬 빠르고 저렴하며 효율적으로 처리하는 시스템으로 전환되는 것과 같습니다. 이는 전체 의료 시스템(AI 에이전트 산업)의 효율성과 지속 가능성을 획기적으로 향상시킬 수 있습니다.


perplexity.ai

다음은 첨부하신 논문 "Small Language Models are the Future of Agentic AI"의 핵심 내용을 일반인도 이해하기 쉽게 요약한 글입니다.

***

### 연구 배경

최근 몇 년간 대형 언어모델(LLM, 예: GPT-4 등)이 뛰어난 능력을 보여주며 AI 산업의 중심으로 자리잡았습니다. 이 대형모델들은 대화와 다양한 작업에서 사람과 비슷한 수준의 성능을 보이며, 많은 기업과 서비스에서 활용되고 있습니다. 한편, AI 요원(에이전트) 시스템이 부상하며, 반복적이고 특화된 소규모 작업이 급증하고 있는데, 이런 환경에 꼭 '대형' 모델만이 필요한지에 대한 의문이 커지고 있습니다. 이 논문은 "실제로는 많은 에이전트 작업에서 대형모델보다 소형 언어모델(SLM)이 더 적합할 수 있다"고 주장합니다.[1]

### 연구 목적

논문의 주된 목적은 "AI 에이전트 분야에서 대형모델 대신 소형 언어모델이 더 효율적이고 적합하며, 미래에는 소형모델이 주요한 역할을 차지하게 될 것"이라는 점을 논리적으로 제시하는 것입니다. 특히, 경제적·환경적 관점에서 볼 때 소형모델의 장점이 점점 더 중요해질 것임을 강조합니다.[1]

### 연구 방법

논문은 다음과 같은 방식으로 주장을 펼칩니다.[1]

- **현재 SLM 기술의 수준**: 최신 SLM이 실제로 어떤 작업에서 LLM과 비슷한 성능을 보이는지 실제 사례와 벤치마크 데이터를 제시합니다.

- **경제성 분석**: SLM이 LLM보다 비용 면에서 얼마나 유리한지, 유지·운영, 파인튜닝(미세수정), 에지 디바이스(일반 PC나 스마트폰 등) 적용성 측면에서 설명합니다.

- **시스템 구조 논의**: 여러 모델(LLM, SLM)이 함께 동작하는 복합 시스템의 효율성과 실용성을 논의합니다.

- **대체 가능성 사례**: 실제 오픈소스 에이전트 프로젝트에서 SLM이 LLM을 대체할 수 있는 비율을 분석합니다.

### 연구 결과

- **소형모델의 기능적 충분성**: 최신 소형모델은 특정한 반복 작업, 도구 호출, 코드 생성, 지시 수행 등에서 대형모델과 대등하거나 더 빠른 성능을 보이기도 합니다(예: Phi-2, Nemotron, SmolLM 등).[1]

- **경제적 이점**: SLM은 LLM 대비 최대 수십 배 저렴한 비용, 낮은 에너지 소비, 더 적은 컴퓨팅 자원으로 운영할 수 있어 실시간·대량 서비스에 적합합니다.[1]

- **유연성 및 현장 배치 용이성**: SLM은 보다 쉽고 빠르게 특정 작업에 맞게 미세수정할 수 있고, 일반 PC나 모바일에서도 작동할 수 있어 개인화·현장배치가 용이합니다.[1]

- **실제 적용 사례**: 메타GPT, 크래들(Cradle), 오픈 오퍼레이터 등 대표 에이전트 플랫폼의 40~70% 작업에서 SLM이 충분히 대체 가능하다고 분석했습니다.[1]

### 고찰 및 시사점

- **기존 관행 비판**: 지금 대부분의 에이전트 시스템이 대형모델 일변도에 기반하는데, 실제 필요성이나 효율성보다는 인프라 투자 등 관성에 의해 그렇게 된 면이 있다는 점을 지적합니다.[1]

- **SLM 중심 구조로의 전환 필요**: 대규모 파워와 범용성만을 강조하기보다는, 실제 현장에서는 단순·특화된 반복 작업이 많으므로, SLM 중심 구조가 데이터센터 비용과 에너지, 환경부하까지 줄일 수 있습니다.

- **혁신과 다양성 촉진**: SLM은 개발과 배포의 진입장벽이 낮아져 다양한 개발자·조직의 참여가 가능해지고, 결과적으로 AI 활용의 민주화·다양성을 높일 수 있습니다.

### 의의와 본 연구의 중요성

이 논문은 앞으로의 AI 에이전트 및 산업에서 '더 크고, 더 범용적인 모델'이 아닌 '적절히 작은, 목적에 맞는 모델'이 더 적합할 수 있음을 실증적으로 보여주고, 실제 서비스와 산업 생태계에 큰 변화를 시사합니다. 중앙 집중형 LLM 인프라 일변도에서 벗어나, 에너지를 덜 쓰고 더 많은 기기에, 사용자 맞춤형으로 AI를 공급할 길을 제시합니다. 이 변화는 AI의 경제적 효율성과 환경 지속가능성 두 측면에서 모두 매우 의미 있으며, 앞으로 AI 기술 발전과 사회적 활용 방식 전반에 걸쳐 깊은 함의를 가질 것입니다.[1]




출처: @ye._.vely618

수요일, 12월 03, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (5)

한달여 정도 chatGPT와 gemini에 물어보면서 개발 기획서를 정리한 내용으로 각각의 LLM들이 작성한 코드들을 한번 돌려보는 시간을 가져본 내용을 공유하려고 합니다. :)

지금까지의 요청 내용은 줄글, 풀어쓴 내용들이어서 LLM이 이해하기 쉽게 작성하라고 하니 아래처럼 작성한다고 하길래 가급적 한번 구성을 맞춰보았습니다.


# 금융 데이터 시각화/관리 웹 플랫폼 개발 기획서

## 1\. 개요

  * **목표:** MongoDB에 저장된 한국/미국 주식, 지수, 환율 데이터를 로컬 웹 환경에서 시각화하여 조회하고, 관련 메타데이터(티커명 등)를 관리할 수 있는 대시보드 구축
  * **핵심 가치:** 다양한 금융 데이터의 직관적인 차트 시각화(캔들스틱, 이동평균선) 및 상호 비교 분석 기능 제공

## 2\. 기술 스택 및 환경

  * **Language:** Python 3.12
  * **Web Framework:** Flask 3.0.3
  * **Database:** MongoDB (PyMongo 4.15.3)
  * **Data Processing:** Pandas 2.2.2, NumPy 1.26.4
  * **Frontend (권장):** Jinja2 템플릿 + 차트 라이브러리 (Plotly.js 또는 ApexCharts, Highcharts 등 금융 차트 지원 라이브러리 활용 예정)

## 3\. 데이터 모델링 (Database Schema)

finance.json 참고

## 4\. 기능 상세 명세

### 4.1. 공통 기능 (User Interface)

  * **검색 기능:**
      * 모든 뷰어 상단에 검색바 제공
      * **검색 기준:** Ticker(코드) 또는 Name(종목명)
      * **자동 완성(Autocomplete):** 키워드 입력 시 매칭되는 종목 리스트 드롭다운 제공
      * **신규 생성하는 ticker_metadata의 ticker나 name을 참조 할것

  * **차트 공통 요건 (캔들스틱):**
      * **X축(시간):** 휴장일(데이터가 없는 날)은 차트에서 제외하여 캔들이 연속적으로 보이도록 처리 (Gap 제거).
      * **기간 설정:** 기본 1개월 뷰. 마우스 휠 또는 슬라이더로 기간 축소/확대(Zoom In/Out) 가능.
      * **축소/확대:** 축소 확대 시 기본적으로 보여주는 1개월 외에 이전 정보들을 보여줘야함
      * **뷰 기간:** 차트 상단에 일주일, 1개월, 3개월, 6개월, 금년, 1년, 3년 5년 10년, 최대 등 버튼으로 초기 설정된 기간의 차트를 확인 할 수 있어야함.
      * **차트 타입:** OHLC(시가, 고가, 저가, 종가) 캔들스틱 차트.

### 4.2. 페이지별 상세 요건

#### A. 한국 주식 뷰어 (`korean_stocks`)

  * **검색:** Ticker(숫자 6자리) 및 종목명(예: 삼성전자)
  * **보조 지표 (이동평균선):** 5일, 20일, 60일, 120일 선 표시

#### B. 미국 주식 뷰어 (`us_stocks`)

  * **검색:** Ticker(영문) 및 종목명(예: Microsoft)
  * **보조 지표 (이동평균선):** 5일, 10일, 20일, 50일, 200일 선 표시

#### C. 지수 정보 뷰어 (`indices`)

  * **검색:** Ticker 및 관리자가 지정한 지수명
  * **보조 지표 (옵션 선택 가능):**
      * 옵션 1: 5, 20, 60, 120일 이평선
      * 옵션 2: 5, 10, 20, 50, 200일 이평선

#### D. 환율 정보 뷰어 (`currencies`)

  * **검색:** Ticker 및 관리자가 지정한 환율명
  * **차트:** 기본 캔들스틱 차트 (이동평균선 필수 요건 없음, 필요시 추가)

#### E. 통합 비교 뷰어 (Comparison)

  * **기능:**
      * 한국주식, 미국주식, 지수, 환율 중 2개 이상의 대상을 검색하여 추가/삭제 가능.
      * 서로 다른 스케일(가격 단위) 문제 해결 로직 적용.
  * **비교 로직 (해결 방안):**
    1.  **2개 종목 비교 시:** **Dual Y-Axis (이중 축)** 적용. 왼쪽 축은 A종목 가격, 오른쪽 축은 B종목 가격 표시.
    2.  **3개 이상 또는 스케일 차이가 극심할 때:** **정규화(Normalization)** 차트 옵션 제공.
          * 시작 시점을 0% 또는 100으로 기준 잡고 **등락률(%)** 그래프로 변환하여 비교.


### 4.3. 관리자(Admin) 페이지

  * **데이터 업데이트 관리:**
      * 각 카테고리별(한국주식, 미국주식, 지수, 환율) 데이터 수집/업데이트 실행 버튼 제공 (백엔드 크롤러/API 트리거).
      * 한국주식: update_kr.py
      * 미국주식: update_us.py
      * 지수: update_index.py
      * 환율: update_currency.py
      * 각 업데이트 버튼시 각각의 스크립트가 백그라운드에서 작동되도록 구현
      * 업데이트 시 `finance_db`내 각각의 종목 중 마지막 날짜 이후 정보만 업데이트 하도록 구성
  * **관리 리스트 편집:**
      * 데이터를 수집/관리할 대상 종목 리스트(Ticker 목록) 추가/삭제 기능.
      * 참고할 collection은 `ticker_metadata` 임.
      * 관리 리스트 편집 페이지는 한국주식, 미국주식,지수,환율운 각각 tab이나 별도의 페이지에서 리스트를 확인 할 수 있을 것
      * 한 페이지에 많은 데이터를 보여줄 수 없기에 pagination 기능이 필요
  * **메타데이터 관리 (Ticker Map):**
      * `ticker_metadata` 컬렉션에 대한 CRUD 제공.
      * Ticker에 매핑되는 `name`(사용자 표시 이름) 수정 기능.
      * 동일한 페이지에서 update할 수 있는 기능이 필요 개별 item별로 name과 marker type을 수정해서 적용하거사 해당 페이지에서 수정된 item들을 적용하도록 기능을 구현할 것.

-----

## 5\. UI/UX 제안 사항 (추가 제안)

  * **반응형 레이아웃:** 뷰어 영역을 최대한 확보하기 위해 사이드바 메뉴(Collapsible Sidebar) 형태 권장.
  * **차트 라이브러리:** `Plotly` 또는 `Lightweight Charts (TradingView)` 사용 권장. (휴장일 스킵 기능 및 줌/팬 성능이 우수함).

-----

## 6. 실행
1.  **데이터 업데이트 로직:**
      * 관리자 페이지의 '업데이트 버튼'을 눌렀을 때 실제로 데이터를 가져오는 python script는 02.mongodb_update_fix.py 파일을 참고하면 됩니다. 이 파일을 참고해서 각각의 항목에 맞도록 스크립트를 분리/작성해줘.

2. **바로 사용 가능하도록 코드 작성**
     * 지금 바로 수행가능한 app.py파일과, html, js, css 모든 파일을 flask가 작동가능한 디렉토리 구조에 맞게 작성해줘
     * 가능하면 zip으로 압축해서 한번에 다운로드 받을 수 있게 해줘


결과적으로 gemini 제외하고 zip파일을 다운로드 받을 수 있게 링크는 제공해 주었으나 그 링크를 통해서 zip파일을 다운로드 받을 수 있는 것은 없었습니다. 다만 gemini는 링크 대신에 위의 기능을 구현한 파일을 zip파일로 압축하는 python 스크립트를 제공해주었습니다. 한... 30kb짜리 파이썬 스크립트를 내놓더라구요 ㅎㅎ 

위 내용을 바탕으로 chatGPT, gemini, grok, kimi, perplexity에 코드를 작성해달라고 25년 12월 1일 월요일에 요청하였고, 모두 무료 버전의 LLM으로 한번 물어보고 테스트를 진행하였습니다.

아, pseudo zip파일 링크만 준 녀석들은 다시 코드 내놔해서 한땀 한땀 코드를 복붙 했습니다. ㅎㅎ 


gemini : flask 구동시 필요한 파일이 모두 작성되었던 유일한 모델

chatGTP: 압축파일은 못 만들었지만 GTP도 필요한 파일은 모두 제시해 줬음

grok: flask의 app.파일에는 작성되어져 있었지만 template 폴더 내 일부 html 파일이 없어서 다시 요청했었음. 필요했던 파일이 5개 였다면 2개 정도가 비어 있음

kimi: 압축파일은 못만들었지만 GTP도 필요한 파일은 모두 제시해 줬음

perplexity: grok처럼 flask의 app.py파일에는 작성되어져 있었지만 template 폴대내 대부분의 생성되어 있어야할 html 파일들이 대부분 누락(10개가 필요하다면 8개가 없음). perplexite는 별 기대 안하고 요청해본 모델이어서 별 기대 없었습니다. :)

그리고 각 flask를 한번씩 돌려본 것을 남겨보자면...

요청서가 자세하지 않아서 모델들이 제대로 이해를 못한 결과 제대로된 결과물이 나오지 않은 것으로 각각의 화면을 한땀 한땀 설명하는 프롬프트를 작성해야할듯으로 보이네요

모든 모델에서 이상하게 mongodb에서 주가정보를 load하지 못했다는 공통점이 있어서 요청서에 문제가 있어보이긴 합니다. 그래도 grok와 kimi 모델에서는 메타데이터 관리를 위한 기능은 작동되는 것이 신기하긴 했습니다. :)

결론: 요청서나 설명하는 문장을 좀 더 다듬어 보는 걸로 



출처: @ye._.vely618

화요일, 11월 04, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (2)

기존에 사용하던 sqlite3 기반으로는 매주 없데이트 하는데 시간이 오래 걸려서 mongodb로 한번 변경해보는 작업을 진행하였는데 만족스러웠습니다. 

※ mongodb가 상장되어 있는지도 몰랐는데 이번 Dan ives의 ETF(IVES, IVE아닙니다. 물론 IVE도 있고 IVE도 있습니다.)에 mongodb(MDB)가 포함되어 있어 간만에 다시 mongodb를 사용해보기로 하여 아래와 같이 환율, 지수, 주가 정보를 업데이트하는 코드를 수정해 보았습니다.


첫번째 수정작업(Gemini)

(기존에 sqlite3로 사용하던 스크립트 업로드) 첨부한 파일은 기존에 sqlite3를에 테이블을 생성해서 파이썬으로 야후 파이낸스에서 각 ticker 정보를 검색해서 sqlite3로 저장하는 스크립트들 입니다.
환율과 지수, 한국주식, 미국주식 정보를 가져와서 sqlite3 테이블에 저장하는 것입니다.
나는 이 스크립트를 mongodb와 python을 사용해서 작동하도록 하고 싶습니다.
몽고디비는 내 컴퓨터에 설치하였습니다.
첨부한 파일의 스크립트를 참고하여 데이터베이스와 table을 생성하는 코드를 작성해줘 그리고 두번째로는 설치한 몽고DB(mongodb://localhost:27017)에 ticker를 업데이트하는 파이썬 코드를 작성해줘.
현재는 sqlite3에서 table lock로 한번에 한개의 정보만 다운로드 받아 insert하도록 되어있습니다. 환율,야후파이낸스에서 지수,한국주식,미국주식정보를 빠르게 받을 수 있도록 개선된 파이썬 코드를 작성해줘.
python 3.12 버전, yfinance 0.2.61 기준으로 코드를 작성해줘


아쉽게도 기존에 LLM으로는 해결하지 못했던 Session 문제가 그대로 노출되어서 아래와 같이 기존에 문제없이 사용하는 Session 코드를 그대로 보여주고 참고하라고 해서 다행이 잘 해결되었네요

두번째 수정작업(chatGPT)

(생성한 파일 중 update.py파일을 업로드)오류가 발생하여 정상적으로 db에 정보가 쌓이지 않고 있습니다. 문제가 있는 부분을 확인해서 수정해줘.

그리고
# 세션 생성 및 User-Agent 설정 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36'} session = requests.Session(impersonate="chrome", headers=headers, verify=False)
이 코드를 참고해서 세션 연결을 ticker 다운로드 할 떄마가 하는것이 아니라 스크립트 시작시 세션을 연결하고 모든 작업이 끝나면 세션을 닫으세요


chatGPT가 확인해준 원인들 
(일부 원인이 될 수 있지만 정확하게 해결해주지는 못하더라구요) 

구분 원인 설명
1 requests.Session()yfinance.download()의 호환성 문제 yfinance.download()requests가 아닌 yfinance.shared._session 기반으로 동작합니다. curl_cffi.requests.Session을 전달하면 TypeError 또는 AttributeError가 발생할 수 있습니다.
2 ❌ MongoDB date 필드 처리 오류 datetime.date 객체는 PyMongo가 BSON 변환 시 오류를 일으킬 수 있습니다. datetime.datetime 객체로 저장해야 합니다.
3 latest_dates 집계 시 strftime() 호출 오류 doc['max_date']datetime이 아닌 str로 들어오는 경우 .strftime() 호출 시 AttributeError 발생 가능성이 있습니다.
4 ⚠️ 중복 삽입 방지 미비 insert_many()를 단순 실행하면 중복 데이터가 계속 쌓이거나 오류로 중단될 수 있습니다.
5 ⚠️ 병렬 실행 시 세션 공유 문제 ThreadPoolExecutor 내부에서 yfinance.download() 호출 시 세션/캐시 충돌 가능성이 있습니다.
6 ⚠️ 한국 주식 Ticker 일부 .KQ 종목이 오류 발생 코스닥 종목이 .KS로 지정되어 다운로드 실패 가능성 있습니다.



그래서 아래와 같이 정상 적동하는 2개의 스크립트를 얻게 되었습니다. 

01.mongodb_setup.py

02.mongodb_update.py

다음에는 국내 부동산시세 정보도 알아서 모아올 수 있는 방법이 있는지 확인해보도록 하겠습니다. 물론 다른 서비스들이 있는것으로 봐서는 방법이 없지는 않겠지만 저는 실시간까지는 필요없으니 평이한 방법으로 시도해보도록 하겠습니다. :)



출처: @ye._.vely618


월요일, 10월 27, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (1)

오늘은 머리속으로만 생각해오던 Vibe coding 작업을 한번 해본 것 한번 끄적끄적 적어 올립니다.

이번 작업은 아마 좀 그럴듯해지는 결과물이 나올때 까지 시리즈로 올릴 계획입니다.

첫번째로 올리는게 LLM을 활용하고 AI를 도입한 무슨 무슨 유전체 분석 파이프라인이면 좋았을 수 도 있겠지만 자본주의 시장에서 Cash is King이니 환율, 주식, 지수를 한눈에 볼 수 있도록 하는 그럴듯한 차트를 만들어보는 것을 첫번째 주제로 잡아보았습니다.

당연히 제가 수정할 수 있도록 python, flask를 사용해서 작업해달라고 하고 있습니다.

지금은 chatGPT와 gemini에게 만들어달라고 해보고 있는데 grok와 perplexity를 이용할 예정입니다.

작성된 코드는 업데이트하여 계속 아래 제 github에 commit하도록 하겠습니다. :)

github: dashboard_poc


chatGPT에게 요청

나는 환율가격정보와 여러국가의 증권시장 지수 정보, 한국에 상장되어 있는 상장사들의 주가정보, 미국에 상장되어 있는 상장사들의 주가정보를 일자별로 개시가, 종가, 고가, 저가, 거래량 정보를 가지고 있습니다. 나는 이 정보들을 실시간으로 특정 기간 동안 또는 확인 할 수 있는 전체 기간 동안 비교 하고 싶어. 예를 들어 달라/원 환율정보, 한국의 삼성전자 주가, 미국의 나스닥 지수를 한국의 코스피 지수를 한 화면에 비교하면서 보고 싶어 환율가격정보와 여러국가의 증권시장 지수 정보, 한국에 상장되어 있는 상장사들의 주가정보, 미국에 상장되어 있는 상장사들의 주가정보들은 각각 sqlite3 데이터베이스 파일로 저장되어 있어.
환율가격정보는 finance_currency.db 파일에 currency라는 테이블에
symbol TEXT,
date DATE, open REAL,
high REAL,
low REAL,
close REAL,
volume INTEGER,
dividends REAL,
stock_splits TEXT 구조로 되어 있어. 
여러국가의 증권시장 지수 정보는 finance_index.db 파일에 stocks라는 테이블에, 한국에 상장되어 있는 상장사들의 주가정보는 finance_stock_kr.db파일에 stocks라는 테이블에, 미국에 상장되어 있는 상장사들의 주가정보는 finance_stock.db 파일에 stocks라는 테이블에 stocks라는 테이블에 저장되어 있습니다. 
stocks 테이블은 
symbol TEXT,
date DATE, open REAL,
high REAL,
low REAL,
close REAL,
volume INTEGER,
dividends REAL,
stock_splits TEXT 구조로 되어 있어. 
나는 Python 3.12 기준으로 FLASK를 사용해서 데이터베이스에 있는 환율가격정보와 여러국가의 증권시장 지수 정보, 한국에 상장되어 있는 상장사들의 주가정보, 미국에 상장되어 있는 상장사들의 주가정보들을 실시간으로 확인할 수 있는 웹페이지를 개발해줘.




gemini에게 요청
1. 환율, 인덱스지수, 한국주식종목, 미국주식종목은 각 데이터베이스에서 로딩하여 항목들을 보여주면 좋겠습니다. flask를 시작할 때 환율, 인덱스지수, 한국주식종목, 미국주식종목 의 데이터베이스에서 symbol 항목들을 먼저 불어와서 선택시 지연이 생기지 않으면 합니다.

2. 화면에서 환율, 인덱스지수, 한국주식종목, 미국주식종목 을 선택하는 하는 방법은 드랍다운 메뉴를 통해서 환율, 인덱스지수, 한국주식종목, 미국주식종목 을 선택 할 수 있으면 좋겠습니다. 동일한 화면에서 여러개의 항목을 보여주어야합니다. 추가할 때는 "추가"버튼 또는 "+" 아이콘을 클릭하면 추가 할 수 있으면 좋겠습니다. 그리고 추가한 항목을 삭제할 떄는 "-" 버튼을 클릭하여 항목을 언제나 추가, 삭제할 수 있어 사용자가 편리하게 환율, 인덱스지수, 한국주식종목, 미국주식종목의 항목을 조회할 수 있으면 좋겠습니다.

3. 환율, 인덱스지수, 한국주식종목, 미국주식종목 등 한 chart화면에 다양한 단위의 정보를 부여줘야합니다. Y축의 척도를 환율, 인덱스지수, 한국주식종목, 미국주식종목등 선택한 항목에 따라 동적(dynamic)으로 단위를 자동으로 확인하여 표시해주면 좋겠습니다.

환율은 교환하는 통화의 단위에 따라 표시가 어렵기에 인덱스지수 처럼 단위가 없이 표시해주면 됩니다.

한국주식종목은 원화 기준이기에 달라 기준인 미국주식종목과 단위가 없는 환율, 인덱스지수와 함께 표시할 때 상대적으로 큰 숫자로 표시되어 다른 항목들의 값이 정상적으로 표현되지 않을 수 있습니다.

사용자가 각 항목을 확인 할 때 불편하지 않도록 항목에 따라 Y축의 척도, 단위를 자동으로 구성해주면 좋겠습니다.

4. 환율, 인덱스지수, 한국주식종목, 미국주식종목 등 여러가지 그래프를 하나의 chart화면에서 보여 줄 때 모든 정보들이 보이지 않고 마지막으로 추가한 항목의 그래프만 보이는 오류가 발생할 수 있습니다. 이런 오류가 발생하지 않도록 코드를 오류 없이 작성해주세요.

5. 업로드한 파일은 초기에 작성한 python FLASK로 작성한 파일입니다. 참고하여 위의 요청사항들을 반영하여 사용자가 사용하기 편리하고 오류없는 python기반의 FLASK 사이트를 작성해줘.


첫번째는 chatGPT에게 대략적인 내용을 설명하고 코드를 작성해달라고 하였고, 이후 gemini에게 chatGPT가 작성한 코드를 바탕으로 추가 요청사항을 알려주었습니다.


그래서 아래와 같이 결과물이 나왔는데... 

물론 아직 멀었습니다. 일단 이쁘지가 않습니다. 그리고 Y축의 척도가 선택한 항목에 따라 동적으로 scale이 조정되면 좋을 것 같은데... 그렇지 않다보니 숫자가 작은 항목을 선택하면... 바닥에 기어가는 그래프들만 볼때가 있네요..


그래도 머리에 있는 내용을 타이핑해서 상대방에게 알려주는 것이 얼마나 어려운것인지 다시한번 느끼고 있으며 그럼에도 불구하고 이 내용을 A부터 Z까지 python이라지만 내가 코드를 작성할 수 있었을까? 라는 생각을 가지고 감탄하고 있습니다. :)


아이디어와 설명, 표현을 LLM에게 잘 한다면 사실 못할게 없을것 같네요. :)

그리고 위에서 얘기한것과 같이 다른 LLM들도 사용할 예정인데 품질 향상을 위해서가 아니라 무료 버전을 사용하고 있어서 하나의 모델에게 많은 일을 시키지 못해서 그렇습니다. :) 

음... 좀 번거롭긴 하지만 생각보다 약간씩 모델에 차이가 있다보니 여러 LLM을 돌려사용하면 품질이 조금 더 향상되지 않을까 합니다. ㅎㅎ
더 업데이트해서 지금보다 나은 결과물을 가지고 두번째 글을 쓰도록 하겠습니다. :)




출처: @ye._.vely618

수요일, 10월 08, 2025

AI 의사를 육성하는 가상 병원 ㄷㄷㄷㄷ

LLM기반으로 Agent를 알파고처럼 기본적인 role만 습득한채 환자를 진단하는 시뮬레이션을 무한히 돌려서 시행착오를 격게 함으로써 경험을 쌓게했는데 이게 또 현실에서의 의사 사람만큼의 성능을 발휘한다? 이게 되네? 

논문제목은 Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents 입니다. chatGPT의 답변중에 가장의 환자가 등장하는 스토리텔링으로 내용을 설명한것도 있습니다.

하.. 진짜 이게 되네;;;

DOI: 10.48550/arXiv.2405.02957


clova-x

Agent Hospital은 대규모 언어 모델(LLM)을 기반으로 한 자율 에이전트들이 의료 환경을 시뮬레이션하고 의사 에이전트들이 경험을 통해 전문성을 향상시킬 수 있도록 설계되었습니다. 이 연구는 Simulacrum-based Evolutionary Agent Learning (SEAL)이라는 새로운 패러다임을 도입하여, 인공지능이 실제 의료 문제 해결에 적용될 수 있는 가능성을 제시합니다.

1. **Agent Hospital의 개요**

   - Agent Hospital은 가상의 병원으로, 환자, 간호사, 의사 모두 LLM 기반의 자율 에이전트로 구성됩니다.

   - 병원의 모든 절차를 시뮬레이션하여 환자 치료 과정을 재현합니다.

2. **인공지능 기술의 발전**

   - LLM은 방대한 텍스트 데이터를 학습하여 의학 지식을 습득하며, 이를 통해 USMLE 스타일 질문에 인간 수준의 성능을 발휘합니다.

   - 자율 에이전트는 LLM을 두뇌로 삼아 환경과 상호작용하며, 인간처럼 계획하고 반성할 수 있습니다.

3. **Simulacrum-based Evolutionary Agent Learning (SEAL)**

   - SEAL은 두 가지 주요 요소인 시뮬라크럼 구축과 에이전트 진화로 구성됩니다.

   - 시뮬라크럼은 병원 환경을 생성하여 의사 에이전트가 다양한 의료 데이터를 통해 전문성을 갖출 수 있도록 돕습니다.

   - 에이전트 진화는 성공 및 실패 사례를 통해 의사 에이전트가 시간이 지남에 따라 능력을 향상시키도록 합니다.

4. **연구의 의의와 적용 가능성**

   - SEAL은 LLM을 특정 사용 사례로 맞춤화하고 수동으로 데이터를 주석화하는 대신, 자동으로 데이터를 생성하여 애플리케이션의 요구사항을 충족시킵니다.

   - 이 연구는 의료 AI뿐만 아니라 다양한 분야에 적용될 수 있는 잠재력을 지니고 있습니다.


gemini

## 🏥 AI 의사를 키우는 가상 병원: '에이전트 병원(Agent Hospital)' 논문 요약

---

이 논문은 대규모 언어 모델(LLM) 기반의 **자율 에이전트**를 활용하여 의사들이 실제 임상 경험을 통해 전문성을 쌓는 과정을 가상으로 구현한 혁신적인 연구입니다. 마치 게임처럼 작동하는 가상 병원에서 AI 의사들이 무한대의 가상 환자를 치료하며 스스로 진화하고, 이 전문성이 실제 의학 시험에서도 통한다는 것을 입증했습니다.

### 1. 연구 배경: 왜 가상 병원을 만들었나?

---

[cite_start]AI가 의학 분야에서 눈부신 발전을 거듭하고 있지만, 이는 주로 **지식 습득** 단계에 머물러 있습니다[cite: 1136]. [cite_start]기존의 대규모 언어 모델(LLM)은 방대한 의학 텍스트를 학습하여 미국 의사 면허 시험(USMLE) 수준의 문제도 풀 수 있을 정도로 지식은 뛰어나지만[cite: 1138], 이는 의사가 되는 과정 중 **교과서 지식 습득**에 해당합니다.

[cite_start]하지만 실제 의사가 되기 위해서는 환자를 직접 치료하는 **임상 전문성 습득**이 필수적입니다[cite: 1135]. [cite_start]기존 LLM은 실제와 같은 복잡한 병원 시나리오에서 경험을 쌓고 진화하는 능력이 부족합니다[cite: 1139]. 이 연구는 이 "임상 경험 습득" 단계를 AI에 구현하는 것을 목표로 했습니다.

### 2. 연구 목적: '경험'을 통해 진화하는 AI 의사

---

[cite_start]이 연구의 핵심 목표는 **'에이전트 병원(Agent Hospital)'**이라는 가상 환경을 구축하여 [cite: 1128, 1170][cite_start], 환자, 간호사, 의사 모두 LLM 기반의 자율 에이전트로 구성된 시뮬레이션을 만드는 것입니다[cite: 1171]. [cite_start]이 안에서 **AI 의사 에이전트**는 수많은 가상 환자를 치료하는 **실습**을 통해 **데이터를 수동으로 라벨링하지 않고도** 스스로 의료 전문성을 향상시키고 진화하는 것입니다[cite: 1129].

### 3. 연구 방법: SEAL 프레임워크와 MedAgent-Zero

---

[cite_start]이 연구는 **'시뮬레이션 기반 진화적 에이전트 학습(SEAL, Simulacrum-based Evolutionary Agent Learning)'**이라는 새로운 패러다임을 제안합니다[cite: 1183].

#### 1) 시뮬레이션 환경 구축 (Agent Hospital)

[cite_start]에이전트 병원은 환자의 발병, 분류, 접수, 진료, 검사, 진단, 투약, 회복, 퇴원 후 관리까지 **질병 치료의 전체 폐쇄 주기**를 시뮬레이션합니다[cite: 1163, 1177].

* **가상 환자 자동 생성:** 가장 중요한 것은 **환자 에이전트**입니다. LLM이 의학 지식 기반(Medical Knowledge Base)과 결합하여 질병의 종류, 증상, 병력, 검사 결과 등을 **자동으로 생성**합니다. [cite_start]이로써 AI 의사에게 무제한에 가까운 다양한 학습 데이터를 제공하며, 사람이 일일이 데이터를 라벨링할 필요가 없습니다[cite: 1186, 1187, 1294].

#### 2) 에이전트 진화 방법론 (MedAgent-Zero)

AI 의사들이 전문성을 쌓는 방법은 **MedAgent-Zero**라고 불립니다. [cite_start]'Zero'는 수동으로 라벨링된 훈련 데이터를 사용하지 않는다는 의미입니다[cite: 1290]. AI 의사는 다음 두 가지 방식으로 진화합니다.

* [cite_start]**성공으로부터 학습 (Medical Case Base):** 환자를 성공적으로 치료한 진료 사례는 **'의학 사례 기반(Medical Case Base)'**에 저장되어, 이후 비슷한 환자를 진료할 때 참고 자료로 활용됩니다[cite: 1361].

* [cite_start]**실패로부터 학습 (Experience Base):** 오진 등 치료에 실패했을 경우, AI 의사는 실제 정답과 자신의 결정을 비교하며 **'반성(Reflection)'**하여 실수를 피하기 위한 **새로운 규칙(Principle)**을 생성합니다[cite: 1178, 1362]. [cite_start]이 규칙이 검증 과정을 거쳐 성공적으로 적용되면 **'경험 기반(Experience Base)'**에 추가됩니다[cite: 1363]. 이는 인간 의사가 임상 경험을 통해 노하우를 쌓는 과정과 유사합니다.

### 4. 연구 결과: 가상 경험이 현실 능력이 되다

---

연구 결과, AI 의사 에이전트의 진화는 가상 세계와 현실 세계 모두에서 뚜렷한 성능 향상을 보였습니다.

* [cite_start]**가상 세계의 성능 향상:** 치료한 환자 에이전트 수가 증가함에 따라 AI 의사의 진단 정확도는 꾸준히 향상되었습니다[cite: 1195, 1455]. [cite_start]예를 들어, 심장내과에서 류마티스성 심장 질환에 대한 진단 정확도는 **9%에서 82%**로 급격히 상승했습니다[cite: 1460].

* [cite_start]**현실 세계 의학 지식 시험(MedQA) 성능:** 가상 병원에서 얻은 전문성은 실제 세계의 의학 문제에도 적용 가능했습니다[cite: 1196]. [cite_start]진화된 AI 의사는 수동 라벨링 데이터를 전혀 사용하지 않았음에도 불구하고, MedQA 벤치마크(USMLE 스타일 질문)에서 기존의 **최신 의료 AI 방법들(MedAgents, CoT, Medprompt)을 능가**하는 **최고 정확도(92.2%)**를 달성했습니다[cite: 1130, 1198, 1458, 1450].

### 5. 고찰 및 의의와 시사점

---

**에이전트 병원**은 단순한 시뮬레이션 이상의 의미를 가집니다.

* [cite_start]**시간 가속기 역할:** 사람이 수년이 걸려야 경험할 수 있는 **수만 명의 환자 진료 케이스**를 AI 의사는 가상 병원이라는 '시간 가속기' 속에서 단기간에 처리하고 학습할 수 있습니다[cite: 1130, 1180].

* [cite_start]**새로운 AI 개발 패러다임:** 이 연구가 제시한 **SEAL** 방식은 의료 AI뿐만 아니라, 복잡한 워크플로우를 가진 모든 분야(산업, 법률 등)의 AI 개발에 적용될 수 있는 새로운 청사진을 제시합니다[cite: 1204]. [cite_start]사람이 데이터를 라벨링하고 도메인 특화 LLM을 훈련하는 막대한 비용과 노력을 획기적으로 줄일 수 있습니다[cite: 1201].

* [cite_start]**AI 환자의 활용 가능성:** 자동으로 생성된 AI 환자는 의료 교육(학생 및 주니어 의사 훈련)이나 특정 질병 코호트 모델링 등에 활용될 수 있으며, 실제 환자의 **개인 정보 보호** 문제를 해결하면서도 임상 연구를 진행하는 데 기여할 수 있습니다[cite: 1285, 1286].

### 이 연구가 왜 중요한가?

[cite_start]이 연구는 마치 **알파고 제로(AlphaGo Zero)가 바둑을 스스로 학습하고 초인적인 기량이 되었던 것처럼** [cite: 1181][cite_start], AI 의사가 가상 환경에서의 **자체적인 실습과 진화**를 통해 빠르게 임상 전문성을 쌓을 수 있는 경로를 제시했습니다[cite: 1287]. [cite_start]가상 환경에서 얻은 전문성이 실제 의학 지식 시험에서 인간 전문가 수준을 뛰어넘는 결과를 보여주면서, **데이터 라벨링 없이도 초인적인 AI 의사를 개발할 수 있는** **확장 가능하고 비용 효율적인** 새로운 가능성을 열었습니다[cite: 1198, 1204]. 이는 미래 의료 산업의 혁명을 이끌 핵심 기술이 될 것입니다.


chatGPT

다음은 업로드하신 논문 \*\*〈Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents〉\*\*의 주요 내용을 일반 독자들이 이해하기 쉽게 정리한 요약본입니다. 블로그에 올릴 수 있는 설명 형식으로 작성했으며, 연구 배경·목적·방법·결과·고찰·의의와 시사점까지 담았습니다.

---

# AI로 만든 가상병원, **에이전트 병원(Agent Hospital)**

### ― 스스로 성장하는 AI 의사들의 탄생

## 연구 배경

의사가 되려면 보통 20년 이상의 교육과정을 거쳐야 합니다. 학교에서 지식을 배우고, 병원 현장에서 실습을 하면서 실제 의술을 익히게 되죠. 그런데 지금까지의 **의료 인공지능(AI)** 연구는 대부분 ‘교과서 학습’, 즉 텍스트와 데이터로 지식을 쌓는 단계에 집중했습니다. 문제는 실제 병원처럼 “환자를 진료하면서 배우는 경험”을 AI가 얻기 어렵다는 점이었습니다.

최근 등장한 **대규모 언어모델(LLM)** 기반의 자율 에이전트는 단순히 텍스트를 읽고 쓰는 것을 넘어서, 환경과 상호작용하며 계획하고 반성하고 도구를 활용하는 능력을 보이기 시작했습니다. 연구팀은 이를 활용해, AI가 마치 인간 의사처럼 진료 경험을 쌓고 성장할 수 있는 환경을 만들고자 했습니다.

## 연구 목적

연구진은 \*\*“에이전트 병원(Agent Hospital)”\*\*이라는 가상병원을 구축했습니다. 이 안에서 **환자, 간호사, 의사** 모두가 AI 에이전트로 구현됩니다. 의사 에이전트들은 수많은 환자를 진료하면서 스스로 경험을 쌓고, 잘한 점과 실수에서 교훈을 얻어 점점 더 유능한 의사로 성장합니다.

핵심 질문은 다음과 같았습니다:

* AI 의사가 가상의 환자를 치료하며 정말로 “경험 기반 의료 능력”을 습득할 수 있을까?

* 이렇게 배운 능력이 실제 의료 문제 해결에도 통할까?

## 연구 방법

연구팀은 **SEAL (Simulacrum-based Evolutionary Agent Learning)** 이라는 방법론을 제안했습니다.

* **시뮬라크럼 구축**: 병원 환경을 가상으로 재현. 환자의 발병, 접수, 진료, 검사, 처방, 회복까지 실제 병원과 같은 과정을 모두 포함. 환자 데이터는 의학 지식 기반을 참고해 자동으로 생성되므로, 사람이 일일이 라벨링하지 않아도 됩니다.

* **에이전트 진화**: 의사 AI는 환자를 치료하면서 성공 사례는 축적하고, 실패는 반성하여 규칙을 만들어 개선합니다. 또한 여가 시간에 “의학 서적”을 읽으며 지식을 보강하도록 설계했습니다.

이 시스템에서 의사 AI는 마치 바둑 AI인 알파고 제로(AlphaGo Zero)처럼 수십 년에 해당하는 임상 경험을 단기간에 축적할 수 있습니다.

## 연구 결과

* **가상 세계 성과**: 의사 에이전트는 수만 명의 환자를 치료하면서 진단 정확도가 크게 향상되었습니다. 예컨대, 처음에는 9%에 불과했던 심장질환 진단 정확도가 80% 이상으로 뛰었습니다.

* **현실 세계 적용**: 의사 에이전트가 가상병원에서 훈련한 뒤 미국 의사 국가시험(USMLE) 스타일 문제로 평가했을 때, 기존 최신 모델보다 더 높은 정확도를 보였습니다. (별도의 라벨링 데이터 없이도 성능 향상 달성)

* **확장 가능성**: 21개 임상과, 339개 질환을 포함해, 대부분의 진료 영역에서 성능이 고르게 개선됨을 확인했습니다.

## 고찰

이 연구는 몇 가지 중요한 시사점을 줍니다.

1. **데이터 라벨링 부담 해소**: 기존에는 의료 AI를 훈련시키려면 방대한 환자 데이터를 사람이 직접 라벨링해야 했지만, Agent Hospital은 가상 환자가 자동으로 데이터를 생성해 이 문제를 해결했습니다.

2. **실제와의 정합성**: 가상에서 배운 의료 경험이 현실 문제 해결에도 적용될 수 있음을 보여주었습니다. 이는 AI 의사 양성의 가능성을 열어줍니다.

3. **한계와 과제**: 현재 AI 의사는 고수준의 치료 계획만 제시할 수 있고, 복잡한 다학제 협력(예: 여러 진료과 협진)은 구현되지 않았습니다. 또한 AI의 편향, 윤리 문제, 신뢰성 확보는 여전히 중요한 숙제로 남아 있습니다.

## 의의와 시사점

* **의료 교육 혁신**: 실제 의대생이나 전공의가 훈련하기 어려운 드문 질환이나 대량의 증례를 AI 환자로 대신할 수 있습니다.

* **의료 불평등 완화**: 충분한 인력이 없는 지역에서도 AI 의사가 지원 역할을 할 수 있어, 의료 접근성을 높일 수 있습니다.

* **AI 응용 확장**: 병원뿐만 아니라 법정, 교육, 경제 등 사람이 경험으로 배우는 다른 영역에도 이 방법을 적용할 수 있습니다.

## 왜 중요한가?

이 연구는 단순히 “의료 AI의 정확도를 높였다”는 수준을 넘어, **AI가 인간처럼 경험을 통해 성장할 수 있는 새로운 길**을 보여줍니다. 즉, AI가 단순한 지식 검색기가 아니라 **실습과 경험을 통해 스스로 진화하는 존재**로 발전할 수 있음을 입증했습니다. 이는 미래에 “슈퍼 AI 의사”가 등장할 가능성을 시사하며, 장기적으로 의료 서비스의 혁신과 대중화에 크게 기여할 수 있습니다.

---

👉 정리하면, 이 논문은 \*\*“AI 의사 훈련을 위한 가상병원 플랫폼”\*\*을 구축하고, 그 안에서 AI 의사가 실제처럼 경험을 쌓아 진짜 의료 문제에도 적용할 수 있음을 보여준 획기적인 연구입니다.


chatGPT(스토리텔링 형식, 가상의 환자가 등장하는 사례중심)

# “AI 병원에서 진료받은 남자, 그리고 성장하는 의사 AI”

한 남자가 있습니다. 이름은 **케네스 모건(Kenneth Morgan)**, 55세.

어느 날 아침, 그는 피부에 붉은 발진과 물집이 생기고 심한 통증까지 느꼈습니다. 걱정이 된 케네스는 근처에 새로 생겼다는 \*\*‘에이전트 병원(Agent Hospital)’\*\*을 찾았습니다.

## 1. 접수와 진료 시작

병원에 도착한 케네스는 먼저 간호사 AI에게 증상을 설명합니다.

* “피부가 붉고, 물집이 잡히고, 많이 아픕니다.”

간호사 AI는 그를 피부과로 안내합니다. 진료실에 들어서니 의사 AI인 **로버트 톰슨**이 기다리고 있었습니다. 로버트는 피부질환 전문 AI 의사입니다.

## 2. 검사와 진단

로버트는 환자의 과거 병력과 증상을 확인하고 몇 가지 검사를 권합니다.

검사 결과, 환자의 혈액에서 **수두-대상포진 바이러스(VZV)** 항체가 발견되었고, 피부 물집에서도 바이러스 DNA가 확인되었습니다.

로버트는 곧바로 진단을 내립니다.

* “케네스 씨, 이건 \*\*대상포진(Shingles, Herpes Zoster)\*\*입니다. 다행히 빠르게 발견해서 치료가 가능합니다.”

케네스는 약을 받고 집으로 돌아가 요양합니다.

## 3. AI 의사의 학습 과정

여기서 중요한 건 진단 자체가 아니라, **의사 AI가 어떻게 성장했는가**입니다.

로버트는 이번 진료를 기록합니다.

* 성공적으로 진단했으니, 이 사례는 \*\*“의료 사례 데이터베이스”\*\*에 저장됩니다.

* 만약 진단을 틀렸다면? 그는 왜 틀렸는지 반성하고 새로운 규칙을 만들어 \*\*“경험 데이터베이스”\*\*에 추가했을 겁니다.

즉, AI 의사는 **성공에서 배우고, 실패에서도 배우는** 과정을 거듭하며 점점 더 똑똑해집니다. 마치 인간 의사가 수많은 환자를 만나며 경험을 쌓는 것과 똑같습니다.

## 4. 현실보다 빠른 시간

재미있는 건, 이 가상병원에서는 시간이 훨씬 빨리 흐른다는 겁니다.

현실에서 인간 의사가 수십 년 동안 겪어야 할 진료 경험을, AI 의사는 단 며칠 혹은 몇 주 만에 쌓을 수 있습니다. 케네스 같은 환자가 수만 명 등장하기 때문이죠.

결과적으로, AI 의사는 짧은 시간에 \*\*“초고속 진료 수련 과정”\*\*을 거치며 인간보다 빠르게 의술을 연마할 수 있습니다.

## 5. 연구 성과

연구진은 이렇게 훈련된 AI 의사들을 시험했습니다.

* 실제 미국 의사 자격시험(USMLE) 스타일 문제를 풀게 했더니, 기존 최고 성능을 보이던 AI 모델들보다 더 높은 정확도를 기록했습니다.

* 가상의 환자와 진료 경험만으로 현실 문제 해결 능력이 향상된 것입니다.

즉, **가상에서의 경험이 현실로 이어질 수 있다**는 사실을 입증한 거죠.

## 6. 왜 중요한가?

이 사례는 단순한 “AI가 환자를 진단했다”라는 이야기가 아닙니다.

* **의료 교육 혁신**: 학생이나 전공의가 수십 명의 환자를 만나기 힘든 드문 질환도, AI 환자로 무제한 생성해 학습할 수 있습니다.

* **의료 격차 해소**: 전문 의사가 부족한 지역에서 AI 의사가 지원할 수 있습니다.

* **AI의 진화 모델**: 단순히 데이터를 읽는 AI가 아니라, **실제 경험을 통해 스스로 성장하는 AI**라는 점이 획기적입니다.

---

## 마무리: 가상병원에서 태어난 ‘AI 의사’

케네스 모건 같은 환자 수만 명을 진료하면서, 로버트 톰슨 같은 AI 의사는 점점 더 뛰어난 의사로 진화합니다.

연구팀이 보여준 건 하나의 미래 시나리오입니다.

“**의사 AI가 실제처럼 경험을 쌓으며, 인간 의사의 든든한 동료가 될 수 있다.**”

이는 단순한 기술 시연이 아니라, 앞으로의 의료가 어떻게 더 빠르고, 더 공평하며, 더 스마트해질 수 있는지를 보여주는 청사진입니다.


grok3

### Agent Hospital: AI가 병원에서 배우는 가상 세계

#### 연구 배경

의사가 되려면 학교에서 책으로 지식을 배우고, 병원에서 실제 환자를 치료하며 전문성을 쌓아야 합니다. 최근 대형 언어 모델(LLM)처럼 AI가 의료 텍스트를 잘 이해하게 되었지만, 이는 책 학습에 불과합니다. 실제 병원처럼 AI가 환자를 직접 '치료'하며 경험을 쌓는 방법이 부족했습니다. 이 연구는 LLM을 '뇌'로 삼아 AI 에이전트가 가상 환경에서 행동하며 배우는 '자율 에이전트' 아이디어를 활용합니다. 기존 연구는 의료 AI가 다중 에이전트 협력으로 추론하는 데 초점을 맞췄지만, 병원 실습처럼 장기적으로 전문성을 키우는 건 미해결 과제였습니다.

#### 연구 목적

이 논문은 'Agent Hospital'이라는 가상 병원을 만들어, AI 의사 에이전트가 수많은 환자 에이전트를 치료하며 자동으로 전문성을 진화시키는 걸 목표로 합니다. 실제 병원처럼 질병 발병부터 진단, 치료, 회복까지 전체 과정을 시뮬레이션하며, AI가 사람처럼 경험을 쌓게 합니다. 궁극적으로, 수작업 데이터 라벨링 없이 AI를 훈련해 실세계 의료 문제(예: USMLE 시험 문제)를 풀 수 있게 하는 게 목적입니다.

#### 연구 방법

연구팀은 SEAL(Simulacrum-based Evolutionary Agent Learning)이라는 새 패러다임을 제안합니다. 이는 두 부분으로 나뉩니다. 첫째, 시뮬레이션 구축: 게임 엔진으로 가상 병원을 만들고, 환자·간호사·의사 에이전트를 LLM으로 구동합니다. 환자 에이전트는 LLM과 의료 지식 베이스를 결합해 자동 생성되는데, 질병 선택 → 기본 정보(나이, 성별) → 병력 → 증상 → 검사 보고서 순으로 만듭니다. 예를 들어, 대상포진 환자는 50세 이상, 수두 병력이 있는 식으로 현실적으로 생성합니다.

둘째, 에이전트 진화(MedAgent-Zero): 의사 에이전트는 환자 증상과 검사 결과를 보고 검사 선택, 진단, 치료 계획을 결정합니다. 성공하면 사례를 '의료 사례 베이스'에 저장해 참조합니다. 실패하면 반성해 '경험 베이스'에 규칙(예: "50세 이상은 대상포진 가능성 높음")을 추가합니다. 의사 에이전트는 여가 시간에 의학 서적도 읽습니다. 가상 세계라 시간이 빨라, AI 의사가 사람 의사보다 훨씬 많은 환자(수만 명)를 치료할 수 있습니다. 32개 진료과, 339개 질병을 커버합니다.

#### 연구 결과

가상 병원에서 의사 에이전트의 성능을 검사 선택, 진단, 치료 계획 세 가지 작업으로 평가했습니다. 초기에는 LLM 지식만 쓰지만, 환자 치료 수가 늘수록 정확도가 올라갔습니다. 예를 들어, 수만 명 치료 후 진단 정확도가 크게 향상됐습니다. 흥미롭게, 이 가상 학습이 실세계에도 적용됐습니다. MedQA(USMLE 문제 벤치마크)에서 기존 방법보다 높은 정확도를 달성했는데, 라벨링 데이터 없이도 최신 기술(SOTA)을 능가했습니다. '스케일링 법칙'처럼 환자 수가 많아질수록 성능이 지속적으로 좋아졌습니다.

#### 고찰

이 방법은 의료 데이터가 무한히 생성되므로, 실제 병원 피드백 부족 문제를 해결합니다. 실패 사례 반성이 AI의 실수 반복을 막아줍니다. 다만, 가상 데이터가 현실을 완벽히 반영하지 않을 수 있으니, 품질 관리 에이전트로 검증합니다. 기존 의료 AI처럼 대량 텍스트 학습 대신, 시뮬레이션으로 맞춤형 전문성을 키우는 게 강점입니다. 의료 외 분야(예: 금융, 교육)에도 확장 가능합니다.

#### 의의와 시사점

이 연구는 AI 훈련 패러다임을 바꿉니다. 수작업 라벨링 비용을 줄이고, 기초 LLM과 지식 베이스를 유연히 결합해 특정 분야 AI를 만듭니다. 의료 AI가 더 안전하고 효과적으로 발전할 수 있으며, 환자 코호트(예: 특정 연령·질병 그룹) 시뮬레이션으로 희귀병 연구도 돕습니다. 궁극적으로, AI가 사람처럼 '경험'으로 배우는 길을 열어줍니다.

이 연구가 중요한 이유는 AI가 의료처럼 복잡한 분야에서 사람 수준으로 성장할 수 있음을 보여주기 때문입니다. 실제 의료 비용과 시간을 절감하며, 미래 AI 응용을 폭넓게 확대할 잠재력을 가집니다.


NotebookLM

## 가상 병원 '에이전트 병원(Agent Hospital)'을 통한 초진화 AI 의사 육성 연구 요약

이 연구는 **대규모 언어 모델(LLM)**을 기반으로 환자와 의료진 모두를 자율 에이전트(Autonomous Agents)로 구현한 가상 병원 시뮬레이션 환경인 **'에이전트 병원(Agent Hospital)'**에 대한 내용을 담고 있습니다. 이 혁신적인 접근 방식은 AI 의사가 수동으로 레이블링된 데이터 없이도 방대한 실습 경험을 통해 스스로 의료 전문성을 습득하고 진화할 수 있도록 하는 것을 목표로 합니다.

---

### 1. 연구 배경: 왜 AI 의사의 실습이 중요한가?

최근 몇 년 동안 대규모 언어 모델(LLM)의 급속한 발전은 의료 인공지능(AI) 분야에 큰 혁명을 가져왔습니다. 기존의 의료 AI 연구(예: Med-PaLM)는 방대한 텍스트 데이터로부터 의학 지식을 습득하는 데 중점을 두어, 미국 의사 면허 시험(USMLE) 수준의 지식 기반 질문 답변에서 인간 전문가 수준에 도달하기도 했습니다.

그러나 의료 전문가가 되는 과정은 단순히 책에서 지식을 얻는 것 외에도, **병원에서의 실습을 통해 전문성을 습득**하는 2단계 과정이 매우 중요합니다. 기존 LLM은 언어를 이해하고 생성하는 기본적인 능력만 제공할 뿐, 실제 세계의 작업별 시나리오를 다루도록 설계되지 않았기 때문에, 실제 병원에서처럼 전문 지식을 습득하는 과정을 모델링하기는 어려웠습니다.

이러한 한계를 극복하기 위해, 이 연구는 LLM을 '두뇌'로 사용하는 **자율 에이전트**에 주목했습니다. 에이전트는 계획, 반성, 도구 사용 등 텍스트 처리 이상의 능력을 보여주며, 인간처럼 환경과 상호작용하며 행동할 수 있습니다. 이 연구는 의사 에이전트가 실제 인간 의사처럼 병원에서의 실습을 통해 전문 지식을 습득할 수 있도록 하는 새로운 패러다임을 제시합니다.

### 2. 연구 목적: 가상 실습을 통한 AI 닥터 진화

본 연구의 핵심 목적은 **'에이전트 병원'**이라는 병원 시뮬레이션 환경을 구축하여 **의료 전문성 습득 과정을 시뮬레이션**하는 것입니다. 특히, 의사 에이전트가 수만 명의 환자 에이전트를 치료하는 과정에서 **수동으로 레이블링된 훈련 데이터 없이도 스스로 진화**하고 치료 성능을 향상시키는 방법을 개발하는 데 중점을 두었습니다.

### 3. 연구 방법: SEAL 패러다임과 MedAgent-Zero

연구진은 **SEAL(Simulacrum-based Evolutionary Agent Learning)**이라는 새로운 AI 기술 패러다임을 제안했습니다. SEAL은 시뮬라크럼 구축(Simulacrum Construction)과 에이전트 진화(Agent Evolution)라는 두 가지 주요 구성 요소로 이루어집니다.

#### 1) 시뮬라크럼 구축 (Agent Hospital)

에이전트 병원은 환자 에이전트가 질병 발병, 분류(Triage), 등록, 진료, 검사, 진단, 조제, 회복에 이르는 **전체 치료 순환 과정**을 시뮬레이션합니다.

*   **자율 에이전트 구성:** 병원 내의 환자, 간호사, 의사 모두 LLM 기반의 자율 에이전트입니다. 의사 에이전트는 총 32개의 진료과(임상과 21개, 비임상과 11개)를 커버하며 339개의 질병을 다룹니다.

*   **자동 데이터 생성:** 이 가상 세계는 **LLM을 의료 지식 기반과 유연하게 결합**하여 훈련 데이터를 자동으로 생성합니다. 질병, 증상, 검사 결과, 치료 경과 등 환자 에이전트와 관련된 모든 데이터는 가상 세계 자체에서 생성되며, 인간이 수동으로 주석을 달 필요가 없습니다.

#### 2) 의사 에이전트 진화 (MedAgent-Zero)

의사 에이전트의 진화 방법론을 **MedAgent-Zero**라고 명명했는데, 'Zero'는 수동으로 레이블링된 데이터를 전혀 사용하지 않는다는 것을 의미합니다. 의사 에이전트의 기반 LLM은 고정되어 있으며, 진화는 두 가지 핵심 모듈을 통해 이루어집니다.

*   **의료 사례 기반 (Medical Case Base):** 의사 에이전트가 환자를 성공적으로 치료하면 해당 사례(질문-답변 쌍)는 의료 사례 기반에 저장되어 향후 유사한 사례를 진료할 때 참고 자료로 사용됩니다.

*   **경험 기반 (Experience Base):** 의사 에이전트가 치료에 실패했을 때, 잘못된 결정과 정답을 비교하여 **실수를 피하기 위한 규칙(원칙)**을 스스로 만들어냅니다. 이 규칙이 검증 과정을 거쳐 효과가 입증되면 경험 기반에 추가되어 지식으로 축적됩니다.

또한, 의사 에이전트는 쉬는 시간에 의학 서적을 읽으며 지식과 전문성을 통합합니다. 가상 병원의 시간은 현실보다 훨씬 빠르게 흐르므로, AI 의사는 현실의 인간 의사가 평생 동안 치료하는 것보다 훨씬 많은 수의 환자 에이전트를 치료하며 진화할 수 있습니다.

### 4. 연구 결과: 인간 의사의 실습 시간을 뛰어넘는 진화

이 연구는 가상 세계와 실제 세계(MedQA 벤치마크) 모두에서 접근 방식을 평가했습니다.

#### 1) 가상 세계에서의 성능 향상

*   **지속적인 정확도 향상:** 의사 에이전트가 치료한 환자 에이전트 수가 증가할수록 진단 정확도가 지속적으로 향상되는 것이 관찰되었습니다. 이는 의사 에이전트가 가상 병원에서 실습을 통해 의료 전문성을 습득하고 있음을 시사합니다.

*   **극적인 개선 사례:** 진화 전에는 기본 모델만 사용할 경우 심장학 부서의 류마티스성 심장 질환 진단 정확도가 9%에 불과했지만, 진화 후에는 82%로 **극적으로 향상**되었습니다.

*   **전 부서 적용 가능성:** 모든 임상과에서 진화 후 진단 및 검사 선택 정확도가 **평균 95% 이상**을 달성하며, 모든 임상 시나리오에서 효과적이고 일반화 가능하다는 것을 보여주었습니다.

#### 2) 실제 세계(MedQA)에서의 우수성

*   **실제 문제 해결 능력:** 가상 세계에서 학습한 의료 기술이 실제 세계 문제에 적용 가능하다는 긍정적인 결과가 관찰되었습니다. 치료한 환자 수가 증가함에 따라 MedQA 데이터셋(USMLE 시험 질문)의 질문에 답변하는 정확도도 함께 증가했습니다.

*   **최신 기술 능가:** 진화된 의사 에이전트는 MedQA 데이터셋에서 기존의 최신 의료 에이전트 방법(MedAgents, CoT, Medprompt 등)보다 **우수한 성능**을 보였습니다.

### 5. 고찰 및 의의: 새로운 AI 훈련 패러다임

이 연구는 LLM 기반 에이전트 훈련에 있어 획기적인 **SEAL 패러다임**을 제시합니다. 이는 데이터 수동 레이블링이나 도메인별 LLM 훈련의 필요성을 제거하고, 실제 워크플로우에 맞는 시뮬라크럼을 구축하여 데이터를 자동으로 생성합니다.

#### 1) AI 환자의 잠재적 영향

AI 환자는 단순한 훈련 데이터 이상의 역할을 수행할 수 있습니다. 질병 발병 및 진행 모델링, 특정 질병 및 지역의 환자 코호트 시뮬레이션, 의대생 및 주니어 의사 훈련, 그리고 **인간 환자의 개인 정보 보호** 상태에서 복수의 의사와 동시에 상담하는 대리인 역할 등 다양한 시나리오에 적용될 수 있습니다.

#### 2) AI 의사의 잠재적 영향

AI 의사는 인간 의사가 처리할 수 있는 양을 훨씬 초과하는 방대한 데이터를 활용하여 질병 치료법을 빠르게 학습할 잠재력을 가지고 있습니다. 이는 인간 의사의 **업무 부담을 줄이고 효율성을 개선**하며, 궁극적으로 **더욱 공평하고 효과적인 의료 시스템**을 구축하는 데 기여할 수 있습니다.

---

### 이 연구가 중요한 이유

이 연구는 **에이전트 병원**이 단순한 시뮬레이터가 아니라, **의료 세계 시뮬레이터이자 시간 가속기** 역할을 한다는 점에서 혁명적입니다. 의사 에이전트는 가상 세계에서 빠르게 전문성을 습득하고 진화할 수 있으며, 이 기술이 실제 의료 문제를 해결하는 데 성공적으로 이전된다는 점이 입증되었습니다.

이는 마치 **AlphaGo Zero**가 바둑에서 했던 것처럼, 가상 환경에서의 자가 학습 및 진화 능력을 통해 **초인적인 수준의 AI 의사**를 탄생시킬 가능성을 열어줍니다. 연구의 장기적인 목표는 이러한 AI 기술을 활용하여 **대중에게 저렴하고, 접근 가능하며, 고품질의 의료 서비스**를 제공하는 것입니다.


perplexity.ai

이 논문은 인공지능(AI) 기술이 실제 의료 현장에서 어떻게 전문가로 성장할 수 있는지, 그리고 이것이 의료 시스템에 어떤 혁신을 가져올 수 있는지를 보여주는 최신 연구입니다.[1]

***

### 연구 배경

국내외 의료계에서 의사가 되기까지 오랜 시간과 풍부한 경험이 필요하다는 것은 잘 알려져 있습니다. 하지만 최근 인공지능, 특히 대형 언어 모델(LLM, 예: GPT-4 등)의 비약적 발전으로, AI가 방대한 의학 지식을 빠르게 습득하면서도 실제 의료 현장에서 전문가로 성장할 수 있는 가능성에 대한 관심이 커지고 있습니다. 기존 AI는 주로 의학 지식 습득에 집중해왔으나, 실제 진료 경험을 통한 전문성 획득은 여전히 인간 의사만의 영역으로 여겨졌습니다.[1]

***

### 연구 목적

이 논문의 목표는 'Agent Hospital'이라는 가상의 병원 시뮬레이션을 통해, LLM 기반의 AI가 어떻게 의학적 경험을 쌓으며 진짜 의사처럼 진화할 수 있는지에 대한 방법론과 실제 성능을 검증하는 것입니다. 즉, AI가 단순히 이론적 지식이 아닌, 실제 진료 경험·실패·성공을 반복하면서 전문성을 키울 수 있다는 것을 입증하고자 합니다.[1]

***

### 연구 방법

- 모든 환자, 간호사, 의사가 각각 독립적인 LLM 기반 AI 에이전트로 구성된 '가상 병원' 환경을 구축합니다.

- 환자 AI는 질병에 걸려 병원을 방문하고, 문진부터 진료, 검사, 약 처방, 회복까지 실제처럼 진료 과정을 거칩니다.

- 의사 AI는 환자 AI를 진료하며, 각각의 성공과 실패 사례를 자체적으로 기록하고, 반성(reflection)을 통해 진단 및 치료 경험을 쌓습니다.

- 기존 AI 개발 시 필요한 수작업 데이터 라벨링 없이, 가상 세계 내에서 생성된 다양하고 방대한 의료 데이터를 활용해 경험을 축적합니다.

- 수만 명의 환자를 짧은 시간 내에 진료할 수 있어, 경험의 양과 질이 인간 의사에 비해 월등히 빠르게 향상됩니다.[1]

***

### 주요 결과

- AI 의사가 가상 환자를 반복적으로 진료함으로써, 진단력과 치료 제안 능력이 꾸준히 향상되는 것을 확인했습니다.

- 가상 병원에서 얻은 진료 경험과 의학적 전문성이 실제 의료 문제(예: 의사 자격 시험, MedQA 데이터셋)에 적용 가능한지를 검증했으며, 발전된 AI 의사 에이전트가 기존의 최첨단 AI 의학 모델들보다 우수한 성과를 내는 것을 확인했습니다.

- 의사 AI의 진화 속도가 환자 수 증가에 따라 급격히 상승하며, 경험 데이터와 반성 규칙이 축적될수록 진단 정확도가 향상되었습니다.[1]

***

### 고찰 및 논의

- 본 연구에서 제시한 'Simulacrum-based Evolutionary Agent Learning(SEAL)' 방식은 기존의 대형 언어 모델을 특정 의료 업무에 맞춰 강제로 조정하고 라벨링하던 부담을 줄였습니다.

- 실험 결과, 단순히 대형 언어 모델의 지식만으로는 어려웠던 실제 의료 현장 문제 해결이, 시뮬레이션 내 반복 경험과 데이터 축적으로 개선될 수 있음을 확인했습니다.

- 반면, 실제 데이터를 사용하지 않고 가상 환경에서만 진화하는 AI 에이전트의 한계(예: 현실 데이터와의 차이, 윤리적 문제 및 편향 가능성 등)도 분명히 남아 있어, 향후 실세계와의 조화 및 안전성 확보가 중요한 과제로 남습니다.[1]

***

### 의의와 시사점

- 이 연구는 대형 언어 모델과 가상 환경에서 생성된 풍부한 의료 사례 데이터의 결합이 의학적 전문성 진화에 매우 효과적임을 보여줍니다.

- 라벨링 작업 없이, 자동화된 데이터 생성과 에이전트 진화가 가능해져 의료 AI 개발의 효율성과 확장성이 크게 향상됩니다.

- 가까운 미래에는 AI가 실제 의사 수준, 혹은 그 이상으로 빠르고 정확한 의료 의사결정과 진료를 할 수 있을 잠재력도 있음을 시사합니다.

- 의료 교육, 인력 부족 문제, 의료비 증가, 지역 간 의료 격차 해소 등 다양한 실제적 문제에 대한 혁신적 해법이 기대됩니다.[1]

***

### 연구의 중요성

이 연구가 중요한 이유는, 인간 의사만이 가능했던 '실제 진료 경험을 통한 전문성 획득' 과정을 AI가 가상 환경에서 반복할 수 있게 되었고, 이렇게 성장한 AI가 실제 의료 문제에서 높은 성과를 보인다는 것입니다. 즉, AI가 인간 전문가의 성장 과정을 모방하면서 빠르고 안전하게 발전할 수 있다는 데에 큰 의미가 있습니다.[1]



출처: @ye._.vely618

금요일, 10월 03, 2025

과학연구를 향상시켜줄 AI

AI라는 용어가 나온지 50년정도가 지난거 같은데 이제서야 우리 삶에 많이 들어온 것 같습니다.

그중에서도 연구를 하는데에 있어서도 AI의 능력, AI를 활용하는 것은 필수적이 된 것 같습니다.

AI와 협업하여 기존의 방법보다 더 낳은 방법들을 빠르게 고안해서 적용 하게 되었으니 말입니다.

아직 정식 저널지에 올라간 것은 아니나 논문 작성자들이 구글 직원들이라는 점에서 들여다보면 좋을것 같아서 한번 가져와봤습니다. 제목은 An AI system to help scientists write expert-level empirical software 입니다.

DOI: 10.48550/arXiv.2509.06503


추석 연휴 시작인데 풍성하고 건강하며 무탈한 추석 연휴들 보내시기 바랍니다 :)


gemini

### 과학자를 돕는 AI 시스템: 과학 연구를 가속화하는 새로운 방법

---

#### 📌 연구 배경 및 목적

[cite_start]과학 연구는 종종 복잡한 계산 소프트웨어를 직접 만들어야 하는 문제에 부딪힙니다[cite: 1, 15]. [cite_start]이러한 '실증적 소프트웨어'는 특정 관측 데이터를 바탕으로 성능을 측정하고 최적화하는 데 사용됩니다[cite: 1, 15]. [cite_start]하지만 이 소프트웨어를 개발하는 데는 수년이 걸리기도 하고, 체계적인 탐색 없이 직관이나 편의에 따라 설계되는 경우가 많아 과학적 발견의 속도를 늦추는 병목 현상이 발생합니다[cite: 15].

[cite_start]이 논문은 이러한 문제를 해결하기 위해 AI 시스템을 개발하고 그 성능을 보여주는 것을 목표로 합니다[cite: 15, 20]. [cite_start]이 시스템은 과학자들이 직접 작성하는 것보다 훨씬 뛰어나고, 새로운 과학적 아이디어를 빠르게 탐색하고 구현할 수 있습니다[cite: 26].

---

#### 🧪 연구 방법

[cite_start]연구팀은 **대규모 언어 모델(LLM)**과 **트리 탐색(Tree Search)** 알고리즘을 결합한 AI 시스템을 만들었습니다[cite: 21, 22]. 이 시스템은 다음과 같이 작동합니다.

1.  [cite_start]**AI 소프트웨어 작성:** AI는 과학적 문제와 관련 연구 자료(논문, 교과서 등)를 입력받아 문제를 해결할 수 있는 소프트웨어 코드를 생성합니다[cite: 24, 52].

2.  [cite_start]**트리 탐색:** 생성된 여러 후보 코드들을 시험해보고, 성능이 높은 코드를 중심으로 더 나은 해결책을 탐색하는 과정을 반복합니다[cite: 22, 53].

3.  [cite_start]**아이디어 통합:** 이 과정에서 AI는 기존에 발표된 여러 논문의 아이디어들을 조합하여 새로운 해결책을 만들어내기도 합니다[cite: 68].

[cite_start]이렇게 AI는 무수히 많은 해결책 후보를 체계적으로 탐색하고, 사람이라면 발견하기 어려웠을 '최고 품질의 해결책'을 찾아냅니다[cite: 27].

---

#### 📊 연구 결과

[cite_start]이 AI 시스템은 여러 과학 분야의 다양한 문제에서 사람의 능력을 뛰어넘는 성과를 보였습니다[cite: 26].

* [cite_start]**생물정보학:** 단일 세포 데이터 분석에서 기존 인간이 개발한 방법보다 우수한 40가지의 새로운 분석법을 찾아냈습니다[cite: 1, 91].

* [cite_start]**역학:** 미국 질병통제예방센터(CDC)의 예측 모델보다 뛰어난 코로나19 입원 환자 수 예측 모델 14개를 생성했습니다[cite: 1, 84, 85, 87, 88].

* [cite_start]**지리공간 분석:** 위성 이미지 분석에서 최신 기술보다 뛰어난 소프트웨어를 만들었습니다[cite: 1, 144].

* [cite_start]**수학:** 기존 수치 계산으로는 풀기 어려운 적분 문제를 해결하는 새로운 방법을 발견했습니다[cite: 166].

[cite_start]특히, AI는 단일 세포 분석 연구에서 두 가지 기존 방법을 결합하여 성능을 획기적으로 향상시키는 새로운 방법을 찾아냈는데 [cite: 64][cite_start], 이는 단순히 코드를 작성하는 것을 넘어 **창의적인 과학적 아이디어까지 조합**할 수 있음을 보여줍니다[cite: 67].

---

#### 💡 고찰, 의의 및 시사점

[cite_start]이 연구는 AI가 단순한 도구를 넘어 과학 연구의 **'공동 과학자(co-scientist)'**가 될 수 있음을 보여줍니다[cite: 90]. AI가 복잡하고 반복적인 소프트웨어 개발 작업을 대신 수행하면서, 과학자들은 더 창의적인 사고와 실험 설계에 집중할 수 있게 됩니다.

이 시스템은 다음과 같은 중요한 의미를 가집니다.

* [cite_start]**과학 발견의 가속화:** AI의 지칠 줄 모르는 탐색 능력을 통해 새로운 해결책을 빠르게 찾고, 과학적 발견의 속도를 획기적으로 높일 수 있습니다[cite: 27].

* [cite_start]**혁신적인 아이디어 창출:** AI가 기존 연구들의 아이디어를 새로운 방식으로 결합하는 능력을 보여주면서, 사람이 생각하지 못한 혁신적인 방법을 제시할 수 있습니다[cite: 64, 67, 83].

* [cite_start]**범용성:** 이 시스템은 생물학, 역학, 지구과학 등 다양한 분야에 적용될 수 있어, 여러 과학 분야에 걸쳐 혁신을 가져올 잠재력이 있습니다[cite: 27, 47, 89, 144, 166].

---

#### 🌟 이 연구가 왜 중요한가요?

이 연구는 AI가 과학자의 단순한 보조 역할에 머무르지 않고, 직접 문제를 해결하고 새로운 지식을 창출하는 데 핵심적인 역할을 할 수 있다는 것을 증명합니다. 이는 인류가 직면한 다양한 난제(질병, 기후 변화 등)를 해결하는 데 필요한 소프트웨어를 훨씬 더 빠르고 효율적으로 개발할 수 있는 새로운 가능성을 열어줍니다. 앞으로 AI와 인간 과학자가 협력하여 이전에는 불가능했던 속도와 규모로 과학적 발전을 이룰 수 있을 것입니다.


chatGPT

다음은 업로드하신 논문 **「An AI system to help scientists write expert-level empirical software」(2025, Google Research & DeepMind 등 공동 연구)** 내용을 일반 성인 독자도 이해할 수 있도록 정리한 요약입니다.

---

## 연구 배경

오늘날 과학 연구는 복잡한 데이터를 다루고, 실험을 뒷받침하는 소프트웨어 없이는 진행하기 어렵습니다. 예를 들어, 단일세포 분석, 날씨 예측, 감염병 확산 모델링 등 거의 모든 과학 분야가 맞춤형 소프트웨어를 필요로 합니다. 그러나 이런 소프트웨어를 개발하려면 많은 시간이 걸리고, 연구자가 일일이 새로운 아이디어를 코드로 구현하는 과정은 매우 느리고 비효율적입니다. 이로 인해 과학 발전 속도가 제한되기도 합니다.

## 연구 목적

연구팀은 **과학자들이 직접 코드를 작성하지 않아도, 인공지능이 전문가 수준의 과학 소프트웨어를 자동으로 만들어 줄 수 있는 시스템**을 개발하고자 했습니다. 목표는 단순히 코드 생성이 아니라, **기존 최고 성능을 넘어서는 ‘새로운 해결책’을 찾는 것**입니다.

## 연구 방법

* **핵심 기술**: 대규모 언어모델(LLM, ChatGPT 같은 모델) + **트리 탐색(Tree Search, TS)**

* **작동 방식**:

  1. AI가 초기 코드(해결 시도)를 작성

  2. 실행 → 성능 점수 평가

  3. 성능이 좋은 후보를 중심으로 다시 코드 변형 및 개선

  4. 반복하며 점점 더 좋은 해법을 찾아감

* 단순히 무작정 변형하는 것이 아니라, **논문, 교과서, 검색 결과 등 외부 연구 아이디어를 흡수**해 새로운 조합이나 혁신적 방법을 제안할 수 있습니다.

## 연구 결과

AI 시스템은 여러 과학 분야에서 **인간 전문가보다 뛰어난 성능**을 보여주었습니다.

1. **생명과학 (단일세포 데이터 분석)**

   * 40개의 새로운 분석 방법을 고안 → 현재 인간이 개발한 최고 알고리즘보다 더 높은 정확도를 기록.

2. **공중보건 (코로나19 입원 환자 예측)**

   * 미국 CDC가 운영하는 예측 모델 집합(Ensemble)보다 뛰어난 14개 모델을 개발.

   * 이는 전염병 대응 정책과 자원 배분을 개선할 수 있는 잠재력을 보여줌.

3. **지구환경 연구 (위성 이미지 분석)**

   * 산불, 홍수, 토지 이용 변화 감지 같은 위성 이미지 분류 문제에서 최신 논문 성과를 크게 능가.

4. **신경과학 (제브라피시 뇌 활동 예측)**

   * 7만 개 이상의 뉴런 활동 데이터를 예측하는 데 기존 모델보다 정확하고 빠른 성과를 냄.

5. **시계열 분석 (기후, 경제, 의료 데이터 예측)**

   * 다양한 데이터셋에서 기존 통계/딥러닝 모델보다 우수한 범용 예측 모델 생성.

6. **수학적 계산 (난해한 적분 문제 해결)**

   * 기존 표준 라이브러리(scipy.integrate.quad)가 실패하는 복잡한 적분도 정확히 계산할 수 있는 코드 작성.

## 고찰

이 연구는 단순한 코드 자동화가 아니라, **새로운 과학적 아이디어 창출 도구**로서 AI의 가능성을 보여줍니다. 특히 AI가 기존 연구 결과를 "재조합"하여 인간이 생각하지 못한 방법을 발견하는 점이 핵심입니다. 즉, AI는 단순한 조수(Assistant)를 넘어, \*\*공동 연구자(Co-scientist)\*\*로 기능할 수 있습니다.

또한 이 방식은 몇 주, 몇 달 걸릴 실험적 시도를 **단 몇 시간\~며칠** 만에 수행할 수 있어 연구 속도를 비약적으로 가속화합니다.

## 의의와 시사점

* 과학자들은 더 이상 코딩에 많은 시간을 쓸 필요 없이, AI가 제시하는 다양한 후보 해법을 빠르게 검증하고 적용할 수 있습니다.

* 이는 연구 효율을 높이고, 새로운 과학적 발견을 앞당길 수 있습니다.

* 특히 **질병 예측, 환경 변화 분석, 신약 개발** 등 사회적으로 긴급한 문제 해결에 큰 도움이 될 수 있습니다.

---

## 왜 중요한가?

이 연구는 \*\*“AI가 단순히 인간의 작업을 돕는 도구를 넘어, 과학 발전의 속도를 혁신적으로 끌어올릴 수 있다”\*\*는 가능성을 보여줍니다. 앞으로 AI가 새로운 과학 이론이나 방법론을 발견하는 과정에 적극적으로 참여하게 된다면, 과학의 패러다임 자체가 바뀔 수 있습니다.

즉, 인류가 직면한 복잡한 문제들—팬데믹, 기후 위기, 난치병—을 해결하는 속도를 지금보다 훨씬 앞당길 수 있는 길을 연 것입니다.


chatGPT (스토리텔링 형식의 블로그 글)

# 과학자가 코드를 짜지 않아도 되는 시대가 온다면?

“과학자는 아이디어가 넘치는데, 왜 늘 시간이 부족할까?”

많은 연구자들이 이렇게 말합니다. 새로운 가설을 세우고 데이터를 모아도, 정작 그걸 분석하고 검증하는 데 필요한 소프트웨어를 만드는 건 또 다른 큰일이기 때문입니다.

예를 들어, 코로나19가 한창일 때 매주 환자 수를 예측하는 소프트웨어가 필요했지만, 그것을 만드는 건 전문가들에게도 몇 달이 걸리는 어려운 작업이었습니다. 단일세포 유전자 분석, 위성 사진을 이용한 산불 감지, 뇌 신호 해석 같은 연구도 마찬가지입니다. 연구자가 머릿속에서 떠올린 아이디어를 코드로 구현하는 데 너무 많은 시간이 소요되다 보니, 과학의 속도는 늘 한계에 부딪혔습니다.

---

## AI를 공동 연구자로 삼다

이번에 구글 리서치와 딥마인드 연구진이 내놓은 시스템은 이 문제를 정면으로 해결합니다.

바로 \*\*“AI가 과학자를 대신해 전문가 수준의 소프트웨어를 작성하는 시스템”\*\*입니다.

이 AI는 단순히 코드 몇 줄을 자동으로 써주는 ‘프로그래밍 비서’가 아닙니다. 스스로 코드를 만들어내고, 실행해보고, 점수를 매기고, 또 개선하면서 수백·수천 가지의 대안을 탐색합니다. 마치 끊임없이 아이디어를 던지고 실험하는 대학원생 수십 명이 동시에 일하는 것과 비슷합니다.

게다가 이 AI는 사람처럼 논문이나 교과서에서 연구 아이디어를 가져와 재조합할 수도 있습니다. “이 논문의 방식과 저 논문의 방식을 합치면 더 나을까?” 같은 발상을 실제로 코드로 옮겨 실행해보는 것이죠.

---

## 실제 성과는 어땠을까?

연구진은 이 AI를 여러 과학 분야에 적용했습니다. 놀랍게도, 결과는 단순한 ‘보조’ 수준을 넘어섰습니다.

* **단일세포 유전자 데이터 분석**: 기존 최고 성능 알고리즘을 능가하는 **40개의 새로운 방법**을 만들어냈습니다.

* **코로나19 입원 환자 예측**: 미국 CDC가 운영하는 ‘최고의 예측 모델 집합’을 뛰어넘는 **14개의 모델**을 개발했습니다.

* **위성 이미지 분석**: 산불, 홍수, 토지 이용 변화 같은 환경 모니터링에서 최신 논문 성과를 압도했습니다.

* **신경과학**: 물고기(제브라피시)의 7만여 개 뇌세포 활동을 예측하는 데 기존 최고 모델보다 정확했습니다.

* **시계열 예측**: 기후, 경제, 의료 데이터를 다루는 여러 데이터셋에서 범용적으로 성능이 좋은 모델을 창조했습니다.

* **복잡한 수학적 적분 계산**: 기존 표준 라이브러리가 실패한 문제도 정확히 풀어냈습니다.

즉, 이 AI는 단순히 “사람이 만든 방법을 흉내 내는 수준”이 아니라, **새로운 과학적 도구를 직접 발명하는 단계**로 나아간 것입니다.

---

## 왜 이것이 중요한가?

과학의 속도는 종종 ‘코드 작성 속도’에 의해 제한됩니다. 하지만 이제 연구자들은 더 이상 수개월 동안 코드에 매달릴 필요가 없습니다. AI가 수많은 후보 해법을 빠르게 시도하고, 연구자는 그중 의미 있는 결과를 확인해 과학적 통찰에 집중할 수 있습니다.

예를 들어, 전염병이 확산할 때 정책 결정자들이 더 정확한 예측을 하루라도 빨리 얻을 수 있다면, 수많은 생명을 구할 수 있습니다. 기후 변화 대응도 마찬가지입니다. 위성 데이터를 더 정밀하게 분석해 산불을 조기에 발견한다면 피해를 크게 줄일 수 있습니다.

---

## 앞으로의 과학은 어떻게 달라질까?

이제 AI는 단순한 “연구 도우미”가 아니라, 함께 아이디어를 실험하고 새로운 방법을 만들어내는 \*\*“공동 연구자(co-scientist)”\*\*가 될 수 있습니다.

과학자가 아이디어를 던지면, AI는 수백 가지의 코드 버전을 만들어 시험해보고, 때로는 인간이 미처 생각지 못한 길을 찾아냅니다.

이는 결국 과학 발전의 패러다임을 바꿀 수 있습니다.

연구 속도가 몇 배 빨라지고, 새로운 발견이 더 자주 이루어지며, 인류가 직면한 큰 문제들—팬데믹, 기후 위기, 난치병—에 대한 해답을 더 빨리 찾을 수 있게 되는 것입니다.

---

# 맺으며

이번 연구는 “AI가 인간을 대체할까?”라는 낡은 질문보다 더 근본적인 물음을 던집니다.

**“AI와 인간이 함께 새로운 과학을 만들어갈 수 있다면, 우리의 미래는 얼마나 더 빨리 바뀔까?”**

아마 머지않아, 과학자의 실험실 풍경에는 논문과 현미경 옆에 “AI 공동 연구자”가 당당히 자리잡고 있을지도 모릅니다.


grok3

### AI가 과학자를 도와 전문가 수준의 소프트웨어를 만드는 시스템

#### 연구 배경

과학 연구는 종종 컴퓨터 실험을 위한 소프트웨어 제작 때문에 지연됩니다. 이 소프트웨어는 '경험적 소프트웨어'로 불리며, 데이터를 바탕으로 품질 점수를 최대화하도록 설계됩니다. 예를 들어, 위성 사진으로 삼림 벌채를 분석하거나, 단백질 구조를 예측하는 프로그램이 이에 해당하죠. 과학자들은 이런 소프트웨어를 만드는 데 수년이 걸리지만, 직관에 의존해 최적의 방법을 놓치기 쉽습니다. 이 논문은 Google DeepMind와 Google Research 팀이 이러한 문제를 해결하기 위해 개발한 AI 시스템을 소개합니다. 이 시스템은 과학 분야에서 흔한 '점수화 가능한 작업'(scorable tasks)을 자동으로 풀기 위한 소프트웨어를 만듭니다.

#### 연구 목적

이 연구의 목적은 AI를 이용해 과학자들이 수동으로 만드는 소프트웨어를 자동화하는 것입니다. 구체적으로, 대형 언어 모델(LLM)과 트리 검색(Tree Search)을 결합해 품질 점수를 높이는 소프트웨어를 생성합니다. 이를 통해 기존 인간 전문가 수준을 넘어서는 결과를 내고, 다양한 과학 분야(유전학, 역학, 지리학, 신경과학, 시계열 예측, 수치 적분)에서 효과를 검증합니다. 궁극적으로 과학 발견을 가속화하는 도구를 만드는 게 목표입니다.

#### 연구 방법

시스템은 LLM(Gemini 모델 사용)을 통해 코드를 생성하고, 트리 검색으로 최적의 코드를 탐색합니다. 트리 검색은 나뭇가지처럼 후보 코드를 확장하며, 점수가 높은 방향으로 집중합니다. 초기 아이디어는 과학 논문 요약, 검색 엔진, 또는 기존 방법 조합에서 가져옵니다. 예를 들어, 유전학 문제에서는 기존 알고리즘을 재조합해 새로운 코드를 만듭니다. 벤치마크로 Kaggle 대회 16개를 사용해 시스템을 테스트하고, 실제 과학 문제에 적용합니다. 각 문제에서 훈련 데이터로 점수를 높인 후, 별도 테스트 데이터로 평가합니다.

#### 연구 결과

Kaggle 벤치마크에서 트리 검색은 인간 평균을 넘어서는 성능을 보였습니다. 유전학(단일 세포 RNA 시퀀싱 배치 통합)에서는 40개의 새로운 방법을 발견해 기존 최고 기록을 14% 초과했습니다. 예를 들어, 두 기존 알고리즘(ComBat과 BBKNN)을 결합해 더 나은 코드를 만들었습니다. COVID-19 입원 예측에서는 CDC 앙상블 모델을 능가하는 14개 모델을 생성, 미국 52개 주 대부분에서 더 정확했습니다. 지리학(위성 이미지 분할)에서는 mIoU 점수 0.80 이상으로 최신 논문 결과를 초과했습니다. 신경과학(제브라피시 뇌 활동 예측)에서는 기존 최고 모델보다 빠르고 정확한 코드를 만들었고, 시계열 예측(GIFT-Eval)에서는 리더보드 상위권을 차지했습니다. 수치 적분에서는 기존 라이브러리의 실패 사례 17/19를 정확히 풀었습니다.

#### 고찰

이 시스템은 아이디어를 재조합하거나 새로운 개념(예: 시뮬레이션 기반 불확실성)을 도입해 인간 한계를 넘습니다. 그러나 LLM이 지시를 따르는 데 한계가 있어, 복잡한 문제에서 실패할 수 있습니다. 또한, 검색 공간이 방대해 컴퓨팅 자원이 많이 듭니다. 기존 방법(유전자 프로그래밍, AutoML)과 비교해 더 유연하지만, 과학 에이전트로서의 일반화가 과제입니다. 결과적으로, 시스템은 아이디어 탐색을 가속화하지만, 인간 검증이 여전히 필요합니다.

#### 의의와 시사점

이 연구는 AI가 과학 소프트웨어를 자동화해 연구 속도를 높일 수 있음을 보여줍니다. 예를 들어, 단일 세포 데이터 통합은 인간 세포 아틀라스 같은 대형 프로젝트를 촉진하고, COVID 예측은 공공 보건 정책을 개선합니다. 시사점으로는 AI가 '시도와 오류'를 무한히 반복해 혁신을 이끌 수 있다는 점입니다. 앞으로 과학 분야에서 점수화 가능한 작업이 많아지면, AI가 인간 연구자를 보조해 새로운 발견을 촉진할 것입니다.

이 연구가 중요한 이유는 과학 발전의 병목현상을 해소하기 때문입니다. 소프트웨어 제작이 빨라지면, 과학자들이 아이디어 실험에 더 집중할 수 있어 인류의 지식 축적이 가속화됩니다. AI가 '과학자' 역할을 하며, 의학·환경·수학 같은 분야에서 혁명을 일으킬 잠재력이 큽니다.


NotebookLM

## AI가 과학자들의 혁신을 가속화하는 새로운 도구: 전문가 수준 소프트웨어 자동 생성 시스템

**연구 배경 및 목적**

과학자들은 새로운 지식을 탐구하고 세상을 이해하기 위해 수많은 실험을 수행합니다. 특히 현대 과학은 컴퓨터를 활용한 계산 실험에 크게 의존하고 있죠. 하지만 이러한 실험을 뒷받침하는 **소프트웨어 개발은 종종 매우 느리고 수동적인 과정**이어서 과학적 발견의 속도를 저해하는 '병목 현상'으로 지적되어 왔습니다.

예를 들어, 숲 파괴를 분석하는 위성 기반 감지기를 만들거나(이는 특정 과학적 질문에 답하기 위한 소프트웨어입니다), 복잡한 시스템의 모델을 만드는 것 등 수많은 과학 분야에서 소프트웨어가 필수적입니다. 이러한 소프트웨어는 일반적으로 특정 목표(예: 기존 관측치에 대한 적합도 최대화)를 달성하도록 설계되며, 연구자들은 이를 '측정 가능한 과제(scorable task)'를 해결하는 '경험적 소프트웨어(empirical software)'라고 부릅니다. 문제는 이러한 경험적 소프트웨어를 개발하는 것이 **오랜 시간과 노력을 필요로 하며, 디자인 선택이 직관이나 편의에 의해 좌우되는 경우가 많아 혁신적인 탐색이 제한된다**는 점입니다.

이 연구는 이러한 한계를 극복하기 위해 **인공지능(AI) 시스템을 개발하여 과학자들이 전문가 수준의 소프트웨어를 자동으로 생성하고 개선할 수 있도록 돕는 것**을 목표로 합니다. 궁극적으로 과학 연구의 속도를 획기적으로 가속화하는 것이 이 시스템의 핵심적인 의의입니다.

**연구 방법**

이 AI 시스템은 크게 두 가지 핵심 기술을 결합하여 작동합니다. 바로 **대규모 언어 모델(Large Language Model, LLM)과 트리 탐색(Tree Search, TS)**입니다.

1.  **아이디어와 프롬프트 주입 (연구 아이디어 통합):**

    *   시스템은 먼저 과학적 과제에 대한 설명, 평가 지표, 관련 데이터를 LLM에 제공합니다 [57, Supplementary Fig. 22].

    *   사람 과학자들이 연구 아이디어를 얻기 위해 학술 논문, 전문 교과서, 검색 엔진 등을 참고하는 것처럼, 이 시스템도 외부 자료에서 얻은 연구 아이디어를 LLM에 주입하여 코드 작성에 활용하도록 안내합니다.

    *   심지어는 **Gemini Deep Research나 AI co-scientist와 같은 다른 LLM 기반 검색 전략**을 통해 자동으로 새로운 연구 아이디어를 생성하고 구현하기도 합니다.

    *   또한, 기존에 개발된 코드 솔루션들의 핵심 원리를 파악하고, 이들을 **'재조합(recombination)'하여 새로운 하이브리드 전략을 창출**하도록 LLM을 지시합니다. 이는 여러 기존 방법의 장점을 결합하여 더 나은 성능을 목표로 하는 접근 방식입니다.

2.  **LLM 기반 코드 재작성 및 트리 탐색 (솔루션 공간 탐색):**

    *   LLM은 제공된 프롬프트와 연구 아이디어를 바탕으로 파이썬 코드를 생성하거나 기존 코드를 재작성합니다.

    *   생성된 코드는 '샌드박스'라는 안전한 환경에서 실행되고, 그 성능은 미리 정의된 '품질 점수(quality score)'에 따라 평가됩니다.

    *   이때 **트리 탐색(Tree Search)** 알고리즘이 중요한 역할을 합니다. 트리 탐색은 LLM이 생성한 여러 후보 코드 솔루션들을 마치 나무 가지처럼 탐색하며, 어떤 코드가 품질 점수를 가장 잘 개선하는지 체계적으로 평가합니다.

    *   **점수가 높은(성능이 좋은) 코드 솔루션은 더 깊이 탐색하고, 점수가 낮은 솔루션은 가지치기하여 불필요한 탐색을 줄이는 방식**으로 효율적으로 최적의 코드를 찾아냅니다. 이 과정은 AlphaZero에서 영감을 받은 상위 신뢰 경계(UCB) 전략을 사용하며, PUCT(Predictor + Upper Confidence bound applied to Trees) 알고리즘을 통해 실행됩니다.

    *   이를 통해 시스템은 전문가 수준의 솔루션을 찾을 때까지 **끊임없이 코드를 개선하고 평가하는 반복적인 피드백 루프**를 만들어냅니다. 연구자들은 Kaggle 경연 대회를 벤치마크로 활용하여 이 코드 변형 시스템을 개발하고 개선했습니다.

**연구 결과**

이 AI 시스템은 다양한 과학 분야의 '측정 가능한 과제'에서 놀라운 성능을 보였습니다.

*   **생물정보학 (단일 세포 RNA 서열 데이터 분석):**

    *   단일 세포 데이터에서 배치 효과(실험 환경으로 인한 오류)를 제거하는 어려운 과제에서, **인간이 개발한 최고 성능 방법보다 14% 향상된 40가지 새로운 방법**을 발견했습니다.

    *   특히, BBKNN (TS)라는 시스템이 만든 솔루션은 기존의 ComBat과 BBKNN이라는 두 가지 방법을 독창적으로 결합하여 성능을 크게 높였습니다. 이는 아이디어를 재조합하는 시스템의 능력을 보여줍니다.

*   **역학 (미국 COVID-19 입원 예측):**

    *   미국 질병통제예방센터(CDC)의 COVID-19 예측 허브 벤치마크에서, **CDC 앙상블 모델과 다른 모든 개별 모델보다 뛰어난 14가지 예측 모델**을 생성했습니다.

    *   이 시스템이 만든 'Google Retrospective' 모델은 평균 WIS(Weighted Interval Score, 낮을수록 좋음)에서 CDC 앙상블의 29점보다 낮은 26점을 기록했습니다.

    *   다양한 모델들의 강점을 시너지 효과로 결합하는 '재조합' 전략이 성공적인 예측 모델을 만드는 데 크게 기여했습니다.

*   **지리공간 분석 (원격 탐사 이미지 분할):**

    *   위성 이미지에서 픽셀 단위로 객체를 분류하는 복잡한 작업에서, **최근 학술 논문의 보고된 결과를 훨씬 뛰어넘는 최고 수준의 소프트웨어**를 개발했습니다 (mIoU 0.80 이상). UNet++ 및 SegFormer와 같은 최신 아키텍처를 활용하고 데이터 증강 및 예측 전략을 최적화했습니다.

*   **신경과학 (제브라피시 뇌 활동 예측):**

    *   제브라피시 뇌 전체의 신경 활동을 예측하는 벤치마크(ZAPBench)에서 **기존의 모든 베이스라인 모델을 능가하는 성능**을 보였습니다.

    *   특히 주목할 점은, 시스템이 개발한 모델은 가장 성능이 좋았던 기존 비디오 모델보다 **훈련 속도가 수십 배에서 수백 배 빨랐다**는 것입니다 (단일 T4 GPU에서 2시간 미만 vs 16 A100 GPU에서 36시간).

*   **시계열 예측 (GIFT-Eval):**

    *   다양한 시계열 데이터셋에 대한 예측 벤치마크(GIFT-Eval)에서 **기존의 딥러닝 및 통계 모델들을 능가하는 성능**을 달성했습니다. 여러 데이터셋에 걸쳐 작동하는 단일 통합 예측 솔루션도 높은 경쟁력을 보였습니다.

*   **수치 해석 (어려운 적분 계산):**

    *   표준 파이썬 라이브러리 `scipy.integrate.quad()`가 실패하는 19개의 어려운 적분 문제 중 **17개를 3% 미만의 오차로 정확하게 해결**하는 새로운 방법을 개발했습니다. 이 방법은 무한 영역을 유한 부분으로 나누고, 오일러 변환이라는 기법을 적용하여 수렴 속도를 가속화하는 것이 특징입니다.

**고찰**

이 연구는 AI가 단순한 코딩 도우미를 넘어, **과학적 발견 과정을 직접적으로 가속화하는 강력한 에이전트가 될 수 있음**을 보여줍니다. 시스템은 과학 소프트웨어 개발을 '측정 가능한 과제'로 재정의하고, LLM과 트리 탐색을 결합하여 이 문제를 체계적으로 해결합니다.

기존의 자동화된 프로그래밍 연구와 비교했을 때 이 시스템의 강점은 다음과 같습니다.

*   **지능적인 코드 변형:** 유전 프로그래밍(Genetic Programming)이 무작위 변형에 의존하는 반면, 이 시스템은 LLM을 통해 **의미론적으로 코드를 이해하고 지능적으로 재작성**하여 훨씬 복잡하고 의미 있는 변형을 만들어냅니다.

*   **유연한 생성 엔진:** 전통적인 생성 프로그래밍이 템플릿 기반의 제한적인 방식인 데 비해, LLM과 트리 탐색은 **방대한 솔루션 공간을 탐색하고 다양한 도메인 지식을 통합하여 새로운 프로그램을 유연하게 합성**합니다.

*   **반복적인 개선 루프:** 단순히 한 번의 프롬프트로 코드를 생성하는 LLM과 달리, 이 시스템은 **반복적인 피드백 루프**를 통해 기존 소프트웨어 후보를 재작성하고 품질 점수를 활용하여 코드를 지속적으로 개선합니다.

*   **일반화된 탐색 능력:** Google DeepMind의 FunSearch와 유사하지만, 이 시스템은 **트리 탐색 프로세스를 일반화**하고 학술 문헌에서 얻은 지식을 통합하여 더 넓은 범위의 문제에 적용될 수 있습니다.

*   **광범위한 적용 가능성:** 자동화된 머신러닝(AutoML)이 특정 ML 프레임워크 내에서 최적의 모델을 찾는 데 초점을 맞추는 반면, 이 시스템은 **전처리, 복잡한 시뮬레이션, 수학적 발견 등 AutoML의 범위를 넘어서는 모든 소프트웨어**를 재작성할 수 있습니다.

*   **다목적 문제 해결사:** 특정 과학 분야에 특화된 기존 AI 에이전트와 달리, 이 시스템은 **여러 분야에 걸쳐 전문가 수준을 뛰어넘는 일반적인 문제 해결 능력**을 입증했습니다.

**의의와 시사점 / 연구의 중요성**

이 연구는 과학자들이 직면하는 **소프트웨어 개발의 '병목 현상'을 AI의 힘으로 해결**할 수 있음을 입증했습니다. 가장 중요한 의의와 시사점은 다음과 같습니다.

*   **혁신적인 연구 가속화:** 이 시스템은 전문가 수준의 소프트웨어 솔루션을 **수주에서 수개월이 걸리던 작업을 단 몇 시간 또는 며칠 만에 생성**할 수 있습니다. 이는 과학자들이 더 많은 가설을 탐색하고, 더 복잡한 문제를 해결하며, 훨씬 빠른 속도로 새로운 지식을 발견할 수 있게 할 것입니다.

*   **인간 과학자의 역량 강화:** 이 AI 시스템은 인간 과학자를 대체하는 것이 아니라, **강력한 'AI 공동 과학자'로서 인간의 창의적인 연구를 지원하고 확장**하는 역할을 합니다. 과학자들은 이제 번거로운 코딩 작업 대신, 더 높은 수준의 개념적 사고와 실험 설계에 집중할 수 있게 될 것입니다.

*   **측정 가능한 과학 분야의 혁명:** 이 연구는 **기계가 성능을 객관적으로 평가할 수 있는 모든 과학 분야**에서 혁명적인 가속이 임박했음을 시사합니다. 생물정보학, 역학, 신경과학, 지리공간 분석, 시계열 예측, 수치 해석 등 다양한 분야에서 이미 뛰어난 성능을 보였듯이, 앞으로 더 많은 과학 분야에서 이러한 AI 시스템이 활용될 가능성이 매우 높습니다.

이 연구는 인공지능이 과학적 발견의 새로운 시대를 여는 중요한 전환점이 될 것이며, 인류가 직면한 다양한 문제에 대한 해결책을 찾는 속도를 획기적으로 향상시키는 데 기여할 것으로 기대됩니다.


perplexity.ai

이 논문은 구글 딥마인드와 구글 리서치가 주도한 최신 인공지능 연구로, 과학자들이 복잡한 연구 소프트웨어를 빠르고 정확하게 만들 수 있도록 돕는 **AI 시스템**을 소개합니다.[1]

***

## 연구 배경  

현대 과학의 대부분은 데이터를 분석하거나 예측하는 다양한 소프트웨어에 크게 의존합니다. 예를 들어, 산림의 벌채 감지, 기후 변화 예측, 유전자 분석 등 모두 특수한 연구 코드를 필요로 합니다. 그런데 이런 **전문 소프트웨어**를 직접 개발하는 일은 보통 수개월에서 수년까지 걸리고, 다양한 방법을 다 시도해 보기 어려워 새로운 아이디어 실험이 제한됩니다.[1]

## 연구 목적  

이 논문의 목표는 “과학 문제를 자동으로 해결하는 소프트웨어”를 **AI로 만들어내는 방법을 제안**하는 것입니다. 즉, 사람이 오랜 기간에 걸쳐 연구했던 작업을 AI가 빠르고 다양하게 탐색하고, 기존의 최고 방법을 능가하는 새 코드를 만드는 것입니다.[1]

## 연구 방법  

AI 시스템은 다음과 같이 작동합니다:

- 사용자가 해결하고자 하는 문제와 평가 지표(예: 정확도, 예측의 평균오차 등)를 입력합니다.

- **대형 언어 모델(LLM)**이 여러 가지 해법을 코드로 제시합니다.

- 코드별로 실제 데이터를 넣어 결과 점수를 계산합니다.

- 기존 코드들을 바탕으로 새로운 아이디어(논문, 교과서, 인터넷 등에서 얻은)를 추가해 코드를 계속 발전시키며, **트리 탐색(Tree Search)**라는 방식으로 최고의 결과를 찾습니다.

- 이 과정은 사람의 직관에만 의존하지 않고, 산더미 같은 아이디어를 자동 실험하고 평가하는 'AI 반복 탐색'입니다.[1]

## 핵심 결과  

이 시스템은 다양한 실제 과학 작업에서 놀라운 성과를 보여줍니다:

- **유전체 단일세포 분석**: 전 세계 연구자들이 개발한 최고 방법보다 40개가 더 우수한 새 분석법을 AI가 자동으로 완성합니다.

- **코로나19 입원환자 예측**: 미국 CDC가 관리하는 공식 모델보다 더욱 정확한 14개의 모델을 만들어냅니다.

- **위성지도 분석, 뇌 활동 예측, 복잡한 시계열 데이터 예측, 어려운 수학적 적분 계산** 등에서도 기존 최고 수준 소프트웨어를 뛰어넘는 결과를 연이어 보여줍니다.[1]

## 논의와 해석  

- 이 AI 시스템은 "실험 → 평가 → 개선"의 과정을 자동화하여, 새로운 아이디어 실험을 **사람보다 훨씬 빠르게, 더 넓고 깊게** 탐색할 수 있습니다.

- 새로운 연구 아이디어를 스스로 생성·조합할 수 있고, 외부 논문 내용, 전문가의 조언 등을 적극적으로 탐색하여 코드에 반영합니다.

- 기존의 유전 프로그래밍, 자동 머신러닝(AutoML), 코드 생성 AI 등을 발전시킨 방식으로, 특히 소프트웨어의 진화를 **학습·탐색·재설계**로 반복합니다.[1]

## 의의와 시사점  

- 앞으로 과학의 많은 분야에서 **풀고 싶은 문제가 명확히 점수화될 경우(예를 들어, 더 정확하게 예측, 잘 분류, 빠르게 계산 등)**, 이런 AI가 사람 대신 수많은 아이디어를 자동으로 실험하고, 가장 우수한 연구 방법을 빠르게 찾아낼 수 있습니다.

- 덕분에 과학 연구의 속도와 품질이 급격하게 올라갈 것으로 기대됩니다.

- 실제로 이 방법은 이미 여러 분야에서 기존 최고 방법을 능가하고 있습니다.[1]

***

## 왜 이 연구가 중요한가요?  

이 AI 시스템은 '과학적 탐구의 자동화'라는 미래를 현실로 만듭니다. 이제 과학자뿐 아니라 일반인도 복잡한 연구 소프트웨어 개발에 AI의 도움을 받아, 더 빠르게 실험하고 더 좋은 결과를 얻을 수 있습니다. 새로운 과학적 발견, 사회 문제 해결, 의료 혁신 등 **모든 분야의 연구 속도를 획기적으로 높일 수 있는 잠재력**을 보여줬다는 점에서, 매우 중요한 연구입니다.[1]




출처: @ye._.vely618