레이블이 LLM인 게시물을 표시합니다. 모든 게시물 표시
레이블이 LLM인 게시물을 표시합니다. 모든 게시물 표시

화요일, 3월 24, 2026

이번에는 Zeroclaw다!!

지난번 안드로이드 공기계에서 Openclaw를 설치하다가 실패해서 이번에는 Zeroclaw를 설치해보도록 하겠습니다.

일단 이것저것 많이 사용해보는 것으로...


여기가 공식 홈페이지입니다

그리고 여기는 빠른 시작 페이지 되겠습니다.


Zeroclaw 설치

설치는 그렇게 어렵지 않습니다. (물론 이전에 Openwork에서 삽질을 하도 해서 그런 것일 수 도)

여기 설치 페이지에 가서 보면 간단합니다.

전 그 중에서 zeroclaw를 git clone해서 bootstrap하는 방법(원클릭 부트스트랩)으로 진행했습니다.

Zeroclaw 설치

그전에 Ubuntu 사용자인경우 사전 설치 해주면 좋을 것을 먼저 설치해주면 되겠습니다.

# Linux (Debian/Ubuntu)

# apt install build-essential pkg-config

# Rust toolchain

$ curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh


그리고 추가적으로 시스템 의존성과 rust를 함께 해결하고자 아래와 같이 추가적인 옵션인 --install-system-deps --install-rust을 함께 실행하였습니다. 이미 위에서 rust를 설치하였으나 혹시 몰라서 다시 한번 더 옵션을 넣었습니다.

$ git clone https://github.com/zeroclaw-labs/zeroclaw.git

$ cd zeroclaw

$ ./install.sh --install-system-deps --install-rust

※ 다만 일반 계정에서 ./install.sh를 실행하였으나 스스로 필요한 것들을 설치하기 위해서 관리자 비밀번호를 요구하니 sudo 설정 하시고 진행하시기 바랍니다. 



Zeroclaw 실행 및 환경설정

Zeroclaw에서도 앞선 Openwork처럼 환경설정이 필요합니다. 

환경설정 파일은 홈 폴더의 숨김 폴더안에 생성됩니다. 

$ ls ~/.zeroclaw/config.toml

음... 어쩌면 아직 config.toml 파일이 없을 수 도 있습니다. 만약 없다면, 우선 Zeroclaw를 한번 실행시켜 주십쇼

$ zeroclaw gateway

그런 후 다시 종료 시키면 환경설정 파일 안에 이런 저런 파라미터 값들이 추가되어 있습니다.

지금이 환경설정을 수정해줘야하는 시간입니다. :)

저의 경우 provider는 ollama, model은 llama3.2:3b을 사용하고, 원격 윈도우에서 웹으로 접근하려고 하기 때문에 아래와 같이 수정하였습니다.

$ vi ~/.zeroclaw/config.toml

api_url = "http://localhost:11434"
default_provider = "ollama"
default_model = "llama3.2:3b"

[gateway]
port = 3000
host = "0.0.0.0"
require_pairing = true
allow_public_bind = true






6 digi code를 입력해서 원격 PC에서 브라우저를 통해서 Zeroclaw를 실행하였으나... 문제는 제대로 모델과 통신이 안되더라구요.


저는 처음에

$ zeroclaw onboard 

로 시작하지 않고,

$ zeroclaw gateway

로 시작했는데, 이렇게 시작하면서 ollama 모델과 제대로 통신을 못하는 것인지 아직 해결은 못했습니다.

중간에 onboard를 실행시키니 기존 config.toml을 모두 overwite해서 기존 환경설정이 어그러져있더라구요.

ollama는 정상적으로 작동하는 것 처럼 보이는데 zeroclaw의 환경설정에서 제가 무엇인가 제대로 설정을 못잡아 준 것 같습니다. :)

다시 Zeroclaw와 함께 Openclaw, Openjarvis도 한번 설치해서 연동까지만 진행하는 기록들을 작성해보도록 하겠습니다. :)



출처: @ye._.vely618

수요일, 3월 18, 2026

로컬PC에서 LLM모델을 구동시켜보자. (Openwork를 사용해보자, 수정)

이전 글에 이어서 계속 진행해보도록 하겠습니다. 계속 연결되는 내용이지만 OS를 Ubuntu 25.10 (LTS아님) 로 변경해서 진행했습니다. :)

 

우선 이전 글에서 진행 하지 않은 것이 있어서... 일을 시키려면 뇌에 해당하는 모델을 가져와야죠

ollama 모델 다운로드

ollama가 문제 없이 설치되었다면 모델들을 아래와 같이 땡겨 올 수 있습니다.

$ ollama pull llama3.2:1b

$ ollama pull qwen3.5:0.8b

$ ollama pull qwen2.5-coder:0.5b

$ ollama pull opencoder:1.5b

아니.. 파라미터가 1b 이게 무엇이냐 하신다면, 이거는 사실 그냥 연결되서 작동하는지에 대해서 테스트 해보는 것이라서 굳이 불필요하게 큰 모델들을 다운로드해서 테스트 하지 않고자 작은것들만 고른 겁니다. :)



방화벽해제

# su -

# ufw allow 3000

# ufw allow 5173 

# ufw allow 4096

# ufw allow 11434 

일단 눈에 보였던 포트들을 미리미리 허용해놓는 것이라서 이것보다 더 많을 수도 있습니다. :)

근데 방화벽 허용도 굳이 안해도 되지 않을까 합니다. 허용안한 35071 포트로 접근이 그냥 됩니다. 



Opencode 설정

Opencode 설치 후 그냥 알아서 ollama와 연동되서 모델을 사용할 줄 알았는데...

LLM이 무엇이든 대답해주고 AI 개인 비서를 두는 시대에도 설정 파일이 필요하다는 것을 망각했네요.. 아무리 시간이 흘러도 첫 셋팅할 때는 환경 설정이 중요합니다.

일반계정에서 설치 했다면 ~/.opencode/opencode.json 아래 Openwork 설치 후 Openwork 폴더 아래에 숨김폴더로 opencode가 생겼을 겁니다. 바로 그 폴더안에 .opencode/opencode.json 경로에 opencode.json파일이 있을 수 도 없을 수도 있습니다. 있다면 아래와 같이 수정을, 없다면 생성해서 아래와 같이 내용을 적어주세요 :)

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "ollama": {
      "name": "Ollama (local)",
      "options": {
        "baseURL": "http://localhost:11434/v1"
        },
      "models": {
        "qwen3.5:0.8b": {
        "name": "Qwen 3.5 0.8B"
        },
        "opencoder:1.5b": {
        "name": "OpenCoder 1.5B"
        }
      }
    }
  }
}



Opencode 실행(응 필요없음)

Openwork는 Opencode가 있어야 하기 때문에 Opencode가 뒷단에서 돌아가주고 있어야한다고 하네요. 일단 아래와 같이 실행시켜 주었는데...

$ opencode --hostname 0.0.0.0 web

※ 음... 그래도 어제보다는 무엇인가 한걸음 나아간것 같습니다.

결국엔 opencode를 뒷단에서 굳이 따로 실행시켜 주지 않아도 되는듯 합니다. :)


Openwork 설치

드디어 설치 Openwork를 설치합니다. npm으로 pnpm과 bun을 설치해주고 아래와 같이 진행해주면 일단 원격에서 접속은 되더라구요

※ 아.. 큰 수정사항이 있습니다. rust설치와 cargo 실행을 굳이 관리자 계정으로 할... 필요가 없었습니다... 

# npm install -g pnpm

# npm install -g bun

$ curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

$ source $HOME/.cargo/env

$ cargo install tauri-cli

/*cargo install tauri-cli 명령어 수행시 timeout으로 설치 실패가 된다면 다시 시도 해주면 다시 설치 진행합니다. */

$ git clone https://github.com/different-ai/openwork.git

$ cd openwork

$ pnpm install

$ pnpm approve-builds

$ pnpm dev //터미널1

※ 현재 여기서 "Exit status 101" 라고 에러가 발생하고 죽어버려서 해결중에 있습니다.

$ pnpm dev:ui --host 0.0.0.0 -d //터미널2

$ pnpm dev:headless-web --host 0.0.0.0 -d 


위와 같이 터미널1에서는 dev를 터미널2에서는 dev:ui 실행시켜 주면 원격에 있는 윈도우 PC에서 브라우저로 Openwork에 접속 하는 것을 보실 수 있습니다.


근데 브라우저로 접근은 되는데;;;;

거기까지가 끝입니다. remote worker를 연결하려고 하는데... 이게 안되더라구요

→ pnpm dev:ui는 UI관련된 업무를 하는 것이었다면, pnpm dev가 실제 일하는 worker를 구동하게 하는 것이라고 합니다.

작업하면서 놓친 부분이 있을 것 같아서 다시 더 검색해보고 진행해보고 다시 글을 작성해보도록 하겠습니다.

추가적으로 한 작업으로는 

# apt install libgdk-pixbuf-xlib-2.0-dev

# apt install ubuntu-desktop

해서 GUI로 접근할 수 있도록 설치 했습니다. pnpm dev의 에러가 화면과 관련된 내용들이어서 이전 작업들과 차이점은... GUI 관련 툴들을 모두 설치했다는 것 되겠습니다. 

그래서 GUI로 로그인해서 pnpm dev를 실행시키면 화면에 창이 하나 뜨면서 바로 Openwork가 실행되는.. 좀 맥이 빠지는 상황이...

그래서 pnpm 실행 모드를 perplexity에게 물어보니 dev:headless-web 실행시켜보라고 하더라구요. 그래서 일단 GUI 상태에서 

$ pnpm dev:headless-web --host 0.0.0.0 -d

수행하고 원격에서 접근하니 dev:ui와 같이 브라우저에서 잘 작동하였습니다.


기존 dev:ui와 다른 점은 GUI에서 실행한 터미널 창에 TOKEN정보를 보여주는것이 차이점인지라 원격 연결 할 때 IP:PORT와 함께 TOKEN 정보를 함께 입력하니 활성화되는것을 확인하였습니다.

그리고 opencode 서버를 작동시키지 않았는데 알아서 잘 연결합니다;;

내일 다시 한번 확인을 해보고 좀 더 추가 내용을 작성하도록 하겠습니다. :)


안되면 최근에 나온 오픈자비스를 돌려보던지..... 아니면 다른 claw를 사용해보던지.. 해봐야죠 :)





출처: @ye._.vely618


화요일, 3월 17, 2026

로컬PC에서 LLM모델을 구동시켜보자. (OpenCode까지, 수정)

우분투가 설치된 로컬PC에서 여러 LLM들을 돌려보고자 OpenCode/OpenWork 설치를 시도하고 있는 것을 공유차 올려봅니다. :)

우선 현재 테스트 한 머신은 Intel i5, 16G 메모리(DDR3), 500G HDD, Intel 내장형 그래픽카드를 사용하는 PC되겠습니다!! 

지금은 Ubuntu 22.04.5 LTS를 기본 OS로 해서 OpenCode/OpenWork를 설치 테스트를 했는데

OpenCode까지는 큰 무리없이 설치가 마무리되었는데 OpenWork를 설치하는데 계속 에러가 빈번하게 발생해서 우선 지금까지 경험한 내용을 공유하도록 하겠습니다. 


1. Ubuntu 설치
Ubuntu 홈페이지가서 iso 파일을 다운로드 받아, 집에서 굴러다니는 USB 하나에 부팅/설치 USB로 만들어서 공 기계에 설치를 해주시면됩니다. 
(현재 저는 Ubuntu 22.04.5 LTS로 진행했는데, Ubuntu 24.04.4 LTS로 변경해서 진행할 예정입니다. )


2. 기본 설정 (root 권한)
Ubuntu를 다 설치 했다면 이것저것 설치할 때 관리자 권한을 요구하기도 하고 걍 root로 대부분 설치하게되더라구요;; 그래서 root 권환 확보가 필요합니다.
$ sudo passwd root
그러면 패스워드 입력하라고 하는 프롬프트가 나오는데 그냥 적어주시면 됩니다.

$ su -
# apt update
# apt upgrade


그리고 추가적으로 필요한 패키지나 tool들을 설치해야합니다.
※ 보통 이미 설치되어 있는 tool들도 있는데 혹시나해서 넣어놨습니다.

# apt install ufw git curl bzip2 wget cmake build-essential unzip libssl-dev libffi-dev pigz
gcc-10 g++-10 gcc g++ file plocate libgtk-3-dev libayatana-appindicator3-dev librsvg2-dev libjavascriptcoregtk-4.1-0 libsoup-3.0-0 libsoup-3.0-common libwebkit2gtk-4.1-0 libwebkit2gtk-4.1-dev nodejs npm

다 설치 후 원격 접속을 위한 ssh 접근 허용을 위해서 이렇게 포트를 열어줍니다.
# ufw allow ssh
나중에 더 필요하면 포트를 열면 됩니다. 포트 8080을 사용하고자 한다면 
# ufw allow 8080

3. Ollama 설치
Ollama 설치를 일반 계정으로 진행해보려고 했는데 sudo를 물어봐서 걍 관리자 권한인 root 계정으로 들어가서 했으니 참고 부탁드립니다.

# curl -fsSL https://ollama.com/install.sh | sh


이렇게 install.sh 실행시켜 주면 ollama serve 서비스 등록까지 되어서 이미 실행되고 있을 겁니다.
사실 할게 딱히 없습니다.
설치는 관리자 계정으로 진행했지만 파일 다운로드 받거나 하는 것은 일반 계정으로 진행해도 상관없습니다.

$ ollama list

ollama 모델을 로딩 할 때 run으로 하면 되는데 그전에 로컬에 다운로드 받아 놓고 사용하면 좋을 것 같아서 로컬 저장소로 모델을 pull 해놓습니다. :)

$ ollama pull <model name>


4. Opencode 설치

오픈코드도 설치는 문제가 없습니다. su를 이용해서 관리자 권한으로 들어가서 설치 스크립트를 수행하면 설치 완료!! 

# curl -fsSL https://opencode.ai/install | bash

아.. 정정사항이 있습니다. Opencode 설치시 관리자 계정이 아닌 일반 계정에서도 문제없이 설치 됩니다. :)

$ curl -fsSL https://opencode.ai/install | bash

$ source ~/.bashrc


로 명령어를 실행시켜 주시면 설치되고 사용할 수 있습니다. :)

이제 이 다음부터가 문제입니다. Orz

커밍 쑨...









출처: @ye._.vely618

월요일, 1월 12, 2026

LLM을 돌릴 때 GPU가 꼭 필요할까?

OpenAI에서 chatGPT를 공개한 후부터 LLM이 각광을 받으면서 NVDIA의 GPU가 품귀현상으로 다들 못구해서 난리인 이 지금(사실 OpenAI전부터 코인 덕분이더라도 GPU는 잘 팔리고 있기는 했습니다.), 꼭 전력도 많이 사용하고 제때 구하기도 힘든 GPU써서 LLM을 돌려야 겠냐라는 생각을 누가 하지 않았을까요? 

행렬 연산을 해야하는 작업이라서 어쩔 수 없다라는 생각들이었는데 이것을 보기좋게 해결한 분들이 나왔씁니다. 아직 arvix에 떠돌고 있기는 한데 상업적으로 꽤나 쏠쏠한 내용이라서 성능에서 차이가 없는데 CPU에서 가능하다면 많이 활용되지 않을까합니다. 제목은 Scalable MatMul-free Language Modeling으로 기존에 행렬 곱산 연산을 더하기 연산으로 메모리 사용량과 전력량을 획기적으로 줄였고, 꼭 GPU가 아니어도 성능저하없이 LLM을 사용할 수 있는 것을 증명했습니다.

나중에 기회가되면 한번 테스트를... (할 수 있다면요)

DOI: 10.48550/arXiv.2406.02528


clova-x

# MatMul-free Language Models: 효율성과 성능의 혁신

## 연구 배경

현대의 대규모 언어 모델(Large Language Models, 이하 LLMs)은 주로 행렬 곱셈(MatMul) 연산에 의존하는데, 이는 계산 비용과 메모리 접근 시간을 많이 소모합니다. 특히, 이러한 연산은 GPU에서 최적화되지만, 여전히 자원 집약적이고 병목 현상을 일으킬 수 있습니다. 따라서, MatMul을 제거하면서도 성능을 유지할 수 있는 방법이 필요했습니다.

## 연구 목적

이 연구의 목적은 MatMul 연산을 제거한 언어 모델을 개발하여 메모리 사용량을 줄이고, 뉴로모픽 하드웨어에서의 효율성을 높이는 것입니다. 이를 위해 덧셈과Hadamard곱연산을활용하여MatMul을대체하는방법을제안합니다.

## 연구 방법

연구팀은 MatMul 연산을 대체하기 위해 다음과 같은 방법을 사용했습니다:

1. **Dense Layer**: 텐서 가중치를ternary(세 가지 값: −1, 0, +1)로 변환하여 덧셈 연산만을 사용하도록 했습니다.

2. **Self-Attention Mechanism**: Gated Recurrent Unit(GRU)을 최적화하여element-wise곱연산만을사용하도록했습니다.

이러한 방식으로 모든 MatMul 연산을 제거하면서도Transformer모델과비슷한성능을유지할수있었습니다.

## 연구 결과

실험 결과, MatMul-free 언어 모델은 기존의 Transformer 모델과 비교하여 성능 저하 없이 메모리 사용량을 크게 줄일 수 있었습니다. 특히, 뉴로모픽 하드웨어인인텔의Loihi 2플랫폼에서높은throughput과에너지효율성을달성했습니다. 또한, 다양한언어작업에서경쟁력있는성능을발휘하였으며,제로샷학습에도효과적이었습니다.

## 고찰

이 연구는 LLMs의경량화와고성능화를위한새로운방향을제시합니다. MatMul-free 아키텍처는뉴로모픽컴퓨팅패러다임에자연스럽게적합하며,기존하드웨어보다훨씬더효율적입니다. 이는대규모언어모델링작업,특히추론단계에서매우유용합니다.

## 의의와 시사점

MatMul-free 언어 모델은 다음과 같은 의의를 가집니다:

1. **메모리 절약**: MatMul 연산을 제거함으로써 메모리 사용량을 크게 줄여, 더 큰 모델을 효율적으로 학습하고 실행할 수 있게 됩니다.

2. **뉴로모픽 하드웨어와의 호환성**: 뉴로모픽 하드웨어에서 높은 효율성을 보여주며, 이는 향후 더 작고 빠르며 에너지 효율적인 언어 모델의 개발 가능성을 열어줍니다.

3. **다양한 응용 분야**: 다양한 언어 작업에서 우수한 성능을 발휘하므로, 여러 도메인에서 유용하게 사용될 수 있습니다.

## 결론

MatMul-free 언어 모델은 기존의 Transformer 모델과 비교하여 성능 저하 없이 메모리 사용량을 크게 줄이고, 뉴로모픽 하드웨어에서의 효율성을 높였습니다. 이는 대규모 언어 모델링 작업뿐만 아니라, 다양한 응용 분야에서 매우 유용하게 사용될 수 있을 것입니다. 이러한 연구는 앞으로의 언어 모델 발전에 중요한 기여를 할 것으로 기대됩니다.


gemini

본 요약은 업로드하신 논문 **"Scalable MatMul-free Language Modeling" (2025)**의 내용을 바탕으로, 전문 지식이 없는 일반 성인 독자들이 이해하기 쉽게 블로그 포스팅 형식으로 작성되었습니다.

---

# [IT/AI] 드디어 '곱셈' 없이 말하는 AI가 나왔다? 거대 언어 모델(LLM)의 혁명

최근 챗GPT 같은 인공지능(AI)이 일상의 필수가 되었지만, 이들을 유지하는 데는 엄청난 비용과 전기가 소모됩니다. 그 핵심 원인은 바로 AI의 두뇌 속에서 쉼 없이 일어나는 '행렬 곱셈(MatMul)' 연산 때문입니다. 그런데 최근, 이 **'곱셈'을 아예 없애버리고도 똑똑하게 작동하는 새로운 AI 모델**이 발표되어 학계와 산업계의 주목을 받고 있습니다.

### 1. 연구 배경: AI는 왜 그렇게 '전기 먹는 하마'가 되었을까?

현재의 거대 언어 모델(LLM)은 '트랜스포머(Transformer)'라는 구조를 기반으로 합니다. 이 구조의 핵심은 문장 속 단어 간의 관계를 계산하는 것인데, 이 과정에서 **'행렬 곱셈(Matrix Multiplication, MatMul)'**이라는 복잡한 수학 연산이 전체 계산량의 거의 대부분을 차지합니다. 문제는 이 연산이 너무 무겁고 메모리를 많이 잡아먹어, 값비싼 고성능 GPU 없이는 AI를 돌리기 힘들다는 점입니다.

### 2. 연구 목적: "곱셈 없이도 AI가 가능할까?"

연구진은 한 가지 대담한 질문을 던졌습니다. **"성능을 유지하면서 AI 모델에서 모든 곱셈 연산을 제거할 수 있을까?"**. 만약 이것이 가능하다면, 훨씬 저렴한 칩에서도 AI를 돌릴 수 있고, 스마트폰 같은 기기 내에서도 초절전형 AI를 구현할 수 있기 때문입니다.

### 3. 연구 방법: 곱셈 대신 '더하기'와 '선택'으로!

연구팀은 기존의 무거운 곱셈 연산을 두 가지 혁신적인 방법으로 대체했습니다.

**더하기 연산으로 대체**: AI 모델의 무게를 결정하는 '가중치'를 단순하게 만들어, 복잡한 곱셈 대신 **단순한 덧셈(Addition)**만으로 계산이 가능하게 했습니다.

**새로운 기억 방식(MLGRU)**: 문장의 흐름을 파악할 때 사용하는 복잡한 계산 방식을 **'원소별 곱셈'과 '더하기'만 사용하는 방식(MLGRU)**으로 바꿨습니다. 이는 마치 뇌가 정보를 처리하는 방식과 더 유사합니다.

**뉴로모픽 칩 활용**: 이 모델의 효율을 극대화하기 위해 인간의 뇌 신경망을 모방한 '로이히 2(Loihi 2)'라는 특수 칩에 모델을 탑재해 성능을 테스트했습니다.

### 4. 연구 결과: 가볍지만 강력한 성능

실험 결과는 놀라웠습니다. 27억 개의 매개변수(Parameter) 규모에서도 기존 AI와 대등한 수준의 언어 처리 능력을 보여주었습니다.

**메모리 절감**: 학습 시 메모리 사용량을 **최대 61%까지 줄였고**, 추론(실제 사용) 시에는 **10배 이상 효율적**이었습니다.

**압도적 전력 효율**: 특수 칩(뉴로모픽 시스템)에서 작동할 때, 일반적인 GPU보다 **전력 소모는 10배 적으면서 속도는 4배 더 빨랐습니다**.

**규모의 경제**: 모델의 크기가 커질수록 기존 모델과의 성능 격차가 줄어들어, 향후 더 큰 모델에서도 충분히 사용 가능하다는 가능성을 증명했습니다.

### 5. 고찰 및 의의: '하드웨어 복권'을 넘어서

그동안 AI는 GPU라는 특정 하드웨어에 최적화된 '곱셈' 연산에만 매달려 왔습니다. 이번 연구는 AI 설계가 특정 하드웨어의 한계에 갇힐 필요가 없음을 보여줍니다. 특히 고가의 장비 없이도 강력한 AI를 구현할 수 있는 **'가볍고 똑똑한 AI(Lightweight LLM)'**의 시대를 여는 중요한 이정표가 될 것입니다.

---

### 💡 이 연구가 왜 중요할까요? (결론)

1. 

**지속 가능한 AI**: AI 학습과 운영에 드는 막대한 탄소 배출과 전기료 문제를 해결할 수 있는 현실적인 대안을 제시합니다.

2. 

**내 손안의 AI (On-Device AI)**: 클라우드 서버를 거치지 않고 우리 스마트폰이나 웨어러블 기기 자체에서 강력한 AI가 돌아갈 수 있는 환경을 만들어줍니다.

3. 

**AI 민주화**: 값비싼 GPU 인프라를 갖추지 못한 기업이나 개인도 거대 언어 모델을 연구하고 활용할 수 있는 길을 열어줍니다.

결국 이 연구는 **"AI가 얼마나 더 커질 것인가"**의 경쟁에서 **"AI가 얼마나 더 효율적이고 인간의 뇌를 닮아갈 것인가"**로 패러다임을 전환했다는 점에서 매우 큰 의미가 있습니다.


chatGPT

아래는 업로드하신 논문 **「Scalable MatMul-free Language Modeling」**의 실제 내용을 바탕으로,

**전문 지식이 없는 일반 성인 독자도 이해할 수 있도록 풀어 쓴 블로그용 요약 글**입니다.

형식은 요청하신 대로 **연구 배경 → 목적 → 방법 → 결과 → 고찰 → 의의와 시사점 → 왜 중요한가**의 흐름을 따르며,

논문에서 **직접 얻을 수 있는 핵심 메시지**를 중심으로 구성했습니다.

---

## 1. 연구 배경: 왜 “행렬 곱 없는 언어 모델”이 필요한가?

오늘날 ChatGPT나 LLaMA와 같은 대규모 언어 모델(LLM)은 대부분 **트랜스포머(Transformer)** 구조를 사용합니다.

이 구조의 핵심 계산은 **행렬 곱셈(Matrix Multiplication, MatMul)** 입니다.

행렬 곱은 GPU에서 매우 빠르게 계산할 수 있도록 최적화되어 있어, 지난 10여 년간 딥러닝 발전의 중심에 있었습니다. 하지만 동시에 다음과 같은 한계를 낳았습니다.

* **막대한 전력 소모** (훈련·추론 모두)

* **큰 메모리 사용량**

* **고성능 GPU에 대한 강한 의존성**

* 엣지 디바이스나 저전력 환경에서는 사실상 사용 불가

최근에는 모델을 “더 크게” 만드는 방식이 한계에 부딪히면서,

**“꼭 행렬 곱을 써야만 좋은 언어 모델을 만들 수 있을까?”**라는 근본적인 질문이 제기되고 있습니다.

이 논문은 바로 그 질문에 정면으로 도전합니다.

---

## 2. 연구 목적: 행렬 곱을 완전히 제거한 LLM은 가능한가?

이 연구의 목표는 매우 명확합니다.

> **행렬 곱 연산을 완전히 제거한 언어 모델을 만들고,

> 그럼에도 불구하고 기존 트랜스포머 수준의 성능과 확장성을 유지할 수 있는지 검증한다.**

기존 연구들에서도

* 가중치를 1비트·3값(−1, 0, +1)으로 줄이거나

* 일부 곱셈을 덧셈으로 대체하려는 시도는 있었습니다.

그러나 대부분은 **어텐션(attention)** 단계에서 여전히 행렬 곱이 필요했습니다.

이 논문은 **어텐션까지 포함해 모든 행렬 곱을 제거**하는 데 성공했다는 점에서 차별성이 있습니다.

---

## 3. 연구 방법: 트랜스포머를 어떻게 “곱셈 없이” 재설계했나?

### 1) 핵심 전략 ① 가중치를 3값(ternary)으로 제한

모든 선형층(Dense layer)의 가중치를

**−1, 0, +1 중 하나만 갖도록 제한**합니다.

이렇게 하면 곱셈은 사라지고,

* +1 → 더하기

* −1 → 빼기

* 0 → 무시

로 계산할 수 있습니다. 즉, **곱셈 없이 덧셈만으로 계산**이 가능합니다.

---

### 2) 핵심 전략 ② 어텐션을 RNN 기반 구조로 대체

트랜스포머에서 가장 계산량이 큰 부분은 **자기어텐션(Self-Attention)** 입니다.

이 단계는 입력 길이가 길어질수록 행렬 곱 비용이 폭증합니다.

연구진은 이를 **GRU 기반 순환 신경망(RNN)** 구조로 대체했습니다.

* 단, 기존 GRU를 그대로 쓰지 않고

* **행렬 곱을 모두 제거하도록 선형화(linearization)** 하고

* 게이트 연산은 **원소별 곱(element-wise product)** 만 사용하도록 재설계했습니다.

이렇게 만들어진 구조를 논문에서는

**MLGRU (MatMul-free Linear Gated Recurrent Unit)** 라고 부릅니다.

이 MLGRU는:

* 어텐션처럼 문맥 정보를 누적할 수 있고

* 긴 시퀀스도 처리 가능하며

* 계산은 덧셈과 원소별 연산만 사용합니다.

---

### 3) 토큰 믹서 + 채널 믹서 구조 유지

중요한 점은, 연구진이 **트랜스포머의 핵심 철학은 유지**했다는 것입니다.

* 토큰 간 정보 결합(Token Mixing) → MLGRU

* 채널 간 정보 결합(Channel Mixing) → 곱셈 없는 GLU 구조

즉, “완전히 다른 모델”이 아니라

**트랜스포머의 기능을 곱셈 없이 구현**한 구조라고 볼 수 있습니다.

---

## 4. 연구 결과: 성능은 정말 유지되었는가?

### 1) 모델 규모 확장 실험 (370M → 1.3B → 2.7B)

연구진은 최대 **27억(2.7B) 파라미터**까지 모델을 확장해 실험했습니다.

결과는 인상적입니다.

* 모델이 커질수록

  **기존 트랜스포머와의 성능 격차가 점점 줄어듦**

* 손실 함수 기준으로 보면

  **확장 추세(scaling law)가 오히려 더 가파름**

이는 이 구조가 **“작은 장난감 모델”이 아니라,

대규모 모델로도 충분히 성장 가능함**을 보여줍니다.

---

### 2) 언어 이해 벤치마크 성능

ARC, HellaSwag, WinoGrande, PIQA 등

대표적인 **제로샷 언어 이해 과제**에서:

* 전통적인 Transformer++ 모델과 **거의 동일한 평균 성능**

* 일부 과제에서는 **MatMul-free 모델이 더 높은 점수**

즉, 계산 방식은 훨씬 단순하지만

**언어 이해 능력은 유지**되었습니다.

---

### 3) 메모리·속도·에너지 효율

GPU 기준으로:

* **훈련 시 메모리 사용량 최대 61% 감소**

* **추론 시 메모리 사용량 10배 이상 감소**

* 추론 지연(latency)도 크게 감소

---

### 4) 뉴로모픽 하드웨어(Loihi 2)에서의 성능

이 모델은 특히 **뉴로모픽 칩**에서 진가를 발휘합니다.

* 토큰 생성 속도: 기존 엣지 GPU 대비 **약 4배**

* 에너지 효율: **토큰당 에너지 10배 이상 절감**

* 저전력(수 와트) 환경에서도 안정적 동작

이는 기존 LLM으로는 거의 불가능했던 결과입니다.

---

## 5. 고찰: 이 접근의 한계와 의미

### 한계

* RNN 기반 구조 특성상

  **아주 긴 문맥(Long-context)** 처리에서는 불리할 수 있음

* 최신 초거대 모델(수백억 파라미터)과의 직접 비교는 아직 없음

* 하이브리드 구조(Transformer + RNN)가 필요할 가능성

### 그럼에도 불구하고

이 연구는 “속도를 조금 희생하고 성능을 얻는” 방식이 아니라

**계산 패러다임 자체를 바꾸는 접근**이라는 점에서 의미가 큽니다.

---

## 6. 의의와 시사점

이 논문이 주는 가장 큰 메시지는 다음과 같습니다.

1. **행렬 곱은 언어 이해의 본질이 아니다**

2. LLM은 **훨씬 단순한 연산만으로도 충분히 작동**할 수 있다

3. 미래의 AI는 “더 큰 GPU”가 아니라

   **더 효율적인 구조 + 새로운 하드웨어**로 갈 가능성이 크다

4. 엣지 AI, 의료·웨어러블·로봇 분야에서

   **실시간 LLM 활용의 문이 열린다**

---

## 7. 이 연구는 왜 중요한가?

이 연구는 단순한 성능 개선 논문이 아닙니다.

**“AI는 반드시 비싸고, 크고, 전기를 많이 먹어야 한다”는 전제를 깨뜨린 연구**입니다.

* 데이터센터 밖에서도

* GPU 없이도

* 인간의 뇌처럼 에너지 효율적으로

언어 모델이 작동할 수 있다는 가능성을 처음으로 **실험적으로 증명**했습니다.

앞으로 AI가 의료, 공공, 개인 기기, 생체 신호 분석 등

**에너지와 비용이 중요한 영역으로 확장될수록**,

이 논문에서 제시한 방향은 점점 더 중요해질 것입니다.


grok

### Scalable MatMul-free Language Modeling: 행렬 곱셈 없는 대형 언어 모델

#### 연구 배경

대형 언어 모델(LLM), 예를 들어 ChatGPT 같은 AI는 행렬 곱셈(MatMul)이라는 계산에 크게 의존합니다. 이 MatMul은 모델의 주된 부분인 어텐션(attention)과 피드포워드 네트워크(FFN)에서 발생하며, 컴퓨터 자원(메모리, 에너지)을 많이 소모합니다. GPU는 MatMul에 최적화되어 있지만, 모델이 커질수록 학습과 실행 비용이 폭증합니다. 기존 연구들은 일부 MatMul을 더 간단한 덧셈으로 대체하려 했으나, 완전 제거는 어려웠습니다. 이 논문은 MatMul을 완전히 없애면서도 성능을 유지하는 방법을 탐구합니다.

#### 연구 목적

목적은 MatMul을 제거한 LLM을 개발해, 10억 파라미터 규모에서도 기존 Transformer 모델과 비슷한 성능을 내는 것입니다. 이를 통해 학습 시 메모리 61% 절감, 추론 시 10배 이상 메모리 절감, 그리고 뉴로모픽(뇌 모방) 하드웨어에서 에너지 효율을 높이는 데 초점을 맞춥니다. 궁극적으로 AI를 더 가볍고 효율적으로 만들어, 모바일 기기나 에지 컴퓨팅에 적합하게 하는 것입니다.

#### 방법

논문은 Transformer의 두 핵심 부분(토큰 믹싱: 어텐션, 채널 믹싱: FFN)을 MatMul 없이 재설계합니다. 

- FFN(채널 믹싱): 가중치를 -1, 0, +1 세 값(삼진 가중치)으로 제한해 MatMul을 덧셈과 뺄셈으로 바꿈(BitLinear 레이어). GPU 효율을 위해 RMSNorm(정규화)과 양자화를 한 번에 처리하는 'Fused BitLinear' 개발.

- 어텐션(토큰 믹싱): GRU(게이트드 순환 유닛)를 최적화해 요소별 곱셈(Hadamard product)만 사용. 이는 시퀀스(문장) 의존성을 포착하면서 MatMul을 피함.

- 배포: Intel Loihi 2 뉴로모픽 칩(1,152개 칩 클러스터)에서 모델을 실행. 비동기 처리로 에너지 효율 높임. 양자화(8비트 가중치, 16비트 활성화)로 하드웨어 적합성 확보.

모델 크기는 370M, 1.3B, 2.7B 파라미터로 테스트, 학습 데이터는 100B 토큰 사용.

#### 결과

370M~2.7B 모델에서 Transformer++(기존 최적화 모델)와 비슷한 성능: 예를 들어 2.7B 모델은 ARC-Challenge(29.7% 정확도) 등 벤치마크에서 Transformer++(27.4%)를 앞섬. 평균 정확도 49.9% vs 50.7%. 학습 시 GPU 메모리 61% 줄고 속도 25.6% 빨라짐. 추론 시 메모리 10배 이상 절감(13B 모델: 4.19GB vs 48.5GB). Loihi 2에서 토큰 생성 속도 59.4개/초(기존 GPU 14개/초), 에너지 70.8mJ/토큰(기존 700mJ 이상). 스케일링 분석: MatMul-free 모델 손실 감소가 더 가파름, 10^23 FLOPs(대형 LLM 수준)에서 Transformer 추월 예상.

#### 고찰

삼진 가중치로 MatMul 제거 시 성능 저하가 적고, 모델 크기 커질수록 격차 좁힘. 양자화(W8A16)로 Loihi 2 적합, 하지만 8비트 활성화(W8A8)는 정확도 5% 하락. GPU 최적화(Fused BitLinear)는 배치 크기 클수록 효과적. 뉴로모픽 배포는 희소성(35% 구조적 희소) 활용해 에너지 효율 극대화, 하지만 GPU처럼 대규모 병렬화 어려움.

#### 의의와 시사점

이 접근은 LLM을 뇌처럼 효율적으로 만듦: 에너지 10배 절감으로 모바일/엣지 기기에서 고성능 AI 가능. 기존 모델 재훈련 없이 가벼운 대안 제공, AI 민주화 촉진. 시사점으로는 하드웨어(뉴로모픽)와 소프트웨어(MatMul-free) 결합이 미래 AI 트렌드 될 수 있음.

이 연구가 중요한 이유는 LLM의 고비용 문제를 해결해, 누구나 접근 가능한 AI 시대를 앞당기기 때문입니다. 에너지 절감으로 환경 영향도 줄이고, 새로운 하드웨어 혁신을 유발할 수 있습니다.


NotebookLM

## 인공지능의 '계산 다이어트': 행렬 곱셈 없이 돌아가는 거대언어모델(LLM)의 등장

**참고 논문:** *Scalable MatMul-free Language Modeling* (2024)

최근 챗GPT와 같은 거대언어모델(LLM)은 놀라운 성능을 보여주고 있지만, 이를 유지하기 위해 막대한 연산량과 전력이 소모된다는 치명적인 단점이 있습니다. 이번에 소개해 드릴 논문은 AI 모델의 핵심 연산인 **'행렬 곱셈(MatMul)'을 완전히 제거**하면서도 강력한 성능을 유지하는 혁신적인 모델 설계법을 다루고 있습니다.

---

### 1. 연구 배경: AI의 발목을 잡는 '행렬 곱셈'

현재 거의 모든 인공지능 모델은 '행렬 곱셈(Matrix Multiplication, MatMul)'이라는 연산에 절대적으로 의존하고 있습니다. 문제는 이 연산이 AI 모델의 **실행 시간과 메모리 사용량의 대부분을 차지**한다는 점입니다. 지금까지의 딥러닝 발전은 GPU와 같은 하드웨어가 이 행렬 곱셈을 얼마나 빨리 처리하느냐에 달려 있었다고 해도 과언이 아닙니다. 하지만 모델이 커질수록 계산 비용이 기하급수적으로 늘어나면서, 더 가볍고 효율적인 차세대 모델에 대한 필요성이 커졌습니다.

### 2. 연구 목적: 행렬 곱셈이 없어도 똑똑할 수 있을까?

본 연구의 목적은 **거대언어모델에서 행렬 곱셈을 완전히 제거(MatMul-free)해도 성능이 유지될 수 있음을 증명**하는 것입니다. 연구진은 모델 크기를 27억 개(2.7B)의 매개변수 수준까지 확장했을 때도 기존의 고성능 트랜스포머(Transformer) 모델과 대등한 성능을 낼 수 있는지, 그리고 이를 통해 얼마나 많은 자원을 아낄 수 있는지 확인하고자 했습니다.

### 3. 연구 방법: 덧셈과 뺄셈으로 바꾸는 마법

연구팀은 행렬 곱셈을 없애기 위해 크게 두 가지 핵심 기술을 도입했습니다.

*   **삼진법 가중치(Ternary Weights):** 복잡한 소수점 숫자로 이루어진 가중치를 **-1, 0, +1**이라는 세 가지 정수로만 제한했습니다. 이렇게 하면 복잡한 '곱셈' 연산이 단순히 숫자를 더하거나 빼는 **'덧셈/뺄셈' 연산**으로 바뀌어 계산이 매우 단순해집니다.

*   **MLGRU(MatMul-free Linear GRU):** 트랜스포머의 핵심인 '셀프 어텐션(Self-attention)' 기능 역시 행렬 곱셈 덩어리입니다. 연구진은 이를 대신해 행렬 곱셈 없이 요소별 곱(Element-wise product)만으로 정보를 처리하는 **새로운 형태의 순환 신경망(MLGRU)**을 설계하여 적용했습니다.

*   **하드웨어 최적화:** 겉으로만 계산이 줄어든 것이 아니라, 실제 하드웨어에서도 빠르게 돌아가도록 알고리즘을 하나로 합치는(Fused) 기법을 사용했습니다.

### 4. 연구 결과: 가벼워진 몸집, 유지되는 지능

*   **성능 대등:** 27억 개의 매개변수 규모에서 실험한 결과, 행렬 곱셈이 없는 이 모델은 최신 트랜스포머 모델과 **거의 비슷한 성능**을 보여주었습니다. 특히 모델이 커질수록 성능 차이가 줄어드는 경향을 보였습니다.

*   **메모리 획기적 절감:** GPU에서 학습할 때 메모리 사용량을 **최대 61%까지 줄였으며**, 실제로 모델을 사용할 때(추론)는 메모리 소모를 **10배 이상 감소**시켰습니다.

*   **저전력 하드웨어에서의 압도적 효율:** 인간의 뇌를 모방한 칩인 **뉴로모픽 칩(Intel Loihi 2)**에서 이 모델을 돌렸을 때, 기존의 엣지 GPU보다 **전력 효율은 10배 높고 처리 속도는 4배 빨랐습니다**.

### 5. 고찰 및 시사점: 미래의 AI는 '뇌'를 닮아간다

이번 연구는 AI 모델이 반드시 비싸고 전기를 많이 먹는 하드웨어에 얽매일 필요가 없음을 시사합니다. 연구진은 '스케일링 법칙(Scaling Law)'을 분석한 결과, 이 모델이 더 커진다면(예: Llama-3 8B 규모) **오히려 기존 트랜스포머 모델보다 더 뛰어난 성능을 낼 수도 있다**는 흥미로운 예측을 내놓았습니다. 이는 복잡한 계산보다 효율적인 구조가 대규모 모델에서 더 중요할 수 있음을 보여줍니다.

---

### 💡 이 연구가 왜 중요한가요?

이 연구는 **'AI의 민주화'와 '지속 가능성'** 측면에서 엄청난 가치를 지닙니다.

1.  **스마트폰 속의 거대 AI:** 행렬 곱셈을 제거함으로써 값비싼 서버용 GPU 없이도 스마트폰이나 소형 가전기기(Edge device)에서 강력한 AI를 직접 구동할 수 있는 길을 열었습니다.

2.  **환경 보호:** 현재 AI 학습과 운영에 들어가는 전력 소모는 환경 문제로 대두되고 있습니다. 전력 효율을 10배 이상 높인 이 기술은 **'친환경 AI'** 시대를 앞당길 수 있습니다.

3.  **하드웨어 독립:** 특정 하드웨어(GPU)에 최적화된 기존 방식에서 벗어나, 다양한 저사양 칩에서도 AI가 잘 돌아가게 함으로써 하드웨어 공급 부족 문제 해결에도 기여할 수 있습니다.

**요약하자면:** 이 논문은 AI에게서 '무거운 계산기'를 뺏고 '가벼운 덧셈판'을 쥐어주었더니, 놀랍게도 속도는 훨씬 빨라지고 에너지는 적게 쓰면서 여전히 똑똑했다는 사실을 밝혀낸 것입니다.

**비유하자면:** 수조 원짜리 정밀 부품으로 만든 슈퍼카(기존 LLM) 대신, 단순하지만 효율적인 설계로 연료 효율을 10배 높이면서도 속도는 그대로인 혁신적인 차(MatMul-free LM)를 개발한 것과 같습니다.


Perplexity.ai

이 논문은 “대형 언어모델(LLM)을 행렬 곱(MatMul) 없이 만들 수 있는가?”라는 도전적인 질문에 실제 동작하는 답을 제시합니다. 기존 GPT·Llama 같은 모델이 가장 많이 쓰는 연산인 행렬 곱을 완전히 없애면서도, 수십억 개 파라미터 규모에서 성능을 유지하고, 메모리·속도·에너지 효율을 크게 개선하는 방법을 제안합니다.[1]

***

## 연구 배경: 왜 MatMul이 문제인가

- 오늘날 LLM은 대부분 GPU가 가장 잘하는 연산인 “행렬 곱(MatMul)”에 거의 전부를 의존합니다. 예를 들어 Transformer의 **주의(attention)**, **피드포워드(FFN)** 층은 모두 대규모 행렬 곱으로 이뤄져 있고, 이게 연산량과 메모리 사용의 대부분을 차지합니다.[1]

- 그러나 MatMul 중심 구조는 GPU에는 잘 맞지만, 메모리 이동이 많고, 전력 소모가 커서 모바일·엣지 기기나 뇌처럼 에너지 효율이 중요한 환경에는 비효율적입니다.[1]

- 최근 1비트·저비트 양자화(예: BitNet, 1.58bit LLM)가 등장해 계산량을 크게 줄였지만, 여전히 **주의(attention)의 핵심인 Q·K 행렬 곱**은 남아 있어 완전히 MatMul을 없애지는 못했습니다.[1]

이 논문은 “행렬 곱을 완전히 버리고도, 제대로 된 LLM을 만들 수 있는가?”라는 근본적인 문제에 정면으로 답합니다.[1]

***

## 연구 목적: 완전 MatMul-free LLM 만들기

논문의 목표는 단순한 “최적화 트릭”이 아니라 아키텍처 차원의 변화입니다.[1]

- 목표 1: **모든 층에서 MatMul을 제거**해도, 수억~수십억 파라미터 규모에서 기존 Transformer와 비슷한 언어 성능을 내는가?[1]

- 목표 2: 이렇게 만든 모델이 **훈련·추론 시 메모리 사용과 지연(latency)을 얼마나 줄일 수 있는가?**[1]

- 목표 3: **GPU가 아닌, 뇌처럼 동작하는 뉴로모픽 칩(Loihi 2)**에 올렸을 때, 기존 GPU 대비 어느 정도의 **에너지 효율·처리량** 이득을 얻을 수 있는가?[1]

***

## 방법: MatMul 대신 “더 단순한 연산”으로 바꾸기

### 1. Dense 층: 3값(−1, 0, +1)만 쓰는 BitLinear

일반적인 완전연결(Dense) 층은 “입력 벡터 × 실수 행렬(가중치)”라는 MatMul 구조입니다.[1]

저자들은 여기서 **가중치 값을 −1, 0, +1 세 값으로 제한한 ‘3값(ternary) 가중치’**를 사용합니다.[1]

- 가중치가 1이면 그냥 더하기, −1이면 빼기, 0이면 무시하면 되므로, **곱셈이 사라지고 덧셈/뺄셈 누적만 남습니다.**[1]

- 이 구조를 BitLinear라고 부르고, Transformer의 모든 Dense 층(주의 Q·K·V 생성, FFN 등)을 이 BitLinear로 치환합니다.[1]

- 또, GPU 메모리 계층(HBM–SRAM)을 고려해, 정규화(RMSNorm)와 양자화를 연산 하나로 **“퓨전(fused)”**해 I/O를 최소화하는 커널을 설계해, 훈련 시 **메모리 사용 최대 61% 감소**(1.3B 모델, 특정 배치 크기 기준)를 달성합니다.[1]

### 2. Attention 제거: MatMul-free GRU 기반 토큰 믹서(MLGRU)

Self-attention은 Q·K·V 행렬을 만들어 \(QK^T\)를 계산하는데, 이게 본질적으로 거대한 MatMul입니다.[1]

논문에서는 여기서 한 단계 더 나아가, **아예 attention을 RNN(순환신경망) 기반 구조로 대체**합니다.[1]

- 기존 GRU에서 “숨겨진 상태 간 MatMul”과 tanh 같은 비싼 연산을 없애고, **모든 곱셈을 “3값 가중치 × 요소별(element-wise) 곱” 형태로 바꾼 변형 GRU(MLGRU)를 제안**합니다.[1]

- 시간 축을 따라 비선형성이 줄어들도록 구성해, 긴 시퀀스에서도 학습이 안정적이고, 병렬화 가능한 “선형 RNN” 계열 아이디어(Linear Recurrent Unit, RWKV 등)를 적극적으로 활용합니다.[1]

- 이렇게 만든 MLGRU는 **토큰 간 정보를 섞는 역할(token mixing)을 하면서도 MatMul 없이 동작**합니다.[1]

### 3. 채널 믹싱(FFN): MatMul-free GLU

채널 방향(임베딩 차원)으로 정보를 섞는 FFN은, Llama 등에서 사용하는 **SwiGLU/GLU 구조**를 기반으로, 모든 Linear를 BitLinear로 대체해 **덧셈과 요소별 곱만으로 구성**합니다.[1]

### 4. 전체 아키텍처

정리하면, 한 블록은 다음 두 축으로 구성됩니다.[1]

- 토큰 믹서: MLGRU (MatMul-free RNN)  

- 채널 믹서: BitLinear 기반 GLU  

결과적으로 **모든 층에서 MatMul이 사라진, 완전 MatMul-free LLM**이 완성됩니다.[1]

***

## 결과 1: 성능 – Transformer와 얼마나 비슷한가?

논문은 3가지 규모의 모델을 비교합니다.[1]

- 370M 파라미터  

- 1.3B 파라미터  

- 2.7B 파라미터  

각각에 대해, 기존 Transformer++와 제안한 MatMul-free LM을 동일한 데이터 토큰 수로 학습시키고, 여러 영어 벤치마크(ARC-Easy/Challenge, HellaSwag, Winogrande, PIQA, OpenBookQA)를 **제로샷(추가 학습 없이 바로 평가)**으로 비교합니다.[1]

대표적인 결과는 다음과 같습니다.[1]

- 370M 규모에서는 평균 정확도가 Transformer++ 대비 약간 낮지만(41.1% → 40.3% 수준), 큰 차이는 아닙니다.[1]

- 1.3B에서는 평균 성능 차이가 조금 줄어듭니다(48.0% vs 46.2%).[1]

- 2.7B에서는 평균 성능이 거의 비슷하고(50.7% vs 49.9%), 일부 과목(ARC-Challenge, OpenbookQA)에서는 오히려 MatMul-free LM이 더 높게 나옵니다.[1]

또한 **스케일링 법칙(모델 크기·연산량이 커질수록 오류가 어떻게 줄어드는지)**을 분석했을 때, MatMul-free LM의 손실 감소 곡선이 Transformer++보다 더 가파르게 내려가, **충분히 큰 연산량(약 10²³ FLOPs)에서는 오히려 Transformer를 능가할 것으로 예측**됩니다.[1]

즉, **모델이 커질수록 “MatMul이 없어도 된다”는 주장이 더 강해진다는 점**이 중요합니다.[1]

***

## 결과 2: GPU에서의 메모리·속도 이득

GPU 상에서도 MatMul-free 구조가 실제로 이득을 주는지 실험합니다.[1]

- 훈련 중: Fused BitLinear를 쓴 1.3B 모델은, 특정 조건에서 **훈련 속도 25.6% 향상**, 메모리 사용 **82GB → 32GB(61% 감소)**를 달성합니다.[1]

- 추론 중: 13B까지 확장해 시뮬레이션한 결과,  

  - 1층 기준 MatMul-free LM은 0.12GB 메모리, 3.79ms 지연  

  - 동일 크기 Transformer++는 0.21GB, 13.87ms  

  로 **메모리·지연 모두 MatMul-free가 유리**합니다.[1]

- 13B 전체 모델 기준으로도, MatMul-free LM은 약 4.19GB 메모리로 추론 가능한 반면, 동일 크기 Transformer++는 48.50GB가 필요해, **대형 모델에서 메모리 측면 차이가 극단적으로 벌어집니다.**[1]

이는 “모바일·엣지 GPU에서 더 큰 모델을 띄우고 싶지만 메모리가 부족한 상황”에 현실적인 대안을 제시합니다.[1]

***

## 결과 3: 뉴로모픽 칩(Loihi 2)에서의 에너지 효율

이 논문의 진짜 하이라이트는 **MatMul-free LLM을 뉴로모픽 칩(Loihi 2)에 올렸을 때의 효율**입니다.[1]

- Loihi 2는 120개의 비동기 “뉴로코어”로 이루어진, **저전력·이벤트 기반** 뉴로모픽 프로세서입니다.[1]

- MatMul-free LM은 본질적으로 **저비트(ternary)·요소별 연산·재귀 구조**라, Loihi 2의 구조와 매우 잘 맞습니다.[1]

370M 모델을 기준으로, Loihi 2와 엣지 GPU(NVIDIA Jetson Orin Nano)를 비교하면:[1]

- 오토리그레시브 생성(한 번에 한 토큰씩 생성)  

  - Jetson에서 400~500M급 Transformer들은 약 13~15 토큰/초, 700~900 mJ/토큰 수준입니다.[1]

  - Loihi 2의 MatMul-free LM은 **약 59.4 토큰/초, 70.8 mJ/토큰**으로,  

    - **속도 최소 4배↑**,  

    - **에너지 효율 최소 10배↑**입니다.[1]

- 긴 프롬프트를 한 번에 집어넣는 prefill 단계에서도, Loihi 2는 수만 토큰/초 수준의 처리량과 매우 낮은 mJ/token을 보여줍니다.[1]

또한, Loihi 2는 완전 비동기 구조라, 여러 칩으로 이루어진 시스템(Alia Point, Hala Point)에서 **칩 개수가 늘어나도 시퀀스 처리 시간과 에너지 효율이 거의 일정하게 유지**되는 등, 매우 좋은 스케일링을 보입니다.[1]

***

## 추가 분석: 양자화·고정소수점 처리

뉴로모픽 칩에서는 부동소수점 대신 **고정소수점 정수 연산**을 쓰기 때문에, 모델을 그에 맞게 양자화해야 합니다.[1]

- 가중치는 이미 ternary(−1,0,1)이므로, 8비트 정수로 쉽게 표현됩니다.[1]

- 정규화 계수와 활성값은 8비트·16비트 정수로 양자화했을 때,  

  - 8비트 활성(W8A8)은 정확도가 눈에 띄게 떨어지지만,  

  - **8비트 가중치 + 16비트 활성(W8A16)는 원래 모델 대비 평균 정확도 1%pt 이내 손실로 거의 유지**됩니다.[1]

- Sigmoid, 역제곱근 등 부동소수점 함수는 **Look-up Table + 뉴턴 방법**을 이용한 고정소수점 근사로 구현해, 하드웨어에서 효율적으로 계산합니다.[1]

즉, 이 구조는 “논문에서만 돌아가는 이론적인 모델”이 아니라, **실제 칩 위에 맞춰 끝까지 구현·검증된 시스템**이라는 점이 중요합니다.[1]

***

## 의의와 시사점

이 논문으로부터 얻을 수 있는 중요한 메시지는 다음과 같습니다.

1. **“행렬 곱 없는 LLM”도 충분히 쓸 만하다.**  

   - 2.7B 규모까지 실험한 결과, 기존 Transformer와 거의 비슷한 제로샷 성능을 보였고, 더 크게 키우면 오히려 Transformer보다 나아질 가능성도 스케일링 분석으로 뒷받침됩니다.[1]

2. **대형 LLM의 병목은 ‘알고리즘’뿐 아니라 ‘연산 종류’와 ‘하드웨어 구조’라는 점을 보여준다.**  

   - 지금까지는 “더 큰 GPU, 더 많은 MatMul”이 주류였지만, 이 논문은 **연산을 MatMul에서 단순 덧셈·요소 곱으로 바꾸는 것만으로도, 메모리와 전력 효율을 크게 개선할 수 있음**을 보여줍니다.[1]

3. **엣지·모바일·친환경 AI의 가능성을 넓힌다.**  

   - Jetson 같은 작은 GPU에서 더 큰 모델을 띄울 수 있고, 뉴로모픽 칩에서는 **사람이 읽는 속도보다 빠르게 텍스트를 생성하면서도 10배 이상 낮은 에너지로 동작**할 수 있습니다.[1]

   - 이는 배터리 기반 기기, 로봇, 웨어러블, 혹은 전력 제약이 심한 환경에서 **제대로 된 LLM을 실시간으로 쓰는 길**을 여는 연구입니다.[1]

4. **뇌와 닮은 “에너지 효율 좋은 지능”을 향한 한 단계**  

   - 논문은 이 MatMul-free LLM이 뉴로모픽 하드웨어와 결합될 때, **“뇌처럼 효율적인” 계산 방식에 한 발 더 다가간다**고 주장합니다.[1]

   - 단순히 모델 정확도만이 아니라, **“같은 일을 훨씬 적은 에너지로 할 수 있는가”라는 질문에 기술적 근거를 제시**했다는 점에서 의미가 큽니다.[1]

***

## 이 연구가 왜 중요한가?

이 연구는 “더 큰 GPU, 더 많은 FLOPs”라는 기존 LLM 발전 방향에 **대안적인 길**을 제시합니다. 완전 MatMul-free 구조로도 대형 언어 모델이 충분히 잘 동작하며, 메모리·지연·에너지 측면에서 획기적으로 효율적일 수 있고, 특히 뉴로모픽 같은 새로운 하드웨어 플랫폼과 결합될 때 **실제 시스템 차원에서 엄청난 이득**을 줄 수 있음을 실험으로 보여줍니다.[1]

앞으로 LLM이 일상 기기와 로봇, 온디바이스 AI로 깊게 들어갈수록, “얼마나 똑똑한가?”만큼이나 “얼마나 적은 에너지로 동작하는가?”가 중요해집니다. 이 논문은 그 미래를 위해 **모델 구조와 하드웨어 설계를 함께 바꾸는 통합적인 방향**을 제시했다는 점에서, 연구·산업 모두에 큰 시사점을 주는 작업입니다.[1]


Kimi

아래는 2406.02528v7 “Scalable MatMul-free Language Modeling”을 A4 두 장 분량으로 쉽게 풀어 쓴 블로그용 요약입니다. 논문에 없는 일반 상식은 최대한 배제하고, 논문에서 직접 제시한 사실·수치·그림·표만을 바탕으로 정리했습니다.

---

### 1. 연구 배경  

- 오늘날 ChatGPT 같은 대형 언어 모델(LLM)은 ‘행렬곱(MatMul)’이라는 연산에 의존한다.  

- 행렬곱은 GPU에서 잘 돌지만, 전력·메모리·칩 면적을 가장 많이 잡아먹는 작업이다.  

- 그래서 “행렬곱 없이도 성능을 유지할 수 있을까?”는 딥러닝의 오랜 질문이었다.  

- 기존 시도(얼마 전 화제가 된 ‘BitNet’ 등)는 dense(완전 연결) 부분만 바꾸고, **어텐션(자기 주의) 매커니즘 안의 행렬곱은 그대로**였다.  

- **문제는 바로 이 어텐션**: 두 동적 행렬(Q × K^T)을 매 시점 곱해야 해서 길이가 늘어날수록 계산량이 **제곱**으로 증가한다.  

- 게다가 BitNet처럼 Q, K를 3값(–1, 0, 1)으로 양자화하면 학습이 **수렴하지 않는다**는 사실이 이번 실험에서 처음으로 드러났다(Fig. 4).

---

### 2. 연구 목표  

“행렬곱을 **완전히** 없애고, 10억 개 이상의 파라미터 규모에서도 기존 트랜스포머 못지않은 성능을 내면서, **메모리·에너지를 수십 % 이상 절감**하는 LLM을 만들자.”

---

### 3. 핵심 아이디어(방법)  

1) **dense(FFN) 부분**  

   - 가중치를 –1, 0, +1로 제한 → 곱셈이 사라지고 **덧셈/부호 반전**만 남는다.  

   - 이걸 “BitLinear”라 부른다.  

2) **어텐션(토큰 믹서) 부분**  

   - 기존 어텐션 대신 **GRU 기반 RNN**을 쓴다.  

   - 게이트 값과 은닉 상태 갱신을 **모두 원소별 곱(⊙)**과 **덧셈**만으로 처리한다.  

   - 이 RNN은 시간 축이 **선형**이므로 긴 문장에서도 계산량이 문장 길이에 **비례**한다(기존은 제곱).  

   - 최종 구조를 “MLGRU(MatMul-free Linear Gated Recurrent Unit)”라 이름 붙였다.  

3) **채널 믹서 부분**  

   - GLU(Gated Linear Unit)를 BitLinear로 바꿔서 **행렬곱 없이** 임베딩 차원끼리 정보를 섞는다.  

4) **최적화**  

   - GPU용 “Fused BitLinear” 커널을 만들어 **활성화 값을 한 번만 읽고** RMSNorm→양자화→계산을 한꺼번에 처리 → 메모리 이동 61 % 절감.  

   - 뉴로모픽 칩 Loihi 2 전용 **고정소수점 마이크로코드**를 직접 작성.

---

### 4. 실험 결과(논문에 나온 숫자 그대로)  

#### 4-1. 성능  

- 370M·1.3B·2.7B 세 모델을 15B/100B 토큰으로 학습.  

- 6개 대표 벤치(ARC-e/c, HellaSwag, Winogrande, PIQA, OpenBookQA) **평균 정확도**는 트랜스포머++와 **오차 1 %p 이내**.  

- 2.7B에서 ARC-Challenge·OpenBookQA는 오히려 **기존보다 높은 점수** 기록.  

#### 4-2. 메모리·지연  

- **학습** : 1.3B 모델, 배치 28 → Fused BitLinear 적용 시  

  – 시간 25.6 % 단축(1.52 s → 1.21 s/iter)  

  – GPU 메모리 61 % 절감(82 GB → 32 GB)  

- **추론** : 시퀀스 2048, 배치 1 기준  

  – 370M : 0.12 GB & 3.8 ms vs 트랜스 0.21 GB & 13.9 ms  

  – 13B : 4.2 GB & 0.7 s vs 트랜스 48.5 GB & 3.2 s  

#### 4-3. 뉴로모픽 칩(Loihi 2)  

- 370M 24블록을 31칩(1152칩 중)에 배치.  

- **생성 모드** : 59.4 토큰/s, 70.8 mJ/토큰  

  – Jetson Orin Nano 대비 **처리량 4배, 에너지 10배** 절감.  

- **프리필 모드** : 11 637 토큰/s, 3.4 mJ/토큰  

  – 동일 보드 대비 **처리량 7~18배, 에너지 2~5배** 절감.  

- **전력** : 4.2 W로 동작, **인간 읽기 속도의 8배** 성능.  

#### 4-4. 확장 법칙(Scaling Law)  

- 파라미터·컴퓨트 증가에 따른 손실 감소 기울기가 **트랜스포머보다 더 가파르다**.  

- 10²³ FLOP(약 Llama-3 8B·Llama-2 70B 수준) 지점에서 **손실 곡선이 교차** → 같은 비용이면 **더 좋은 성능**, 또는 **같은 성능에 더 적은 비용** 가능.

---

### 5. 고찰 & 시사점  

1) **행렬곱 없이도** 최신 트랜스포머급 성능이 가능하다는 **실증적 증거**를 처음으로 제시.  

2) **메모리 대역폭**이 병목인 엣지·뉴로모픽 하드웨어에서 **구조적 이점**이 폭발적이다.  

3) **학습 비용이 큰** 초거형 모델을 만들기 전, **1/10 000 크기의 MatMul-free 모델**로 성능을 예측·최적화할 수 있다.  

4) **RNN의 단점(긴 문단 약점)**은 **몇 개만 섞어 쓰는 하이브리드 구조**로 보완 가능(논문 인용 §6.3).  

---

### 6. 왜 이 연구가 중요한가?  

- **“GPU 없이도 LLM을 돌릴 수 있을까?”**라는 물음에 정량적인 **YES**를 준 첫 사례다.  

- **전력 10분의 1**로 **인간 읽기 속도의 8배**를 내는 칩이 이미 존재한다는 사실 자체가, **스마트워치·IoT·우주선** 같은 전력 제약 환경에 **대형 언어 모델을 심는 문**을 열었다.  

- **확장 법칙이 기존보다 좋다**는 점은 **같은 예산으로 더 똑똑한 모델**을 만들 수 있음을 시사한다.  

- 무엇보다 **행렬곱이라는 60년 된 연산 패러다임 자체를 뒤집는** ‘증명’이 나왔다는 데, 연구·산업적 의미가 크다.  

“언젠가 휴대폰에서도 10B 파라미터 AI를 1W로 돌리는 날”이 이 논문으로 한 걸음 더 가까워졌다.



출처: @ye._.vely618


월요일, 12월 08, 2025

작지만 강력한 언어 모델, SLM이 온다

이제 많은 방송과 전문가들이 에이전트 AI에 대해서 많이 떠들고 있습니다. 그래서 LLM대신에 에이전트 AI가 적합한 SLM, Small Language Models에 대한 내용의 논문이 있어 가져와봤습니다. 제목은 Small Language Models are the Future of Agentic AI 으로 에이전트 AI는 LLM이 아닌 SLM에 있고, 점점 더 중요해 질 것이라는 내용되겠습니다.

SLM으로도 충분히 에이전트 AI 작업을 할 수 있지만 진짜 생산성을 위해서는 아직도 추론을 떠들기에는 이른감이 있지 않나싶은데 많은 전문가분들께서 벌써 추론을 얘기하고 미래를 나아가고 있네요.

언제 이상과 현실이 같은 적이 있었나요? ㅎㅎ 현실은 이제 시궁창에서 벗어나려고 하는데 장밋빛 단면만 보고서 다 이룬것처럼 떠들어대다가 현실이 들어나면 태세변환해서 맛좋은 희생양을 찾아다니겠죠 :)


DOI: 10.48550/arXiv.2506.02153


clova-x

small language models (SLMs)은 agentic AI 시스템에서 large language models (LLMs)보다 더 적합하고 경제적이며, 향후 AI agent 산업에서의 변화를 주도할 것입니다.

1. **SLM의 장점**

   - SLMs은 낮은 지연 시간, 적은 메모리 및 계산 요구량, 그리고 낮은 운영 비용을 제공합니다.

   - SLMs은 특정 도메인에서 적절한 작업 성능을 유지하면서도 효율적이고 예측 가능합니다.

2. **LLM과의 비교**

   - LLMs은 광범위한 작업과 대화 능력을 제공하지만, 대부분의 agentic 작업은 반복적이고 범위가 정해져 있습니다.

   - SLMs은 이러한 작업에 더 적합하며, 자원의 비효율적 할당을 방지합니다.

3. **경제적 이점**

   - SLMs은 LLMs보다 더 저렴하고 유연한 배포가 가능하여, agentic 워크플로우에서의 비용 절감과 적응성을 높입니다.

   - SLM-first 아키텍처는 비용 효율적이고 모듈화된 agentic AI를 구현하는 데 유리합니다.

4. **기술적 발전**

   - 최근 SLMs은 LLMs와 유사한 성능을 발휘하면서도 더 작은 규모로 운영될 수 있도록 발전하고 있습니다.

   - SLMs은 다양한 분야에서 LLMs를 대체할 수 있는 충분한 능력을 갖추고 있습니다.


gemini

## 📝 업로드하신 논문 요약: 에이전트 AI의 미래는 ‘작은 언어 모델(SLM)’에 달려있다

---

### 연구 배경: 에이전트 AI, LLM에 과도하게 의존하다

최근 인공지능(AI) 업계에서 **에이전트 AI 시스템**의 성장은 매우 폭발적입니다. [cite_start]2024년 말 기준으로 이 분야의 경제적 가치는 수십억 달러에 달하며, 앞으로도 막대한 성장이 예상되고 있습니다[cite: 1770, 1772]. [cite_start]이러한 에이전트 AI는 사용자 대신 복잡한 작업을 계획하고 도구를 활용하며, 문제를 해결하는 **기초 지능**을 제공하기 위해 주로 **거대 언어 모델(LLM)**을 사용해 왔습니다[cite: 1774, 1775].

그러나 현재의 운영 모델은 하나의 범용적인 LLM이 모든 에이전트 요청을 처리하도록 설계되어 있습니다. [cite_start]이는 LLM 호스팅 클라우드 인프라에 막대한 자본 투자를 낳는 산업 구조를 형성했습니다[cite: 1779, 1780]. 본 논문은 이러한 업계 관행에 대해 의문을 제기합니다. [cite_start]에이전트 AI가 실제로 수행하는 작업의 대부분은 **반복적이고, 범위가 좁으며, 특화된** 소수의 작업인데 [cite: 1761, 1808][cite_start], 과연 이 모든 요청을 방대한 LLM 하나에 의존하는 것이 최선인지에 대한 근본적인 질문을 던집니다[cite: 1782].

---

### 연구 목적: SLM이 에이전트 AI의 미래가 될 것이라는 입장 표명

[cite_start]이 연구의 핵심 목적은 **작은 언어 모델(SLM)**이 에이전트 AI 시스템을 위한 충분한 성능을 갖추고 있으며, LLM보다 **더 적합하고(suitable), 더 경제적(economical)인** 선택이므로, SLM이 에이전트 AI의 미래가 될 것이라는 강력한 입장을 제시하고 논증하는 것입니다[cite: 1762, 1783, 1801].

**SLM의 정의**는 특정 기기에 국한되지 않고, **일반 소비자 전자 기기에 탑재 가능**하며, 단일 사용자의 에이전트 요청을 실용적인 수준의 낮은 지연 시간으로 처리할 수 있는 언어 모델을 의미합니다. [cite_start]2025년 기준으로, 이는 일반적으로 **100억 개 미만의 매개변수**를 가진 모델을 포함합니다[cite: 1790, 1793].

---

### 연구 방법 및 주요 논거: SLM의 세 가지 핵심 가치 (V1-V3)

[cite_start]논문은 SLM이 에이전트 AI에 적합한 이유를 세 가지 핵심 가치(V1, V2, V3)와 이를 뒷받침하는 구체적인 논거를 통해 제시합니다[cite: 1797].

1.  **V1: 충분한 성능 (Sufficiently Powerful)**

    * [cite_start]**논거:** 최근의 SLM은 훈련 및 설계의 발전 덕분에, **상식 추론, 도구 호출(Tool Calling), 코드 생성**과 같은 에이전트 작업에 필수적인 영역에서 이전 세대의 수십억, 심지어 수백억 개 매개변수를 가진 LLM과 동등하거나 더 나은 성능을 보이고 있습니다[cite: 1798, 1821, 1825].

    * [cite_start]예를 들어, Microsoft Phi-2(27억 개)는 300억 개 모델과 유사한 성능을 보이며 약 15배 더 빠르게 실행됩니다[cite: 1829]. [cite_start]이제 매개변수 개수가 아닌 **모델의 능력**이 제약 조건이 되고 있습니다[cite: 1869].

2.  **V2: 뛰어난 운영 적합성 (Operationally Suitable)**

    * [cite_start]**논거:** 에이전트 시스템은 코드와의 상호작용(도구 호출, 출력 파싱)이 잦기 때문에, LLM의 광범위한 일반 능력보다는 **정확하고 일관된 출력 형식(예: JSON/XML)**을 유지하는 **행동 정렬(Behavioral Alignment)**이 필수적입니다[cite: 1909, 1912, 1915].

    * [cite_start]단일 형식으로 미세 조정된 SLM은 범용 LLM이 가끔 저지르는 환각적인 형식 오류를 방지할 수 있어 에이전트 맥락에서 더 선호됩니다[cite: 1915]. [cite_start]또한, LLM과 SLM을 조합하는 **이종(Heterogeneous) 시스템** 구성이 에이전트의 모듈식 설계에 자연스럽게 들어맞습니다[cite: 1814, 1917, 1920].

3.  **V3: 압도적인 경제성 (Necessarily More Economical)**

    * [cite_start]**논거:** SLM은 크기가 작기 때문에 700억~1750억 개 LLM보다 **추론 비용(지연 시간, 에너지 소비, FLOPs)이 10~30배 저렴**합니다[cite: 1872, 1877].

    * [cite_start]또한, SLM은 미세 조정(Fine-tuning)에 GPU 시간이 적게 들어 **행동을 빠르게 추가, 수정 또는 전문화**할 수 있어 개발 민첩성이 높습니다[cite: 1881]. [cite_start]심지어 소비자급 GPU에서도 로컬로 실행(Edge Deployment)될 수 있어 낮은 지연 시간과 데이터 통제를 가능하게 합니다[cite: 1882]. [cite_start]이러한 비용 절감은 대규모 에이전트 워크플로우에 가장 적합한 경로입니다[cite: 1890].

---

### 고찰 및 시사점: 전환의 장벽과 로드맵

#### 고찰: 반론과 재반론

[cite_start]LLM 옹호론자들은 LLM이 더 넓은 언어 이해 능력(일명 '의미 허브' 메커니즘)을 가지고 있어, 아무리 좁은 작업이라도 SLM보다 항상 성능이 우월할 것이라고 주장합니다[cite: 1931, 1939].

[cite_start]이에 대해 논문은, 에이전트 시스템 자체가 복잡한 문제를 단순한 **하위 작업으로 분해**하도록 설계되므로[cite: 1954, 1955], LLM의 광범위한 일반 이해력은 하위 작업에서는 효용이 적다고 반박합니다. [cite_start]또한, SLM은 **미세 조정(Fine-tuning)**과 **추론 시 컴퓨팅 확장(Reasoning)** 기술을 통해 필요한 신뢰성 수준까지 성능을 높일 수 있습니다[cite: 1948, 1950].

#### SLM 채택의 장벽

[cite_start]SLM의 장점에도 불구하고, LLM 중심의 현 상태가 지속되는 이유는 현실적인 장벽 때문입니다[cite: 1970]. [cite_start]가장 큰 장벽은 **중앙 집중식 LLM 인프라에 대한 막대한 선행 투자**로 인한 산업적 관성입니다[cite: 1973]. [cite_start]또한, SLM 개발 및 평가 시 에이전트의 효용성보다는 LLM이 사용하는 **범용 벤치마크**에 초점을 맞추는 관행과, SLM의 이점에 대한 **대중적 인식 부족**도 장애물입니다[cite: 1976, 1979].

#### LLM-to-SLM 전환 알고리즘

[cite_start]논문은 LLM 중심에서 SLM 중심으로 전환할 수 있는 구체적인 5단계 알고리즘을 제시합니다[cite: 1985].

1.  [cite_start]**사용 데이터 수집:** 모든 에이전트 호출 데이터를 안전하게 로깅[cite: 1988].

2.  [cite_start]**데이터 큐레이션 및 필터링:** 수집된 데이터에서 민감 정보를 제거 및 익명화[cite: 1992].

3.  [cite_start]**작업 클러스터링:** 프롬프트 패턴을 분석하여 반복되는 요청을 그룹화하고, SLM 특화 작업으로 정의[cite: 1995].

4.  [cite_start]**SLM 선정:** 각 특화 작업에 적합한 SLM 후보를 선택 (성능, 크기, 라이선스 등을 고려)[cite: 1998].

5.  [cite_start]**특화된 SLM 미세 조정:** 클러스터링된 데이터셋을 사용하여 SLM을 작업별 전문가 모델로 미세 조정[cite: 2001].

---

### 이 연구가 중요한 이유: 지속 가능하고 민주적인 AI의 길

이 연구는 에이전트 AI 분야에서 **효율성, 경제성, 지속 가능성**이라는 세 가지 핵심 가치를 강조하며 패러다임 전환의 필요성을 역설한다는 점에서 매우 중요합니다.

1.  [cite_start]**지속 가능한 AI 구현:** LLM에 대한 과도한 의존은 막대한 컴퓨팅 자원 낭비와 환경 문제로 이어집니다[cite: 1813]. [cite_start]SLM 우선 아키텍처로의 전환은 인프라 비용을 절감하고, **책임감 있고 지속 가능한 AI 배포**를 위한 기술적, **도덕적 의무(Humean moral ought)**를 이행하는 길을 제시합니다[cite: 1816, 1817].

2.  **AI 민주화 촉진:** SLM의 낮은 비용과 유연성은 더 많은 개발자와 조직이 AI 에이전트 생태계에 참여할 수 있게 하여, AI 개발의 **민주화**를 가져옵니다. [cite_start]이는 시스템적 편향의 위험을 줄이고 혁신을 촉진하는 데 기여할 것입니다[cite: 1896, 1897, 1898].

3.  [cite_start]**산업적 로드맵 제공:** LLM-to-SLM 전환 알고리즘을 구체적으로 제시함으로써, 이 논문은 단순히 주장을 하는 것을 넘어, 산업계가 경제적이고 효율적인 SLM 기반 에이전트 시스템으로 실질적으로 이행할 수 있는 **구체적인 기술적 로드맵**을 제공합니다[cite: 1785, 1985].

[cite_start]결론적으로, 본 연구는 에이전트 AI의 미래를 결정하는 핵심 요소가 **'크기'가 아닌 '효율적인 적응성'**이라는 메시지를 던지며, AI 기술의 미래 방향에 대한 중요한 논의를 촉발하고 있습니다[cite: 1767].


chatGPT

좋습니다. 업로드하신 논문 **〈Small Language Models are the Future of Agentic AI〉(작은 언어 모델이 에이전트형 AI의 미래다, NVIDIA Research, 2025)** 의 주요 내용을 일반 독자도 이해하기 쉽게 정리해드리겠습니다.

(A4 2장 이내 분량 / 연구 배경–목적–방법–결과–의의 순서로 구성)

---

## 🧠 작은 언어 모델이 에이전트형 AI의 미래다

*(Small Language Models are the Future of Agentic AI, NVIDIA Research, 2025)*

### 1. 연구 배경

최근 인공지능의 핵심 화두는 **‘에이전트형 AI(agentic AI)’**, 즉 스스로 판단하고 행동하는 인공지능입니다.

이러한 에이전트의 두뇌 역할을 하는 것은 지금까지 대부분 **거대한 언어 모델(LLM, Large Language Model)** 이었습니다.

GPT-4, Claude, Gemini 같은 모델이 그 예죠.

하지만 이런 대형 모델은 엄청난 연산 자원과 비용이 필요합니다.

기업들은 막대한 투자를 해 클라우드 인프라를 유지하지만, 정작 에이전트가 수행하는 일 대부분은 **단순하고 반복적인 업무**입니다.

예를 들어 이메일 요약, 코드 자동화, 문서 분류 같은 일들이죠.

그렇다면 정말 이런 간단한 작업에도 수십억 달러짜리 LLM이 필요할까요?

NVIDIA 연구팀은 여기에 “아니오”라고 답하며, **작은 언어 모델(SLM, Small Language Model)** 이 더 효율적이고 실용적인 대안이 될 수 있다고 주장합니다.

---

### 2. 연구 목적

이 논문의 핵심 목표는 단 하나입니다.

> **“에이전트형 AI의 미래는 거대한 LLM이 아니라, 작고 효율적인 SLM에 있다.”**

연구진은 세 가지 근거로 이를 주장합니다.

1. **충분히 강력하다:** 최신 SLM은 이미 필요한 수준의 언어 이해력과 추론 능력을 갖췄다.

2. **운영에 더 적합하다:** SLM은 빠르고 안정적이며, 특정 작업에 맞게 쉽게 조정할 수 있다.

3. **경제적이다:** 에너지, 비용, 유지보수 면에서 훨씬 저렴하다.

---

### 3. 연구 방법 및 근거

논문은 실험보다는 **기술적 비교와 사례 분석** 중심으로 구성되어 있습니다.

연구진은 다양한 최신 SLM들의 성능을 검토하고, 실제 ‘AI 에이전트’ 시스템이 어떤 구조로 작동하는지 분석했습니다.

#### (1) SLM의 성능 비교

* **Microsoft Phi-3 (7B)** : GPT-3급(175B)에 가까운 성능을 보여주며 70배 빠름

* **NVIDIA Nemotron-H (2~9B)** : 30B 모델 수준의 코드 생성 능력

* **DeepSeek-R1-Distill (7B)** : Claude 3.5나 GPT-4o와 비슷한 추론 성능

* **DeepMind RETRO (7.5B)** : GPT-3보다 25배 작은 모델로 동일한 결과

즉, 모델 크기가 10분의 1~100분의 1로 줄어들어도 실제 업무 성능은 거의 비슷한 수준에 도달했습니다.

#### (2) 운영 효율성

* **비용:** 7B SLM의 추론 비용은 LLM의 1/10~1/30 수준

* **속도:** 더 짧은 대기 시간, 더 적은 전력 소모

* **현장 배치:** 개인용 GPU나 노트북에서도 실행 가능 (예: ChatRTX)

* **유연성:** LoRA, QLoRA 같은 경량 학습 기법으로 빠른 미세 조정 가능

#### (3) 구조적 장점

에이전트 시스템은 사실 하나의 모델이 모든 걸 하는 게 아닙니다.

“명령 해석 → 도구 실행 → 결과 정리” 등 여러 단계로 쪼개져 있습니다.

이 각 단계에 맞는 작은 모델을 따로 두면, 훨씬 효율적이고 안정적으로 운영할 수 있습니다.

이런 방식을 연구진은 “**모듈형(agentic modularity)**”이라 부릅니다.

---

### 4. 주요 결과와 논의

연구진은 실제 오픈소스 에이전트 세 가지를 분석했습니다.

| 사례                         | 대체 가능성 | 설명                             |

| -------------------------- | ------ | ------------------------------ |

| **MetaGPT** (소프트웨어 개발용)    | 약 60%  | 코드 작성·문서화 등 단순 업무는 SLM으로 충분    |

| **Open Operator** (업무 자동화) | 약 40%  | 간단한 명령 처리나 보고서 작성은 SLM으로 대체 가능 |

| **Cradle** (GUI 제어 에이전트)   | 약 70%  | 반복적인 조작 업무는 SLM으로 충분           |

즉, **현재도 전체 에이전트 작업의 절반 이상은 작은 모델로 수행 가능**하다는 결론입니다.

이는 AI 산업의 비용 구조를 근본적으로 바꿀 잠재력이 있습니다.

---

### 5. 논의 및 반론

물론 반대 의견도 있습니다.

* “LLM은 더 깊은 언어 이해력을 갖고 있어 여전히 필요하다.”

* “LLM은 중앙화되어 있어 대규모 서비스에 더 효율적이다.”

  연구진은 이에 대해 이렇게 반박합니다.

> “SLM은 특정 업무에 맞춰 쉽게 미세조정이 가능하고, 실제로 필요한 기능만 수행한다면 ‘더 작고 단순한 모델’이 오히려 더 적합하다.”

또한, 장기적으로는 **‘혼합형 시스템(heterogeneous system)’**, 즉 SLM이 기본으로 돌고,

필요할 때만 LLM을 호출하는 형태가 이상적이라고 제안합니다.

---

### 6. LLM → SLM 전환 절차 제안

연구진은 기업이 실제로 LLM을 SLM으로 대체할 수 있는 절차를 제시합니다.

1. **데이터 수집:** 에이전트가 수행한 명령·응답 데이터를 안전하게 기록

2. **데이터 정제:** 개인정보나 민감한 정보 제거

3. **작업 분류:** 유사한 업무를 묶어 SLM이 처리할 수 있는 단위로 분할

4. **모델 선정 및 미세조정:** 각 업무에 맞는 SLM을 선택해 학습

5. **지속 개선:** 새로운 데이터로 주기적으로 업데이트

이 과정을 거치면 기존 LLM 기반 에이전트를 단계적으로 SLM 중심으로 바꿀 수 있다고 합니다.

---

### 7. 연구의 의의와 시사점

이 논문이 던지는 메시지는 단순하지만 강력합니다.

> **“AI의 미래는 크기가 아니라 효율성에 달려 있다.”**

SLM의 확산은 단지 기술적 선택이 아니라,

* **환경적 지속가능성** (전력 사용량 절감)

* **AI 접근성 향상** (누구나 모델 개발 가능)

* **비용 혁신** (운영비 대폭 절감)

  을 동시에 달성할 수 있는 변화입니다.

즉, 지금까지의 “더 크고 복잡한 AI 경쟁”에서 벗어나,

**“작고 똑똑한 AI의 시대”**로 전환하자는 선언이기도 합니다.

---

### 🔍 이 연구가 중요한 이유

AI가 사회 전반으로 확산될수록 “누가 AI를 운영하고, 얼마나 효율적으로 돌리느냐”가 핵심 경쟁력이 됩니다.

이 논문은 “모두가 거대한 모델을 쓸 필요는 없다”는 점을 수학적·경제적으로 뒷받침하며,

AI 산업의 구조를 **집중형(LLM 중심)** 에서 **분산형(SLM 중심)** 으로 바꾸는 방향을 제시합니다.

결국, 이 연구는 **AI 기술의 민주화(democratization)** —

즉, 더 많은 개인과 기업이 자신만의 ‘맞춤형 AI’를 직접 만들 수 있는 미래 —

그 첫걸음을 보여주는 선언문이라 할 수 있습니다.


grok

### 작은 언어 모델(SLM)이 에이전트 AI의 미래가 될 이유

#### 연구 배경

AI 에이전트(자율적으로 작업을 수행하는 AI 시스템)가 빠르게 성장하고 있습니다. 2024년 말 기준으로 대형 IT 기업의 절반 이상이 AI 에이전트를 사용 중이며, 시장 규모는 52억 달러에서 2034년 2,000억 달러로 확대될 전망입니다. 현재 대부분의 에이전트는 대형 언어 모델(LLM, 예: GPT 시리즈)을 기반으로 하며, 이는 클라우드 서버에서 중앙 집중식으로 운영됩니다. 하지만 에이전트 작업은 반복적이고 단순한 경우가 많아, LLM의 범용성은 과도할 수 있습니다.

#### 연구 목적

NVIDIA 연구팀은 SLM(소비자 기기에 탑재 가능하고 빠른 응답이 가능한 작은 모델, 대개 10억 파라미터 이하)이 에이전트 AI에 더 적합하다고 주장합니다. SLM은 충분한 성능을 발휘하면서 운영 비용을 절감하고 유연성을 제공하며, LLM과 결합된 혼합 시스템을 제안합니다. 이는 AI 자원의 효율적 사용을 촉진하고 비용을 낮추는 것을 목표로 합니다.

#### 연구 방법

이 논문은 '포지션 페이퍼' 형식으로, 기존 SLM 사례(마이크로소프트 Phi, NVIDIA Nemotron, Hugging Face SmolLM 등)를 분석하고 논증합니다. SLM의 강점(상식 추론, 도구 호출, 지시 따르기)을 벤치마크로 입증하며, 반대 의견(LLM의 일반성 우월, 중앙화 비용 이점)을 반박합니다. 또한 LLM에서 SLM으로 전환하는 알고리즘을 제안: 데이터 수집, 큐레이션, 작업 클러스터링, SLM 선택, 파인튜닝, 반복 개선의 6단계입니다. 부록에서는 오픈소스 에이전트(MetaGPT, Open Operator, Cradle) 사례 연구로 교체 가능성을 추정합니다.

#### 연구 결과

SLM은 LLM과 비슷한 성능을 보이면서 10~30배 빠르고 저비용입니다. 예를 들어 Phi-2(27억 파라미터)는 300억 파라미터 LLM과 동등한 추론·코드 생성을 하며, Nemotron-H는 30억 파라미터로 300억 LLM 수준의 지시 따르기를 달성합니다. 에이전트 시스템에서 SLM은 반복 작업(도구 호출, 출력 형식화)에 적합하며, 비용 절감(에너지, 미세 조정 시간)과 엣지 배포(개인 기기 실행)를 가능하게 합니다. 사례 연구 결과, LLM 호출의 40~70%를 SLM으로 대체 가능합니다.

#### 고찰

반대 의견으로 LLM의 '의미 허브'(다양한 지식 통합)와 중앙화 비용 이점이 제기되지만, 연구팀은 SLM의 특화 미세 조정과 추론 확장으로 반박합니다. 채택 장애물로는 대규모 LLM 투자, 범용 벤치마크 중심 개발, SLM 인식 부족을 지적하며, 이는 기술 발전(예: NVIDIA Dynamo)으로 극복 가능하다고 봅니다. 혼합 시스템(주요 작업 SLM, 복잡 작업 LLM)이 이상적이며, 데이터 수집을 통해 자연스러운 SLM 전문화가 가능합니다.

#### 의의와 시사점

이 연구는 에이전트 AI를 비용 효과적이고 지속 가능하게 만듭니다. SLM 도입으로 에너지 소비와 서버 비용을 줄여 환경 부담을 완화하고, 민주화(더 많은 개발자 참여)를 촉진합니다. 실무적으로 LLM-to-SLM 전환 알고리즘은 기존 시스템을 쉽게 업그레이드할 수 있게 하며, 오픈소스 에이전트 사례는 실제 적용 가능성을 보여줍니다. 이는 AI 산업이 자원을 낭비하지 않고 효율적으로 발전할 방향을 제시합니다.

이 연구가 중요한 이유는 AI의 폭발적 성장 속에서 자원 낭비를 막고 비용을 낮춤으로써, 더 많은 사람이 AI 혜택을 누릴 수 있게 하기 때문입니다. 논문은 토론을 촉진하며, AI의 미래를 더 접근 가능하고 책임감 있게 만들려는 노력을 강조합니다.


NotebookLM

이 논문은 "에이전트 AI의 미래는 소형 언어 모델(SLM)에 달려 있다"는 입장을 명확히 밝히고 있으며, 왜 거대 언어 모델(LLM) 대신 SLM이 에이전트 시스템에 더 적합하고 경제적이며 강력한 솔루션인지를 논리적으로 설명합니다.

---

## 블로그 포스팅: 에이전트 AI의 미래: 작지만 강력한 언어 모델(SLM)의 시대가 온다

### 1. 연구 배경: 거대 언어 모델(LLM)이 장악한 에이전트 AI 시장

최근 인공지능(AI) 에이전트의 배포가 급증하고 있으며, IT 대기업의 절반 이상이 AI 에이전트를 적극적으로 사용하고 있을 정도로 시장 가치는 매우 높습니다.

현재 대부분의 AI 에이전트는 **LLM(거대 언어 모델)**을 핵심 구성 요소로 사용합니다. LLM은 인간에 가까운 광범위한 성능과 일반적인 대화 능력을 인정받으며, 에이전트가 전략적 의사 결정, 복잡한 작업을 관리 가능한 하위 작업으로 분해, 그리고 도구 사용 시점을 계획하는 데 필요한 근본적인 지능을 제공해왔습니다. 이러한 운영 방식은 일반적인 LLM 하나가 다양한 대규모 요청을 처리하는 중앙 집중식 클라우드 인프라에 막대한 자본 투자를 유치하며 업계의 표준으로 깊이 자리 잡았습니다.

하지만 이 논문은 이러한 **표준적인 운영 모델의 한 측면**에 대해 이의를 제기합니다. 에이전트의 요청 대부분은 비교적 단순함에도 불구하고 단일의 범용 LLM에 의존하여 처리되는 현재의 관행을 문제 삼습니다.

### 2. 연구 목적 및 핵심 주장: SLM으로의 전환이 필연적이다

이 연구의 목적은 다음과 같습니다. 에이전트 시스템에서 언어 지능을 활용하는 요청이 비교적 단순함에도 불구하고 범용 LLM을 사용하는 관행에 도전하고, **SLM(소형 언어 모델)**이 에이전트 AI의 미래가 될 것이라는 입장을 제시하고 방어하는 것입니다.

**SLM은 무엇인가요?**

SLM은 일반 소비자용 전자 기기에 탑재될 수 있으며, 한 사용자에게 에이전트 요청을 제공할 때 실용적인 수준의 낮은 지연 시간으로 추론을 수행할 수 있는 언어 모델입니다. (참고: 2025년 기준, 100억 개 미만의 매개변수를 가진 모델이 SLM으로 간주될 수 있습니다).

저자들은 **SLM이 에이전트 AI의 미래**가 될 것이라고 주장하며, 이는 SLM이 다음과 같은 세 가지 핵심 가치(V1~V3)를 가지고 있기 때문이라고 설명합니다:

*   **V1 (능력):** 에이전트 애플리케이션의 언어 모델링 작업을 처리하기에 **원칙적으로 충분히 강력합니다**.

*   **V2 (적합성):** LLM보다 에이전트 시스템에서 사용하기에 **운영적으로 더 적합합니다**.

*   **V3 (경제성):** 작은 크기 덕분에 범용 LLM보다 에이전트 시스템 내 LM 사용의 **대부분 경우에 반드시 더 경제적입니다**.

### 3. 주요 논거 및 증거: 작지만 강력한 SLM

논문은 SLM이 LLM을 대체해야 하는 이유를 구체적인 논거(Arguments)를 통해 제시합니다.

#### A. SLM은 이미 충분히 강력합니다 (V1 지원)

최근 몇 년 동안 SLM의 성능은 비약적으로 발전했습니다. 새로운 SLM들은 과거의 LLM에 필적하거나 그 이상의 성능을 보여주고 있습니다. 특히 에이전트 작업에 필수적인 상식 추론, 도구 호출, 코드 생성, 명령어 준수 능력에서 뛰어난 성과를 보입니다.

*   **예시:** Microsoft Phi-2 (27억 개 매개변수)는 300억 개 모델과 유사한 상식 추론 및 코드 생성 점수를 달성하면서 약 15배 더 빠르게 실행됩니다. Salesforce xLAM-2-8B (80억 개)는 GPT-4o나 Claude 3.5와 같은 최신 모델을 능가하는 도구 호출(Tool Calling) 성능을 보였습니다.

*   결론적으로, 현대의 훈련 기법과 에이전트 증강 기법을 사용하면 **성능은 이제 매개변수 수가 아니라 역량에 의해 좌우됩니다**.

#### B. SLM은 훨씬 경제적입니다 (V3 지원)

에이전트 워크플로우에서 비용 효율성, 적응성, 배포 유연성은 매우 중요하며, SLM은 여기서 상당한 이점을 제공합니다.

*   **추론 효율성:** 700억~1750억 개 매개변수 LLM을 서비스하는 것보다 70억 개 SLM을 서비스하는 것이 **10~30배 더 저렴**하며, 이는 대규모 실시간 에이전트 응답을 가능하게 합니다.

*   **미세 조정(Fine-tuning) 민첩성:** SLM의 미세 조정은 몇 시간의 GPU 작업으로 가능하여, 행동 추가, 수정 또는 전문화가 몇 주가 아닌 하룻밤 사이에 가능합니다.

*   **모듈식 시스템 설계:** 복잡한 작업을 하나의 거대한 모델(LLM)에 맡기기보다, 작고 특화된 전문가(SLM) 모델들을 추가하여 시스템을 확장하는 접근 방식(‘레고’ 같은 구성)이 비용 효율적이며, 디버깅이 빠르고, 배포가 용이하며, 지속 가능한 에이전트 AI를 위한 최적의 경로를 제공합니다.

#### C. SLM은 에이전트 작업에 더 유연하고 적합합니다 (V2 지원)

에이전트 애플리케이션은 실제로 **LLM의 제한된 기능만을 사용**합니다. 범용 모델은 까다롭게 작성된 프롬프트와 정교한 컨텍스트 관리를 통해 본래의 넓은 능력 중 작은 영역에서만 작동하도록 제한됩니다.

*   **행동 정렬의 필요성:** 에이전트가 코드를 호출하거나 코드가 모델의 출력을 구문 분석할 때(예: JSON, XML 형식) **엄격한 형식 요구 사항을 준수**하는 것이 필수적입니다. 범용 LLM은 때때로 기대와 다른 형식으로 응답하는 환각적 오류를 일으킬 수 있으나, 단일 형식 결정에 맞춰 미세 조정된 SLM이 에이전트 시스템의 맥락에서는 선호됩니다.

*   **자연스러운 이종 시스템:** 에이전트 시스템은 기본적으로 여러 크기와 능력을 가진 모델을 혼합하여 사용할 수 있도록 설계되어 있습니다. 예를 들어, 복잡한 추론이 필요한 부분에는 LLM을, 간단하고 반복적인 작업에는 SLM을 사용하여 효율을 높이는 **이종 에이전트 시스템**을 구축할 수 있습니다.

### 4. 고찰: LLM에서 SLM으로의 전환 방법 (전환 알고리즘)

현재 LLM을 사용하고 있는 에이전트 애플리케이션도 SLM 전문가로 전환할 수 있습니다. 논문은 고통 없이 모델을 교체하는 6단계 알고리즘을 제시합니다.

1.  **사용 데이터 수집:** 모든 비(非)인간-컴퓨터 인터페이스(HCI) 호출을 기록하고 프롬프트, 응답, 도구 호출 내용을 수집합니다.

2.  **데이터 큐레이션 및 필터링:** 수집된 데이터(미세 조정에는 보통 1만~10만 개의 예시가 충분)에서 민감한 데이터나 개인 식별 정보(PII)를 제거합니다.

3.  **작업 클러스터링:** 수집된 프롬프트와 에이전트 행동에 비지도 클러스터링을 적용하여 반복되는 패턴(예: 의도 인식, 데이터 추출, 요약 등)을 식별하고 SLM 전문화 후보 작업을 정의합니다.

4.  **SLM 선택:** 각 식별된 작업에 대해 SLM의 능력, 벤치마크 성능, 라이선스, 배포 공간 등을 기준으로 후보 SLM을 선택합니다.

5.  **전문 SLM 미세 조정:** 큐레이션된 데이터를 사용하여 선택된 SLM 후보를 작업별 데이터셋으로 미세 조정합니다. 계산 비용을 줄이기 위해 LoRA/QLoRA와 같은 PEFT 기법이나, 더 강력한 LLM의 출력을 모방하도록 SLM을 훈련하는 지식 증류(Knowledge Distillation) 기법을 사용할 수 있습니다.

6.  **반복 및 개선:** 성능 유지를 위해 새로운 데이터를 사용하여 SLM과 라우터 모델을 주기적으로 재훈련합니다.

### 5. 의의와 시사점: 왜 이 연구가 중요한가?

이 연구는 **에이전트 AI 산업의 운영 및 경제적 측면에서 중대한 변화**를 예고합니다.

LLM 중심에서 SLM 중심 아키텍처로의 패러다임 전환은 단순한 기술적 개선을 넘어섭니다. AI 커뮤니티가 인프라 비용 상승 및 환경 문제에 직면함에 따라, 에이전트 워크플로우에서 SLM 사용을 채택하고 일반화하는 것은 **책임감 있고 지속 가능한 AI 배포를 촉진하는 데 결정적인 역할**을 할 수 있습니다.

현재 SLM 채택을 가로막는 장벽(중앙 집중식 LLM 인프라에 대한 대규모 초기 투자, 일반적인 벤치마크에 대한 SLM 설계의 집중, 낮은 대중적 인식 등)은 기술적인 결함이 아닌 **실질적인 관성**에 불과합니다.

이 연구가 중요한 궁극적인 이유는 다음과 같습니다.

> 에이전트 AI 산업은 화이트칼라 업무 등에 혁신적인 영향을 미칠 잠재력을 보여주고 있으며, **AI 인프라의 비용 절감 및 지속 가능성 개선은 이러한 혁신을 가속하는 촉매제 역할**을 할 것이기 때문입니다. SLM은 비용 효율성(A2)과 운영 적합성(A5)을 통해 이 목표를 달성하는 가장 확실한 경로를 제시합니다.

---

마치 복잡한 대형 병원(LLM)이 모든 환자(에이전트 요청)를 진료하는 대신, 작고 전문화된 동네 병원(SLM)들이 반복적이고 특화된 경증 환자들을 맡아 훨씬 빠르고 저렴하며 효율적으로 처리하는 시스템으로 전환되는 것과 같습니다. 이는 전체 의료 시스템(AI 에이전트 산업)의 효율성과 지속 가능성을 획기적으로 향상시킬 수 있습니다.


perplexity.ai

다음은 첨부하신 논문 "Small Language Models are the Future of Agentic AI"의 핵심 내용을 일반인도 이해하기 쉽게 요약한 글입니다.

***

### 연구 배경

최근 몇 년간 대형 언어모델(LLM, 예: GPT-4 등)이 뛰어난 능력을 보여주며 AI 산업의 중심으로 자리잡았습니다. 이 대형모델들은 대화와 다양한 작업에서 사람과 비슷한 수준의 성능을 보이며, 많은 기업과 서비스에서 활용되고 있습니다. 한편, AI 요원(에이전트) 시스템이 부상하며, 반복적이고 특화된 소규모 작업이 급증하고 있는데, 이런 환경에 꼭 '대형' 모델만이 필요한지에 대한 의문이 커지고 있습니다. 이 논문은 "실제로는 많은 에이전트 작업에서 대형모델보다 소형 언어모델(SLM)이 더 적합할 수 있다"고 주장합니다.[1]

### 연구 목적

논문의 주된 목적은 "AI 에이전트 분야에서 대형모델 대신 소형 언어모델이 더 효율적이고 적합하며, 미래에는 소형모델이 주요한 역할을 차지하게 될 것"이라는 점을 논리적으로 제시하는 것입니다. 특히, 경제적·환경적 관점에서 볼 때 소형모델의 장점이 점점 더 중요해질 것임을 강조합니다.[1]

### 연구 방법

논문은 다음과 같은 방식으로 주장을 펼칩니다.[1]

- **현재 SLM 기술의 수준**: 최신 SLM이 실제로 어떤 작업에서 LLM과 비슷한 성능을 보이는지 실제 사례와 벤치마크 데이터를 제시합니다.

- **경제성 분석**: SLM이 LLM보다 비용 면에서 얼마나 유리한지, 유지·운영, 파인튜닝(미세수정), 에지 디바이스(일반 PC나 스마트폰 등) 적용성 측면에서 설명합니다.

- **시스템 구조 논의**: 여러 모델(LLM, SLM)이 함께 동작하는 복합 시스템의 효율성과 실용성을 논의합니다.

- **대체 가능성 사례**: 실제 오픈소스 에이전트 프로젝트에서 SLM이 LLM을 대체할 수 있는 비율을 분석합니다.

### 연구 결과

- **소형모델의 기능적 충분성**: 최신 소형모델은 특정한 반복 작업, 도구 호출, 코드 생성, 지시 수행 등에서 대형모델과 대등하거나 더 빠른 성능을 보이기도 합니다(예: Phi-2, Nemotron, SmolLM 등).[1]

- **경제적 이점**: SLM은 LLM 대비 최대 수십 배 저렴한 비용, 낮은 에너지 소비, 더 적은 컴퓨팅 자원으로 운영할 수 있어 실시간·대량 서비스에 적합합니다.[1]

- **유연성 및 현장 배치 용이성**: SLM은 보다 쉽고 빠르게 특정 작업에 맞게 미세수정할 수 있고, 일반 PC나 모바일에서도 작동할 수 있어 개인화·현장배치가 용이합니다.[1]

- **실제 적용 사례**: 메타GPT, 크래들(Cradle), 오픈 오퍼레이터 등 대표 에이전트 플랫폼의 40~70% 작업에서 SLM이 충분히 대체 가능하다고 분석했습니다.[1]

### 고찰 및 시사점

- **기존 관행 비판**: 지금 대부분의 에이전트 시스템이 대형모델 일변도에 기반하는데, 실제 필요성이나 효율성보다는 인프라 투자 등 관성에 의해 그렇게 된 면이 있다는 점을 지적합니다.[1]

- **SLM 중심 구조로의 전환 필요**: 대규모 파워와 범용성만을 강조하기보다는, 실제 현장에서는 단순·특화된 반복 작업이 많으므로, SLM 중심 구조가 데이터센터 비용과 에너지, 환경부하까지 줄일 수 있습니다.

- **혁신과 다양성 촉진**: SLM은 개발과 배포의 진입장벽이 낮아져 다양한 개발자·조직의 참여가 가능해지고, 결과적으로 AI 활용의 민주화·다양성을 높일 수 있습니다.

### 의의와 본 연구의 중요성

이 논문은 앞으로의 AI 에이전트 및 산업에서 '더 크고, 더 범용적인 모델'이 아닌 '적절히 작은, 목적에 맞는 모델'이 더 적합할 수 있음을 실증적으로 보여주고, 실제 서비스와 산업 생태계에 큰 변화를 시사합니다. 중앙 집중형 LLM 인프라 일변도에서 벗어나, 에너지를 덜 쓰고 더 많은 기기에, 사용자 맞춤형으로 AI를 공급할 길을 제시합니다. 이 변화는 AI의 경제적 효율성과 환경 지속가능성 두 측면에서 모두 매우 의미 있으며, 앞으로 AI 기술 발전과 사회적 활용 방식 전반에 걸쳐 깊은 함의를 가질 것입니다.[1]




출처: @ye._.vely618

수요일, 12월 03, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (5)

한달여 정도 chatGPT와 gemini에 물어보면서 개발 기획서를 정리한 내용으로 각각의 LLM들이 작성한 코드들을 한번 돌려보는 시간을 가져본 내용을 공유하려고 합니다. :)

지금까지의 요청 내용은 줄글, 풀어쓴 내용들이어서 LLM이 이해하기 쉽게 작성하라고 하니 아래처럼 작성한다고 하길래 가급적 한번 구성을 맞춰보았습니다.


# 금융 데이터 시각화/관리 웹 플랫폼 개발 기획서

## 1\. 개요

  * **목표:** MongoDB에 저장된 한국/미국 주식, 지수, 환율 데이터를 로컬 웹 환경에서 시각화하여 조회하고, 관련 메타데이터(티커명 등)를 관리할 수 있는 대시보드 구축
  * **핵심 가치:** 다양한 금융 데이터의 직관적인 차트 시각화(캔들스틱, 이동평균선) 및 상호 비교 분석 기능 제공

## 2\. 기술 스택 및 환경

  * **Language:** Python 3.12
  * **Web Framework:** Flask 3.0.3
  * **Database:** MongoDB (PyMongo 4.15.3)
  * **Data Processing:** Pandas 2.2.2, NumPy 1.26.4
  * **Frontend (권장):** Jinja2 템플릿 + 차트 라이브러리 (Plotly.js 또는 ApexCharts, Highcharts 등 금융 차트 지원 라이브러리 활용 예정)

## 3\. 데이터 모델링 (Database Schema)

finance.json 참고

## 4\. 기능 상세 명세

### 4.1. 공통 기능 (User Interface)

  * **검색 기능:**
      * 모든 뷰어 상단에 검색바 제공
      * **검색 기준:** Ticker(코드) 또는 Name(종목명)
      * **자동 완성(Autocomplete):** 키워드 입력 시 매칭되는 종목 리스트 드롭다운 제공
      * **신규 생성하는 ticker_metadata의 ticker나 name을 참조 할것

  * **차트 공통 요건 (캔들스틱):**
      * **X축(시간):** 휴장일(데이터가 없는 날)은 차트에서 제외하여 캔들이 연속적으로 보이도록 처리 (Gap 제거).
      * **기간 설정:** 기본 1개월 뷰. 마우스 휠 또는 슬라이더로 기간 축소/확대(Zoom In/Out) 가능.
      * **축소/확대:** 축소 확대 시 기본적으로 보여주는 1개월 외에 이전 정보들을 보여줘야함
      * **뷰 기간:** 차트 상단에 일주일, 1개월, 3개월, 6개월, 금년, 1년, 3년 5년 10년, 최대 등 버튼으로 초기 설정된 기간의 차트를 확인 할 수 있어야함.
      * **차트 타입:** OHLC(시가, 고가, 저가, 종가) 캔들스틱 차트.

### 4.2. 페이지별 상세 요건

#### A. 한국 주식 뷰어 (`korean_stocks`)

  * **검색:** Ticker(숫자 6자리) 및 종목명(예: 삼성전자)
  * **보조 지표 (이동평균선):** 5일, 20일, 60일, 120일 선 표시

#### B. 미국 주식 뷰어 (`us_stocks`)

  * **검색:** Ticker(영문) 및 종목명(예: Microsoft)
  * **보조 지표 (이동평균선):** 5일, 10일, 20일, 50일, 200일 선 표시

#### C. 지수 정보 뷰어 (`indices`)

  * **검색:** Ticker 및 관리자가 지정한 지수명
  * **보조 지표 (옵션 선택 가능):**
      * 옵션 1: 5, 20, 60, 120일 이평선
      * 옵션 2: 5, 10, 20, 50, 200일 이평선

#### D. 환율 정보 뷰어 (`currencies`)

  * **검색:** Ticker 및 관리자가 지정한 환율명
  * **차트:** 기본 캔들스틱 차트 (이동평균선 필수 요건 없음, 필요시 추가)

#### E. 통합 비교 뷰어 (Comparison)

  * **기능:**
      * 한국주식, 미국주식, 지수, 환율 중 2개 이상의 대상을 검색하여 추가/삭제 가능.
      * 서로 다른 스케일(가격 단위) 문제 해결 로직 적용.
  * **비교 로직 (해결 방안):**
    1.  **2개 종목 비교 시:** **Dual Y-Axis (이중 축)** 적용. 왼쪽 축은 A종목 가격, 오른쪽 축은 B종목 가격 표시.
    2.  **3개 이상 또는 스케일 차이가 극심할 때:** **정규화(Normalization)** 차트 옵션 제공.
          * 시작 시점을 0% 또는 100으로 기준 잡고 **등락률(%)** 그래프로 변환하여 비교.


### 4.3. 관리자(Admin) 페이지

  * **데이터 업데이트 관리:**
      * 각 카테고리별(한국주식, 미국주식, 지수, 환율) 데이터 수집/업데이트 실행 버튼 제공 (백엔드 크롤러/API 트리거).
      * 한국주식: update_kr.py
      * 미국주식: update_us.py
      * 지수: update_index.py
      * 환율: update_currency.py
      * 각 업데이트 버튼시 각각의 스크립트가 백그라운드에서 작동되도록 구현
      * 업데이트 시 `finance_db`내 각각의 종목 중 마지막 날짜 이후 정보만 업데이트 하도록 구성
  * **관리 리스트 편집:**
      * 데이터를 수집/관리할 대상 종목 리스트(Ticker 목록) 추가/삭제 기능.
      * 참고할 collection은 `ticker_metadata` 임.
      * 관리 리스트 편집 페이지는 한국주식, 미국주식,지수,환율운 각각 tab이나 별도의 페이지에서 리스트를 확인 할 수 있을 것
      * 한 페이지에 많은 데이터를 보여줄 수 없기에 pagination 기능이 필요
  * **메타데이터 관리 (Ticker Map):**
      * `ticker_metadata` 컬렉션에 대한 CRUD 제공.
      * Ticker에 매핑되는 `name`(사용자 표시 이름) 수정 기능.
      * 동일한 페이지에서 update할 수 있는 기능이 필요 개별 item별로 name과 marker type을 수정해서 적용하거사 해당 페이지에서 수정된 item들을 적용하도록 기능을 구현할 것.

-----

## 5\. UI/UX 제안 사항 (추가 제안)

  * **반응형 레이아웃:** 뷰어 영역을 최대한 확보하기 위해 사이드바 메뉴(Collapsible Sidebar) 형태 권장.
  * **차트 라이브러리:** `Plotly` 또는 `Lightweight Charts (TradingView)` 사용 권장. (휴장일 스킵 기능 및 줌/팬 성능이 우수함).

-----

## 6. 실행
1.  **데이터 업데이트 로직:**
      * 관리자 페이지의 '업데이트 버튼'을 눌렀을 때 실제로 데이터를 가져오는 python script는 02.mongodb_update_fix.py 파일을 참고하면 됩니다. 이 파일을 참고해서 각각의 항목에 맞도록 스크립트를 분리/작성해줘.

2. **바로 사용 가능하도록 코드 작성**
     * 지금 바로 수행가능한 app.py파일과, html, js, css 모든 파일을 flask가 작동가능한 디렉토리 구조에 맞게 작성해줘
     * 가능하면 zip으로 압축해서 한번에 다운로드 받을 수 있게 해줘


결과적으로 gemini 제외하고 zip파일을 다운로드 받을 수 있게 링크는 제공해 주었으나 그 링크를 통해서 zip파일을 다운로드 받을 수 있는 것은 없었습니다. 다만 gemini는 링크 대신에 위의 기능을 구현한 파일을 zip파일로 압축하는 python 스크립트를 제공해주었습니다. 한... 30kb짜리 파이썬 스크립트를 내놓더라구요 ㅎㅎ 

위 내용을 바탕으로 chatGPT, gemini, grok, kimi, perplexity에 코드를 작성해달라고 25년 12월 1일 월요일에 요청하였고, 모두 무료 버전의 LLM으로 한번 물어보고 테스트를 진행하였습니다.

아, pseudo zip파일 링크만 준 녀석들은 다시 코드 내놔해서 한땀 한땀 코드를 복붙 했습니다. ㅎㅎ 


gemini : flask 구동시 필요한 파일이 모두 작성되었던 유일한 모델

chatGTP: 압축파일은 못 만들었지만 GTP도 필요한 파일은 모두 제시해 줬음

grok: flask의 app.파일에는 작성되어져 있었지만 template 폴더 내 일부 html 파일이 없어서 다시 요청했었음. 필요했던 파일이 5개 였다면 2개 정도가 비어 있음

kimi: 압축파일은 못만들었지만 GTP도 필요한 파일은 모두 제시해 줬음

perplexity: grok처럼 flask의 app.py파일에는 작성되어져 있었지만 template 폴대내 대부분의 생성되어 있어야할 html 파일들이 대부분 누락(10개가 필요하다면 8개가 없음). perplexite는 별 기대 안하고 요청해본 모델이어서 별 기대 없었습니다. :)

그리고 각 flask를 한번씩 돌려본 것을 남겨보자면...

요청서가 자세하지 않아서 모델들이 제대로 이해를 못한 결과 제대로된 결과물이 나오지 않은 것으로 각각의 화면을 한땀 한땀 설명하는 프롬프트를 작성해야할듯으로 보이네요

모든 모델에서 이상하게 mongodb에서 주가정보를 load하지 못했다는 공통점이 있어서 요청서에 문제가 있어보이긴 합니다. 그래도 grok와 kimi 모델에서는 메타데이터 관리를 위한 기능은 작동되는 것이 신기하긴 했습니다. :)

결론: 요청서나 설명하는 문장을 좀 더 다듬어 보는 걸로 



출처: @ye._.vely618

화요일, 11월 04, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (2)

기존에 사용하던 sqlite3 기반으로는 매주 없데이트 하는데 시간이 오래 걸려서 mongodb로 한번 변경해보는 작업을 진행하였는데 만족스러웠습니다. 

※ mongodb가 상장되어 있는지도 몰랐는데 이번 Dan ives의 ETF(IVES, IVE아닙니다. 물론 IVE도 있고 IVE도 있습니다.)에 mongodb(MDB)가 포함되어 있어 간만에 다시 mongodb를 사용해보기로 하여 아래와 같이 환율, 지수, 주가 정보를 업데이트하는 코드를 수정해 보았습니다.


첫번째 수정작업(Gemini)

(기존에 sqlite3로 사용하던 스크립트 업로드) 첨부한 파일은 기존에 sqlite3를에 테이블을 생성해서 파이썬으로 야후 파이낸스에서 각 ticker 정보를 검색해서 sqlite3로 저장하는 스크립트들 입니다.
환율과 지수, 한국주식, 미국주식 정보를 가져와서 sqlite3 테이블에 저장하는 것입니다.
나는 이 스크립트를 mongodb와 python을 사용해서 작동하도록 하고 싶습니다.
몽고디비는 내 컴퓨터에 설치하였습니다.
첨부한 파일의 스크립트를 참고하여 데이터베이스와 table을 생성하는 코드를 작성해줘 그리고 두번째로는 설치한 몽고DB(mongodb://localhost:27017)에 ticker를 업데이트하는 파이썬 코드를 작성해줘.
현재는 sqlite3에서 table lock로 한번에 한개의 정보만 다운로드 받아 insert하도록 되어있습니다. 환율,야후파이낸스에서 지수,한국주식,미국주식정보를 빠르게 받을 수 있도록 개선된 파이썬 코드를 작성해줘.
python 3.12 버전, yfinance 0.2.61 기준으로 코드를 작성해줘


아쉽게도 기존에 LLM으로는 해결하지 못했던 Session 문제가 그대로 노출되어서 아래와 같이 기존에 문제없이 사용하는 Session 코드를 그대로 보여주고 참고하라고 해서 다행이 잘 해결되었네요

두번째 수정작업(chatGPT)

(생성한 파일 중 update.py파일을 업로드)오류가 발생하여 정상적으로 db에 정보가 쌓이지 않고 있습니다. 문제가 있는 부분을 확인해서 수정해줘.

그리고
# 세션 생성 및 User-Agent 설정 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36'} session = requests.Session(impersonate="chrome", headers=headers, verify=False)
이 코드를 참고해서 세션 연결을 ticker 다운로드 할 떄마가 하는것이 아니라 스크립트 시작시 세션을 연결하고 모든 작업이 끝나면 세션을 닫으세요


chatGPT가 확인해준 원인들 
(일부 원인이 될 수 있지만 정확하게 해결해주지는 못하더라구요) 

구분 원인 설명
1 requests.Session()yfinance.download()의 호환성 문제 yfinance.download()requests가 아닌 yfinance.shared._session 기반으로 동작합니다. curl_cffi.requests.Session을 전달하면 TypeError 또는 AttributeError가 발생할 수 있습니다.
2 ❌ MongoDB date 필드 처리 오류 datetime.date 객체는 PyMongo가 BSON 변환 시 오류를 일으킬 수 있습니다. datetime.datetime 객체로 저장해야 합니다.
3 latest_dates 집계 시 strftime() 호출 오류 doc['max_date']datetime이 아닌 str로 들어오는 경우 .strftime() 호출 시 AttributeError 발생 가능성이 있습니다.
4 ⚠️ 중복 삽입 방지 미비 insert_many()를 단순 실행하면 중복 데이터가 계속 쌓이거나 오류로 중단될 수 있습니다.
5 ⚠️ 병렬 실행 시 세션 공유 문제 ThreadPoolExecutor 내부에서 yfinance.download() 호출 시 세션/캐시 충돌 가능성이 있습니다.
6 ⚠️ 한국 주식 Ticker 일부 .KQ 종목이 오류 발생 코스닥 종목이 .KS로 지정되어 다운로드 실패 가능성 있습니다.



그래서 아래와 같이 정상 적동하는 2개의 스크립트를 얻게 되었습니다. 

01.mongodb_setup.py

02.mongodb_update.py

다음에는 국내 부동산시세 정보도 알아서 모아올 수 있는 방법이 있는지 확인해보도록 하겠습니다. 물론 다른 서비스들이 있는것으로 봐서는 방법이 없지는 않겠지만 저는 실시간까지는 필요없으니 평이한 방법으로 시도해보도록 하겠습니다. :)



출처: @ye._.vely618


월요일, 10월 27, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (1)

오늘은 머리속으로만 생각해오던 Vibe coding 작업을 한번 해본 것 한번 끄적끄적 적어 올립니다.

이번 작업은 아마 좀 그럴듯해지는 결과물이 나올때 까지 시리즈로 올릴 계획입니다.

첫번째로 올리는게 LLM을 활용하고 AI를 도입한 무슨 무슨 유전체 분석 파이프라인이면 좋았을 수 도 있겠지만 자본주의 시장에서 Cash is King이니 환율, 주식, 지수를 한눈에 볼 수 있도록 하는 그럴듯한 차트를 만들어보는 것을 첫번째 주제로 잡아보았습니다.

당연히 제가 수정할 수 있도록 python, flask를 사용해서 작업해달라고 하고 있습니다.

지금은 chatGPT와 gemini에게 만들어달라고 해보고 있는데 grok와 perplexity를 이용할 예정입니다.

작성된 코드는 업데이트하여 계속 아래 제 github에 commit하도록 하겠습니다. :)

github: dashboard_poc


chatGPT에게 요청

나는 환율가격정보와 여러국가의 증권시장 지수 정보, 한국에 상장되어 있는 상장사들의 주가정보, 미국에 상장되어 있는 상장사들의 주가정보를 일자별로 개시가, 종가, 고가, 저가, 거래량 정보를 가지고 있습니다. 나는 이 정보들을 실시간으로 특정 기간 동안 또는 확인 할 수 있는 전체 기간 동안 비교 하고 싶어. 예를 들어 달라/원 환율정보, 한국의 삼성전자 주가, 미국의 나스닥 지수를 한국의 코스피 지수를 한 화면에 비교하면서 보고 싶어 환율가격정보와 여러국가의 증권시장 지수 정보, 한국에 상장되어 있는 상장사들의 주가정보, 미국에 상장되어 있는 상장사들의 주가정보들은 각각 sqlite3 데이터베이스 파일로 저장되어 있어.
환율가격정보는 finance_currency.db 파일에 currency라는 테이블에
symbol TEXT,
date DATE, open REAL,
high REAL,
low REAL,
close REAL,
volume INTEGER,
dividends REAL,
stock_splits TEXT 구조로 되어 있어. 
여러국가의 증권시장 지수 정보는 finance_index.db 파일에 stocks라는 테이블에, 한국에 상장되어 있는 상장사들의 주가정보는 finance_stock_kr.db파일에 stocks라는 테이블에, 미국에 상장되어 있는 상장사들의 주가정보는 finance_stock.db 파일에 stocks라는 테이블에 stocks라는 테이블에 저장되어 있습니다. 
stocks 테이블은 
symbol TEXT,
date DATE, open REAL,
high REAL,
low REAL,
close REAL,
volume INTEGER,
dividends REAL,
stock_splits TEXT 구조로 되어 있어. 
나는 Python 3.12 기준으로 FLASK를 사용해서 데이터베이스에 있는 환율가격정보와 여러국가의 증권시장 지수 정보, 한국에 상장되어 있는 상장사들의 주가정보, 미국에 상장되어 있는 상장사들의 주가정보들을 실시간으로 확인할 수 있는 웹페이지를 개발해줘.




gemini에게 요청
1. 환율, 인덱스지수, 한국주식종목, 미국주식종목은 각 데이터베이스에서 로딩하여 항목들을 보여주면 좋겠습니다. flask를 시작할 때 환율, 인덱스지수, 한국주식종목, 미국주식종목 의 데이터베이스에서 symbol 항목들을 먼저 불어와서 선택시 지연이 생기지 않으면 합니다.

2. 화면에서 환율, 인덱스지수, 한국주식종목, 미국주식종목 을 선택하는 하는 방법은 드랍다운 메뉴를 통해서 환율, 인덱스지수, 한국주식종목, 미국주식종목 을 선택 할 수 있으면 좋겠습니다. 동일한 화면에서 여러개의 항목을 보여주어야합니다. 추가할 때는 "추가"버튼 또는 "+" 아이콘을 클릭하면 추가 할 수 있으면 좋겠습니다. 그리고 추가한 항목을 삭제할 떄는 "-" 버튼을 클릭하여 항목을 언제나 추가, 삭제할 수 있어 사용자가 편리하게 환율, 인덱스지수, 한국주식종목, 미국주식종목의 항목을 조회할 수 있으면 좋겠습니다.

3. 환율, 인덱스지수, 한국주식종목, 미국주식종목 등 한 chart화면에 다양한 단위의 정보를 부여줘야합니다. Y축의 척도를 환율, 인덱스지수, 한국주식종목, 미국주식종목등 선택한 항목에 따라 동적(dynamic)으로 단위를 자동으로 확인하여 표시해주면 좋겠습니다.

환율은 교환하는 통화의 단위에 따라 표시가 어렵기에 인덱스지수 처럼 단위가 없이 표시해주면 됩니다.

한국주식종목은 원화 기준이기에 달라 기준인 미국주식종목과 단위가 없는 환율, 인덱스지수와 함께 표시할 때 상대적으로 큰 숫자로 표시되어 다른 항목들의 값이 정상적으로 표현되지 않을 수 있습니다.

사용자가 각 항목을 확인 할 때 불편하지 않도록 항목에 따라 Y축의 척도, 단위를 자동으로 구성해주면 좋겠습니다.

4. 환율, 인덱스지수, 한국주식종목, 미국주식종목 등 여러가지 그래프를 하나의 chart화면에서 보여 줄 때 모든 정보들이 보이지 않고 마지막으로 추가한 항목의 그래프만 보이는 오류가 발생할 수 있습니다. 이런 오류가 발생하지 않도록 코드를 오류 없이 작성해주세요.

5. 업로드한 파일은 초기에 작성한 python FLASK로 작성한 파일입니다. 참고하여 위의 요청사항들을 반영하여 사용자가 사용하기 편리하고 오류없는 python기반의 FLASK 사이트를 작성해줘.


첫번째는 chatGPT에게 대략적인 내용을 설명하고 코드를 작성해달라고 하였고, 이후 gemini에게 chatGPT가 작성한 코드를 바탕으로 추가 요청사항을 알려주었습니다.


그래서 아래와 같이 결과물이 나왔는데... 

물론 아직 멀었습니다. 일단 이쁘지가 않습니다. 그리고 Y축의 척도가 선택한 항목에 따라 동적으로 scale이 조정되면 좋을 것 같은데... 그렇지 않다보니 숫자가 작은 항목을 선택하면... 바닥에 기어가는 그래프들만 볼때가 있네요..


그래도 머리에 있는 내용을 타이핑해서 상대방에게 알려주는 것이 얼마나 어려운것인지 다시한번 느끼고 있으며 그럼에도 불구하고 이 내용을 A부터 Z까지 python이라지만 내가 코드를 작성할 수 있었을까? 라는 생각을 가지고 감탄하고 있습니다. :)


아이디어와 설명, 표현을 LLM에게 잘 한다면 사실 못할게 없을것 같네요. :)

그리고 위에서 얘기한것과 같이 다른 LLM들도 사용할 예정인데 품질 향상을 위해서가 아니라 무료 버전을 사용하고 있어서 하나의 모델에게 많은 일을 시키지 못해서 그렇습니다. :) 

음... 좀 번거롭긴 하지만 생각보다 약간씩 모델에 차이가 있다보니 여러 LLM을 돌려사용하면 품질이 조금 더 향상되지 않을까 합니다. ㅎㅎ
더 업데이트해서 지금보다 나은 결과물을 가지고 두번째 글을 쓰도록 하겠습니다. :)




출처: @ye._.vely618

수요일, 10월 08, 2025

AI 의사를 육성하는 가상 병원 ㄷㄷㄷㄷ

LLM기반으로 Agent를 알파고처럼 기본적인 role만 습득한채 환자를 진단하는 시뮬레이션을 무한히 돌려서 시행착오를 격게 함으로써 경험을 쌓게했는데 이게 또 현실에서의 의사 사람만큼의 성능을 발휘한다? 이게 되네? 

논문제목은 Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents 입니다. chatGPT의 답변중에 가장의 환자가 등장하는 스토리텔링으로 내용을 설명한것도 있습니다.

하.. 진짜 이게 되네;;;

DOI: 10.48550/arXiv.2405.02957


clova-x

Agent Hospital은 대규모 언어 모델(LLM)을 기반으로 한 자율 에이전트들이 의료 환경을 시뮬레이션하고 의사 에이전트들이 경험을 통해 전문성을 향상시킬 수 있도록 설계되었습니다. 이 연구는 Simulacrum-based Evolutionary Agent Learning (SEAL)이라는 새로운 패러다임을 도입하여, 인공지능이 실제 의료 문제 해결에 적용될 수 있는 가능성을 제시합니다.

1. **Agent Hospital의 개요**

   - Agent Hospital은 가상의 병원으로, 환자, 간호사, 의사 모두 LLM 기반의 자율 에이전트로 구성됩니다.

   - 병원의 모든 절차를 시뮬레이션하여 환자 치료 과정을 재현합니다.

2. **인공지능 기술의 발전**

   - LLM은 방대한 텍스트 데이터를 학습하여 의학 지식을 습득하며, 이를 통해 USMLE 스타일 질문에 인간 수준의 성능을 발휘합니다.

   - 자율 에이전트는 LLM을 두뇌로 삼아 환경과 상호작용하며, 인간처럼 계획하고 반성할 수 있습니다.

3. **Simulacrum-based Evolutionary Agent Learning (SEAL)**

   - SEAL은 두 가지 주요 요소인 시뮬라크럼 구축과 에이전트 진화로 구성됩니다.

   - 시뮬라크럼은 병원 환경을 생성하여 의사 에이전트가 다양한 의료 데이터를 통해 전문성을 갖출 수 있도록 돕습니다.

   - 에이전트 진화는 성공 및 실패 사례를 통해 의사 에이전트가 시간이 지남에 따라 능력을 향상시키도록 합니다.

4. **연구의 의의와 적용 가능성**

   - SEAL은 LLM을 특정 사용 사례로 맞춤화하고 수동으로 데이터를 주석화하는 대신, 자동으로 데이터를 생성하여 애플리케이션의 요구사항을 충족시킵니다.

   - 이 연구는 의료 AI뿐만 아니라 다양한 분야에 적용될 수 있는 잠재력을 지니고 있습니다.


gemini

## 🏥 AI 의사를 키우는 가상 병원: '에이전트 병원(Agent Hospital)' 논문 요약

---

이 논문은 대규모 언어 모델(LLM) 기반의 **자율 에이전트**를 활용하여 의사들이 실제 임상 경험을 통해 전문성을 쌓는 과정을 가상으로 구현한 혁신적인 연구입니다. 마치 게임처럼 작동하는 가상 병원에서 AI 의사들이 무한대의 가상 환자를 치료하며 스스로 진화하고, 이 전문성이 실제 의학 시험에서도 통한다는 것을 입증했습니다.

### 1. 연구 배경: 왜 가상 병원을 만들었나?

---

[cite_start]AI가 의학 분야에서 눈부신 발전을 거듭하고 있지만, 이는 주로 **지식 습득** 단계에 머물러 있습니다[cite: 1136]. [cite_start]기존의 대규모 언어 모델(LLM)은 방대한 의학 텍스트를 학습하여 미국 의사 면허 시험(USMLE) 수준의 문제도 풀 수 있을 정도로 지식은 뛰어나지만[cite: 1138], 이는 의사가 되는 과정 중 **교과서 지식 습득**에 해당합니다.

[cite_start]하지만 실제 의사가 되기 위해서는 환자를 직접 치료하는 **임상 전문성 습득**이 필수적입니다[cite: 1135]. [cite_start]기존 LLM은 실제와 같은 복잡한 병원 시나리오에서 경험을 쌓고 진화하는 능력이 부족합니다[cite: 1139]. 이 연구는 이 "임상 경험 습득" 단계를 AI에 구현하는 것을 목표로 했습니다.

### 2. 연구 목적: '경험'을 통해 진화하는 AI 의사

---

[cite_start]이 연구의 핵심 목표는 **'에이전트 병원(Agent Hospital)'**이라는 가상 환경을 구축하여 [cite: 1128, 1170][cite_start], 환자, 간호사, 의사 모두 LLM 기반의 자율 에이전트로 구성된 시뮬레이션을 만드는 것입니다[cite: 1171]. [cite_start]이 안에서 **AI 의사 에이전트**는 수많은 가상 환자를 치료하는 **실습**을 통해 **데이터를 수동으로 라벨링하지 않고도** 스스로 의료 전문성을 향상시키고 진화하는 것입니다[cite: 1129].

### 3. 연구 방법: SEAL 프레임워크와 MedAgent-Zero

---

[cite_start]이 연구는 **'시뮬레이션 기반 진화적 에이전트 학습(SEAL, Simulacrum-based Evolutionary Agent Learning)'**이라는 새로운 패러다임을 제안합니다[cite: 1183].

#### 1) 시뮬레이션 환경 구축 (Agent Hospital)

[cite_start]에이전트 병원은 환자의 발병, 분류, 접수, 진료, 검사, 진단, 투약, 회복, 퇴원 후 관리까지 **질병 치료의 전체 폐쇄 주기**를 시뮬레이션합니다[cite: 1163, 1177].

* **가상 환자 자동 생성:** 가장 중요한 것은 **환자 에이전트**입니다. LLM이 의학 지식 기반(Medical Knowledge Base)과 결합하여 질병의 종류, 증상, 병력, 검사 결과 등을 **자동으로 생성**합니다. [cite_start]이로써 AI 의사에게 무제한에 가까운 다양한 학습 데이터를 제공하며, 사람이 일일이 데이터를 라벨링할 필요가 없습니다[cite: 1186, 1187, 1294].

#### 2) 에이전트 진화 방법론 (MedAgent-Zero)

AI 의사들이 전문성을 쌓는 방법은 **MedAgent-Zero**라고 불립니다. [cite_start]'Zero'는 수동으로 라벨링된 훈련 데이터를 사용하지 않는다는 의미입니다[cite: 1290]. AI 의사는 다음 두 가지 방식으로 진화합니다.

* [cite_start]**성공으로부터 학습 (Medical Case Base):** 환자를 성공적으로 치료한 진료 사례는 **'의학 사례 기반(Medical Case Base)'**에 저장되어, 이후 비슷한 환자를 진료할 때 참고 자료로 활용됩니다[cite: 1361].

* [cite_start]**실패로부터 학습 (Experience Base):** 오진 등 치료에 실패했을 경우, AI 의사는 실제 정답과 자신의 결정을 비교하며 **'반성(Reflection)'**하여 실수를 피하기 위한 **새로운 규칙(Principle)**을 생성합니다[cite: 1178, 1362]. [cite_start]이 규칙이 검증 과정을 거쳐 성공적으로 적용되면 **'경험 기반(Experience Base)'**에 추가됩니다[cite: 1363]. 이는 인간 의사가 임상 경험을 통해 노하우를 쌓는 과정과 유사합니다.

### 4. 연구 결과: 가상 경험이 현실 능력이 되다

---

연구 결과, AI 의사 에이전트의 진화는 가상 세계와 현실 세계 모두에서 뚜렷한 성능 향상을 보였습니다.

* [cite_start]**가상 세계의 성능 향상:** 치료한 환자 에이전트 수가 증가함에 따라 AI 의사의 진단 정확도는 꾸준히 향상되었습니다[cite: 1195, 1455]. [cite_start]예를 들어, 심장내과에서 류마티스성 심장 질환에 대한 진단 정확도는 **9%에서 82%**로 급격히 상승했습니다[cite: 1460].

* [cite_start]**현실 세계 의학 지식 시험(MedQA) 성능:** 가상 병원에서 얻은 전문성은 실제 세계의 의학 문제에도 적용 가능했습니다[cite: 1196]. [cite_start]진화된 AI 의사는 수동 라벨링 데이터를 전혀 사용하지 않았음에도 불구하고, MedQA 벤치마크(USMLE 스타일 질문)에서 기존의 **최신 의료 AI 방법들(MedAgents, CoT, Medprompt)을 능가**하는 **최고 정확도(92.2%)**를 달성했습니다[cite: 1130, 1198, 1458, 1450].

### 5. 고찰 및 의의와 시사점

---

**에이전트 병원**은 단순한 시뮬레이션 이상의 의미를 가집니다.

* [cite_start]**시간 가속기 역할:** 사람이 수년이 걸려야 경험할 수 있는 **수만 명의 환자 진료 케이스**를 AI 의사는 가상 병원이라는 '시간 가속기' 속에서 단기간에 처리하고 학습할 수 있습니다[cite: 1130, 1180].

* [cite_start]**새로운 AI 개발 패러다임:** 이 연구가 제시한 **SEAL** 방식은 의료 AI뿐만 아니라, 복잡한 워크플로우를 가진 모든 분야(산업, 법률 등)의 AI 개발에 적용될 수 있는 새로운 청사진을 제시합니다[cite: 1204]. [cite_start]사람이 데이터를 라벨링하고 도메인 특화 LLM을 훈련하는 막대한 비용과 노력을 획기적으로 줄일 수 있습니다[cite: 1201].

* [cite_start]**AI 환자의 활용 가능성:** 자동으로 생성된 AI 환자는 의료 교육(학생 및 주니어 의사 훈련)이나 특정 질병 코호트 모델링 등에 활용될 수 있으며, 실제 환자의 **개인 정보 보호** 문제를 해결하면서도 임상 연구를 진행하는 데 기여할 수 있습니다[cite: 1285, 1286].

### 이 연구가 왜 중요한가?

[cite_start]이 연구는 마치 **알파고 제로(AlphaGo Zero)가 바둑을 스스로 학습하고 초인적인 기량이 되었던 것처럼** [cite: 1181][cite_start], AI 의사가 가상 환경에서의 **자체적인 실습과 진화**를 통해 빠르게 임상 전문성을 쌓을 수 있는 경로를 제시했습니다[cite: 1287]. [cite_start]가상 환경에서 얻은 전문성이 실제 의학 지식 시험에서 인간 전문가 수준을 뛰어넘는 결과를 보여주면서, **데이터 라벨링 없이도 초인적인 AI 의사를 개발할 수 있는** **확장 가능하고 비용 효율적인** 새로운 가능성을 열었습니다[cite: 1198, 1204]. 이는 미래 의료 산업의 혁명을 이끌 핵심 기술이 될 것입니다.


chatGPT

다음은 업로드하신 논문 \*\*〈Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents〉\*\*의 주요 내용을 일반 독자들이 이해하기 쉽게 정리한 요약본입니다. 블로그에 올릴 수 있는 설명 형식으로 작성했으며, 연구 배경·목적·방법·결과·고찰·의의와 시사점까지 담았습니다.

---

# AI로 만든 가상병원, **에이전트 병원(Agent Hospital)**

### ― 스스로 성장하는 AI 의사들의 탄생

## 연구 배경

의사가 되려면 보통 20년 이상의 교육과정을 거쳐야 합니다. 학교에서 지식을 배우고, 병원 현장에서 실습을 하면서 실제 의술을 익히게 되죠. 그런데 지금까지의 **의료 인공지능(AI)** 연구는 대부분 ‘교과서 학습’, 즉 텍스트와 데이터로 지식을 쌓는 단계에 집중했습니다. 문제는 실제 병원처럼 “환자를 진료하면서 배우는 경험”을 AI가 얻기 어렵다는 점이었습니다.

최근 등장한 **대규모 언어모델(LLM)** 기반의 자율 에이전트는 단순히 텍스트를 읽고 쓰는 것을 넘어서, 환경과 상호작용하며 계획하고 반성하고 도구를 활용하는 능력을 보이기 시작했습니다. 연구팀은 이를 활용해, AI가 마치 인간 의사처럼 진료 경험을 쌓고 성장할 수 있는 환경을 만들고자 했습니다.

## 연구 목적

연구진은 \*\*“에이전트 병원(Agent Hospital)”\*\*이라는 가상병원을 구축했습니다. 이 안에서 **환자, 간호사, 의사** 모두가 AI 에이전트로 구현됩니다. 의사 에이전트들은 수많은 환자를 진료하면서 스스로 경험을 쌓고, 잘한 점과 실수에서 교훈을 얻어 점점 더 유능한 의사로 성장합니다.

핵심 질문은 다음과 같았습니다:

* AI 의사가 가상의 환자를 치료하며 정말로 “경험 기반 의료 능력”을 습득할 수 있을까?

* 이렇게 배운 능력이 실제 의료 문제 해결에도 통할까?

## 연구 방법

연구팀은 **SEAL (Simulacrum-based Evolutionary Agent Learning)** 이라는 방법론을 제안했습니다.

* **시뮬라크럼 구축**: 병원 환경을 가상으로 재현. 환자의 발병, 접수, 진료, 검사, 처방, 회복까지 실제 병원과 같은 과정을 모두 포함. 환자 데이터는 의학 지식 기반을 참고해 자동으로 생성되므로, 사람이 일일이 라벨링하지 않아도 됩니다.

* **에이전트 진화**: 의사 AI는 환자를 치료하면서 성공 사례는 축적하고, 실패는 반성하여 규칙을 만들어 개선합니다. 또한 여가 시간에 “의학 서적”을 읽으며 지식을 보강하도록 설계했습니다.

이 시스템에서 의사 AI는 마치 바둑 AI인 알파고 제로(AlphaGo Zero)처럼 수십 년에 해당하는 임상 경험을 단기간에 축적할 수 있습니다.

## 연구 결과

* **가상 세계 성과**: 의사 에이전트는 수만 명의 환자를 치료하면서 진단 정확도가 크게 향상되었습니다. 예컨대, 처음에는 9%에 불과했던 심장질환 진단 정확도가 80% 이상으로 뛰었습니다.

* **현실 세계 적용**: 의사 에이전트가 가상병원에서 훈련한 뒤 미국 의사 국가시험(USMLE) 스타일 문제로 평가했을 때, 기존 최신 모델보다 더 높은 정확도를 보였습니다. (별도의 라벨링 데이터 없이도 성능 향상 달성)

* **확장 가능성**: 21개 임상과, 339개 질환을 포함해, 대부분의 진료 영역에서 성능이 고르게 개선됨을 확인했습니다.

## 고찰

이 연구는 몇 가지 중요한 시사점을 줍니다.

1. **데이터 라벨링 부담 해소**: 기존에는 의료 AI를 훈련시키려면 방대한 환자 데이터를 사람이 직접 라벨링해야 했지만, Agent Hospital은 가상 환자가 자동으로 데이터를 생성해 이 문제를 해결했습니다.

2. **실제와의 정합성**: 가상에서 배운 의료 경험이 현실 문제 해결에도 적용될 수 있음을 보여주었습니다. 이는 AI 의사 양성의 가능성을 열어줍니다.

3. **한계와 과제**: 현재 AI 의사는 고수준의 치료 계획만 제시할 수 있고, 복잡한 다학제 협력(예: 여러 진료과 협진)은 구현되지 않았습니다. 또한 AI의 편향, 윤리 문제, 신뢰성 확보는 여전히 중요한 숙제로 남아 있습니다.

## 의의와 시사점

* **의료 교육 혁신**: 실제 의대생이나 전공의가 훈련하기 어려운 드문 질환이나 대량의 증례를 AI 환자로 대신할 수 있습니다.

* **의료 불평등 완화**: 충분한 인력이 없는 지역에서도 AI 의사가 지원 역할을 할 수 있어, 의료 접근성을 높일 수 있습니다.

* **AI 응용 확장**: 병원뿐만 아니라 법정, 교육, 경제 등 사람이 경험으로 배우는 다른 영역에도 이 방법을 적용할 수 있습니다.

## 왜 중요한가?

이 연구는 단순히 “의료 AI의 정확도를 높였다”는 수준을 넘어, **AI가 인간처럼 경험을 통해 성장할 수 있는 새로운 길**을 보여줍니다. 즉, AI가 단순한 지식 검색기가 아니라 **실습과 경험을 통해 스스로 진화하는 존재**로 발전할 수 있음을 입증했습니다. 이는 미래에 “슈퍼 AI 의사”가 등장할 가능성을 시사하며, 장기적으로 의료 서비스의 혁신과 대중화에 크게 기여할 수 있습니다.

---

👉 정리하면, 이 논문은 \*\*“AI 의사 훈련을 위한 가상병원 플랫폼”\*\*을 구축하고, 그 안에서 AI 의사가 실제처럼 경험을 쌓아 진짜 의료 문제에도 적용할 수 있음을 보여준 획기적인 연구입니다.


chatGPT(스토리텔링 형식, 가상의 환자가 등장하는 사례중심)

# “AI 병원에서 진료받은 남자, 그리고 성장하는 의사 AI”

한 남자가 있습니다. 이름은 **케네스 모건(Kenneth Morgan)**, 55세.

어느 날 아침, 그는 피부에 붉은 발진과 물집이 생기고 심한 통증까지 느꼈습니다. 걱정이 된 케네스는 근처에 새로 생겼다는 \*\*‘에이전트 병원(Agent Hospital)’\*\*을 찾았습니다.

## 1. 접수와 진료 시작

병원에 도착한 케네스는 먼저 간호사 AI에게 증상을 설명합니다.

* “피부가 붉고, 물집이 잡히고, 많이 아픕니다.”

간호사 AI는 그를 피부과로 안내합니다. 진료실에 들어서니 의사 AI인 **로버트 톰슨**이 기다리고 있었습니다. 로버트는 피부질환 전문 AI 의사입니다.

## 2. 검사와 진단

로버트는 환자의 과거 병력과 증상을 확인하고 몇 가지 검사를 권합니다.

검사 결과, 환자의 혈액에서 **수두-대상포진 바이러스(VZV)** 항체가 발견되었고, 피부 물집에서도 바이러스 DNA가 확인되었습니다.

로버트는 곧바로 진단을 내립니다.

* “케네스 씨, 이건 \*\*대상포진(Shingles, Herpes Zoster)\*\*입니다. 다행히 빠르게 발견해서 치료가 가능합니다.”

케네스는 약을 받고 집으로 돌아가 요양합니다.

## 3. AI 의사의 학습 과정

여기서 중요한 건 진단 자체가 아니라, **의사 AI가 어떻게 성장했는가**입니다.

로버트는 이번 진료를 기록합니다.

* 성공적으로 진단했으니, 이 사례는 \*\*“의료 사례 데이터베이스”\*\*에 저장됩니다.

* 만약 진단을 틀렸다면? 그는 왜 틀렸는지 반성하고 새로운 규칙을 만들어 \*\*“경험 데이터베이스”\*\*에 추가했을 겁니다.

즉, AI 의사는 **성공에서 배우고, 실패에서도 배우는** 과정을 거듭하며 점점 더 똑똑해집니다. 마치 인간 의사가 수많은 환자를 만나며 경험을 쌓는 것과 똑같습니다.

## 4. 현실보다 빠른 시간

재미있는 건, 이 가상병원에서는 시간이 훨씬 빨리 흐른다는 겁니다.

현실에서 인간 의사가 수십 년 동안 겪어야 할 진료 경험을, AI 의사는 단 며칠 혹은 몇 주 만에 쌓을 수 있습니다. 케네스 같은 환자가 수만 명 등장하기 때문이죠.

결과적으로, AI 의사는 짧은 시간에 \*\*“초고속 진료 수련 과정”\*\*을 거치며 인간보다 빠르게 의술을 연마할 수 있습니다.

## 5. 연구 성과

연구진은 이렇게 훈련된 AI 의사들을 시험했습니다.

* 실제 미국 의사 자격시험(USMLE) 스타일 문제를 풀게 했더니, 기존 최고 성능을 보이던 AI 모델들보다 더 높은 정확도를 기록했습니다.

* 가상의 환자와 진료 경험만으로 현실 문제 해결 능력이 향상된 것입니다.

즉, **가상에서의 경험이 현실로 이어질 수 있다**는 사실을 입증한 거죠.

## 6. 왜 중요한가?

이 사례는 단순한 “AI가 환자를 진단했다”라는 이야기가 아닙니다.

* **의료 교육 혁신**: 학생이나 전공의가 수십 명의 환자를 만나기 힘든 드문 질환도, AI 환자로 무제한 생성해 학습할 수 있습니다.

* **의료 격차 해소**: 전문 의사가 부족한 지역에서 AI 의사가 지원할 수 있습니다.

* **AI의 진화 모델**: 단순히 데이터를 읽는 AI가 아니라, **실제 경험을 통해 스스로 성장하는 AI**라는 점이 획기적입니다.

---

## 마무리: 가상병원에서 태어난 ‘AI 의사’

케네스 모건 같은 환자 수만 명을 진료하면서, 로버트 톰슨 같은 AI 의사는 점점 더 뛰어난 의사로 진화합니다.

연구팀이 보여준 건 하나의 미래 시나리오입니다.

“**의사 AI가 실제처럼 경험을 쌓으며, 인간 의사의 든든한 동료가 될 수 있다.**”

이는 단순한 기술 시연이 아니라, 앞으로의 의료가 어떻게 더 빠르고, 더 공평하며, 더 스마트해질 수 있는지를 보여주는 청사진입니다.


grok3

### Agent Hospital: AI가 병원에서 배우는 가상 세계

#### 연구 배경

의사가 되려면 학교에서 책으로 지식을 배우고, 병원에서 실제 환자를 치료하며 전문성을 쌓아야 합니다. 최근 대형 언어 모델(LLM)처럼 AI가 의료 텍스트를 잘 이해하게 되었지만, 이는 책 학습에 불과합니다. 실제 병원처럼 AI가 환자를 직접 '치료'하며 경험을 쌓는 방법이 부족했습니다. 이 연구는 LLM을 '뇌'로 삼아 AI 에이전트가 가상 환경에서 행동하며 배우는 '자율 에이전트' 아이디어를 활용합니다. 기존 연구는 의료 AI가 다중 에이전트 협력으로 추론하는 데 초점을 맞췄지만, 병원 실습처럼 장기적으로 전문성을 키우는 건 미해결 과제였습니다.

#### 연구 목적

이 논문은 'Agent Hospital'이라는 가상 병원을 만들어, AI 의사 에이전트가 수많은 환자 에이전트를 치료하며 자동으로 전문성을 진화시키는 걸 목표로 합니다. 실제 병원처럼 질병 발병부터 진단, 치료, 회복까지 전체 과정을 시뮬레이션하며, AI가 사람처럼 경험을 쌓게 합니다. 궁극적으로, 수작업 데이터 라벨링 없이 AI를 훈련해 실세계 의료 문제(예: USMLE 시험 문제)를 풀 수 있게 하는 게 목적입니다.

#### 연구 방법

연구팀은 SEAL(Simulacrum-based Evolutionary Agent Learning)이라는 새 패러다임을 제안합니다. 이는 두 부분으로 나뉩니다. 첫째, 시뮬레이션 구축: 게임 엔진으로 가상 병원을 만들고, 환자·간호사·의사 에이전트를 LLM으로 구동합니다. 환자 에이전트는 LLM과 의료 지식 베이스를 결합해 자동 생성되는데, 질병 선택 → 기본 정보(나이, 성별) → 병력 → 증상 → 검사 보고서 순으로 만듭니다. 예를 들어, 대상포진 환자는 50세 이상, 수두 병력이 있는 식으로 현실적으로 생성합니다.

둘째, 에이전트 진화(MedAgent-Zero): 의사 에이전트는 환자 증상과 검사 결과를 보고 검사 선택, 진단, 치료 계획을 결정합니다. 성공하면 사례를 '의료 사례 베이스'에 저장해 참조합니다. 실패하면 반성해 '경험 베이스'에 규칙(예: "50세 이상은 대상포진 가능성 높음")을 추가합니다. 의사 에이전트는 여가 시간에 의학 서적도 읽습니다. 가상 세계라 시간이 빨라, AI 의사가 사람 의사보다 훨씬 많은 환자(수만 명)를 치료할 수 있습니다. 32개 진료과, 339개 질병을 커버합니다.

#### 연구 결과

가상 병원에서 의사 에이전트의 성능을 검사 선택, 진단, 치료 계획 세 가지 작업으로 평가했습니다. 초기에는 LLM 지식만 쓰지만, 환자 치료 수가 늘수록 정확도가 올라갔습니다. 예를 들어, 수만 명 치료 후 진단 정확도가 크게 향상됐습니다. 흥미롭게, 이 가상 학습이 실세계에도 적용됐습니다. MedQA(USMLE 문제 벤치마크)에서 기존 방법보다 높은 정확도를 달성했는데, 라벨링 데이터 없이도 최신 기술(SOTA)을 능가했습니다. '스케일링 법칙'처럼 환자 수가 많아질수록 성능이 지속적으로 좋아졌습니다.

#### 고찰

이 방법은 의료 데이터가 무한히 생성되므로, 실제 병원 피드백 부족 문제를 해결합니다. 실패 사례 반성이 AI의 실수 반복을 막아줍니다. 다만, 가상 데이터가 현실을 완벽히 반영하지 않을 수 있으니, 품질 관리 에이전트로 검증합니다. 기존 의료 AI처럼 대량 텍스트 학습 대신, 시뮬레이션으로 맞춤형 전문성을 키우는 게 강점입니다. 의료 외 분야(예: 금융, 교육)에도 확장 가능합니다.

#### 의의와 시사점

이 연구는 AI 훈련 패러다임을 바꿉니다. 수작업 라벨링 비용을 줄이고, 기초 LLM과 지식 베이스를 유연히 결합해 특정 분야 AI를 만듭니다. 의료 AI가 더 안전하고 효과적으로 발전할 수 있으며, 환자 코호트(예: 특정 연령·질병 그룹) 시뮬레이션으로 희귀병 연구도 돕습니다. 궁극적으로, AI가 사람처럼 '경험'으로 배우는 길을 열어줍니다.

이 연구가 중요한 이유는 AI가 의료처럼 복잡한 분야에서 사람 수준으로 성장할 수 있음을 보여주기 때문입니다. 실제 의료 비용과 시간을 절감하며, 미래 AI 응용을 폭넓게 확대할 잠재력을 가집니다.


NotebookLM

## 가상 병원 '에이전트 병원(Agent Hospital)'을 통한 초진화 AI 의사 육성 연구 요약

이 연구는 **대규모 언어 모델(LLM)**을 기반으로 환자와 의료진 모두를 자율 에이전트(Autonomous Agents)로 구현한 가상 병원 시뮬레이션 환경인 **'에이전트 병원(Agent Hospital)'**에 대한 내용을 담고 있습니다. 이 혁신적인 접근 방식은 AI 의사가 수동으로 레이블링된 데이터 없이도 방대한 실습 경험을 통해 스스로 의료 전문성을 습득하고 진화할 수 있도록 하는 것을 목표로 합니다.

---

### 1. 연구 배경: 왜 AI 의사의 실습이 중요한가?

최근 몇 년 동안 대규모 언어 모델(LLM)의 급속한 발전은 의료 인공지능(AI) 분야에 큰 혁명을 가져왔습니다. 기존의 의료 AI 연구(예: Med-PaLM)는 방대한 텍스트 데이터로부터 의학 지식을 습득하는 데 중점을 두어, 미국 의사 면허 시험(USMLE) 수준의 지식 기반 질문 답변에서 인간 전문가 수준에 도달하기도 했습니다.

그러나 의료 전문가가 되는 과정은 단순히 책에서 지식을 얻는 것 외에도, **병원에서의 실습을 통해 전문성을 습득**하는 2단계 과정이 매우 중요합니다. 기존 LLM은 언어를 이해하고 생성하는 기본적인 능력만 제공할 뿐, 실제 세계의 작업별 시나리오를 다루도록 설계되지 않았기 때문에, 실제 병원에서처럼 전문 지식을 습득하는 과정을 모델링하기는 어려웠습니다.

이러한 한계를 극복하기 위해, 이 연구는 LLM을 '두뇌'로 사용하는 **자율 에이전트**에 주목했습니다. 에이전트는 계획, 반성, 도구 사용 등 텍스트 처리 이상의 능력을 보여주며, 인간처럼 환경과 상호작용하며 행동할 수 있습니다. 이 연구는 의사 에이전트가 실제 인간 의사처럼 병원에서의 실습을 통해 전문 지식을 습득할 수 있도록 하는 새로운 패러다임을 제시합니다.

### 2. 연구 목적: 가상 실습을 통한 AI 닥터 진화

본 연구의 핵심 목적은 **'에이전트 병원'**이라는 병원 시뮬레이션 환경을 구축하여 **의료 전문성 습득 과정을 시뮬레이션**하는 것입니다. 특히, 의사 에이전트가 수만 명의 환자 에이전트를 치료하는 과정에서 **수동으로 레이블링된 훈련 데이터 없이도 스스로 진화**하고 치료 성능을 향상시키는 방법을 개발하는 데 중점을 두었습니다.

### 3. 연구 방법: SEAL 패러다임과 MedAgent-Zero

연구진은 **SEAL(Simulacrum-based Evolutionary Agent Learning)**이라는 새로운 AI 기술 패러다임을 제안했습니다. SEAL은 시뮬라크럼 구축(Simulacrum Construction)과 에이전트 진화(Agent Evolution)라는 두 가지 주요 구성 요소로 이루어집니다.

#### 1) 시뮬라크럼 구축 (Agent Hospital)

에이전트 병원은 환자 에이전트가 질병 발병, 분류(Triage), 등록, 진료, 검사, 진단, 조제, 회복에 이르는 **전체 치료 순환 과정**을 시뮬레이션합니다.

*   **자율 에이전트 구성:** 병원 내의 환자, 간호사, 의사 모두 LLM 기반의 자율 에이전트입니다. 의사 에이전트는 총 32개의 진료과(임상과 21개, 비임상과 11개)를 커버하며 339개의 질병을 다룹니다.

*   **자동 데이터 생성:** 이 가상 세계는 **LLM을 의료 지식 기반과 유연하게 결합**하여 훈련 데이터를 자동으로 생성합니다. 질병, 증상, 검사 결과, 치료 경과 등 환자 에이전트와 관련된 모든 데이터는 가상 세계 자체에서 생성되며, 인간이 수동으로 주석을 달 필요가 없습니다.

#### 2) 의사 에이전트 진화 (MedAgent-Zero)

의사 에이전트의 진화 방법론을 **MedAgent-Zero**라고 명명했는데, 'Zero'는 수동으로 레이블링된 데이터를 전혀 사용하지 않는다는 것을 의미합니다. 의사 에이전트의 기반 LLM은 고정되어 있으며, 진화는 두 가지 핵심 모듈을 통해 이루어집니다.

*   **의료 사례 기반 (Medical Case Base):** 의사 에이전트가 환자를 성공적으로 치료하면 해당 사례(질문-답변 쌍)는 의료 사례 기반에 저장되어 향후 유사한 사례를 진료할 때 참고 자료로 사용됩니다.

*   **경험 기반 (Experience Base):** 의사 에이전트가 치료에 실패했을 때, 잘못된 결정과 정답을 비교하여 **실수를 피하기 위한 규칙(원칙)**을 스스로 만들어냅니다. 이 규칙이 검증 과정을 거쳐 효과가 입증되면 경험 기반에 추가되어 지식으로 축적됩니다.

또한, 의사 에이전트는 쉬는 시간에 의학 서적을 읽으며 지식과 전문성을 통합합니다. 가상 병원의 시간은 현실보다 훨씬 빠르게 흐르므로, AI 의사는 현실의 인간 의사가 평생 동안 치료하는 것보다 훨씬 많은 수의 환자 에이전트를 치료하며 진화할 수 있습니다.

### 4. 연구 결과: 인간 의사의 실습 시간을 뛰어넘는 진화

이 연구는 가상 세계와 실제 세계(MedQA 벤치마크) 모두에서 접근 방식을 평가했습니다.

#### 1) 가상 세계에서의 성능 향상

*   **지속적인 정확도 향상:** 의사 에이전트가 치료한 환자 에이전트 수가 증가할수록 진단 정확도가 지속적으로 향상되는 것이 관찰되었습니다. 이는 의사 에이전트가 가상 병원에서 실습을 통해 의료 전문성을 습득하고 있음을 시사합니다.

*   **극적인 개선 사례:** 진화 전에는 기본 모델만 사용할 경우 심장학 부서의 류마티스성 심장 질환 진단 정확도가 9%에 불과했지만, 진화 후에는 82%로 **극적으로 향상**되었습니다.

*   **전 부서 적용 가능성:** 모든 임상과에서 진화 후 진단 및 검사 선택 정확도가 **평균 95% 이상**을 달성하며, 모든 임상 시나리오에서 효과적이고 일반화 가능하다는 것을 보여주었습니다.

#### 2) 실제 세계(MedQA)에서의 우수성

*   **실제 문제 해결 능력:** 가상 세계에서 학습한 의료 기술이 실제 세계 문제에 적용 가능하다는 긍정적인 결과가 관찰되었습니다. 치료한 환자 수가 증가함에 따라 MedQA 데이터셋(USMLE 시험 질문)의 질문에 답변하는 정확도도 함께 증가했습니다.

*   **최신 기술 능가:** 진화된 의사 에이전트는 MedQA 데이터셋에서 기존의 최신 의료 에이전트 방법(MedAgents, CoT, Medprompt 등)보다 **우수한 성능**을 보였습니다.

### 5. 고찰 및 의의: 새로운 AI 훈련 패러다임

이 연구는 LLM 기반 에이전트 훈련에 있어 획기적인 **SEAL 패러다임**을 제시합니다. 이는 데이터 수동 레이블링이나 도메인별 LLM 훈련의 필요성을 제거하고, 실제 워크플로우에 맞는 시뮬라크럼을 구축하여 데이터를 자동으로 생성합니다.

#### 1) AI 환자의 잠재적 영향

AI 환자는 단순한 훈련 데이터 이상의 역할을 수행할 수 있습니다. 질병 발병 및 진행 모델링, 특정 질병 및 지역의 환자 코호트 시뮬레이션, 의대생 및 주니어 의사 훈련, 그리고 **인간 환자의 개인 정보 보호** 상태에서 복수의 의사와 동시에 상담하는 대리인 역할 등 다양한 시나리오에 적용될 수 있습니다.

#### 2) AI 의사의 잠재적 영향

AI 의사는 인간 의사가 처리할 수 있는 양을 훨씬 초과하는 방대한 데이터를 활용하여 질병 치료법을 빠르게 학습할 잠재력을 가지고 있습니다. 이는 인간 의사의 **업무 부담을 줄이고 효율성을 개선**하며, 궁극적으로 **더욱 공평하고 효과적인 의료 시스템**을 구축하는 데 기여할 수 있습니다.

---

### 이 연구가 중요한 이유

이 연구는 **에이전트 병원**이 단순한 시뮬레이터가 아니라, **의료 세계 시뮬레이터이자 시간 가속기** 역할을 한다는 점에서 혁명적입니다. 의사 에이전트는 가상 세계에서 빠르게 전문성을 습득하고 진화할 수 있으며, 이 기술이 실제 의료 문제를 해결하는 데 성공적으로 이전된다는 점이 입증되었습니다.

이는 마치 **AlphaGo Zero**가 바둑에서 했던 것처럼, 가상 환경에서의 자가 학습 및 진화 능력을 통해 **초인적인 수준의 AI 의사**를 탄생시킬 가능성을 열어줍니다. 연구의 장기적인 목표는 이러한 AI 기술을 활용하여 **대중에게 저렴하고, 접근 가능하며, 고품질의 의료 서비스**를 제공하는 것입니다.


perplexity.ai

이 논문은 인공지능(AI) 기술이 실제 의료 현장에서 어떻게 전문가로 성장할 수 있는지, 그리고 이것이 의료 시스템에 어떤 혁신을 가져올 수 있는지를 보여주는 최신 연구입니다.[1]

***

### 연구 배경

국내외 의료계에서 의사가 되기까지 오랜 시간과 풍부한 경험이 필요하다는 것은 잘 알려져 있습니다. 하지만 최근 인공지능, 특히 대형 언어 모델(LLM, 예: GPT-4 등)의 비약적 발전으로, AI가 방대한 의학 지식을 빠르게 습득하면서도 실제 의료 현장에서 전문가로 성장할 수 있는 가능성에 대한 관심이 커지고 있습니다. 기존 AI는 주로 의학 지식 습득에 집중해왔으나, 실제 진료 경험을 통한 전문성 획득은 여전히 인간 의사만의 영역으로 여겨졌습니다.[1]

***

### 연구 목적

이 논문의 목표는 'Agent Hospital'이라는 가상의 병원 시뮬레이션을 통해, LLM 기반의 AI가 어떻게 의학적 경험을 쌓으며 진짜 의사처럼 진화할 수 있는지에 대한 방법론과 실제 성능을 검증하는 것입니다. 즉, AI가 단순히 이론적 지식이 아닌, 실제 진료 경험·실패·성공을 반복하면서 전문성을 키울 수 있다는 것을 입증하고자 합니다.[1]

***

### 연구 방법

- 모든 환자, 간호사, 의사가 각각 독립적인 LLM 기반 AI 에이전트로 구성된 '가상 병원' 환경을 구축합니다.

- 환자 AI는 질병에 걸려 병원을 방문하고, 문진부터 진료, 검사, 약 처방, 회복까지 실제처럼 진료 과정을 거칩니다.

- 의사 AI는 환자 AI를 진료하며, 각각의 성공과 실패 사례를 자체적으로 기록하고, 반성(reflection)을 통해 진단 및 치료 경험을 쌓습니다.

- 기존 AI 개발 시 필요한 수작업 데이터 라벨링 없이, 가상 세계 내에서 생성된 다양하고 방대한 의료 데이터를 활용해 경험을 축적합니다.

- 수만 명의 환자를 짧은 시간 내에 진료할 수 있어, 경험의 양과 질이 인간 의사에 비해 월등히 빠르게 향상됩니다.[1]

***

### 주요 결과

- AI 의사가 가상 환자를 반복적으로 진료함으로써, 진단력과 치료 제안 능력이 꾸준히 향상되는 것을 확인했습니다.

- 가상 병원에서 얻은 진료 경험과 의학적 전문성이 실제 의료 문제(예: 의사 자격 시험, MedQA 데이터셋)에 적용 가능한지를 검증했으며, 발전된 AI 의사 에이전트가 기존의 최첨단 AI 의학 모델들보다 우수한 성과를 내는 것을 확인했습니다.

- 의사 AI의 진화 속도가 환자 수 증가에 따라 급격히 상승하며, 경험 데이터와 반성 규칙이 축적될수록 진단 정확도가 향상되었습니다.[1]

***

### 고찰 및 논의

- 본 연구에서 제시한 'Simulacrum-based Evolutionary Agent Learning(SEAL)' 방식은 기존의 대형 언어 모델을 특정 의료 업무에 맞춰 강제로 조정하고 라벨링하던 부담을 줄였습니다.

- 실험 결과, 단순히 대형 언어 모델의 지식만으로는 어려웠던 실제 의료 현장 문제 해결이, 시뮬레이션 내 반복 경험과 데이터 축적으로 개선될 수 있음을 확인했습니다.

- 반면, 실제 데이터를 사용하지 않고 가상 환경에서만 진화하는 AI 에이전트의 한계(예: 현실 데이터와의 차이, 윤리적 문제 및 편향 가능성 등)도 분명히 남아 있어, 향후 실세계와의 조화 및 안전성 확보가 중요한 과제로 남습니다.[1]

***

### 의의와 시사점

- 이 연구는 대형 언어 모델과 가상 환경에서 생성된 풍부한 의료 사례 데이터의 결합이 의학적 전문성 진화에 매우 효과적임을 보여줍니다.

- 라벨링 작업 없이, 자동화된 데이터 생성과 에이전트 진화가 가능해져 의료 AI 개발의 효율성과 확장성이 크게 향상됩니다.

- 가까운 미래에는 AI가 실제 의사 수준, 혹은 그 이상으로 빠르고 정확한 의료 의사결정과 진료를 할 수 있을 잠재력도 있음을 시사합니다.

- 의료 교육, 인력 부족 문제, 의료비 증가, 지역 간 의료 격차 해소 등 다양한 실제적 문제에 대한 혁신적 해법이 기대됩니다.[1]

***

### 연구의 중요성

이 연구가 중요한 이유는, 인간 의사만이 가능했던 '실제 진료 경험을 통한 전문성 획득' 과정을 AI가 가상 환경에서 반복할 수 있게 되었고, 이렇게 성장한 AI가 실제 의료 문제에서 높은 성과를 보인다는 것입니다. 즉, AI가 인간 전문가의 성장 과정을 모방하면서 빠르고 안전하게 발전할 수 있다는 데에 큰 의미가 있습니다.[1]



출처: @ye._.vely618