오늘은 아직 정식 저널에 출판되지 않았지만 저자분들이 모두 마소 AI 팀 분들이라서 존재만으로도 ㅎㄷㄷ 한 논문되겠습니다. 내용은 인공지능이 진단하면 어느정도까지 정확하게 할 수 있나?에 대한 내용으로 점점더 정확하게 진단하고자 노력하고 있고, 안전하게 사용할 수 있게 산업계에서 노력하고 있습니다 라는 정도... 진짜 간단하게 요약하자면... 그런 내용 되겠습니다.
제목은 Sequential Diagnosis with Language Models 입니다.
DOI: 10.48550/arXiv.2506.22405
clova-x
인공지능 언어 모델을 이용한 순차적 진단 방법이 임상적 추론의 복잡성을 반영하며, 전문 의료 지식의 접근성을 확대하는 데 기여하고 있습니다. MAI Diagnostic Orchestrator는 다양한 언어 모델과의 협력을 통해 진단의 정확성과 비용 효율성을 향상시키고 있습니다.
1. **Sequential Diagnosis Benchmark (SDBench)**
- SDBench는 뉴잉글랜드 저널 오브 메디신의 사례를 단계별로 진단하는 인터랙티브 프레임워크입니다.
- 진단자는 환자의 초기 정보를 바탕으로 질문과 검사를 통해 최종 진단에 도달하며, 진단의 정확성과 검사 비용을 평가받습니다.
2. **MAI Diagnostic Orchestrator (MAI-DxO)**
- MAI-DxO는 가상의 의사 패널을 시뮬레이션하여 진단 과정에서의 협력적 추론을 구현합니다.
- 여러 모델의 응답을 앙상블하여 진단의 정확성을 높이고, 비용을 절감하며, 경험 많은 의사보다 높은 성과를 보입니다.
3. **Gatekeeper와 Judge의 역할**
- Gatekeeper는 진단자가 요청한 정보를 현실적으로 제공하며, 불필요한 힌트를 차단합니다.
- Judge는 진단의 정확성을 평가하며, 임상적 맥락에서의 의미를 고려하여 진단을 판단합니다.
업로드한 논문의 내용을 요약하고 싶습니다.
우선 블로그에 업로드 할 수 있는 수준으로 이해하기 쉽도록 작성해주세요.
대상 독자: 생명과학을 전공하지 않은 일반 성인 독자
A4용지 두 장 이내로 연구 배경, 목적, 방법, 결과, 고찰, 의의와 시사점까지 포함해서 쉽게 써 주세요.
일반적인 내용이 아닌 논문의 내용으로 얻을 수 있는 내용을 작성해주세요.
마지막에는 이 연구가 왜 중요한지도 덧붙여 주세요.
NotebookLM
업로드하신 논문은 인공지능(AI)이 실제 임상 환경과 유사하게 환자를 진단하는 능력을 평가하고, 진단 정확도와 비용 효율성을 동시에 높이는 새로운 AI 시스템을 제안하는 매우 중요한 연구입니다. 생명과학 비전공자도 이해하기 쉽게 블로그 형식으로 요약해 드리겠습니다.
---
### **AI, 진짜 의사처럼 환자를 진단할 수 있을까? – 인공지능의 진단 능력을 한 단계 끌어올린 새로운 연구**
**연구 배경: 왜 이 연구가 필요했을까요?**
우리가 흔히 AI의 의료 진단 능력을 평가할 때, 대부분은 '시험' 같은 환경에서 진행됩니다. 예를 들어, 환자의 모든 정보(증상, 검사 결과 등)가 이미 주어져 있고, AI는 여러 진단 중 정답을 고르는 식이죠. 하지만 **실제 의사들은 이런 방식으로 진단하지 않습니다**. 의사는 처음에는 제한된 정보만 가지고 시작해서, 환자에게 질문하고, 필요한 검사를 하나씩 요청하면서 얻는 새로운 정보들을 바탕으로 진단 가설을 세우고 수정해 나갑니다. 이 과정에서 어떤 질문을 할지, 어떤 검사를 할지, 그리고 비용은 얼마나 들지 등을 종합적으로 고려해야 하죠.
기존의 AI 평가 방식은 이러한 **'반복적이고 순차적인 진단 과정'의 복잡성**을 반영하지 못했습니다. 이는 AI의 실제 임상 적용 가능성을 과대평가하거나, 조기 진단 오류나 불필요한 검사 남발 같은 AI의 약점을 가릴 수 있다는 한계가 있었습니다. 따라서 실제 임상 환경을 더 잘 반영하는 평가 방식과, 그에 맞춰 진단 능력과 비용 효율성을 높일 수 있는 AI 시스템의 개발이 시급했습니다.
**연구 목적: 무엇을 목표로 했을까요?**
이 연구의 주요 목적은 크게 두 가지입니다:
1. **현실적인 AI 진단 평가 환경 구축:** 실제 의사의 진단 과정을 모방한 **'순차적 진단 벤치마크(SDBench)'**를 만들어, AI와 인간 의사의 진단 정확도뿐만 아니라 '비용 효율성'까지 평가할 수 있는 환경을 제공하는 것입니다.
2. **고성능 AI 진단 시스템 개발:** 이 새로운 벤치마크에서 뛰어난 성능을 보이는 **'MAI 진단 오케스트레이터(MAI-DxO)'**라는 모델을 개발하여, AI 시스템이 진단 정확도와 비용 효율성 모두에서 의사와 기존 AI 모델을 능가할 수 있음을 보여주는 것입니다.
**연구 방법: 어떻게 연구를 진행했을까요?**
연구팀은 실제 의사의 진단 과정을 모방하기 위해 독특한 시스템을 구축했습니다.
* **순차적 진단 벤치마크 (SDBench) 구축:**
* **케이스 선정:** 이 연구는 '뉴잉글랜드 의학 저널(NEJM)'에 실린 304개의 진단 난이도가 높은 임상 병리학 컨퍼런스(CPC) 사례를 활용했습니다. 이 사례들은 실제 복잡한 진단 과정을 보여주는 교훈적인 케이스들입니다.
* **인터랙티브 환경:** 각 케이스는 환자의 간단한 초기 정보로 시작하며, 진단 에이전트(인간 또는 AI)는 다음 세 가지 행동 중 하나를 선택할 수 있습니다:
1. **질문하기:** 환자의 병력이나 신체검사 결과에 대한 자유로운 질문.
2. **진단 검사 요청:** 혈액 검사, 영상 검사 등 특정 검사 주문.
3. **최종 진단 제출:** 최종 진단명 결정.
* **게이트키퍼(Gatekeeper) 모델:** 진단 에이전트가 질문하거나 검사를 요청하면, '게이트키퍼'라는 AI 모델이 원래 환자 기록을 바탕으로 정보를 제공합니다. 만약 요청된 정보가 원래 기록에 없다면, 게이트키퍼는 **실제와 일관성 있는 가상의 결과**를 생성하여 제공함으로써 정보 유출을 막고 임상적 사실성을 유지했습니다.
* **판사(Judge) 에이전트:** 진단 에이전트가 최종 진단을 제출하면, '판사'라는 AI 모델이 의학적 기준에 따라 진단의 정확성을 평가합니다. 단순한 일치 여부가 아니라 임상적 의미(예: 치료 방향 변경 여부)를 고려하여 5점 척도로 점수를 매깁니다. 4점 이상을 '정확한 진단'으로 간주했습니다.
* **비용 추정기(Cost Estimator):** 진단 에이전트가 요청한 모든 검사의 실제 예상 비용을 누적하여 계산합니다. 의사 상담 비용은 고정적으로 300달러로 책정되었습니다. 이는 단순히 진단 정확도뿐만 아니라 **비용 효율성까지 고려하여 진단 과정을 평가**하는 데 사용되었습니다.
* **MAI 진단 오케스트레이터 (MAI-DxO) 개발:**
* 이 시스템은 **'가상의 의사 패널'**을 시뮬레이션합니다. 단일 언어 모델(GPT-4.1 기반으로 개발되었지만 다른 모델에도 적용 가능)이 다섯 가지의 전문적인 의사 역할을 수행하며 협력적으로 진단 문제를 해결합니다:
* **가설 의사(Dr. Hypothesis):** 가장 가능성 있는 세 가지 질병 목록을 유지하고, 새로운 정보가 들어올 때마다 각 질병의 확률을 업데이트합니다.
* **검사 선택 의사(Dr. Test-Chooser):** 현재 가설들을 가장 잘 구별할 수 있는 검사를 최대 세 가지 선택합니다.
* **도전 의사(Dr. Challenger):** 편견을 식별하고, 반대되는 증거를 제시하며, 현재 가장 유력한 진단을 반증할 수 있는 검사를 제안하여 오류를 방지합니다.
* **관리 의사(Dr. Stewardship):** 비용 효율성을 강조하고, 진단적으로 동등한 더 저렴한 대안을 제시하며, 효과가 낮은 고비용 검사를 거부합니다.
* **체크리스트 의사(Dr. Checklist):** 내부 일관성과 유효한 검사명 생성을 확인하는 품질 관리를 수행합니다.
* 이 패널은 **'토론의 연쇄(Chain of Debate)'**라는 구조화된 논의 과정을 거쳐 질문하기, 검사 주문하기, 또는 진단 확정하기 중 하나의 행동에 합의합니다. 다양한 비용 제약 조건(예: 예산 제한)을 적용한 여러 MAI-DxO 변형 모델도 평가되었습니다.
* **인간 의사 및 기존 AI 모델 평가:** 21명의 미국 및 영국 의사들이 SDBench 인터페이스를 통해 진단에 참여했습니다. 이들은 외부 자료(검색 엔진, 다른 AI 모델 등) 사용이 제한되었습니다. 또한, GPT-4o, Claude, Gemini, Grok, Llama 등 다양한 최신 AI 모델들도 '기본 프롬프트'를 사용하여 비교 평가되었습니다.
**연구 결과: 무엇을 발견했을까요?**
이 연구는 AI의 의료 진단 능력에 대한 인상적인 결과를 보여주었습니다.
* **MAI-DxO의 압도적인 성능:**
* MAI-DxO는 NEJM CPC 케이스에서 **80%의 진단 정확도**를 달성했으며, 이는 **일반의(generalist physicians) 평균 정확도 20%보다 4배 높은 수치**입니다.
* 또한, MAI-DxO는 **의사 대비 진단 비용을 20% 절감**했으며, 기존 최고 성능 AI 모델인 'o3' 대비로는 **비용을 70% 절감**했습니다.
* 최대 정확도 구성에서는 MAI-DxO가 **85.5%의 정확도**를 달성했습니다.
* MAI-DxO는 단순히 정확도를 높인 것이 아니라, **동시에 비용을 절감**하는 "파레토 최적" 성능을 보였습니다. 이는 기존 AI 모델이나 의사들에게서 관찰된 정확도-비용 간의 상충 관계를 극복한 것입니다.
* 특히, MAI-DxO의 '도전 의사'와 '관리 의사' 역할 덕분에 불필요한 고비용 검사를 줄이고, 초기 판단에 갇히는 **'고정 관념 편향'을 줄여** 더 정확하고 효율적인 진단을 가능하게 했습니다. 예를 들어, 한 케이스에서는 기존 o3 모델이 비싼 뇌 MRI를 주문하며 오진했던 반면, MAI-DxO는 비용 효율적인 질문을 통해 정확한 진단을 내렸습니다.
* **기존 AI 모델의 한계 및 MAI-DxO의 범용성:**
* 기존 AI 모델들은 정확도가 높을수록 비용이 많이 드는 경향을 보였습니다. 최고 성능의 'o3' 모델은 78.6% 정확도를 보였지만, 사례당 7,850달러로 가장 높은 비용이 발생했습니다.
* MAI-DxO는 특정 AI 모델에 종속되지 않는 **'모델 불가지론적(model-agnostic)'** 특성을 보여주었습니다. GPT, Gemini, Claude 등 다양한 AI 모델에 적용했을 때, **평균 11%p의 진단 정확도 향상**을 가져왔습니다. 이는 MAI-DxO의 구조화된 추론 방식이 다양한 AI 모델의 약점을 보완해 줄 수 있음을 시사합니다.
* **결과의 견고성:** 이 연구는 2024년에서 2025년 사이에 출판된, AI 모델의 훈련 데이터에 포함되지 않았을 **'숨겨진 테스트 세트'**에서도 유사한 뛰어난 성능을 유지했습니다. 이는 MAI-DxO의 성능 향상이 단순히 훈련 데이터를 '암기'한 결과가 아니라, **진정한 일반화 능력**을 가지고 있음을 의미합니다.
**고찰 및 의의와 시사점: 이 연구가 의미하는 것은?**
이 연구는 AI 기반 진단이 실제 임상에 적용될 가능성을 크게 높였습니다.
* **'초인적인' AI 성능의 의미:** 이 연구는 복잡한 NEJM CPC 케이스에서 MAI-DxO가 개별 의사를 훨씬 뛰어넘는 성능을 보인다는 점을 강조합니다. 이는 AI가 **일반의의 폭넓은 지식과 전문의의 깊이 있는 전문성을 동시에 갖출 수 있는 '폴리매스적(poly-mathic)' 능력**을 보여주기 때문입니다. 이 결과는 AI를 개별 의사가 아닌 **'병원 팀' 전체와 같은 수준으로 평가해야 할 필요성**을 제기하며, 의료 분야에서 AI의 미래 역할에 대한 중요한 질문을 던집니다.
* **의료 접근성 및 비용 효율성 향상:**
* 이러한 AI 시스템은 **의료 인력 부족** 문제나 **지역별 의료 서비스 불균형** 문제를 해결하는 데 기여할 수 있습니다. 특히 자원이 제한적인 지역에서는 MAI-DxO와 같은 **비용 효율적인 진단 전략**이 더 많은 생명을 살리는 데 도움이 될 수 있습니다.
* 장기적으로는 스마트폰 기반의 진단 보조 도구처럼 **일반 소비자를 위한 직접적인 의료 도구**의 가능성까지 열어줄 수 있습니다.
* **의료 교육 및 미래 연구에 대한 기여:** SDBench와 같은 평가 환경은 AI 시스템 개발뿐만 아니라, 의대생이나 실제 의료진이 순차적 진단 추론을 연습하고 훈련하는 데도 활용될 수 있습니다.
**이 연구가 왜 중요한가요?**
이 연구는 단순히 AI가 진단을 잘한다는 것을 넘어섭니다. 다음과 같은 이유로 매우 중요합니다:
1. **AI 평가의 현실성 제고:** 기존의 비현실적인 평가 방식의 한계를 명확히 지적하고, **실제 임상 진료의 역동성과 불확실성을 반영한 새로운 벤치마크**를 제시했다는 점에서 AI 의료 분야의 평가 패러다임을 바꿀 수 있습니다.
2. **AI의 '똑똑한' 의사 결정:** MAI-DxO는 단순히 정보를 많이 얻어 진단하는 것이 아니라, **어떤 정보가 가장 가치 있고, 비용 효율적인지까지 고려하여 의사 결정**을 내리는 AI의 능력을 보여주었습니다. 이는 의료 자원의 효율적 사용이라는 현실적인 과제를 해결할 실마리를 제공합니다.
3. **의료 서비스의 혁신 가능성:** 진단 정확도와 비용 효율성을 동시에 향상시킴으로써, 이 연구는 **전 세계적인 의료 접근성을 확장하고, 진료의 질을 높이는 데 AI가 핵심적인 역할**을 할 수 있음을 강력히 시사합니다. 특히 전문 의료 인력이 부족하거나 의료 인프라가 미비한 지역에서 큰 도움이 될 잠재력을 가지고 있습니다.
물론 이 연구에는 몇 가지 한계도 있습니다. NEJM CPC 케이스는 매우 난이도가 높고 특정 질병에 편중되어 있어, 일상적인 흔한 질병 진단에도 MAI-DxO의 성능 향상이 그대로 적용될지는 추가 검증이 필요합니다. 또한, 비용 추정치가 실제와 완벽히 일치하지 않을 수 있으며, 인간 의사들의 연구 참여 시 외부 자료 사용을 제한했다는 점도 실제 진료 환경과는 다를 수 있습니다. 하지만 이러한 한계에도 불구하고, 이 연구는 **AI가 미래 의료를 어떻게 변화시킬 수 있는지에 대한 중요한 통찰**을 제공합니다.
chatGPT
다음은 업로드해 주신 논문 \*\*"Sequential Diagnosis with Language Models"\*\*를 바탕으로, 생명과학을 전공하지 않은 일반 성인 독자를 위한 블로그용 쉬운 요약글입니다. A4용지 두 장 이내 분량으로 연구의 **배경, 목적, 방법, 결과, 고찰, 의의와 시사점**을 중심으로 구성했습니다.
---
## AI가 의사를 뛰어넘다? — 진짜 임상 상황을 닮은 진단 AI 연구
### 1. 연구 배경: “AI 의사는 얼마나 똑똑할까?” 그 질문의 진짜 답을 찾기 위해
최근 몇 년 사이, AI 언어모델(ChatGPT 같은)이 의학시험에서 높은 점수를 받고, 정답률이 사람보다 높다는 뉴스가 자주 들려옵니다. 그런데 실제 병원에서는 진단이 그렇게 단순하지 않습니다. 의사들은 처음부터 정답을 고르는 게 아니라, 조금씩 정보를 수집하며 진단을 좁혀가는 과정을 반복하죠.
기존의 AI 진단 실험은 단답형 문제나 정해진 문항으로 AI의 능력을 평가해 왔습니다. 하지만 이 방식은 현실의 복잡한 진단 상황을 반영하지 못하고, AI가 진짜로 "의사처럼" 생각하고 행동할 수 있는지는 확인할 수 없었습니다.
### 2. 연구 목적: “AI가 진짜 임상의처럼 사고할 수 있을까?”
연구진은 실제 병원의 진단 과정을 흉내 낸 새로운 평가 시스템을 만들었습니다. AI 또는 사람이, 짧은 환자 설명 하나만 보고 시작해서, 필요한 질문을 하고, 검사를 선택하며, 점점 진단을 좁혀가는 방식입니다. 목표는 정답을 맞추는 것뿐 아니라, **불필요한 검사 없이 정확하고 경제적으로 진단을 내릴 수 있는지**를 보는 것이었습니다.
### 3. 연구 방법: 가상의 진료실에서 AI와 의사를 평가하다
연구진은 **《뉴잉글랜드 의학저널(NEJM)》의 실제 임상 증례 304건**을 바탕으로, 하나의 진료 시나리오처럼 변환했습니다. 이를 통해 환자의 증상을 한 줄로 소개한 뒤, AI나 의사가 어떤 질문을 하고, 어떤 검사를 요청하고, 언제 진단을 내릴지를 순차적으로 결정하도록 했습니다.
* 질문과 검사마다 비용을 매겼고,
* 정답은 실제 사례의 진단과 얼마나 일치하는지를 평가했습니다.
* AI는 다양한 언어모델(GPT, Claude, Gemini 등)을 사용해 실험했고,
* ‘MAI-DxO’라는 새로운 AI 시스템도 테스트했습니다. 이 시스템은 여러 가상의 ‘전문가 역할’을 맡은 AI가 토론을 통해 최적의 진단 전략을 세우는 방식입니다.
### 4. 주요 결과: 사람보다 4배 더 정확하고, 비용도 덜 든 AI
* **실제 의사 21명의 평균 진단 정확도는 20%, 평균 비용은 약 2963달러**였습니다.
* **최고의 AI 모델(GPT-o3)은 78.6% 정확도, 비용은 7850달러**로 정확하지만 검사 남발이 있었습니다.
* **MAI-DxO는 80% 정확도에 비용 2396달러**, 즉 의사보다 **정확도는 4배 높고 비용은 20% 낮았습니다.**
* MAI-DxO는 **불필요한 검사를 줄이고, 진단을 뒤집을 수 있는 질문을 유도**하는 등, 실제 임상 전문가처럼 전략적으로 사고하도록 설계되어 큰 성과를 보였습니다.
### 5. 고찰: 왜 AI가 의사보다 잘했을까?
AI 모델은 인간처럼 ‘한 분야만’ 알 필요 없이, 여러 전문지식을 통합해서 판단할 수 있습니다. MAI-DxO는 일반의와 전문의들의 협업처럼 서로 다른 역할(가설 수립, 비용 고려, 반론 제기 등)을 수행해 더 완성도 높은 진단 전략을 만들었습니다. 게다가 ‘정보 하나당 얼마나 진단에 도움이 되는지’ 따져보는 **정보 가치 평가 능력**이 뛰어났습니다.
### 6. 의의와 시사점: 더 나은 진단, 더 저렴한 비용, 그리고 더 나은 의료 시스템
이 연구는 단순히 “AI가 의사를 이겼다”는 것을 넘어서, **AI가 어떻게 인간 의사의 사고방식을 모방하고 확장할 수 있는지를 실증적으로 보여주었습니다.**
특히 다음과 같은 점에서 의의가 있습니다:
* **진단의 정확성과 비용 효율성**을 동시에 향상시킴
* **의료 접근성이 낮은 지역**이나 **의료 인력이 부족한 곳**에서 활용 가능성
* 다양한 AI 모델에도 적용 가능한 범용 시스템 (GPT 외에 Claude, Gemini 등에서도 효과 있음)
* **의대 교육 도구**나 시뮬레이션 학습 플랫폼으로도 활용 가능
---
### 이 연구가 왜 중요한가요?
의료는 사람의 생명과 직결되지만, 의료 자원은 한정되어 있습니다. 이 연구는 단순히 ‘AI가 문제를 잘 푼다’는 수준을 넘어서, **실제 의료 현장에서 어떻게 AI가 도울 수 있을지에 대한 구체적인 방법과 증거**를 제시했습니다.
**앞으로 더 많은 사람들에게 정확하고 빠른 진단이 제공될 수 있도록 하는 데 큰 역할을 할 수 있는 토대**를 마련한 연구라 할 수 있습니다.
---
grok3
AI로 더 똑똑하고 저렴한 질병 진단: 순차 진단 벤치마크와 MAI-DxO
연구 배경
의사들은 환자를 진단할 때 처음에는 적은 정보를 바탕으로 시작해 점차 질문을 던지고 검사를 진행하며 병의 원인을 좁혀갑니다. 이를 '순차 진단'이라고 부르는데, 이 과정은 매우 복잡하고 비용과 시간이 많이 들 수 있습니다. 하지만 기존 인공지능(AI) 연구는 주로 정적인 문제(예: 객관식 시험)로 AI의 진단 능력을 평가해왔기 때문에, 실제 의료 현장의 복잡한 상황을 반영하지 못했습니다. 이 논문은 AI가 실제 의사처럼 단계적으로 질문을 던지고 검사를 선택하며 최종 진단을 내리는 과정을 평가하고 개선하려는 시도입니다.
연구 목적
이 연구는 AI가 실제 임상 환경처럼 순차적으로 진단하는 능력을 평가하기 위해 **순차 진단 벤치마크(SDBench)**를 만들고, AI를 활용해 더 정확하고 비용 효율적인 진단을 가능하게 하는 **MAI-진단 오케스트레이터(MAI-DxO)**를 개발하는 것을 목표로 했습니다. 이를 통해 AI가 의사보다 더 나은 진단을 내릴 수 있는지, 그리고 비용은 얼마나 줄일 수 있는지 알아보려 했습니다.
연구 방법
순차 진단 벤치마크(SDBench)
연구팀은 New England Journal of Medicine에 실린 304개의 복잡한 진단 사례를 바탕으로 SDBench를 만들었습니다. 이 벤치마크는 AI나 의사가 환자 정보를 조금씩 얻으며 진단을 내리는 과정을 시뮬레이션합니다. 예를 들어, 환자의 증상을 듣고 추가 질문을 하거나, 혈액검사나 CT 촬영 같은 검사를 요청한 뒤, 그 결과를 바탕으로 최종 진단을 내립니다. 이 과정에서 AI는 다음 세 가지를 할 수 있습니다:
질문하기: 환자에게 증상이나 병력에 대해 묻습니다(예: "최근 여행을 다녀오셨나요?").
검사 요청하기: 특정 검사를 주문합니다(예: "흉부 CT 촬영").
진단 내리기: 최종적으로 병명을 결정합니다(예: "히스토플라스마증").
이 과정은 Gatekeeper라는 AI가 관리합니다. Gatekeeper는 실제 의료 기록처럼 요청한 정보만 제공하고, 불필요한 힌트를 주지 않습니다. 최종 진단은 Judge라는 시스템이 정확도를 평가하며, 검사 비용은 미국 병원의 2023년 가격표를 바탕으로 계산됩니다.
MAI-DxO
MAI-DxO는 다섯 명의 가상 의사 역할을 하는 AI 시스템입니다. 각 역할은 다음과 같습니다:
Dr. Hypothesis: 가능한 병명을 추측하고 확률을 계산합니다.
Dr. Test-Chooser: 가장 유용한 검사를 선택합니다.
Dr. Challenger: 기존 가설에 반대되는 증거를 찾아 오류를 줄입니다.
Dr. Stewardship: 비용이 적게 드는 검사를 우선시합니다.
Dr. Checklist: 실수가 없는지 확인합니다.
이 가상 의사들은 서로 토론하며 최적의 질문을 하거나 검사를 선택하고, 최종 진단을 결정합니다. MAI-DxO는 다양한 AI 모델(OpenAI, Gemini, Claude 등)에 적용 가능하며, 이번 연구에서는 주로 OpenAI의 o3 모델과 함께 테스트했습니다.
비교 대상
연구팀은 MAI-DxO, 일반 AI 모델, 그리고 실제 의사들의 성과를 비교했습니다. 의사들은 외부 자료(인터넷, 교과서 등)를 사용하지 않고 SDBench를 통해 진단을 내렸습니다.
연구 결과
정확도: MAI-DxO는 80%의 진단 정확도를 달성해, 일반 의사(20%)보다 4배 높았습니다. 일반 AI 모델(o3)은 78.6% 정확도를 보였지만, MAI-DxO는 더 나은 성과를 냈습니다.
비용: MAI-DxO는 진단 비용을 평균 2,397달러로 줄여, 일반 의사(2,963달러)보다 20%, 일반 o3 모델(7,850달러)보다 70% 저렴했습니다. 최대 정확도 설정에서는 85.5% 정확도에 7,184달러를 기록했습니다.
효율성: MAI-DxO는 불필요한 검사를 줄이고, 저렴하면서도 유용한 검사를 선택해 비용과 정확도의 균형을 맞췄습니다. 예를 들어, 한 사례에서 환자가 손 세정제를 먹어 중독된 경우, MAI-DxO는 비싼 뇌 MRI 대신 간단한 질문을 통해 정확한 진단을 내렸습니다.
고찰
SDBench는 단순한 객관식 시험과 달리 실제 진단 과정의 복잡성을 반영해, AI의 진단 능력을 더 현실적으로 평가할 수 있었습니다. MAI-DxO는 여러 AI 모델에서 평균 11%의 정확도 향상을 가져왔으며, 특히 비용을 고려한 효율적인 진단이 가능했습니다. 하지만 이 연구에는 한계도 있습니다:
NEJM 사례는 매우 어렵고 드문 질병 위주라, 일반적인 질병(예: 감기)에서의 성과는 확인하지 못했습니다.
비용 계산은 미국 기준이라 다른 나라나 병원에서는 다를 수 있습니다.
실제 의사들은 인터넷이나 동료와 상의하며 진단하지만, 이 연구에서는 이를 제한해 의사 성과가 다소 낮게 나타났을 가능성이 있습니다.
의의와 시사점
이 연구는 AI가 의료 현장에서 어떻게 활용될 수 있는지 보여줍니다. MAI-DxO 같은 시스템은 의사가 부족한 지역이나 복잡한 질병을 진단할 때 도움을 줄 수 있습니다. 예를 들어, 스마트폰 앱으로 초기 진단을 지원하거나, 의료비를 줄여 더 많은 사람이 전문 진단을 받게 할 수 있습니다. 또한, 이 시스템은 의대생이나 의사 훈련에도 활용될 수 있어, 실제 환자를 만나기 전에 진단 연습을 할 기회를 제공합니다.
왜 중요한가?
이 연구는 AI가 단순히 시험 문제를 잘 푸는 것을 넘어, 실제 의사처럼 생각하고 비용까지 고려해 더 나은 진단을 내릴 수 있음을 보여줍니다. 특히, 의료 자원이 부족한 지역에서 정확하고 저렴한 진단을 제공해 환자 치료를 개선할 가능성이 큽니다. 또한, AI와 의사가 협력하면 더 빠르고 정확한 진단이 가능해, 궁극적으로 사람들의 건강과 삶의 질을 높일 수 있습니다.
perplexity.ai
## 인공지능 시대, AI가 의사를 뛰어넘다?
### 「Sequential Diagnosis with Language Models」 논문 쉬운 요약
### 1. 연구 배경
병원에서 진단을 내리는 과정은 매우 복잡합니다. 의사들은 한 번에 답을 내리지 않고, 환자에게 차례차례 질문을 하거나 여러 검사를 하며 진단을 좁혀갑니다. 하지만 기존 인공지능(AI) 평가 방식은 ‘문제-정답’ 식 퀴즈에 가깝기 때문에 실제 진료 상황의 복잡성을 닮지 못했습니다[1][2].
### 2. 연구 목적
연구진은 실제 진료에 가까운 환경에서 AI의 진단 능력을 평가하고, AI가 얼마나 효율적으로(돈을 얼마나 아끼면서) 정확한 진단에 이를 수 있는지 확인하고자 했습니다[1][3].
### 3. 연구 방법
- **새로운 진단 평가 시스템(SDBench) 개발**
304개의 뉴잉글랜드 저널 오브 메디신(NEJM)의 도전적인 임상 사례를 실제 환자 진료처럼 단계별로 ‘질문-검사-진단’의 흐름으로 재구성했습니다.
- **진단 과정의 AI vs. 인간 의사 비교**
21명의 실제 미국, 영국 내과/가정의학 의사들과 다양한 AI(최신 GPT, Google Gemini, Claude, Grok, Llama 등)에게 동일한 케이스를 해결하도록 했습니다.
- **AI 진단 조율 시스템(MAI-DxO) 도입**
마치 여러 전문의들이 토론하며 진단하는 것처럼, AI가 다섯 가지 역할(가설 세우기, 검사 선정, 비판적 사고, 비용 절감, 관리)을 두고 합의하는 과정을 거치도록 설계했습니다.
한 번에 어떤 질문/검사를 할지, 언제 진단을 내릴지 AI가 스스로 결정합니다[4][3].
### 4. 주요 결과
- **AI, 인간 의사 압도적 능가!**
- 실제 의사들의 평균 진단 정확도는 20%에 불과했습니다. 즉, 아주 어려운 케이스에서는 전문의들도 정답을 맞히기 쉽지 않았습니다.
- 최첨단 AI는 단독으로도 49~78%의 정확도를 기록했고, MAI-DxO 시스템을 적용하면 최대 85.5%의 정확도까지 올라갔습니다[4][5][6].
- **비용까지 아끼는 AI**
- 인간 의사의 평균 진단에 들어간 비용은 약 2,963달러(약 400만원).
- MAI-DxO는 정확도를 높이면서도 필요 없는 검사를 줄여 비용을 최대 70%까지 절감해, 비슷한 수준의 진단을 2,396달러(약 320만원)로 해냈습니다[4][7][8].
### 5. 논의 및 의의
- **AI의 진짜 능력을 가리는 ‘진짜 경쟁장’ 제시**
단순 정답 맞히기 식 평가가 아닌, 실제 환자 진료처럼 한 단계씩 정보를 얻어가며 최적의 진단 전략을 세우는 환경에서 AI가 얼마나 잘할 수 있는지 보여줬습니다[1][2].
- **AI와 인간의 협업 또는 대체 가능성 시사**
매우 어려운 환자 케이스에서도, AI(특히 다수 전문가의 협업을 닮은 형태)가 개인 의사를 훨씬 뛰어넘을 수 있음을 실증적으로 보여줬습니다.
- **진단 비용까지 고려한 ‘똑똑한’ AI**
아무리 똑똑한 AI라도 무분별하게 고가 검사를 시키면 의료비가 늘어납니다. 이번 연구에서 AI는 효율성을 스스로 고려해 꼭 필요한 검사만 골라 비용효율까지 달성했습니다.
- **미래 의료의 변화 초석**
이런 AI 시스템이 실제 의료현장에 도입되면, 의료진 부족이나 진단 편차 문제, 의료비 부담을 줄이는 데 기여할 가능성이 나타났습니다.
### 6. 한눈에 보는 AI와 인간 의사의 진단 성적표
| 구분 | 진단 정확도 | 진단 비용(평균) |
|---------------------|--------------|--------------------|
| 인간 의사 | 20% | $2,963 |
| AI 단독(GPT-4o 등) | 49~78% | $2,745~$7,850 |
| MAI-DxO(협업 AI) | 85.5% | $2,397~$7,184 |
### 7. 왜 이 연구가 중요한가요?
이 논문은 AI가 실제 임상 환경을 얼마나 ‘현실적으로’ 재현할 수 있는지, 그리고 실제 의사들과 비교해 얼마나 뛰어난 판단을 하는지 처음으로 과학적인 방식으로 증명했습니다. 스마트한 AI가 등장하면서, 의사들은 훨씬 더 복잡한 케이스, 혹은 일반적인 환경이 아닌 “정말 어려운 문제” 해결에 집중할 수 있게 됩니다. 앞으로는 AI와 의료진의 협업이 의료의 질, 안전성, 효율성을 크게 높일 것으로 기대됩니다. 또한 저렴한 비용에 정확한 진단을 제공함으로써, 의료 사각지대나 인력 부족 문제를 해소하는 핵심 기술로 자리 잡을 수 있습니다[4][3][8].
[1] https://arxiv.org/html/2506.22405v1
[2] https://www.newsweek.com/microsoft-ai-research-edges-towards-medical-superintelligence-access-health-2091890
[3] https://arxiv.org/abs/2506.22405
[4] https://microsoft.ai/new/the-path-to-medical-superintelligence/
[5] https://time.com/7299314/microsoft-ai-better-than-doctors-diagnosis/
[6] https://www.edtechinnovationhub.com/news/microsoft-tests-ai-mai-diagnostic-orchestrator-tool-that-outperforms-doctors-in-complex-medical-diagnoses
[7] https://www.news-medical.net/news/20250702/AI-system-matches-diagnostic-accuracy-while-cutting-medical-costs.aspx
[8] https://towardsdatascience.com/microsofts-revolutionary-diagnostic-medical-ai-explained/
[9] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/attachments/40912948/3523d444-7d28-43e0-bd29-9385d7b4f8ad/2506.22405v2.pdf
[10] https://www.geekwire.com/2025/ai-vs-mds-microsoft-ai-tool-outperforms-doctors-in-diagnosing-complex-medical-cases/
[11] https://www.nature.com/articles/s41586-025-08869-4
[12] https://arxiv.org/abs/2505.20609
[13] https://www.emergentmind.com/papers/2506.22405
[14] https://www.bmj.com/content/390/bmj.r1385
[15] https://www.ormanager.com/briefs/microsoft-ai-outperforms-doctors-in-diagnostic-accuracy-cost-efficiency/
[16] https://www.linkedin.com/pulse/sequential-diagnosis-language-models-ken-wasserman-2vefe
[17] https://www.mobihealthnews.com/news/microsoft-ai-diagnoses-complex-medical-cases-85-accuracy-study-finds
[18] https://pmc.ncbi.nlm.nih.gov/articles/PMC9777836/
[19] https://paper-verse.com/paper/f4f23e13-512a-41f2-9c2a-719893757a41
[20] https://aimagazine.com/news/how-microsofts-ai-sets-new-standards-for-medical-diagnosis
[21] https://selectstar.ai/blog/insight/superintelligence-microsoft/
![]() |
출처: @ye._.vely618 |