Lee Gir-Won (Lee Gil-Won): 2조 원짜리 프로젝트가 '꽝'이 된다면? AI는 이미 알고 있다? (feat. TrialBench)

요리할 때 레시피대로 만들었는데 마지막에 소금 한 꼬집을 잘못넣거나, 물조절을 실패해서 음식을 망쳐본 경험이 있나요? 우리가 그냥 집에서 하는 요리라면 그냥 다시 하면 되지만, 그 요리가 한접시에 2조원 이상의 예산과 십수년의 시간이 들어갔다면.. ㅂㄷㅂㄷ

바로 신약 개발의 마지막 관문인 임상시험 이야기입니다. 수십, 수백명의 연구자들이 수년동안 수천억, 수조원의 예산을 가지고 개발한 시약의 성공확률은 잘해봐야 10%내외라니 신약 개발하는 과정동안 하나하나 결정하는 것에 제약사들은 피가 마를 겁니다.

오늘은 이 넘기 어려운 "임상시험"에 가이드를 해주어 성공 확률을 높여주는 능력자가 곧 다가올거라는 내용의 연구를 가져와봤습니다. TrialBench: Multi-Modal AIReady Datasets for Clinical Trial Prediction라는 제목으로 기존에 공개된 임상시험 데이터를 학습해서 이번 임상시험에 부작용이 있을것 같다, 성공할것 같다 라고 미리 귀뜸해주어 신약의 성공률을 높여 환자들에게 조금 더 빠르게 약이 제공 되도록 기여하는 플랫폼을 개발했다고 합니다. :)

DOI: 10.1038/s41597-025-05680-8

clova-x

### 임상 시험 설계의 주요 사건 예측을 위한 인공지능 활용 연구
#### 연구 배경
임상 시험은 새로운 의약품 개발 과정에서 매우 중요하지만, 높은 실패율과 환자 사망, 등록 실패 등의 위험을 안고 있습니다. 이러한 문제를 해결하기 위해 인공지능(AI)을 활용하여 임상 시험의 주요 사건을 예측하는 연구가 주목받고 있습니다. 그러나 지금까지는 복잡한 데이터 수집과 의학 전문 지식이 필요한 질문 정의로 인해 AI의 도입이 제한되어 왔습니다.
#### 연구 목적
본 연구의 목적은 임상 시험 설계의 주요 사건을 예측하기 위한 AI 모델을 개발하고 검증하는 것입니다. 이를 통해 임상 시험의 효율성을 높이고, 새로운 의약품 개발을 가속화하며, 환자 안전을 강화하는 데 기여하고자 합니다.
#### 연구 방법
연구팀은 23개의 세심하게 큐레이션된 AI 준비 데이터셋을 통해 다양한 멀티모달 입력 특성과 8가지 중대한 예측 과제를 다루고 있습니다. 이 데이터셋은 ClinicalTrials.gov와 DrugBank 등의 출처에서 수집되었으며, 임상 시험의 기간, 환자 탈락률, 심각한 부작용, 사망 사건, 승인 결과, 실패 이유, 용량, 자격 기준 설계 등을 예측하는 데 사용됩니다.
각 과제는 명확한 예측 목표와 입력 변수를 가지며, 전통적인 테이블 데이터와는 달리 자유 텍스트와 그래프 데이터 등 멀티모달 입력 특성을 포함합니다. 이를 통해 AI 모델이 보다 정교하고 유용한 예측을 할 수 있게 됩니다.
#### 연구 결과
연구팀은 임상 시험 기간 예측, 환자 탈락률 예측, 부작용 및 사망 사건 예측 등의 과제를 포함하여 다양한 AI 해결 과제에 대한 성과를 보고했습니다. 특히, 임상 시험 기간 예측은 제약 회사들이 더 나은 계획 수립과 자원 배분을 가능하게 하여, 더 정확한 인력 배치, 예산 책정, 임상 사이트 관리를 돕습니다. 또한, 환자 탈락률 예측은 중도 포기를 줄여 실험의 유효성을 높이는 데 기여합니다.
#### 고찰
이 연구는 임상 시험 데이터의 복잡성을 극복하고, AI 모델이 실제 임상 환경에서 유용하게 적용될 수 있음을 보여줍니다. 또한, 다양한 멀티모달 데이터셋을 통해 AI 모델의 성능을 향상시키고, 임상 시험의 여러 도전 과제를 해결하는 데 기여합니다.
#### 의의와 시사점
이 연구는 임상 시험 설계와 운영을 혁신적으로 개선할 수 있는 잠재력을 지니고 있습니다. AI를 통한 예측은 임상 시험의 성공 확률을 높이고, 자원 할당을 최적화하며, 새로운 의약품 개발을 더욱 신속하고 효율적으로 만듭니다. 이는 궁극적으로 환자들에게 더 빠르고 효과적인 치료제를 제공하는 데 큰 도움이 될 것입니다.
#### 결론
임상 시험의 주요 사건을 예측하는 AI 모델의 개발은 의약품 개발 과정에서의 불확실성을 줄이고, 효율성을 극대화하는 데 중요한 역할을 합니다. 이 연구는 임상 시험의 전 과정을 보다 투명하고 효율적으로 만드는 데 기여할 것입니다.

gemini

신약 개발의 성패를 가르는 핵심 관문인 '임상 시험'을 인공지능(AI)으로 예측하기 위한 혁신적인 데이터셋, **TrialBench**에 관한 논문 내용을 요약해 드립니다.
### [블로그 요약] 임상 시험의 미래를 바꿀 AI 도우미: TrialBench 데이터셋 공개
**1. 연구 배경: 2조 원의 예산과 10년의 시간, 그리고 높은 실패율**
새로운 약이나 치료법이 세상에 나오기 위해서는 사람을 대상으로 하는 '임상 시험'을 반드시 거쳐야 합니다. 하지만 이 과정은 평균 7~11년의 시간과 20억 달러(약 2조 6천억 원)라는 막대한 비용이 투입됨에도 불구하고, 최종 승인율은 약 15%에 불과할 정도로 위험도가 매우 높습니다. 그동안 쌓인 방대한 임상 데이터는 AI가 패턴을 찾아내 위험을 줄이기에 적합한 토양이었지만, 의학적 전문 지식과 데이터 공학 지식이 동시에 필요하다 보니 정작 AI 전문가들이 이 데이터를 활용하는 데 큰 어려움을 겪어왔습니다.
**2. 연구 목적: AI 전문가를 위한 '친절한 의학 데이터 가이드' 제작**
이 연구의 목적은 복잡하고 파편화된 임상 시험 데이터를 AI 모델이 즉시 학습할 수 있는 형태(AI-ready)로 가공하여 제공하는 것입니다. 이를 통해 AI 전문가들이 의학적 배경지식이 부족하더라도 임상 시험의 성공 여부나 부작용 등을 정확히 예측하는 모델을 개발할 수 있도록 돕고자 합니다.
**3. 연구 방법: 48만 건의 기록을 23개의 맞춤형 데이터셋으로**
연구진은 세계 최대 임상 시험 등록소인 ClinicalTrials.gov를 포함해 DrugBank(약물 정보), Trial Trove(승인 결과) 등 여러 공공 소스에서 데이터를 수집했습니다.
*
**데이터 정제:** 수집된 48만 건 이상의 기록에서 XML 형태의 복잡한 데이터를 표(Table) 형식으로 변환했습니다.
*
**멀티모달 데이터 구성:** 약물의 화학 구조(분자 그래프), 질병 코드(ICD-10), 임상 참여 조건(텍스트) 등 다양한 형태의 정보를 통합했습니다.
*
**8대 과제 선정:** 임상 기간 예측, 환자 중도 탈락률, 심각한 부작용, 사망 사건, 최종 승인 여부, 실패 원인 분석, 적정 약물 용량 결정, 참여 기준 설계 등 8가지 핵심 과제를 정의하고 이에 맞는 23개의 데이터셋을 구축했습니다.
**4. 연구 결과: AI 모델의 성능 입증과 높은 신뢰성**
연구진은 구축한 데이터셋을 최신 AI 모델(Bio-BERT, 그래프 신경망 등)에 학습시켜 성능을 검증했습니다.
* 그 결과, 환자 탈락이나 부작용 예측과 같은 주요 분류 작업에서 AI 모델이 0.7 이상의 높은 F1 점수(정확도의 일종)를 기록하며 데이터의 실용성을 증명했습니다.
* 특히 임상 시험 단계별(1~4상)로 데이터를 세분화하여 각 단계에서 발생할 수 있는 위험 요소를 구체적으로 예측할 수 있음을 확인했습니다.
**5. 고찰 및 의의: 의료와 AI의 가교 역할**
이 연구는 단순히 데이터를 모은 것을 넘어, 'AI가 바로 이해할 수 있는 언어'로 의학 데이터를 번역했다는 데 큰 의의가 있습니다. 이전에는 AI 개발자가 임상 용어를 이해하지 못해 데이터를 잘못 활용하는 경우가 많았으나, TrialBench는 실제 임상 현장의 시점(예: 임상 시작 전 정보만 활용)을 엄격히 반영하여 실무 적용 가능성을 높였습니다.
**6. 이 연구가 왜 중요한가요?**
임상 시험은 환자의 생명과 직결되는 동시에 천문학적인 자본이 움직이는 분야입니다.
*
**환자의 안전 보호:** AI가 사전에 부작용이나 사망 위험을 예측한다면, 위험한 임상 설계를 미리 수정하여 참여 환자의 안전을 지킬 수 있습니다.
*
**의료 비용 절감 및 신약 출시 가속화:** 실패할 가능성이 높은 임상을 조기에 식별하고 자원을 효율적으로 배분함으로써, 결과적으로 더 저렴하고 효과적인 치료제가 환자들에게 더 빨리 전달될 수 있는 기반을 마련해 줍니다.
이 연구는 'TrialBench'라는 오픈 소스 플랫폼을 통해 전 세계 연구자들에게 무료로 공개되어, 향후 신약 개발 방식에 혁신적인 변화를 가져올 것으로 기대됩니다.

chatGPT

이번에 발표된 TrialBench: Multi-Modal AI-Ready Datasets for Clinical Trial Prediction 논문은 임상시험 데이터를 인공지능(AI)이 바로 활용할 수 있도록 정리한 대규모 데이터셋 모음을 소개한 연구입니다. 이 논문은 단순히 “AI를 써보자”는 제안이 아니라, 실제 임상시험 설계와 운영에서 중요한 8가지 문제를 정의하고, 이를 해결할 수 있도록 23개의 AI 학습용 데이터셋을 체계적으로 구축했다는 점에서 의미가 있습니다.
연구 배경을 보면, 임상시험은 신약이나 치료법을 세상에 내놓기 전 반드시 거쳐야 하는 핵심 과정이지만, 실패율이 높고 비용과 시간이 매우 많이 듭니다. 1상부터 3상까지 진행하는 데 평균 7~11년이 걸리고, 수십억 달러의 비용이 소요되며, 최종 승인까지 성공하는 비율은 약 15% 수준에 불과합니다. 또한 중도 탈락, 부작용, 낮은 효과, 환자 모집 실패 등 다양한 위험 요인이 존재합니다. 한편 전 세계 임상시험 데이터는 방대하게 축적되어 있지만, 의료 지식과 데이터 과학을 동시에 이해해야 제대로 활용할 수 있어 AI 연구자들이 쉽게 접근하기 어려웠습니다. 이 연구는 바로 이 간극을 메우기 위해 시작되었습니다.
연구 목적은 임상시험과 관련된 핵심 예측 문제를 명확히 정의하고, 실제 현장에서 활용 가능한 “AI 준비 완료(AI-ready)” 데이터셋을 제공하는 것입니다. 연구진은 임상시험 설계와 운영에서 중요한 8가지 과제를 선정했습니다. 여기에는 임상시험 기간 예측, 환자 중도 탈락 예측, 중대한 이상반응 예측, 사망 사건 예측, 임상시험 승인 여부 예측, 임상시험 실패 원인 분류, 적격성 기준(환자 모집 기준) 설계, 약물 용량 결정이 포함됩니다. 단순한 이론적 제안이 아니라, 각 과제마다 입력 변수와 출력 목표를 명확히 정의하고, 실제 데이터를 연결해 학습 가능한 형태로 구성했습니다.
연구 방법을 보면, 주요 데이터 출처는 ClinicalTrials.gov 입니다. 이 사이트에는 48만 건 이상의 임상시험 정보가 XML 형식으로 저장되어 있습니다. 연구진은 여기에서 질환명, 약물명, 임상 단계, 적격성 기준, 시작일과 종료일, 결과 정보 등 다양한 변수를 추출했습니다. 여기에 더해 약물의 분자 구조와 특성을 얻기 위해 DrugBank 데이터를 연결했고, 승인 여부 및 결과 정보를 보완하기 위해 TrialTrove 자료도 활용했습니다. 또한 질환은 ICD-10 코드로 표준화해 질병 간 계층 구조 정보를 반영했습니다.
이 데이터는 단순한 표 형식이 아니라, 텍스트(예: 적격성 기준), 그래프(약물 분자 구조), 범주형·수치형 변수, 질병 코드, MeSH 용어 등 여러 형태가 결합된 ‘멀티모달 데이터’입니다. 예를 들어, 임상시험 기간 예측 과제는 약 14만 건 이상의 시험 데이터를 활용하며, 시작일과 종료일이 명확한 시험만 포함했습니다. 환자 중도 탈락 예측은 실제 탈락자 수와 등록 환자 수가 보고된 시험만 선별했습니다. 약물 용량 예측은 2상 시험 중 소분자 약물만 포함하는 등 과제별로 엄격한 기준을 적용했습니다. 또한 일부 과제에서는 자연어로 된 중단 사유를 AI를 활용해 네 가지 범주(성공, 모집 실패, 안전성 문제, 효과 부족)로 자동 분류해 라벨을 구축했습니다.
연구 결과로는, 각 데이터셋에 대해 기본적인 딥러닝 기반 멀티모달 모델을 적용해 성능을 검증했습니다. 텍스트는 BioBERT, 질병 코드는 계층 정보를 반영하는 GRAM 모델, 약물 분자 구조는 그래프 신경망(MPNN), 범주·수치형 데이터는 DANet 등을 활용해 각각 표현 벡터로 변환한 뒤 결합해 예측을 수행했습니다. 이를 통해 각 과제가 실제로 학습 가능하며, 데이터 품질이 충분히 모델 개발에 적합하다는 것을 보였습니다. 즉, 단순 데이터 공개가 아니라 “AI가 바로 실험해볼 수 있는 수준”까지 정제되었음을 기술적으로 검증한 것입니다.
고찰 부분에서 중요한 점은, 이 데이터셋이 실제 임상시험의 시간 흐름을 고려해 설계되었다는 것입니다. 예를 들어 시험 시작 전에 알 수 없는 결과 정보는 입력 변수에서 제외했습니다. 이는 현실에서 의사결정에 AI를 적용하는 상황을 가정한 설계입니다. 또한 무작위 분할뿐 아니라 시간 기준 분할(과거 데이터로 학습, 미래 데이터로 평가) 같은 전략도 제안해 실제 적용 가능성을 높였습니다. 다만 기업 전략 변경이나 자금 부족 같은 ‘예측 불가능한’ 실패 원인은 모델링 대상에서 제외하는 등 한계도 명확히 했습니다.
이 연구의 의의와 시사점은 세 가지로 정리할 수 있습니다. 첫째, 임상시험 설계의 주요 문제를 AI 관점에서 재정의해 표준 과제로 제시했다는 점입니다. 둘째, 방대한 공공 데이터를 정제하고 외부 데이터와 연계해 멀티모달 통합 데이터셋을 구축함으로써 연구자들의 진입 장벽을 크게 낮췄습니다. 셋째, 승인 예측이나 실패 원인 분석처럼 제약 산업에서 실질적 의사결정에 직결되는 문제를 다루어 산업적 파급력이 큽니다.
결론적으로 이 연구가 중요한 이유는, 임상시험의 실패와 지연이 단순한 비용 문제를 넘어 환자 치료 기회의 지연으로 이어지기 때문입니다. 만약 AI가 시험 기간을 단축할 수 있는 설계를 제안하고, 실패 가능성이 높은 시험을 사전에 식별하며, 안전성 위험을 조기에 경고할 수 있다면 신약 개발의 효율성과 성공률은 크게 향상될 수 있습니다. TrialBench: Multi-Modal AI-Ready Datasets for Clinical Trial Prediction 는 이러한 변화를 가능하게 하는 기반 인프라를 제공한다는 점에서, 임상시험 연구와 의료 AI 발전을 연결하는 중요한 이정표라고 할 수 있습니다.

grok

### 연구 배경
임상시험은 신약이나 의료기기 개발의 핵심 과정으로, 안전성과 효과를 검증하지만 높은 실패율(약 85%)과 막대한 비용(20억 달러), 긴 기간(7~11년)이 문제입니다. AI를 활용하면 시험 결과를 예측해 위험을 줄일 수 있지만, 데이터가 복잡하고 의학 전문 지식이 필요해 AI 전문가들의 참여가 제한적입니다. 이 연구는 ClinicalTrials.gov 등에서 수집된 방대한 데이터를 활용해 이러한 장벽을 낮추려 합니다.
### 목적
이 연구는 임상시험 설계의 8가지 주요 과제(시험 기간 예측, 환자 탈락 예측, 중증 부작용 예측, 사망 사건 예측, 시험 승인 예측, 실패 이유 식별, 환자 적격 기준 설계, 약물 용량 찾기)에 초점을 맞춰 23개의 AI-ready 데이터셋을 제작하는 데 목적이 있습니다. 이 데이터셋은 약물 분자 구조(SMILES), 질병 코드(ICD-10), 텍스트(적격 기준 등), 범주형/수치형 특징, MeSH 용어 등 멀티모달 입력을 포함해 AI 모델 개발을 촉진합니다.
### 방법
데이터는 ClinicalTrials.gov(48만 건 이상 시험 기록)에서 XML 형식으로 추출한 후, DrugBank(약물 구조), TrialTrove(시험 결과), ICD-10(질병 코드)으로 보강했습니다. 각 과제에 맞게 특징을 선별(예: 시험 시작 전 사용 가능한 데이터만)하고, 필터링(예: 10년 초과 시험 제외)을 적용했습니다. 레이블은 ChatGPT로 자동 추출하거나 계산했습니다. 기준 모델로 MPNN(약물 그래프), Bio-BERT(텍스트), GRAM(질병 코드) 등 멀티모달 딥러닝을 사용해 성능 검증했습니다.
### 결과
데이터셋 규모는 과제별로 다양하며, 예를 들어 시험 기간 예측은 14만 건, 약물 용량 찾기는 1만 2천 건입니다. 기준 모델 성능은 분류 과제(승인 예측 등)에서 F1 점수 0.7 이상을 다수 달성했으며, 회귀 과제(기간 예측)에서 MAE 0.8~1.4년 수준으로 나왔습니다. 데이터셋은 GitHub(https://huyjj.github.io/TrialBench/)에서 공개돼 Python/R 패키지로 다운로드 가능합니다.
### 고찰
데이터셋은 AI 모델이 바로 적용 가능할 정도로 잘 큐레이션됐으나, 일부 과제(예: 실패 이유 식별)에서 성능이 낮아 추가 개선이 필요합니다. 모든 임상시험 과제를 포괄하지 못한 한계가 있지만, 지속 업데이트를 통해 확장할 계획입니다. 실험 결과는 데이터의 신뢰성과 유용성을 입증합니다.
### 의의와 시사점
이 데이터셋은 AI 전문가들이 의학 지식 없이도 임상시험 문제를 해결할 수 있게 해, 시험 설계를 최적화하고 비용을 줄입니다. 예를 들어 환자 탈락 예측으로 모집 효율 높이고, 실패 이유 식별로 재시도 피할 수 있습니다. 이는 신약 개발 속도를 높여 환자 치료 옵션을 확대하는 데 기여합니다.
이 연구는 AI와 의학의 융합을 촉진해 임상시험의 실패를 줄이고, 궁극적으로 더 안전하고 효과적인 의료 솔루션을 빠르게 제공하는 데 중요합니다.

NotebookLM

**[블로그 포스팅] 인공지능이 신약 개발의 골든타임을 앞당긴다: 임상시험 예측 플랫폼 'TrialBench'**
새로운 약 하나가 우리 손에 쥐어지기까지 얼마나 많은 노력과 비용이 들어가는지 아시나요? 신약 개발의 핵심인 임상시험은 보통 10년 이상의 세월과 평균 20억 달러(약 2조 7천억 원)라는 막대한 비용이 투입되는 험난한 과정입니다. 하지만 이렇게 공을 들여도 최종 승인을 받는 비율은 고작 15% 내외에 불과하며, 많은 시도가 환자 모집 실패나 안전성 문제로 수포로 돌아가곤 합니다. 최근 이러한 임상시험의 위험을 줄이고 효율을 높이기 위해 인공지능(AI)을 활용하려는 시도가 늘고 있지만, 복잡한 의학 데이터와 전문 지식의 장벽 때문에 AI 전문가들이 선뜻 뛰어들기 어려웠던 것이 현실입니다.
**1. 연구 배경: 임상시험 데이터의 '비어 있는 연결 고리'**
임상시험은 과학적 발견이 실제 의료 현장에 적용되기 위한 필수적인 다리 역할을 합니다. 수년간의 임상시험을 통해 엄청난 양의 데이터가 쌓였지만, 이 데이터들은 텍스트, 숫자, 약물 구조 등 형태가 제각각인 '다중 모달(Multi-modal)' 성격을 띠고 있어 분석이 매우 까다로웠습니다. 특히 AI 엔지니어들이 의학적 배경 지식 없이 수많은 변수 중에서 무엇이 중요한지 판단하기란 거의 불가능에 가까웠습니다.
**2. 연구 목적: AI 전문가를 위한 '임상시험 종합 데이터 세트' 구축**
이번 연구의 핵심 목적은 AI 전문가들이 즉시 연구에 활용할 수 있도록 정제된 **'TrialBench'**라는 플랫폼을 구축하는 것입니다. 연구팀은 데이터 과학자들이 임상시험 설계의 핵심적인 문제들을 해결할 수 있도록 23개의 AI 맞춤형 데이터 세트를 정리하여 공개했습니다. 이를 통해 임상시험의 성공 가능성을 미리 점쳐보고, 불필요한 자원 낭비를 막는 것이 최종적인 목표입니다.
**3. 연구 방법: 8가지 핵심 과제와 5가지 데이터 형태의 통합**
연구팀은 2024년 2월까지 등록된 ClinicalTrials.gov의 48만 건 이상의 기록을 바탕으로 데이터를 수집했습니다. 단순히 데이터를 모으는 데 그치지 않고, 약물 정보(DrugBank)와 임상 결과 정보(TrialTrove)를 결합하여 정보를 더욱 풍부하게 만들었습니다. 연구팀이 정의한 **8가지 AI 예측 과제**는 다음과 같습니다:
* 임상시험 기간 예측 (Regression)
* 환자 중도 탈락 여부 및 비율 예측 (Classification/Regression)
* 심각한 부작용 발생 예측 (Classification)
* 사망 사건 발생 예측 (Classification)
* 최종 승인 여부 예측 (Classification)
* 임상시험 실패 원인 식별 (Multi-category Classification)
* 참여 적격성 기준(Eligibility Criteria) 설계 (Generation)
* 적정 약물 용량 찾기 (Ordinal Classification)
이 과정에서 약물의 분자 구조, 질병 코드(ICD-10), 자연어 텍스트, 수치 데이터, 의학 주제 표목(MeSH) 등 5가지 서로 다른 형태의 데이터를 모두 처리할 수 있는 정교한 AI 모델(Multi-modal Baseline)도 함께 제시되었습니다.
**4. 연구 결과: AI가 증명한 놀라운 예측 정확도**
연구팀이 개발한 TrialBench 데이터 세트를 최신 AI 알고리즘으로 검증한 결과, 대부분의 과제에서 상당히 우수한 성능이 나타났습니다. 특히 환자 탈락, 부작용, 승인 여부 등을 예측하는 14개의 주요 이진 분류 작업 중 11개에서 0.7 이상의 F1 점수(정확도와 재현율을 종합한 점수)를 기록했습니다. 이는 단순한 통계 모델을 넘어, AI가 복잡한 임상시험의 패턴을 유의미하게 파악하고 있음을 입증한 결과입니다.
**5. 고찰 및 의의: 임상시험 설계의 패러다임 변화**
TrialBench의 등장은 의학계와 AI 학계 사이의 장벽을 허무는 중요한 이정표가 될 것입니다. AI를 통해 임상시험 기간을 미리 예측하면 제약회사는 예산을 더 정확하게 짤 수 있고, 부작용을 미리 감지하면 환자의 안전을 획기적으로 높일 수 있습니다. 또한, 성공 가능성이 낮은 약물 후보를 초기에 가려내어 유망한 치료제에 자원을 집중할 수 있게 해줍니다.
**6. 이 연구가 왜 중요한가요?**
결국 이 모든 과정은 **'환자에게 더 빠르고 안전한 치료법을 전달하기 위해서'** 중요합니다. 임상시험의 실패 확률을 조금이라도 낮출 수 있다면, 신약 개발에 드는 천문학적인 비용과 시간을 줄일 수 있고 이는 곧 약가 인하와 의료 혜택의 확대로 이어집니다. TrialBench는 인공지능이라는 강력한 돋보기를 통해 임상시험의 위험 요소를 미리 찾아내어, 인류가 질병과 싸우는 속도를 한층 더 높여줄 것입니다.

Perplexity.ai

이 논문은 ‘임상시험을 더 빨리, 더 안전하게, 더 싸게 만들기 위해 AI가 실제로 쓸 수 있는 데이터 세트를 한 번에 정리해 둔 플랫폼(TrialBench)을 소개하는 연구’입니다.
연구 배경
신약이나 새로운 치료법이 세상에 나오기까지는 반드시 임상시험이라는 관문을 통과해야 합니다. 그런데 이 과정은 평균 7–11년이 걸리고, 비용은 약 20억 달러 수준이며, 결국 규제 승인을 받는 비율은 15% 정도에 불과할 만큼 실패 위험이 매우 큽니다. 특히 중간에 환자가 많이 탈락하거나 심각한 부작용이 발생하면 임상시험이 중단되기도 하고, 목표 인원을 모집하지 못해 실패하는 일도 흔합니다. 한편 ClinicalTrials.gov 같은 사이트에는 이미 48만 건이 넘는 임상시험 기록이 축적되어 있는데, 이 안에는 시험 설계, 대상 질환, 약물 특성, 부작용, 승인 여부 등 방대한 정보가 담겨 있어 AI가 패턴을 찾기에는 매우 좋은 재료입니다. 문제는 이 데이터를 AI가 바로 쓰기 어렵게 흩어져 있고, 어떤 질문을 던져야 의미 있는 예측을 할 수 있는지 정의하는 데 의학·통계·AI 지식이 모두 필요하다는 점입니다.
연구 목적
이 논문의 목표는 “임상시험에 AI를 도입하고 싶은데, 어디서 어떤 데이터를 어떻게 써야 할지 모르겠다”는 현실적인 문제를 해결하는 것입니다. 이를 위해 저자들은 ClinicalTrials.gov와 DrugBank, TrialTrove 등 여러 데이터베이스에서 정보를 모아, AI가 바로 학습할 수 있도록 가공된 23개의 ‘AI‑준비 완료’ 데이터 세트(TrialBench)를 만들었습니다. 동시에 임상시험 설계와 운영에서 정말 중요한 8가지 예측·생성 과제를 정리해, 각각에 대해 입력 변수(무엇을 보고), 출력 목표(무엇을 예측·생성할지), 평가 지표(성능을 어떻게 잴지)를 명확히 정의했습니다. 연구진은 각 과제에 대해 기본(baseline) AI 모델도 직접 만들어 돌려 봄으로써, 이 데이터가 실제로 학습에 쓸 수 있고 어느 정도까지 성능이 나오는지도 함께 보여 줍니다.
연구 방법: 데이터 수집과 가공
연구진은 2024년 2월 16일 이전에 ClinicalTrials.gov에 등록된 임상시험 XML 기록에서 핵심 요소들을 뽑아 표 형태(tabular)로 재구성했습니다. 여기에는 시험 단계(1상~4상), 대상 질환, 피험자 수, 성별·나이 제한, 실험군/대조군 정보, 부작용 통계, 종료·승인 여부 등 다양한 속성이 포함됩니다. 질환 이름은 기계가 다루기 쉽도록 질병분류 코드(ICD‑10)로 변환했고, 약물 정보는 DrugBank와 연결해 분자 구조(SMILES 문자열)와 약물의 물리·약리학적 성질을 추가했습니다. 또한 TrialTrove에서 각 임상시험의 최종 승인 여부와 실패 이유(효과 부족, 안전성 문제, 모집 실패, 전략적/기타 등)를 가져와 ‘정답 레이블’로 사용했습니다. 이런 정보를 바탕으로 연구진은 다섯 가지 종류의 **멀티모달** 입력(약물 분자 구조, 질환 코드, 자연어 텍스트, 수치/범주형 특성, MeSH 용어)을 구성하고, 이를 처리하기 위해 분자 신경망(MPNN), 바이오-BERT, 그래프 기반 주의(attention) 모델(GRAM) 등 서로 다른 AI 모듈을 결합한 통합 모델 구조를 설계했습니다. 이 모든 데이터와 코드, 평가 도구는 TrialBench 웹사이트에서 공개되어 누구나 내려받아 실험할 수 있게 했습니다.
연구 방법: 8가지 AI 과제 정의
이 논문이 제안하는 8가지 과제는 실제 제약회사나 연구자가 고민하는 지점을 그대로 반영합니다.
1) 임상시험 기간 예측: 시험 시작부터 종료까지 몇 년이 걸릴지 연속값으로 예측하는 회귀 과제입니다. 대상 질환, 시험 설계, 피험자 특성, 포함/제외 기준 텍스트 등 다양한 정보를 입력으로 사용하며, 이를 통해 인력·예산·시설 계획을 더 정확히 세울 수 있습니다.
2) 환자 탈락(드롭아웃) 예측: 임상시험에서 중도 탈락이 발생할지(발생 여부: 분류)와 어느 정도 비율로 발생할지(탈락률: 회귀)를 동시에 예측하는 이중 과제입니다. 이전 연구들에 따르면 전체 참가자의 약 30%가 탈락할 수 있어, 이를 미리 예측하면 필요한 모집 규모와 관리 전략을 더 잘 짤 수 있습니다.
3) 심각한 이상반응(Serious Adverse Event) 예측: 약물 분자 구조, 질환, 설계 정보, 기준 텍스트 등을 바탕으로, 임상시험에서 심각한 이상반응이 나타날지를 예측하는 이진 분류 과제입니다. 이는 참가자 안전과 직결되며, 고위험 조합을 미리 찾아내 설계를 조정하는 데 도움을 줍니다.
4) 사망 사건(모든 원인) 예측: 특정 임상시험에서 사망 사건이 발생할지를 예측하는 분류 과제입니다. 안전성이 특히 중요한 항암제·중증 질환 등에서 위험도 평가에 유용합니다.
5) 임상시험 승인(성공) 예측: TrialTrove에서 가져온 승인 여부를 기준으로, 특정 임상시험이 최종적으로 규제 승인을 받을지(성공/실패)를 예측하는 과제입니다. 여러 단계의 데이터를 통합해 “이 설계와 이 약물 조합이 승인 가능성이 높은가”를 사전에 가늠하게 해 줍니다.
6) 실패 이유 분류: 실패한 임상시험이 왜 실패했는지를 네 가지 범주(예: 효능 부족, 안전성 문제, 환자 모집 실패, 기타 전략·운영상 요인 등)로 분류하는 과제입니다. 이를 통해 어떤 패턴의 설계가 “모집 실패형”, “효과 부족형” 실패로 이어지는지 학습할 수 있습니다.
7) 적절한 대상자 선정 기준(Eligibility Criteria) 생성: 질환, 약물, 관련 텍스트 정보를 입력으로 받아, 자연어 형태의 ‘포함/제외 기준’을 자동으로 생성하는 생성 과제입니다. 이는 연구자가 완전히 처음부터 문구를 쓰기보다 AI가 제안한 초안을 수정·보완하는 방식으로 생산성을 크게 높여 줄 수 있습니다.
8) 약물 용량(dose) 추천: 약물의 분자 구조와 관련 용어(MeSH)를 보고 임상시험에서 사용될 적정 용량 범주(4단계)를 예측하는 분류 과제입니다. 초기 임상에서 지나치게 낮거나 높은 용량 설정으로 실패하는 위험을 줄이는 데 기여할 수 있습니다.
주요 결과: 베이스라인 모델 성능
연구진은 위 8가지 과제에 대해, 설계한 멀티모달 모델로 기본적인 학습을 수행하고 성능 지표를 제시했습니다. 예를 들어 환자 탈락 예측(분류)에서, 3상(Phase III) 시험 데이터에 대해 정밀도(precision)와 재현율(recall)이 각각 약 0.92, 0.97 수준으로 비교적 높은 성능을 보였고, PR‑AUC도 0.92 정도로 우수한 결과를 나타냈습니다. 반면 실패 이유 분류는 모든 단계에서 PR‑AUC와 F1 점수가 0.2~0.3 수준으로 낮아, 현재 모델과 데이터만으로는 실패 원인을 정밀하게 분류하는 것이 훨씬 어렵다는 점을 보여 줍니다. 심각한 이상반응과 사망 사건 예측에서는 1~3상 자료에서 ROC‑AUC가 대체로 0.8 이상으로 나와, 안전성 리스크 측면에서는 AI가 의미 있는 신호를 포착할 수 있음을 시사합니다. 임상시험 승인 예측과 약물 용량 추천은 중간 정도의 성능(ROC‑AUC 약 0.73~0.76 수준)으로, 더 정교한 모델 개발 여지가 크다는 메시지를 줍니다. 연구진은 이런 베이스라인 결과를 통해 “데이터는 충분히 유용하지만, 최고 성능을 내려면 커뮤니티의 추가 연구가 필요하다”는 출발선을 제시한 셈입니다.
고찰: 이 연구에서 드러난 인사이트
이 논문이 흥미로운 점은, 단순히 “데이터를 공개했다”는 수준을 넘어서, 임상시험의 어떤 부분이 AI로 ‘이미 어느 정도 잘 맞출 수 있는지’와 ‘여전히 어려운지’를 함께 보여 준다는 것입니다. 예를 들어 환자 탈락, 이상반응, 사망 사건처럼 비교적 명확한 결과(발생/비발생)를 예측하는 과제에서는 기본 모델만으로도 꽤 높은 성능이 나오는데, 이는 앞으로 더 큰 모델이나 특화된 알고리즘을 쓰면 실제 운영에 쓸 수 있을 정도로 발전할 가능성이 크다는 뜻입니다. 반대로 실패 이유처럼 복잡한 인간·조직·전략 요인이 얽힌 결과는 데이터와 모델로 설명하기가 훨씬 어려워, 단순히 기록만 많이 모았다고 해결되지는 않는다는 점도 드러납니다. 또한 임상시험 기간, 탈락률, 승인 가능성 등을 사전에 예측할 수 있다면, 제약회사 입장에서 “어떤 과제를 먼저, 어떤 설계로 진행할지”를 훨씬 전략적으로 결정할 수 있게 됩니다. 이 연구는 임상시험 데이터를 텍스트, 코드, 그래프 등 여러 형태로 나누어 처리하는 멀티모달 접근이 현실적인 효과를 발휘한다는 점도 간접적으로 보여 줍니다.
의의와 시사점
첫째, TrialBench는 임상시험 분야에서 AI 연구를 위한 ‘표준 경기장’을 마련했다는 의의가 있습니다. 이제 연구자들은 각자 다른 데이터셋을 조용히 쓰는 대신, 동일한 23개 데이터셋과 8개 과제, 공통 평가 지표를 기반으로 모델을 비교하며 발전시킬 수 있습니다. 둘째, 제약·바이오 업계에서는 이 플랫폼을 활용해 “우리 파이프라인의 임상시험 실패 위험을 줄일 수 있는지”, “리스크가 높은 설계는 무엇인지”를 연구 단계에서부터 탐색할 수 있습니다. 예를 들어 어떤 조건 조합에서 환자 탈락률이 높게 나오는지, 어떤 유형의 질환·약물 조합이 심각한 이상반응을 잘 일으키는지를 AI로 미리 체크해 설계를 조정할 수 있습니다. 셋째, 규제기관이나 공공 연구자에게도 TrialBench는 “어떤 설계 요소가 안전성과 성공률에 영향을 많이 주는지”를 체계적으로 분석할 수 있는 공통 자료가 됩니다. 넷째, 텍스트 기준 생성, 용량 추천 등은 장기적으로 ‘AI가 제안한 임상시험 초안’을 사람이 검토하는 형태의 공동 설계(workflow)를 가능하게 해, 연구자의 시간을 절약하면서도 더 안전하고 공정한 설계를 유도할 수 있습니다.
이 연구가 왜 중요한가
임상시험 하나가 실패하면, 수년간의 노력과 막대한 비용뿐만 아니라 환자들의 기대와 참여도 함께 사라집니다. 이 논문은 “어떻게 하면 이런 실패를 줄이고, 더 빨리 효과적인 치료법을 환자에게届け 할 수 있을까”라는 질문에 대해, 이론이나 주장만이 아니라 실제로 활용 가능한 데이터와 과제 정의를 한 번에 제공했다는 점에서 의미가 큽니다. 앞으로 더 많은 AI 연구자들이 TrialBench를 기반으로 새로운 모델을 개발하면, 임상시험의 기간을 줄이고, 탈락과 부작용을 줄이며, 성공 가능성이 높은 설계를 더 많이 선택하는 방향으로 의료 연구 전체가 효율화될 수 있습니다. 결국 이 연구는 “AI가 임상시험의 리스크를 미리 읽어내는 조언자”가 될 수 있는 현실적인 출발점을 마련했다는 점에서, 신약 개발 속도와 환자 안전 모두에 중요한 전환점이 될 수 있습니다.

Kimi

# TrialBench: AI로 임상시험을 예측하는 새로운 데이터셋 플랫폼
## 연구 배경
신약 개발은 보통 7~11년이 걸리고 평균 20억 달러(약 2조 7천억 원)가 들지만, 성공 확률은 고작 15%에 불과합니다. 임상시험은 새로운 치료법의 안전성과 효과를 검증하는 필수 과정이지만, 환자 이탈, 심각한 부작용, 사망 사건, 승인 실패 등 다양한 리스크를 안고 있습니다. 이러한 문제를 미리 예측할 수 있다면 막대한 시간과 비용을 절약할 수 있을 텐데요, 바로 이 지점에서 인공지능(AI)이 주목받고 있습니다.
하지만 임상시험 데이터는 매우 복잡합니다. 약물 분자 구조, 질병 코드, 텍스트 기준(예: 참가 자격 기준), 숫자 데이터 등 여러 형태(모달리티)가 섞여 있고, 어떤 변수를 선택해 어떤 문제를 풀어야 할지 결정하려면 깊은 의학 지식이 필요합니다. 이러한 진입 장벽 때문에 데이터 과학자들이 임상시험 데이터를 활용하기 어려웠습니다.
## 연구 목적
이 연구는 AI 전문가들이 쉽게 접근할 수 있도록, 임상시험의 핵심 과제 8가지를 선정하고 각 과제별로 AI 학습용 데이터셋을 정제한 'TrialBench' 플랫폼을 만드는 것을 목표로 했습니다. ClinicalTrials.gov(미국 국립의학도서관이 운영하는 임상시험 정보 사이트)에서 48만 건 이상의 데이터를 수집하고, DrugBank(약물 정보), TrialTrove(시험 결과 정보), ICD-10(질병 분류 코드) 등 외부 데이터베이스와 연결해 풍부한 정보를 담았습니다.
## 연구 방법
연구팀은 8가지 예측 과제를 정의했습니다: (1) 임상시험 기간 예측, (2) 환자 이탈 예측, (3) 심각한 부작용 예측, (4) 사망 사건 예측, (5) 시험 승인 여부 예측, (6) 실패 원인 분류, (7) 참가 자격 기준 설계, (8) 약물 용량 결정. 각 과제마다 실제 AI 적용 시점을 고려해 적절한 입력 변수를 선택했습니다. 예를 들어 시험 완료 전에 예측해야 하는 과제라면, 시험 결과 정보는 입력에서 제외했습니다.
데이터는 5가지 모달리티로 구성됩니다: 약물 분자 구조(SMILES 문자열), 질병 코드(ICD-10), 텍스트(시험 요약, 자격 기준), 범주/숫자 특성(환자 연령, 혈압 등), 그리고 의학 주제 표현(MeSH)입니다. 특히 약물은 2차원 분자 그래프로, 질병 코드는 계층 구조를 반영한 그래프로 표현했습니다. 자연어 처리를 위해 Bio-BERT(생의학 텍스트 전용 AI 모델)를, 분자 그래프에는 메시지 전달 신경망(MPNN)을 적용하는 등 각 데이터 유형에 최적화된 AI 모델을 설계했습니다.
데이터 품질을 확보하기 위해 엄격한 선별 기준을 적용했습니다. 예를 들어 시험 기간 예측에서는 10년 이상 걸린 이상치를 제거했고, 자격 기준 설계 과제에서는 환자 모집에 성공한 완료된 시험만 포함했습니다. 일부 레이블(예: 실패 원인, 약물 용량)은 GPT-4를 활용해 자연어에서 자동으로 추출했습니다.
## 연구 결과
총 23개의 고품질 데이터셋이 구축되었습니다. 가장 큰 데이터셋은 임상시험 기간 예측(14만 1,940건)과 자격 기준 설계(13만 6,443건)였고, 약물 용량 결정은 2상 시험에 한정해 12,790건을 수집했습니다. 데이터셋은 대부분 80:20 비율로 훈련/테스트 세트를 분할했으며, 분류 과제에서는 클래스 분포를 유지하는 층화 샘플링을 적용했습니다.
다양한 AI 모델로 성능을 검증한 결과, 대부분의 과제에서 양호한 성능을 보였습니다. 환자 이탈 예측에서는 3상 시험에서 F1 점수 0.9455, 부작용 예측에서도 3상에서 F1 0.9297을 기록했습니다. 사망 사건 예측은 1상에서 F1 0.7695로 상대적으로 높은 성능을, 시험 승인 예측은 3상에서 F1 0.6724를 보였습니다. 반면 실패 원인 분류는 F1 점수가 0.15~0.20 수준으로 낮아, 이 과제가 가장 어려움을 시사했습니다. 회귀 과제인 시험 기간 예측에서는 R² 값이 0.31~0.65 범위였고, 자격 기준 설계(생성 과제)에서는 코사인 유사도 0.6988을 달성했습니다.
## 고찰
이 연구의 핵심 기여는 임상시험 데이터를 'AI가 바로 쓸 수 있는 형태'로 정제했다는 점입니다. 기존에는 데이터 과학자들이 XML 형태의 원시 데이터를 파싱하고, 어떤 변수가 중요한지 판단하고, 여러 데이터베이스를 연결하는 데 수개월이 걸렸습니다. TrialBench는 이 모든 전처리를 마쳤고, Python과 R 패키지로 제공되어 `trialbench.function.load_data()` 한 줄로 데이터를 불러올 수 있습니다.
다만 몇 가지 한계도 있습니다. 모든 데이터는 2024년 2월 이전에 등록된 시험으로, 최신 동향을 반영하지 못할 수 있습니다. 또한 일부 레이블은 GPT-4로 자동 추출했기 때문에 오류가 있을 수 있고, 실패 원인 분류처럼 성능이 낮은 과제는 아직 해결 과제로 남았습니다. 연구팀은 이 플랫폼을 지속적으로 업데이트할 계획이라고 밝혔습니다.
## 의의와 시사점
TrialBench는 '의학 전문가 없이는 접근 불가능했던' 임상시험 데이터를 민주화했습니다. 이제 AI 연구자들은 복잡한 의학 지식 없이도 자신만의 모델을 개발하고, 8가지 핵심 과제에서 성능을 경쟁적으로 비교할 수 있습니다. 특히 다중 모달리티(텍스트, 그래프, 숫자)를 동시에 다루는 새로운 AI 아키텍처를 테스트하기에 최적의 벤치마크가 될 것입니다.
실무적으로는 제약회사들이 임상시험 설계 초기 단계에서 리스크를 예측하고, 자원 배분을 최적화하며, 실패 가능성이 높은 시험을 사전에 선별하는 데 활용할 수 있습니다. 예를 들어 특정 약물과 질병 조합이 어느 용량에서 부작용 위험이 높은지, 어떤 자격 기준이 환자 모집을 방해하는지 데이터 기반으로 판단할 수 있게 된 것입니다.
## 왜 이 연구가 중요한가?
이 연구는 AI와 의학의 간극을 메우는 다리를 놓았습니다. 임상시험은 인류의 건강을 위해 필수적이지만, 그 실패 비용은 엄청납니다. TrialBench를 통해 개발된 예측 모델이 현장에 적용된다면, 불필요한 시험을 줄이고 유망한 치료법을 더 빨리 시장에 내놓을 수 있습니다. 궁극적으로는 환자의 생명을 구하고, 의료 비용을 낮추며, 신약 개발의 속도를 높이는 데 기여할 것입니다. 데이터 과학과 생명과학의 융합이 만들어낼 다음 혁신의 출발점이 될 연구입니다.

출처: @ye._.vely618

Lee Gir-Won (Lee Gil-Won)

Pages

수요일, 3월 04, 2026

2조 원짜리 프로젝트가 '꽝'이 된다면? AI는 이미 알고 있다? (feat. TrialBench)

댓글 없음: