레이블이 clinical trial인 게시물을 표시합니다. 모든 게시물 표시
레이블이 clinical trial인 게시물을 표시합니다. 모든 게시물 표시

수요일, 3월 04, 2026

2조 원짜리 프로젝트가 '꽝'이 된다면? AI는 이미 알고 있다? (feat. TrialBench)

요리할 때 레시피대로 만들었는데 마지막에 소금 한 꼬집을 잘못넣거나, 물조절을 실패해서 음식을 망쳐본 경험이 있나요? 우리가 그냥 집에서 하는 요리라면 그냥 다시 하면 되지만, 그 요리가 한접시에 2조원 이상의 예산과 십수년의 시간이 들어갔다면.. ㅂㄷㅂㄷ

바로 신약 개발의 마지막 관문인 임상시험 이야기입니다. 수십, 수백명의 연구자들이 수년동안 수천억, 수조원의 예산을 가지고 개발한 시약의 성공확률은 잘해봐야 10%내외라니 신약 개발하는 과정동안 하나하나 결정하는 것에 제약사들은 피가 마를 겁니다. 

오늘은 이 넘기 어려운 "임상시험"에 가이드를 해주어 성공 확률을 높여주는 능력자가 곧 다가올거라는 내용의 연구를 가져와봤습니다. TrialBench: Multi-Modal AIReady Datasets for Clinical Trial Prediction라는 제목으로 기존에 공개된 임상시험 데이터를 학습해서 이번 임상시험에 부작용이 있을것 같다, 성공할것 같다 라고 미리 귀뜸해주어 신약의 성공률을 높여 환자들에게 조금 더 빠르게 약이 제공 되도록 기여하는 플랫폼을 개발했다고 합니다. :)

DOI: 10.1038/s41597-025-05680-8



clova-x

### 임상 시험 설계의 주요 사건 예측을 위한 인공지능 활용 연구

#### 연구 배경

임상 시험은 새로운 의약품 개발 과정에서 매우 중요하지만, 높은 실패율과 환자 사망, 등록 실패 등의 위험을 안고 있습니다. 이러한 문제를 해결하기 위해 인공지능(AI)을 활용하여 임상 시험의 주요 사건을 예측하는 연구가 주목받고 있습니다. 그러나 지금까지는 복잡한 데이터 수집과 의학 전문 지식이 필요한 질문 정의로 인해 AI의 도입이 제한되어 왔습니다.

#### 연구 목적

본 연구의 목적은 임상 시험 설계의 주요 사건을 예측하기 위한 AI 모델을 개발하고 검증하는 것입니다. 이를 통해 임상 시험의 효율성을 높이고, 새로운 의약품 개발을 가속화하며, 환자 안전을 강화하는 데 기여하고자 합니다.

#### 연구 방법

연구팀은 23개의 세심하게 큐레이션된 AI 준비 데이터셋을 통해 다양한 멀티모달 입력 특성과 8가지 중대한 예측 과제를 다루고 있습니다. 이 데이터셋은 ClinicalTrials.gov와 DrugBank 등의 출처에서 수집되었으며, 임상 시험의 기간, 환자 탈락률, 심각한 부작용, 사망 사건, 승인 결과, 실패 이유, 용량, 자격 기준 설계 등을 예측하는 데 사용됩니다.

각 과제는 명확한 예측 목표와 입력 변수를 가지며, 전통적인 테이블 데이터와는 달리 자유 텍스트와 그래프 데이터 등 멀티모달 입력 특성을 포함합니다. 이를 통해 AI 모델이 보다 정교하고 유용한 예측을 할 수 있게 됩니다.

#### 연구 결과

연구팀은 임상 시험 기간 예측, 환자 탈락률 예측, 부작용 및 사망 사건 예측 등의 과제를 포함하여 다양한 AI 해결 과제에 대한 성과를 보고했습니다. 특히, 임상 시험 기간 예측은 제약 회사들이 더 나은 계획 수립과 자원 배분을 가능하게 하여, 더 정확한 인력 배치, 예산 책정, 임상 사이트 관리를 돕습니다. 또한, 환자 탈락률 예측은 중도 포기를 줄여 실험의 유효성을 높이는 데 기여합니다.

#### 고찰

이 연구는 임상 시험 데이터의 복잡성을 극복하고, AI 모델이 실제 임상 환경에서 유용하게 적용될 수 있음을 보여줍니다. 또한, 다양한 멀티모달 데이터셋을 통해 AI 모델의 성능을 향상시키고, 임상 시험의 여러 도전 과제를 해결하는 데 기여합니다.

#### 의의와 시사점

이 연구는 임상 시험 설계와 운영을 혁신적으로 개선할 수 있는 잠재력을 지니고 있습니다. AI를 통한 예측은 임상 시험의 성공 확률을 높이고, 자원 할당을 최적화하며, 새로운 의약품 개발을 더욱 신속하고 효율적으로 만듭니다. 이는 궁극적으로 환자들에게 더 빠르고 효과적인 치료제를 제공하는 데 큰 도움이 될 것입니다.

#### 결론

임상 시험의 주요 사건을 예측하는 AI 모델의 개발은 의약품 개발 과정에서의 불확실성을 줄이고, 효율성을 극대화하는 데 중요한 역할을 합니다. 이 연구는 임상 시험의 전 과정을 보다 투명하고 효율적으로 만드는 데 기여할 것입니다.


gemini

신약 개발의 성패를 가르는 핵심 관문인 '임상 시험'을 인공지능(AI)으로 예측하기 위한 혁신적인 데이터셋, **TrialBench**에 관한 논문 내용을 요약해 드립니다.

### [블로그 요약] 임상 시험의 미래를 바꿀 AI 도우미: TrialBench 데이터셋 공개

**1. 연구 배경: 2조 원의 예산과 10년의 시간, 그리고 높은 실패율**

새로운 약이나 치료법이 세상에 나오기 위해서는 사람을 대상으로 하는 '임상 시험'을 반드시 거쳐야 합니다. 하지만 이 과정은 평균 7~11년의 시간과 20억 달러(약 2조 6천억 원)라는 막대한 비용이 투입됨에도 불구하고, 최종 승인율은 약 15%에 불과할 정도로 위험도가 매우 높습니다. 그동안 쌓인 방대한 임상 데이터는 AI가 패턴을 찾아내 위험을 줄이기에 적합한 토양이었지만, 의학적 전문 지식과 데이터 공학 지식이 동시에 필요하다 보니 정작 AI 전문가들이 이 데이터를 활용하는 데 큰 어려움을 겪어왔습니다.

**2. 연구 목적: AI 전문가를 위한 '친절한 의학 데이터 가이드' 제작**

이 연구의 목적은 복잡하고 파편화된 임상 시험 데이터를 AI 모델이 즉시 학습할 수 있는 형태(AI-ready)로 가공하여 제공하는 것입니다. 이를 통해 AI 전문가들이 의학적 배경지식이 부족하더라도 임상 시험의 성공 여부나 부작용 등을 정확히 예측하는 모델을 개발할 수 있도록 돕고자 합니다.

**3. 연구 방법: 48만 건의 기록을 23개의 맞춤형 데이터셋으로**

연구진은 세계 최대 임상 시험 등록소인 ClinicalTrials.gov를 포함해 DrugBank(약물 정보), Trial Trove(승인 결과) 등 여러 공공 소스에서 데이터를 수집했습니다.

**데이터 정제:** 수집된 48만 건 이상의 기록에서 XML 형태의 복잡한 데이터를 표(Table) 형식으로 변환했습니다.

**멀티모달 데이터 구성:** 약물의 화학 구조(분자 그래프), 질병 코드(ICD-10), 임상 참여 조건(텍스트) 등 다양한 형태의 정보를 통합했습니다.

**8대 과제 선정:** 임상 기간 예측, 환자 중도 탈락률, 심각한 부작용, 사망 사건, 최종 승인 여부, 실패 원인 분석, 적정 약물 용량 결정, 참여 기준 설계 등 8가지 핵심 과제를 정의하고 이에 맞는 23개의 데이터셋을 구축했습니다.

**4. 연구 결과: AI 모델의 성능 입증과 높은 신뢰성**

연구진은 구축한 데이터셋을 최신 AI 모델(Bio-BERT, 그래프 신경망 등)에 학습시켜 성능을 검증했습니다.

* 그 결과, 환자 탈락이나 부작용 예측과 같은 주요 분류 작업에서 AI 모델이 0.7 이상의 높은 F1 점수(정확도의 일종)를 기록하며 데이터의 실용성을 증명했습니다.

* 특히 임상 시험 단계별(1~4상)로 데이터를 세분화하여 각 단계에서 발생할 수 있는 위험 요소를 구체적으로 예측할 수 있음을 확인했습니다.

**5. 고찰 및 의의: 의료와 AI의 가교 역할**

이 연구는 단순히 데이터를 모은 것을 넘어, 'AI가 바로 이해할 수 있는 언어'로 의학 데이터를 번역했다는 데 큰 의의가 있습니다. 이전에는 AI 개발자가 임상 용어를 이해하지 못해 데이터를 잘못 활용하는 경우가 많았으나, TrialBench는 실제 임상 현장의 시점(예: 임상 시작 전 정보만 활용)을 엄격히 반영하여 실무 적용 가능성을 높였습니다.

**6. 이 연구가 왜 중요한가요?**

임상 시험은 환자의 생명과 직결되는 동시에 천문학적인 자본이 움직이는 분야입니다.

**환자의 안전 보호:** AI가 사전에 부작용이나 사망 위험을 예측한다면, 위험한 임상 설계를 미리 수정하여 참여 환자의 안전을 지킬 수 있습니다.

**의료 비용 절감 및 신약 출시 가속화:** 실패할 가능성이 높은 임상을 조기에 식별하고 자원을 효율적으로 배분함으로써, 결과적으로 더 저렴하고 효과적인 치료제가 환자들에게 더 빨리 전달될 수 있는 기반을 마련해 줍니다.

이 연구는 'TrialBench'라는 오픈 소스 플랫폼을 통해 전 세계 연구자들에게 무료로 공개되어, 향후 신약 개발 방식에 혁신적인 변화를 가져올 것으로 기대됩니다.


chatGPT

이번에 발표된 TrialBench: Multi-Modal AI-Ready Datasets for Clinical Trial Prediction 논문은 임상시험 데이터를 인공지능(AI)이 바로 활용할 수 있도록 정리한 대규모 데이터셋 모음을 소개한 연구입니다. 이 논문은 단순히 “AI를 써보자”는 제안이 아니라, 실제 임상시험 설계와 운영에서 중요한 8가지 문제를 정의하고, 이를 해결할 수 있도록 23개의 AI 학습용 데이터셋을 체계적으로 구축했다는 점에서 의미가 있습니다.

연구 배경을 보면, 임상시험은 신약이나 치료법을 세상에 내놓기 전 반드시 거쳐야 하는 핵심 과정이지만, 실패율이 높고 비용과 시간이 매우 많이 듭니다. 1상부터 3상까지 진행하는 데 평균 7~11년이 걸리고, 수십억 달러의 비용이 소요되며, 최종 승인까지 성공하는 비율은 약 15% 수준에 불과합니다. 또한 중도 탈락, 부작용, 낮은 효과, 환자 모집 실패 등 다양한 위험 요인이 존재합니다. 한편 전 세계 임상시험 데이터는 방대하게 축적되어 있지만, 의료 지식과 데이터 과학을 동시에 이해해야 제대로 활용할 수 있어 AI 연구자들이 쉽게 접근하기 어려웠습니다. 이 연구는 바로 이 간극을 메우기 위해 시작되었습니다.

연구 목적은 임상시험과 관련된 핵심 예측 문제를 명확히 정의하고, 실제 현장에서 활용 가능한 “AI 준비 완료(AI-ready)” 데이터셋을 제공하는 것입니다. 연구진은 임상시험 설계와 운영에서 중요한 8가지 과제를 선정했습니다. 여기에는 임상시험 기간 예측, 환자 중도 탈락 예측, 중대한 이상반응 예측, 사망 사건 예측, 임상시험 승인 여부 예측, 임상시험 실패 원인 분류, 적격성 기준(환자 모집 기준) 설계, 약물 용량 결정이 포함됩니다. 단순한 이론적 제안이 아니라, 각 과제마다 입력 변수와 출력 목표를 명확히 정의하고, 실제 데이터를 연결해 학습 가능한 형태로 구성했습니다.

연구 방법을 보면, 주요 데이터 출처는 ClinicalTrials.gov 입니다. 이 사이트에는 48만 건 이상의 임상시험 정보가 XML 형식으로 저장되어 있습니다. 연구진은 여기에서 질환명, 약물명, 임상 단계, 적격성 기준, 시작일과 종료일, 결과 정보 등 다양한 변수를 추출했습니다. 여기에 더해 약물의 분자 구조와 특성을 얻기 위해 DrugBank 데이터를 연결했고, 승인 여부 및 결과 정보를 보완하기 위해 TrialTrove 자료도 활용했습니다. 또한 질환은 ICD-10 코드로 표준화해 질병 간 계층 구조 정보를 반영했습니다.

이 데이터는 단순한 표 형식이 아니라, 텍스트(예: 적격성 기준), 그래프(약물 분자 구조), 범주형·수치형 변수, 질병 코드, MeSH 용어 등 여러 형태가 결합된 ‘멀티모달 데이터’입니다. 예를 들어, 임상시험 기간 예측 과제는 약 14만 건 이상의 시험 데이터를 활용하며, 시작일과 종료일이 명확한 시험만 포함했습니다. 환자 중도 탈락 예측은 실제 탈락자 수와 등록 환자 수가 보고된 시험만 선별했습니다. 약물 용량 예측은 2상 시험 중 소분자 약물만 포함하는 등 과제별로 엄격한 기준을 적용했습니다. 또한 일부 과제에서는 자연어로 된 중단 사유를 AI를 활용해 네 가지 범주(성공, 모집 실패, 안전성 문제, 효과 부족)로 자동 분류해 라벨을 구축했습니다.

연구 결과로는, 각 데이터셋에 대해 기본적인 딥러닝 기반 멀티모달 모델을 적용해 성능을 검증했습니다. 텍스트는 BioBERT, 질병 코드는 계층 정보를 반영하는 GRAM 모델, 약물 분자 구조는 그래프 신경망(MPNN), 범주·수치형 데이터는 DANet 등을 활용해 각각 표현 벡터로 변환한 뒤 결합해 예측을 수행했습니다. 이를 통해 각 과제가 실제로 학습 가능하며, 데이터 품질이 충분히 모델 개발에 적합하다는 것을 보였습니다. 즉, 단순 데이터 공개가 아니라 “AI가 바로 실험해볼 수 있는 수준”까지 정제되었음을 기술적으로 검증한 것입니다.

고찰 부분에서 중요한 점은, 이 데이터셋이 실제 임상시험의 시간 흐름을 고려해 설계되었다는 것입니다. 예를 들어 시험 시작 전에 알 수 없는 결과 정보는 입력 변수에서 제외했습니다. 이는 현실에서 의사결정에 AI를 적용하는 상황을 가정한 설계입니다. 또한 무작위 분할뿐 아니라 시간 기준 분할(과거 데이터로 학습, 미래 데이터로 평가) 같은 전략도 제안해 실제 적용 가능성을 높였습니다. 다만 기업 전략 변경이나 자금 부족 같은 ‘예측 불가능한’ 실패 원인은 모델링 대상에서 제외하는 등 한계도 명확히 했습니다.

이 연구의 의의와 시사점은 세 가지로 정리할 수 있습니다. 첫째, 임상시험 설계의 주요 문제를 AI 관점에서 재정의해 표준 과제로 제시했다는 점입니다. 둘째, 방대한 공공 데이터를 정제하고 외부 데이터와 연계해 멀티모달 통합 데이터셋을 구축함으로써 연구자들의 진입 장벽을 크게 낮췄습니다. 셋째, 승인 예측이나 실패 원인 분석처럼 제약 산업에서 실질적 의사결정에 직결되는 문제를 다루어 산업적 파급력이 큽니다.

결론적으로 이 연구가 중요한 이유는, 임상시험의 실패와 지연이 단순한 비용 문제를 넘어 환자 치료 기회의 지연으로 이어지기 때문입니다. 만약 AI가 시험 기간을 단축할 수 있는 설계를 제안하고, 실패 가능성이 높은 시험을 사전에 식별하며, 안전성 위험을 조기에 경고할 수 있다면 신약 개발의 효율성과 성공률은 크게 향상될 수 있습니다. TrialBench: Multi-Modal AI-Ready Datasets for Clinical Trial Prediction 는 이러한 변화를 가능하게 하는 기반 인프라를 제공한다는 점에서, 임상시험 연구와 의료 AI 발전을 연결하는 중요한 이정표라고 할 수 있습니다.


grok

### 연구 배경

임상시험은 신약이나 의료기기 개발의 핵심 과정으로, 안전성과 효과를 검증하지만 높은 실패율(약 85%)과 막대한 비용(20억 달러), 긴 기간(7~11년)이 문제입니다. AI를 활용하면 시험 결과를 예측해 위험을 줄일 수 있지만, 데이터가 복잡하고 의학 전문 지식이 필요해 AI 전문가들의 참여가 제한적입니다. 이 연구는 ClinicalTrials.gov 등에서 수집된 방대한 데이터를 활용해 이러한 장벽을 낮추려 합니다.

### 목적

이 연구는 임상시험 설계의 8가지 주요 과제(시험 기간 예측, 환자 탈락 예측, 중증 부작용 예측, 사망 사건 예측, 시험 승인 예측, 실패 이유 식별, 환자 적격 기준 설계, 약물 용량 찾기)에 초점을 맞춰 23개의 AI-ready 데이터셋을 제작하는 데 목적이 있습니다. 이 데이터셋은 약물 분자 구조(SMILES), 질병 코드(ICD-10), 텍스트(적격 기준 등), 범주형/수치형 특징, MeSH 용어 등 멀티모달 입력을 포함해 AI 모델 개발을 촉진합니다.

### 방법

데이터는 ClinicalTrials.gov(48만 건 이상 시험 기록)에서 XML 형식으로 추출한 후, DrugBank(약물 구조), TrialTrove(시험 결과), ICD-10(질병 코드)으로 보강했습니다. 각 과제에 맞게 특징을 선별(예: 시험 시작 전 사용 가능한 데이터만)하고, 필터링(예: 10년 초과 시험 제외)을 적용했습니다. 레이블은 ChatGPT로 자동 추출하거나 계산했습니다. 기준 모델로 MPNN(약물 그래프), Bio-BERT(텍스트), GRAM(질병 코드) 등 멀티모달 딥러닝을 사용해 성능 검증했습니다.

### 결과

데이터셋 규모는 과제별로 다양하며, 예를 들어 시험 기간 예측은 14만 건, 약물 용량 찾기는 1만 2천 건입니다. 기준 모델 성능은 분류 과제(승인 예측 등)에서 F1 점수 0.7 이상을 다수 달성했으며, 회귀 과제(기간 예측)에서 MAE 0.8~1.4년 수준으로 나왔습니다. 데이터셋은 GitHub(https://huyjj.github.io/TrialBench/)에서 공개돼 Python/R 패키지로 다운로드 가능합니다.

### 고찰

데이터셋은 AI 모델이 바로 적용 가능할 정도로 잘 큐레이션됐으나, 일부 과제(예: 실패 이유 식별)에서 성능이 낮아 추가 개선이 필요합니다. 모든 임상시험 과제를 포괄하지 못한 한계가 있지만, 지속 업데이트를 통해 확장할 계획입니다. 실험 결과는 데이터의 신뢰성과 유용성을 입증합니다.

### 의의와 시사점

이 데이터셋은 AI 전문가들이 의학 지식 없이도 임상시험 문제를 해결할 수 있게 해, 시험 설계를 최적화하고 비용을 줄입니다. 예를 들어 환자 탈락 예측으로 모집 효율 높이고, 실패 이유 식별로 재시도 피할 수 있습니다. 이는 신약 개발 속도를 높여 환자 치료 옵션을 확대하는 데 기여합니다.

이 연구는 AI와 의학의 융합을 촉진해 임상시험의 실패를 줄이고, 궁극적으로 더 안전하고 효과적인 의료 솔루션을 빠르게 제공하는 데 중요합니다.


NotebookLM

**[블로그 포스팅] 인공지능이 신약 개발의 골든타임을 앞당긴다: 임상시험 예측 플랫폼 'TrialBench'**

새로운 약 하나가 우리 손에 쥐어지기까지 얼마나 많은 노력과 비용이 들어가는지 아시나요? 신약 개발의 핵심인 임상시험은 보통 10년 이상의 세월과 평균 20억 달러(약 2조 7천억 원)라는 막대한 비용이 투입되는 험난한 과정입니다. 하지만 이렇게 공을 들여도 최종 승인을 받는 비율은 고작 15% 내외에 불과하며, 많은 시도가 환자 모집 실패나 안전성 문제로 수포로 돌아가곤 합니다. 최근 이러한 임상시험의 위험을 줄이고 효율을 높이기 위해 인공지능(AI)을 활용하려는 시도가 늘고 있지만, 복잡한 의학 데이터와 전문 지식의 장벽 때문에 AI 전문가들이 선뜻 뛰어들기 어려웠던 것이 현실입니다.

**1. 연구 배경: 임상시험 데이터의 '비어 있는 연결 고리'**

임상시험은 과학적 발견이 실제 의료 현장에 적용되기 위한 필수적인 다리 역할을 합니다. 수년간의 임상시험을 통해 엄청난 양의 데이터가 쌓였지만, 이 데이터들은 텍스트, 숫자, 약물 구조 등 형태가 제각각인 '다중 모달(Multi-modal)' 성격을 띠고 있어 분석이 매우 까다로웠습니다. 특히 AI 엔지니어들이 의학적 배경 지식 없이 수많은 변수 중에서 무엇이 중요한지 판단하기란 거의 불가능에 가까웠습니다.

**2. 연구 목적: AI 전문가를 위한 '임상시험 종합 데이터 세트' 구축**

이번 연구의 핵심 목적은 AI 전문가들이 즉시 연구에 활용할 수 있도록 정제된 **'TrialBench'**라는 플랫폼을 구축하는 것입니다. 연구팀은 데이터 과학자들이 임상시험 설계의 핵심적인 문제들을 해결할 수 있도록 23개의 AI 맞춤형 데이터 세트를 정리하여 공개했습니다. 이를 통해 임상시험의 성공 가능성을 미리 점쳐보고, 불필요한 자원 낭비를 막는 것이 최종적인 목표입니다.

**3. 연구 방법: 8가지 핵심 과제와 5가지 데이터 형태의 통합**

연구팀은 2024년 2월까지 등록된 ClinicalTrials.gov의 48만 건 이상의 기록을 바탕으로 데이터를 수집했습니다. 단순히 데이터를 모으는 데 그치지 않고, 약물 정보(DrugBank)와 임상 결과 정보(TrialTrove)를 결합하여 정보를 더욱 풍부하게 만들었습니다. 연구팀이 정의한 **8가지 AI 예측 과제**는 다음과 같습니다:

* 임상시험 기간 예측 (Regression)

* 환자 중도 탈락 여부 및 비율 예측 (Classification/Regression)

* 심각한 부작용 발생 예측 (Classification)

* 사망 사건 발생 예측 (Classification)

* 최종 승인 여부 예측 (Classification)

* 임상시험 실패 원인 식별 (Multi-category Classification)

* 참여 적격성 기준(Eligibility Criteria) 설계 (Generation)

* 적정 약물 용량 찾기 (Ordinal Classification)

이 과정에서 약물의 분자 구조, 질병 코드(ICD-10), 자연어 텍스트, 수치 데이터, 의학 주제 표목(MeSH) 등 5가지 서로 다른 형태의 데이터를 모두 처리할 수 있는 정교한 AI 모델(Multi-modal Baseline)도 함께 제시되었습니다.

**4. 연구 결과: AI가 증명한 놀라운 예측 정확도**

연구팀이 개발한 TrialBench 데이터 세트를 최신 AI 알고리즘으로 검증한 결과, 대부분의 과제에서 상당히 우수한 성능이 나타났습니다. 특히 환자 탈락, 부작용, 승인 여부 등을 예측하는 14개의 주요 이진 분류 작업 중 11개에서 0.7 이상의 F1 점수(정확도와 재현율을 종합한 점수)를 기록했습니다. 이는 단순한 통계 모델을 넘어, AI가 복잡한 임상시험의 패턴을 유의미하게 파악하고 있음을 입증한 결과입니다.

**5. 고찰 및 의의: 임상시험 설계의 패러다임 변화**

TrialBench의 등장은 의학계와 AI 학계 사이의 장벽을 허무는 중요한 이정표가 될 것입니다. AI를 통해 임상시험 기간을 미리 예측하면 제약회사는 예산을 더 정확하게 짤 수 있고, 부작용을 미리 감지하면 환자의 안전을 획기적으로 높일 수 있습니다. 또한, 성공 가능성이 낮은 약물 후보를 초기에 가려내어 유망한 치료제에 자원을 집중할 수 있게 해줍니다.

**6. 이 연구가 왜 중요한가요?**

결국 이 모든 과정은 **'환자에게 더 빠르고 안전한 치료법을 전달하기 위해서'** 중요합니다. 임상시험의 실패 확률을 조금이라도 낮출 수 있다면, 신약 개발에 드는 천문학적인 비용과 시간을 줄일 수 있고 이는 곧 약가 인하와 의료 혜택의 확대로 이어집니다. TrialBench는 인공지능이라는 강력한 돋보기를 통해 임상시험의 위험 요소를 미리 찾아내어, 인류가 질병과 싸우는 속도를 한층 더 높여줄 것입니다.


Perplexity.ai

이 논문은 ‘임상시험을 더 빨리, 더 안전하게, 더 싸게 만들기 위해 AI가 실제로 쓸 수 있는 데이터 세트를 한 번에 정리해 둔 플랫폼(TrialBench)을 소개하는 연구’입니다. 

연구 배경  

신약이나 새로운 치료법이 세상에 나오기까지는 반드시 임상시험이라는 관문을 통과해야 합니다. 그런데 이 과정은 평균 7–11년이 걸리고, 비용은 약 20억 달러 수준이며, 결국 규제 승인을 받는 비율은 15% 정도에 불과할 만큼 실패 위험이 매우 큽니다. 특히 중간에 환자가 많이 탈락하거나 심각한 부작용이 발생하면 임상시험이 중단되기도 하고, 목표 인원을 모집하지 못해 실패하는 일도 흔합니다. 한편 ClinicalTrials.gov 같은 사이트에는 이미 48만 건이 넘는 임상시험 기록이 축적되어 있는데, 이 안에는 시험 설계, 대상 질환, 약물 특성, 부작용, 승인 여부 등 방대한 정보가 담겨 있어 AI가 패턴을 찾기에는 매우 좋은 재료입니다. 문제는 이 데이터를 AI가 바로 쓰기 어렵게 흩어져 있고, 어떤 질문을 던져야 의미 있는 예측을 할 수 있는지 정의하는 데 의학·통계·AI 지식이 모두 필요하다는 점입니다. 

연구 목적  

이 논문의 목표는 “임상시험에 AI를 도입하고 싶은데, 어디서 어떤 데이터를 어떻게 써야 할지 모르겠다”는 현실적인 문제를 해결하는 것입니다. 이를 위해 저자들은 ClinicalTrials.gov와 DrugBank, TrialTrove 등 여러 데이터베이스에서 정보를 모아, AI가 바로 학습할 수 있도록 가공된 23개의 ‘AI‑준비 완료’ 데이터 세트(TrialBench)를 만들었습니다. 동시에 임상시험 설계와 운영에서 정말 중요한 8가지 예측·생성 과제를 정리해, 각각에 대해 입력 변수(무엇을 보고), 출력 목표(무엇을 예측·생성할지), 평가 지표(성능을 어떻게 잴지)를 명확히 정의했습니다. 연구진은 각 과제에 대해 기본(baseline) AI 모델도 직접 만들어 돌려 봄으로써, 이 데이터가 실제로 학습에 쓸 수 있고 어느 정도까지 성능이 나오는지도 함께 보여 줍니다. 

연구 방법: 데이터 수집과 가공  

연구진은 2024년 2월 16일 이전에 ClinicalTrials.gov에 등록된 임상시험 XML 기록에서 핵심 요소들을 뽑아 표 형태(tabular)로 재구성했습니다. 여기에는 시험 단계(1상~4상), 대상 질환, 피험자 수, 성별·나이 제한, 실험군/대조군 정보, 부작용 통계, 종료·승인 여부 등 다양한 속성이 포함됩니다. 질환 이름은 기계가 다루기 쉽도록 질병분류 코드(ICD‑10)로 변환했고, 약물 정보는 DrugBank와 연결해 분자 구조(SMILES 문자열)와 약물의 물리·약리학적 성질을 추가했습니다. 또한 TrialTrove에서 각 임상시험의 최종 승인 여부와 실패 이유(효과 부족, 안전성 문제, 모집 실패, 전략적/기타 등)를 가져와 ‘정답 레이블’로 사용했습니다. 이런 정보를 바탕으로 연구진은 다섯 가지 종류의 **멀티모달** 입력(약물 분자 구조, 질환 코드, 자연어 텍스트, 수치/범주형 특성, MeSH 용어)을 구성하고, 이를 처리하기 위해 분자 신경망(MPNN), 바이오-BERT, 그래프 기반 주의(attention) 모델(GRAM) 등 서로 다른 AI 모듈을 결합한 통합 모델 구조를 설계했습니다. 이 모든 데이터와 코드, 평가 도구는 TrialBench 웹사이트에서 공개되어 누구나 내려받아 실험할 수 있게 했습니다. 

연구 방법: 8가지 AI 과제 정의  

이 논문이 제안하는 8가지 과제는 실제 제약회사나 연구자가 고민하는 지점을 그대로 반영합니다. 

1) 임상시험 기간 예측: 시험 시작부터 종료까지 몇 년이 걸릴지 연속값으로 예측하는 회귀 과제입니다. 대상 질환, 시험 설계, 피험자 특성, 포함/제외 기준 텍스트 등 다양한 정보를 입력으로 사용하며, 이를 통해 인력·예산·시설 계획을 더 정확히 세울 수 있습니다. 

2) 환자 탈락(드롭아웃) 예측: 임상시험에서 중도 탈락이 발생할지(발생 여부: 분류)와 어느 정도 비율로 발생할지(탈락률: 회귀)를 동시에 예측하는 이중 과제입니다. 이전 연구들에 따르면 전체 참가자의 약 30%가 탈락할 수 있어, 이를 미리 예측하면 필요한 모집 규모와 관리 전략을 더 잘 짤 수 있습니다. 

3) 심각한 이상반응(Serious Adverse Event) 예측: 약물 분자 구조, 질환, 설계 정보, 기준 텍스트 등을 바탕으로, 임상시험에서 심각한 이상반응이 나타날지를 예측하는 이진 분류 과제입니다. 이는 참가자 안전과 직결되며, 고위험 조합을 미리 찾아내 설계를 조정하는 데 도움을 줍니다. 

4) 사망 사건(모든 원인) 예측: 특정 임상시험에서 사망 사건이 발생할지를 예측하는 분류 과제입니다. 안전성이 특히 중요한 항암제·중증 질환 등에서 위험도 평가에 유용합니다. 

5) 임상시험 승인(성공) 예측: TrialTrove에서 가져온 승인 여부를 기준으로, 특정 임상시험이 최종적으로 규제 승인을 받을지(성공/실패)를 예측하는 과제입니다. 여러 단계의 데이터를 통합해 “이 설계와 이 약물 조합이 승인 가능성이 높은가”를 사전에 가늠하게 해 줍니다. 

6) 실패 이유 분류: 실패한 임상시험이 왜 실패했는지를 네 가지 범주(예: 효능 부족, 안전성 문제, 환자 모집 실패, 기타 전략·운영상 요인 등)로 분류하는 과제입니다. 이를 통해 어떤 패턴의 설계가 “모집 실패형”, “효과 부족형” 실패로 이어지는지 학습할 수 있습니다. 

7) 적절한 대상자 선정 기준(Eligibility Criteria) 생성: 질환, 약물, 관련 텍스트 정보를 입력으로 받아, 자연어 형태의 ‘포함/제외 기준’을 자동으로 생성하는 생성 과제입니다. 이는 연구자가 완전히 처음부터 문구를 쓰기보다 AI가 제안한 초안을 수정·보완하는 방식으로 생산성을 크게 높여 줄 수 있습니다. 

8) 약물 용량(dose) 추천: 약물의 분자 구조와 관련 용어(MeSH)를 보고 임상시험에서 사용될 적정 용량 범주(4단계)를 예측하는 분류 과제입니다. 초기 임상에서 지나치게 낮거나 높은 용량 설정으로 실패하는 위험을 줄이는 데 기여할 수 있습니다. 

주요 결과: 베이스라인 모델 성능  

연구진은 위 8가지 과제에 대해, 설계한 멀티모달 모델로 기본적인 학습을 수행하고 성능 지표를 제시했습니다. 예를 들어 환자 탈락 예측(분류)에서, 3상(Phase III) 시험 데이터에 대해 정밀도(precision)와 재현율(recall)이 각각 약 0.92, 0.97 수준으로 비교적 높은 성능을 보였고, PR‑AUC도 0.92 정도로 우수한 결과를 나타냈습니다. 반면 실패 이유 분류는 모든 단계에서 PR‑AUC와 F1 점수가 0.2~0.3 수준으로 낮아, 현재 모델과 데이터만으로는 실패 원인을 정밀하게 분류하는 것이 훨씬 어렵다는 점을 보여 줍니다. 심각한 이상반응과 사망 사건 예측에서는 1~3상 자료에서 ROC‑AUC가 대체로 0.8 이상으로 나와, 안전성 리스크 측면에서는 AI가 의미 있는 신호를 포착할 수 있음을 시사합니다. 임상시험 승인 예측과 약물 용량 추천은 중간 정도의 성능(ROC‑AUC 약 0.73~0.76 수준)으로, 더 정교한 모델 개발 여지가 크다는 메시지를 줍니다. 연구진은 이런 베이스라인 결과를 통해 “데이터는 충분히 유용하지만, 최고 성능을 내려면 커뮤니티의 추가 연구가 필요하다”는 출발선을 제시한 셈입니다. 

고찰: 이 연구에서 드러난 인사이트  

이 논문이 흥미로운 점은, 단순히 “데이터를 공개했다”는 수준을 넘어서, 임상시험의 어떤 부분이 AI로 ‘이미 어느 정도 잘 맞출 수 있는지’와 ‘여전히 어려운지’를 함께 보여 준다는 것입니다. 예를 들어 환자 탈락, 이상반응, 사망 사건처럼 비교적 명확한 결과(발생/비발생)를 예측하는 과제에서는 기본 모델만으로도 꽤 높은 성능이 나오는데, 이는 앞으로 더 큰 모델이나 특화된 알고리즘을 쓰면 실제 운영에 쓸 수 있을 정도로 발전할 가능성이 크다는 뜻입니다. 반대로 실패 이유처럼 복잡한 인간·조직·전략 요인이 얽힌 결과는 데이터와 모델로 설명하기가 훨씬 어려워, 단순히 기록만 많이 모았다고 해결되지는 않는다는 점도 드러납니다. 또한 임상시험 기간, 탈락률, 승인 가능성 등을 사전에 예측할 수 있다면, 제약회사 입장에서 “어떤 과제를 먼저, 어떤 설계로 진행할지”를 훨씬 전략적으로 결정할 수 있게 됩니다. 이 연구는 임상시험 데이터를 텍스트, 코드, 그래프 등 여러 형태로 나누어 처리하는 멀티모달 접근이 현실적인 효과를 발휘한다는 점도 간접적으로 보여 줍니다. 

의의와 시사점  

첫째, TrialBench는 임상시험 분야에서 AI 연구를 위한 ‘표준 경기장’을 마련했다는 의의가 있습니다. 이제 연구자들은 각자 다른 데이터셋을 조용히 쓰는 대신, 동일한 23개 데이터셋과 8개 과제, 공통 평가 지표를 기반으로 모델을 비교하며 발전시킬 수 있습니다. 둘째, 제약·바이오 업계에서는 이 플랫폼을 활용해 “우리 파이프라인의 임상시험 실패 위험을 줄일 수 있는지”, “리스크가 높은 설계는 무엇인지”를 연구 단계에서부터 탐색할 수 있습니다. 예를 들어 어떤 조건 조합에서 환자 탈락률이 높게 나오는지, 어떤 유형의 질환·약물 조합이 심각한 이상반응을 잘 일으키는지를 AI로 미리 체크해 설계를 조정할 수 있습니다. 셋째, 규제기관이나 공공 연구자에게도 TrialBench는 “어떤 설계 요소가 안전성과 성공률에 영향을 많이 주는지”를 체계적으로 분석할 수 있는 공통 자료가 됩니다. 넷째, 텍스트 기준 생성, 용량 추천 등은 장기적으로 ‘AI가 제안한 임상시험 초안’을 사람이 검토하는 형태의 공동 설계(workflow)를 가능하게 해, 연구자의 시간을 절약하면서도 더 안전하고 공정한 설계를 유도할 수 있습니다. 

이 연구가 왜 중요한가  

임상시험 하나가 실패하면, 수년간의 노력과 막대한 비용뿐만 아니라 환자들의 기대와 참여도 함께 사라집니다. 이 논문은 “어떻게 하면 이런 실패를 줄이고, 더 빨리 효과적인 치료법을 환자에게届け 할 수 있을까”라는 질문에 대해, 이론이나 주장만이 아니라 실제로 활용 가능한 데이터와 과제 정의를 한 번에 제공했다는 점에서 의미가 큽니다. 앞으로 더 많은 AI 연구자들이 TrialBench를 기반으로 새로운 모델을 개발하면, 임상시험의 기간을 줄이고, 탈락과 부작용을 줄이며, 성공 가능성이 높은 설계를 더 많이 선택하는 방향으로 의료 연구 전체가 효율화될 수 있습니다. 결국 이 연구는 “AI가 임상시험의 리스크를 미리 읽어내는 조언자”가 될 수 있는 현실적인 출발점을 마련했다는 점에서, 신약 개발 속도와 환자 안전 모두에 중요한 전환점이 될 수 있습니다. 


Kimi

# TrialBench: AI로 임상시험을 예측하는 새로운 데이터셋 플랫폼

## 연구 배경

신약 개발은 보통 7~11년이 걸리고 평균 20억 달러(약 2조 7천억 원)가 들지만, 성공 확률은 고작 15%에 불과합니다. 임상시험은 새로운 치료법의 안전성과 효과를 검증하는 필수 과정이지만, 환자 이탈, 심각한 부작용, 사망 사건, 승인 실패 등 다양한 리스크를 안고 있습니다. 이러한 문제를 미리 예측할 수 있다면 막대한 시간과 비용을 절약할 수 있을 텐데요, 바로 이 지점에서 인공지능(AI)이 주목받고 있습니다.

하지만 임상시험 데이터는 매우 복잡합니다. 약물 분자 구조, 질병 코드, 텍스트 기준(예: 참가 자격 기준), 숫자 데이터 등 여러 형태(모달리티)가 섞여 있고, 어떤 변수를 선택해 어떤 문제를 풀어야 할지 결정하려면 깊은 의학 지식이 필요합니다. 이러한 진입 장벽 때문에 데이터 과학자들이 임상시험 데이터를 활용하기 어려웠습니다.

## 연구 목적

이 연구는 AI 전문가들이 쉽게 접근할 수 있도록, 임상시험의 핵심 과제 8가지를 선정하고 각 과제별로 AI 학습용 데이터셋을 정제한 'TrialBench' 플랫폼을 만드는 것을 목표로 했습니다. ClinicalTrials.gov(미국 국립의학도서관이 운영하는 임상시험 정보 사이트)에서 48만 건 이상의 데이터를 수집하고, DrugBank(약물 정보), TrialTrove(시험 결과 정보), ICD-10(질병 분류 코드) 등 외부 데이터베이스와 연결해 풍부한 정보를 담았습니다.

## 연구 방법

연구팀은 8가지 예측 과제를 정의했습니다: (1) 임상시험 기간 예측, (2) 환자 이탈 예측, (3) 심각한 부작용 예측, (4) 사망 사건 예측, (5) 시험 승인 여부 예측, (6) 실패 원인 분류, (7) 참가 자격 기준 설계, (8) 약물 용량 결정. 각 과제마다 실제 AI 적용 시점을 고려해 적절한 입력 변수를 선택했습니다. 예를 들어 시험 완료 전에 예측해야 하는 과제라면, 시험 결과 정보는 입력에서 제외했습니다.

데이터는 5가지 모달리티로 구성됩니다: 약물 분자 구조(SMILES 문자열), 질병 코드(ICD-10), 텍스트(시험 요약, 자격 기준), 범주/숫자 특성(환자 연령, 혈압 등), 그리고 의학 주제 표현(MeSH)입니다. 특히 약물은 2차원 분자 그래프로, 질병 코드는 계층 구조를 반영한 그래프로 표현했습니다. 자연어 처리를 위해 Bio-BERT(생의학 텍스트 전용 AI 모델)를, 분자 그래프에는 메시지 전달 신경망(MPNN)을 적용하는 등 각 데이터 유형에 최적화된 AI 모델을 설계했습니다.

데이터 품질을 확보하기 위해 엄격한 선별 기준을 적용했습니다. 예를 들어 시험 기간 예측에서는 10년 이상 걸린 이상치를 제거했고, 자격 기준 설계 과제에서는 환자 모집에 성공한 완료된 시험만 포함했습니다. 일부 레이블(예: 실패 원인, 약물 용량)은 GPT-4를 활용해 자연어에서 자동으로 추출했습니다.

## 연구 결과

총 23개의 고품질 데이터셋이 구축되었습니다. 가장 큰 데이터셋은 임상시험 기간 예측(14만 1,940건)과 자격 기준 설계(13만 6,443건)였고, 약물 용량 결정은 2상 시험에 한정해 12,790건을 수집했습니다. 데이터셋은 대부분 80:20 비율로 훈련/테스트 세트를 분할했으며, 분류 과제에서는 클래스 분포를 유지하는 층화 샘플링을 적용했습니다.

다양한 AI 모델로 성능을 검증한 결과, 대부분의 과제에서 양호한 성능을 보였습니다. 환자 이탈 예측에서는 3상 시험에서 F1 점수 0.9455, 부작용 예측에서도 3상에서 F1 0.9297을 기록했습니다. 사망 사건 예측은 1상에서 F1 0.7695로 상대적으로 높은 성능을, 시험 승인 예측은 3상에서 F1 0.6724를 보였습니다. 반면 실패 원인 분류는 F1 점수가 0.15~0.20 수준으로 낮아, 이 과제가 가장 어려움을 시사했습니다. 회귀 과제인 시험 기간 예측에서는 R² 값이 0.31~0.65 범위였고, 자격 기준 설계(생성 과제)에서는 코사인 유사도 0.6988을 달성했습니다.

## 고찰

이 연구의 핵심 기여는 임상시험 데이터를 'AI가 바로 쓸 수 있는 형태'로 정제했다는 점입니다. 기존에는 데이터 과학자들이 XML 형태의 원시 데이터를 파싱하고, 어떤 변수가 중요한지 판단하고, 여러 데이터베이스를 연결하는 데 수개월이 걸렸습니다. TrialBench는 이 모든 전처리를 마쳤고, Python과 R 패키지로 제공되어 `trialbench.function.load_data()` 한 줄로 데이터를 불러올 수 있습니다.

다만 몇 가지 한계도 있습니다. 모든 데이터는 2024년 2월 이전에 등록된 시험으로, 최신 동향을 반영하지 못할 수 있습니다. 또한 일부 레이블은 GPT-4로 자동 추출했기 때문에 오류가 있을 수 있고, 실패 원인 분류처럼 성능이 낮은 과제는 아직 해결 과제로 남았습니다. 연구팀은 이 플랫폼을 지속적으로 업데이트할 계획이라고 밝혔습니다.

## 의의와 시사점

TrialBench는 '의학 전문가 없이는 접근 불가능했던' 임상시험 데이터를 민주화했습니다. 이제 AI 연구자들은 복잡한 의학 지식 없이도 자신만의 모델을 개발하고, 8가지 핵심 과제에서 성능을 경쟁적으로 비교할 수 있습니다. 특히 다중 모달리티(텍스트, 그래프, 숫자)를 동시에 다루는 새로운 AI 아키텍처를 테스트하기에 최적의 벤치마크가 될 것입니다.

실무적으로는 제약회사들이 임상시험 설계 초기 단계에서 리스크를 예측하고, 자원 배분을 최적화하며, 실패 가능성이 높은 시험을 사전에 선별하는 데 활용할 수 있습니다. 예를 들어 특정 약물과 질병 조합이 어느 용량에서 부작용 위험이 높은지, 어떤 자격 기준이 환자 모집을 방해하는지 데이터 기반으로 판단할 수 있게 된 것입니다.

## 왜 이 연구가 중요한가?

이 연구는 AI와 의학의 간극을 메우는 다리를 놓았습니다. 임상시험은 인류의 건강을 위해 필수적이지만, 그 실패 비용은 엄청납니다. TrialBench를 통해 개발된 예측 모델이 현장에 적용된다면, 불필요한 시험을 줄이고 유망한 치료법을 더 빨리 시장에 내놓을 수 있습니다. 궁극적으로는 환자의 생명을 구하고, 의료 비용을 낮추며, 신약 개발의 속도를 높이는 데 기여할 것입니다. 데이터 과학과 생명과학의 융합이 만들어낼 다음 혁신의 출발점이 될 연구입니다.





출처: @ye._.vely618

월요일, 6월 30, 2025

인공지능 기반 바이오마커 예측 시스템

인공지능을 이용한 바이오마커 예측? 발견 시스템에 대한 논문이 있어서 한번 가져와봤습니다. in-silico 논문이 아니라 세포에 나왔습니다. Orz 여튼 바이오마커에 대한 효용성을 확인해야하니 아마 실험결과가 많이 있어서 세포지에 출판되지 않았나 합니다.

제목은 AI-driven predictive biomarker discovery with contrastive learning to improve clinical trial outcomes 으로 인공지능을 기반으로 바이오마커를 예측하여 발굴 하는 시스템으로 임상시험 성공률을 높이는데 특화된듯 합니다.


DOI: 10.1016/j.ccell.2025.03.029


clova-x

---

# 연구 논문 요약: 인공지능 기반 예측 바이오마커 발견 시스템

---

## 연구 배경

현대 의학의 발전에도 불구하고, 암과 같은 질병의 치료는 여전히 어려움이 많습니다. 특히, 면역항암제와 같은 신약의 효능을 극대화하려면 환자 개개인의 특성에 맞춘 맞춤형 치료가 필요합니다. 이를 위해 등장한 것이 바로 예측 바이오마커입니다. 예측 바이오마커는 특정 치료제가 잘 들을지 미리 알려주는 도구로, 기존의 예후 마커와는 달리 치료 전후의 변화를 예측하는 데 초점을 맞춥니다. 따라서 이번 연구는 이러한 예측 바이오마커를 효율적으로 찾기 위해 인공지능(AI)을 활용한 시스템을 개발하는 것을 목표로 했습니다.

## 연구 목적

연구진은 인공지능 기반의 예측 바이오마커 발견 시스템인 Predictive Biomarker Modeling Framework(PBMF)를 통해 면역종양학과 같은 어려운 치료 영역에서 임상 시험의 결과를 개선하고자 했습니다. 그들은 치료 생존 결과를 소급적으로 향상시킬 수 있는 예측 마커를 찾는 것을 주요 목표로 삼았습니다.

## 데이터 또는 재료 설명

연구에 사용된 데이터는 매우 다양합니다. 환자 데이터베이스(예: TCGA, UK Biobank), 과거 실패한 임상 시험 데이터, 바구니 임상 시험 데이터(여러 치료법을 동시에 테스트하는 임상 시험) 등이 포함되며, 유전체학, 방사선학, 영상 데이터, 건강 기록 등 여러 종류의 데이터가 활용되었습니다. 이러한 데이터는 대규모 언어 모델, 생성 모델, 확산 모델, 전통적인 머신러닝 모델 등 다양한 사전 훈련된 모델들을 통합하여 분석되었습니다.

## 연구 방법

PBMF 시스템은 대조 학습이라는 기법을 사용하여 작동합니다. 대조 학습은 치료 그룹과 통제 그룹 간의 데이터 차이를 학습하여 치료 효과를 예측하는 신호를 찾아내는 방식입니다. 이를 위해 여러 개의 신경망 네트워크를 독립적으로 훈련시키고, 과적합을 최소화하기 위해 앙상블 접근법을 취합니다. 최종적으로는 단순하고 해석 가능한 의사결정 트리로 변환하여 임상적으로 적용 가능한 결과를 도출합니다.

## 연구 결과 및 예시

연구 결과, PBMF 시스템은 실제로 초기 단계 연구 데이터만을 기반으로 예측 가능한 바이오마커를 발견하였고, 이를 통해 3상 임상 시험에서 생존 위험을 15% 향상시키는 성과를 보였습니다. 예를 들어, POPLAR 단계 2 임상 시험 데이터를 분석한 결과, PBMF는 특정 치료제의 효과를 더 잘 예측할 수 있는 바이오마커를 찾아내었고, 이는 원래 시험에 비해 더 나은 환자 선택과 치료 효과를 이끌어냈습니다.

## 의미와 영향

이 연구는 우리 일상과 사회에 큰 영향을 미칠 수 있습니다. 첫째, 면역항암제와 같은 신약의 효능을 극대화하여 더 많은 환자들이 혜택을 받을 수 있게 됩니다. 둘째, 임상 시험의 성공률을 높여 의약품 개발 과정을 단축시키고 비용을 절감할 수 있습니다. 셋째, 예측 바이오마커의 해석 가능성을 높여 의료진이 보다 직관적으로 환자 치료 계획을 세울 수 있게 도와줍니다.



chatGPT

## 📌 연구 제목  

**인공지능으로 예측 가능한 바이오마커를 찾다: 임상시험 성공률을 높이는 새로운 방법**

---

### 🔍 연구 배경 – 이 연구가 왜 필요했을까요?

암 치료를 포함한 많은 약물 개발 과정에서, 어떤 환자가 특정 치료에 잘 반응할지 예측하는 것은 매우 중요합니다. 하지만 실제로는 이 예측이 어렵고, 그래서 많은 임상시험이 실패로 끝나곤 합니다. 특히 **면역항암제**처럼 예측이 어려운 치료법에서는 더욱 그렇죠. 기존에 사용되던 예측 방법들은 복잡하고, 방대한 데이터를 제대로 활용하지 못하는 한계가 있었어요.

---

### 🎯 연구 목적 – 연구진이 알고자 했던 것

연구진은 **환자가 특정 치료에 잘 반응할 가능성을 예측해주는 바이오마커**를 더 효과적으로 찾아내는 방법을 개발하고자 했습니다. 특히, **면역항암제**처럼 기존에는 예측이 어려웠던 치료법에서 그 가능성을 알아보고자 했죠.

---

### 🧬 사용한 데이터와 재료 – 어떤 자료를 가지고 연구했을까요?

연구진은 실제 임상시험 데이터와 유전체 정보, 환자의 임상 기록 등을 활용했습니다. 예를 들어:

- 암 환자의 유전자 발현 정보 (RNA 데이터)

- 종양의 크기, 나이, 성별 같은 임상 정보

- 다양한 약물 치료를 받은 환자들의 생존 기간 정보

이런 데이터는 과거에 진행된 **임상시험**, **실제 병원 기록(Real-world data)**, **유전자 검사** 등을 통해 수집된 것입니다.

---

### 🧪 연구 방법 – 어떻게 연구가 진행되었을까요?

기존 방식은 데이터를 일일이 분석하고 가설을 세워야 했지만, 이 연구는 **‘PBMF’라는 인공지능 프레임워크**를 사용했습니다. PBMF는 다음과 같은 특징이 있어요:

- **대조 학습(contrastive learning)**이라는 AI 기술을 활용해, 치료받은 그룹과 안 받은 그룹을 비교합니다.

- 데이터를 넣으면 인공지능이 **복잡한 연관성을 자동으로 찾아냅니다.**

- 결과적으로, “이 환자는 이 약물에 효과가 있을 확률이 높다”는 예측 점수를 뽑아낼 수 있죠.

그리고 이 모델이 뽑은 결과를 **의사들이 쉽게 이해할 수 있도록 ‘결정 트리’ 형태로 단순화**하는 것도 함께 진행했어요.

---

### 📊 연구 결과 – 어떤 발견이 있었을까요?

- PBMF는 기존 방법보다 **더 정확하게 예측 가능한 바이오마커**를 찾아냈습니다.

- 실제로, 어떤 환자들이 면역항암제에 더 잘 반응하는지 예측해, **생존률을 최대 15% 향상**시킬 수 있었어요.

- 예를 들어, 폐암 환자의 경우 특정 유전자 조합이나 면역 관련 지표가 높으면 면역항암제에 더 좋은 반응을 보였다는 사실을 밝혔습니다.

- 이 방법은 **실제 임상시험 설계에도 적용 가능**하며, 임상시험의 성공 가능성을 높일 수 있습니다.

---

### 🌍 연구의 의미 – 우리 삶에 어떤 영향을 줄까요?

이 연구는 향후 **개인 맞춤형 치료(정밀의료)**의 핵심 기술로 활용될 수 있어요. 몇 가지 기대 효과를 정리하면:

- **환자 개개인에 맞는 약 선택이 가능해져 부작용 감소**

- **임상시험의 성공률 상승 → 신약 개발 속도 향상**

- **건강보험 자원 낭비 줄이기**

즉, 이 기술이 널리 사용된다면 **의사들이 “누가 어떤 치료를 받아야 하는지”를 훨씬 정확하게 결정**할 수 있게 됩니다.

---

### ✏️ 마무리하며

복잡한 의료 데이터를 인공지능이 분석하고, 그 결과를 실제 치료에 적용할 수 있게 만드는 이 연구는 정밀의료 분야의 큰 진보입니다. 앞으로 더 많은 연구와 실제 적용을 통해, **더 많은 생명을 살릴 수 있는 도구**가 될 것으로 기대됩니다.

---

필요하시면 블로그 스타일에 맞게 이미지나 예시를 추가로 만들어드릴 수도 있어요. 어떤 톤(예: 과학칼럼 느낌, 친근한 수필 느낌 등)으로 꾸미고 싶으신가요? 😊



NotebookLM

**연구 배경 – 왜 이 연구가 필요했을까요?**

암 치료는 매우 복잡하고, 환자마다 치료 반응이 다르게 나타날 수 있습니다. 특히 **면역 항암 치료**와 같이 효과를 예측하기 어려운 치료법의 경우, 어떤 환자에게 효과가 있을지 미리 알 수 있다면 불필요한 치료를 줄이고 더 적합한 치료법을 선택할 수 있습니다. 기존에는 암의 진행 정도를 예측하는 **예후 바이오마커** 연구가 많았지만, 특정 치료법에 대한 반응을 예측하는 **예측 바이오마커**를 찾는 것은 더 어렵습니다. 따라서, 어떤 치료법이 특정 환자에게 효과가 있을지를 미리 예측할 수 있는 새로운 방법이 절실히 필요했습니다.

**연구 목적 – 연구진은 무엇을 알고 싶어 했을까요?**

본 연구의 연구진들은 **인공지능(AI) 기반**의 새로운 분석 방법인 **예측 바이오마커 모델링 프레임워크 (Predictive Biomarker Modeling Framework, PBMF)**를 개발하고자 했습니다. 이 PBMF는 특히 예측이 어려운 치료법, 예를 들어 면역 항암 치료에서 어떤 환자들이 치료 효과를 볼 수 있을지 미리 예측할 수 있는 바이오마커를 찾는 것을 목표로 했습니다. 간단히 말해, **"어떤 환자가 이 치료를 받았을 때 생존율이 더 높아질까?"** 하는 질문에 답을 찾고 싶었던 것입니다.

**데이터 또는 재료 설명 – 어떤 데이터가 사용되었나요?**

연구진들은 다양한 **실제 임상 연구 데이터**와 **실제 의료 데이터**를 사용했습니다. 이러한 데이터에는 다양한 암 종류 (예: 비소세포성 폐암, 유방암, 신장암, 요로상피암) 환자들의 치료 정보 (예: 항암 치료, 면역 항암 치료), 생존 기간, 그리고 다양한 환자 특징 (예: 나이, 성별, 유전자 정보, 종양 크기 등)이 포함되어 있었습니다. 마치 여러 병원에서 오랫동안 기록된 환자들의 상세한 치료 기록을 모아서 분석하는 것과 비슷하다고 생각하시면 됩니다.

**연구 방법 – 연구는 어떻게 진행되었나요?**

연구진들은 개발한 **PBMF**라는 인공지능 모델을 사용하여 예측 바이오마커를 찾았습니다. 이 모델은 **대조 학습 (contrastive learning)**이라는 방식을 사용하는데, 이는 치료 효과를 본 환자 그룹과 그렇지 않은 환자 그룹을 비교하면서 어떤 특징이 치료 반응을 예측하는 데 중요한지 학습하는 방법입니다. 마치 "성적이 오른 학생들과 성적이 그대로인 학생들의 공부 방법을 비교해서 어떤 방법이 더 효과적인지 알아내는 것"과 비슷하게 이해할 수 있습니다.

또한, 연구진들은 PBMF의 성능을 확인하기 위해 기존에 사용되던 다른 분석 방법들 (VT, SIDES)과 비교 분석했습니다. 다양한 가상 데이터 세트와 실제 임상 데이터 세트를 이용하여 각 방법이 예측 바이오마커를 얼마나 정확하게 찾아내는지 평가했습니다.

더 나아가, PBMF를 통해 찾은 복잡한 바이오마커를 실제 임상에서 더 쉽게 활용할 수 있도록 **해석 가능한 의사 결정 트리** 형태로 단순화하는 방법도 개발했습니다. 이는 마치 인공지능이 찾아낸 중요한 환자 특징들을 바탕으로 "만약 환자의 A 수치가 이렇고 B 유전자 변이가 있다면 이 치료법이 효과가 있을 가능성이 높다"와 같이 간단한 규칙을 만드는 것이라고 생각하시면 됩니다.

**연구 결과 및 예시 – 어떤 결과가 나왔나요?**

연구 결과, PBMF는 다양한 암 종류와 치료법에서 기존의 방법들보다 **더 정확하게 예측 바이오마커를 식별하는 능력**을 보여주었습니다. 특히 예측이 어려웠던 면역 항암 치료 분야에서 PBMF의 우수한 성능이 확인되었습니다.

예를 들어, 비소세포성 폐암 환자들을 대상으로 한 연구에서 PBMF는 특정 유전자 변이나 환자 특징을 가진 그룹이 특정 면역 항암 치료 (atezolizumab)에 더 큰 효과를 볼 수 있다는 것을 예측했습니다. 실제로 PBMF를 통해 예측된 바이오마커를 사용하여 환자들을 분류했을 때, 바이오마커 양성 그룹에서 해당 면역 항암 치료를 받은 환자들의 생존율이 그렇지 않은 환자들보다 훨씬 높게 나타났습니다. 또한, PBMF를 통해 얻은 예측력을 바탕으로 간단한 의사 결정 트리를 만들어, 실제 임상 환경에서 의사들이 환자를 더 쉽게 분류하고 치료법을 결정하는 데 도움을 줄 수 있다는 것을 보여주었습니다.

**의미와 영향 – 이 연구가 우리 일상이나 사회에 어떤 영향을 줄 수 있을까요?**

이 연구는 다음과 같은 중요한 의미와 영향을 가질 수 있습니다.

*   **더욱 정밀한 암 치료:** PBMF를 통해 특정 치료법에 잘 반응할 환자를 미리 예측할 수 있게 되면, 불필요한 치료를 줄이고 환자에게 가장 적합한 치료법을 선택할 수 있게 됩니다. 이는 **개인 맞춤형 암 치료** 시대를 앞당기는 데 기여할 수 있습니다.

*   **임상 시험 효율성 증대:** 새로운 암 치료법을 개발하는 임상 시험에서 PBMF를 활용하면, 치료 효과를 볼 가능성이 높은 환자 그룹을 선별하여 시험을 진행할 수 있습니다. 이는 임상 시험의 성공률을 높이고 신약 개발 기간을 단축하는 데 도움이 될 수 있습니다.

*   **의료 비용 절감:** 불필요한 치료를 줄이고 효과적인 치료법을 빠르게 적용함으로써 환자와 의료 시스템 전반의 경제적 부담을 줄일 수 있습니다.

다만, 연구진들은 PBMF가 **새로운 예측 바이오마커를 발굴하는 도구**이며, 실제로 임상에 적용하기 위해서는 **추가적인 검증 과정**이 필요하다고 강조합니다.

이 연구를 통해 개발된 PBMF는 앞으로 암 치료 분야에서 환자 맞춤형 치료 전략을 수립하고 새로운 치료법 개발을 가속화하는 데 중요한 역할을 할 수 있을 것으로 기대됩니다.



grok3

암 치료를 더 정확하게! AI로 예측 바이오마커를 찾는 연구 이야기

안녕하세요, 여러분! 오늘은 암 치료에 큰 도움을 줄 수 있는 흥미로운 연구를 소개하려고 해요. 이 연구는 복잡한 암 데이터를 AI로 분석해서 더 효과적인 치료법을 찾는 방법을 다루고 있답니다. 전문 용어가 많을 수 있지만, 최대한 쉽게 풀어서 설명해볼게요!

연구 배경 – 왜 이 연구가 필요했나요?

암은 사람마다 다르게 나타나요. 같은 암이라도 어떤 사람은 특정 약에 잘 반응하지만, 다른 사람은 효과를 보지 못할 수도 있죠. 이런 차이를 이해하려면 환자에게 어떤 치료가 가장 효과적일지 예측할 수 있는 ‘바이오마커’가 필요해요. 바이오마커는 우리 몸에서 특정 치료가 잘 들을지 알려주는 신호 같은 거예요. 예를 들어, 유방암 환자 중 특정 유전자를 가진 사람은 특정 약에 더 잘 반응한다는 식이죠.

하지만 문제는 이 바이오마커를 찾는 게 정말 어렵다는 거예요. 특히 면역항암치료처럼 새로운 치료법은 어떤 신호를 찾아야 할지 명확하지 않아요. 기존 방법으로는 수많은 데이터를 일일이 분석하기 힘들었고, 그래서 더 똑똑한 방법이 필요했답니다. 이 연구는 AI를 사용해 더 정확하고 빠르게 바이오마커를 찾으려는 시도예요.

연구 목적 – 연구진이 알고자 했던 것

연구진은 AI를 활용해 암 환자 데이터를 분석해서 예측 바이오마커를 찾아내고 싶었어요. 예측 바이오마커는 단순히 병이 얼마나 심한지 알려주는 게 아니라, 특정 치료(예: 면역항암치료)가 환자에게 효과가 있을지 예측할 수 있는 신호를 말해요. 목표는 이런 바이오마커를 찾아서 임상시험에서 더 적합한 환자를 골라내고, 결국 치료 성공률을 높이는 거였답니다.

쉽게 말해, 연구진은 AI로 데이터를 분석해서 “이 환자는 이 약을 쓰면 더 오래 건강하게 살 수 있을 거야!”라고 알려주는 도구를 만들고 싶었던 거예요.

데이터 또는 재료 설명 – 어떤 데이터가 사용되었나요?

이 연구에서는 암 환자들의 임상 데이터와 유전자 데이터를 사용했어요. 임상 데이터는 환자의 나이, 성별, 암의 종류, 병의 진행 정도 같은 정보예요. 유전자 데이터는 환자의 종양에서 RNA, DNA, 단백질 같은 생물학적 정보를 분석한 거예요. 예를 들어, 어떤 유전자가 활성화되어 있는지, 특정 유전자가 변이했는지 같은 정보를 봤답니다.

이 데이터는 여러 임상시험과 실제 환자 기록에서 가져왔어요. 예를 들어:

유방암 환자 데이터를 통해 어떤 환자가 호르몬 치료와 화학요법을 같이 받으면 더 오래 생존하는지 분석했어요.

폐암, 신장암, 방광암 같은 다양한 암의 데이터를 사용해 면역항암치료 효과를 예측했어요.

일부 데이터는 가상의 데이터를 만들어서 테스트하기도 했답니다.

일반인 입장에서는 이 데이터가 엄청난 양의 숫자와 코드처럼 보일 수 있어요. 마치 병원에서 받은 건강검진 결과지를 훨씬 더 복잡하게 만든 느낌이죠. 하지만 AI는 이 데이터를 빠르게 분석해서 패턴을 찾아낼 수 있답니다!

연구 방법 – 연구가 어떻게 진행되었나요?

연구진은 **PBMF(Predictive Biomarker Modeling Framework)**라는 AI 도구를 만들었어요. 이 도구는 데이터를 분석해서 어떤 환자가 특정 치료에 더 잘 반응할지 알아내는 데 초점을 맞췄어요. 진행 과정을 쉽게 설명해볼게요:

데이터 입력: 환자의 임상 데이터와 유전자 데이터를 AI에 넣어요. 예를 들어, “이 환자는 폐암이고, 이런 유전자가 변이했으며, 나이는 60세야” 같은 정보요.

AI 학습: PBMF는 콘트라스티브 러닝이라는 방법을 사용해요. 이건 쉽게 말해, 치료를 받은 환자와 안 받은 환자를 비교해서 어떤 차이가 치료 효과를 만드는지 찾아내는 방식이에요. AI는 수많은 데이터를 보고 패턴을 학습해요.

바이오마커 찾기: AI는 어떤 유전자나 임상 정보가 특정 치료의 성공과 관련 있는지 알아내요. 예를 들어, “이 유전자가 활성화된 환자는 면역항암치료를 받으면 더 오래 살아” 같은 식으로요.

결과 간소화: AI가 찾은 복잡한 패턴을 결정 트리라는 간단한 규칙으로 바꿔줘요. 예를 들어, “나이가 50세 이상이고, 이 유전자가 있으면 치료 효과가 좋아” 같은 규칙이죠. 이렇게 하면 의사들이 결과를 쉽게 이해하고 사용할 수 있어요.

검증: 연구진은 이 AI를 실제 임상시험 데이터와 가상 데이터로 테스트해서 정말 정확한지 확인했어요.

이 과정은 마치 요리 레시피를 만드는 것과 비슷해요. 재료(데이터)를 넣고, AI라는 믹서로 섞어서 맛있는 결과(바이오마커)를 만들어내는 거죠!

연구 결과 및 예시 – 어떤 결과가 나왔고, 예시로 설명해보면?

연구 결과, PBMF는 기존 방법보다 훨씬 더 정확하게 예측 바이오마커를 찾아냈어요. 주요 결과를 정리해볼게요:

다양한 암에서 성공: 폐암, 신장암, 방광암 같은 여러 암에서 면역항암치료의 효과를 예측할 수 있는 바이오마커를 찾아냈어요. 예를 들어, 폐암 환자 중 특정 유전자 패턴을 가진 사람들은 면역항암치료를 받으면 생존 기간이 15% 더 길어졌어요.

임상시험 개선: 과거의 임상시험 데이터를 다시 분석해서 더 적합한 환자를 골라내면 치료 성공률이 10~15% 향상된다는 걸 보여줬어요. 예를 들어, POPLAR라는 임상시험 데이터를 분석해서 OAK라는 후속 시험에서 더 효과적인 환자 그룹을 골라낼 수 있었어요.

쉽게 이해 가능한 결과: AI가 찾아낸 복잡한 패턴을 결정 트리로 바꿔서 의사들이 바로 사용할 수 있게 했어요. 예를 들어, “특정 유전자가 변이했고, 나이가 50세 미만인 환자는 이 약을 써야 효과가 좋아” 같은 간단한 규칙이 나왔죠.

예시: 폐암 환자 A와 B가 있다고 해볼게요. A는 특정 유전자 변이가 있고, B는 없어요. PBMF는 A가 면역항암치료를 받으면 더 오래 건강하게 살 가능성이 높다고 예측해요. 반면, B는 다른 치료법이 더 적합하다고 알려주죠. 이렇게 하면 A는 자신에게 맞는 치료를 받고, B는 불필요한 부작용을 피할 수 있어요.

의미와 영향 – 이 연구가 우리에게 어떤 도움을 줄까?

이 연구는 암 치료를 훨씬 더 개인화할 수 있게 해줘요. 주요 영향을 정리해보면:

더 나은 치료 선택: 환자마다 어떤 치료가 효과적일지 미리 알 수 있으니, 시간과 비용을 아끼고 부작용을 줄일 수 있어요. 환자가 자신에게 맞는 약을 빨리 받을 수 있죠.

임상시험 성공률 향상: 새로운 약을 개발할 때 더 적합한 환자를 골라내면 시험 성공률이 높아져요. 결국 좋은 약이 더 빨리 시장에 나올 수 있답니다.

의료비 절감: 잘못된 치료를 피하면 병원비도 줄어들고, 환자와 가족의 부담도 덜어져요.

미래 의료의 시작: 이 AI 기술은 암뿐만 아니라 다른 질병에도 적용될 수 있어요. 예를 들어, 당뇨병이나 심장병 치료에서도 비슷한 방식으로 환자에게 맞는 치료를 찾을 수 있죠.

일상적으로 생각해보면, 이 연구는 우리가 병원에 갔을 때 의사가 “당신에게는 이 약이 최고예요!”라고 자신 있게 말할 수 있게 해주는 기술이에요. 더 정확한 진단과 치료로 더 건강한 삶을 살 수 있는 거죠!

이 연구는 아직 초기 단계이지만, 앞으로 더 많은 환자에게 희망을 줄 수 있는 기술이에요. 여러분은 이런 AI 기술이 의료에 어떻게 쓰이는 것 같나요? 댓글로 의견 나눠보면 좋을 것 같아요! 😊



perplexity.ai

## 연구 배경

최근 임상시험에서는 한 명의 환자에 대해서도 수만 개의 유전자, 임상 정보 등 다양한 데이터를 수집할 수 있게 되었습니다. 하지만 이렇게 많은 데이터 속에서 '예측적 바이오마커(특정 치료에 더 잘 반응할 환자를 미리 골라낼 수 있는 생체 지표)'를 찾는 일은 여전히 매우 어렵습니다. 기존에는 주로 '예후 바이오마커(치료와 상관없이 병의 경과를 예측)'를 많이 사용했지만, 실제로 환자에게 가장 적합한 치료를 선택하려면 예측적 바이오마커가 더 중요합니다. 특히 면역항암제처럼 반응이 복잡하게 나타나는 치료에서는 이런 바이오마커의 필요성이 더욱 커지고 있습니다[1].

## 연구 목적

이 연구진은 기존 방법의 한계를 극복하고, 실제 임상 현장에서 쓸 수 있는 예측적 바이오마커를 더 잘 찾아내기 위해 새로운 인공지능(AI) 기반 프레임워크, 즉 'PBMF(Predictive Biomarker Modeling Framework)'를 개발했습니다. 연구진은 이 프레임워크가 기존 방식보다 더 정확하게, 그리고 해석이 쉬운 방식으로 예측적 바이오마커를 찾아낼 수 있는지 확인하고자 했습니다[1].

## 데이터 또는 재료 설명

연구진은 실제 임상시험 데이터와 가상(시뮬레이션) 데이터를 모두 사용했습니다. 예를 들어, 유방암 환자의 나이, 폐경 여부, 종양 크기, 유전자 정보, 면역항암제 임상시험에서의 유전자 발현 데이터, 당뇨망막병증 환자의 나이와 당뇨 유형 등 다양한 질병과 치료 데이터를 활용했습니다. 즉, 우리가 병원에서 흔히 접할 수 있는 환자 정보와 최신 유전자 검사 결과 등이 모두 포함되어 있습니다[1].

## 연구 방법

연구진이 개발한 PBMF는 인공지능 기술 중 하나인 '신경망'과 '대조 학습(contrastive learning)'을 결합한 방식입니다. 쉽게 말해, 이 방법은 두 집단(특정 치료를 받은 그룹과 비교 치료를 받은 그룹)에서 각각 어떤 특징이 치료 효과와 관련이 있는지를 AI가 스스로 찾아냅니다. 여러 개의 신경망을 동시에 학습시켜 가장 성능이 좋은 결과만 남기고, 마지막에는 의사들이 이해하기 쉬운 '의사결정나무' 형태로 결과를 정리할 수 있습니다. 기존 방식처럼 복잡한 수식이나 전문가의 사전 지식 없이, 데이터만 있으면 AI가 알아서 중요한 바이오마커를 찾아주는 것이 특징입니다[1].

## 연구 결과 및 예시

PBMF는 기존의 대표적인 방법들(SIDES, Virtual Twins)보다 예측적 바이오마커를 더 잘 찾아냈습니다. 예를 들어, 가상 데이터 실험에서는 PBMF가 두 가지 예측적 특징과 하나의 예후적 특징이 섞여 있을 때도 정확하게 예측적 바이오마커만 뽑아냈습니다. 실제 임상시험 데이터(예: 면역항암제 임상시험)에서도 PBMF가 더 정확하게 환자 그룹을 나누었고, 이 바이오마커를 활용하면 임상시험에서 환자의 생존율이 10~15% 더 높아지는 것으로 나타났습니다. 예를 들어, 기존 임상시험에서 모든 환자를 대상으로 했을 때보다, PBMF가 골라낸 바이오마커를 가진 환자만을 대상으로 치료하면 더 좋은 결과를 얻을 수 있다는 뜻입니다[1].

## 의미와 영향

이 연구에서 개발한 PBMF는 앞으로 임상시험 설계나 신약 개발, 그리고 실제 환자 치료 현장에서 매우 유용하게 쓰일 수 있습니다. 특히, 면역항암제처럼 효과가 예측하기 어려운 치료에서도 환자별로 맞춤형 치료 전략을 세울 수 있어, 불필요한 치료를 줄이고 환자의 생존율과 삶의 질을 높일 수 있습니다. 또한, 이 프레임워크는 다양한 질병과 데이터에 적용할 수 있어, 앞으로 정밀의료(환자 맞춤형 치료) 시대를 앞당기는 데 큰 역할을 할 것으로 기대됩니다[1].




출처: @ye._.vely618


월요일, 10월 30, 2023

Clinical Trial 자료는 어떻게 확인 할 수 있을까?

미국 임상시험 자료는 잘 정리되어 공개되어 있기로 유명하죠

clinical trial 사이트에서 확인 가능한데 

매번 일일이 clinicaltrials.gov에 들어가서 찾기 귀찮은데..

근데 API는 사용할 수준은 안되고..


무슨 방법이 없을까하고 머리를 계속 굴리다보면 찾아지는게 인지상정 아니겠습니까,

물론 최근 새로 리뉴얼 된 clinicaltrial.gov에서는 제공되지는 않습니다.

예전 clinicaltrials사이트인 classic.clinicaltrials.gov에서 확인 가능합니다.

친절하게 다음 URL을 당신의 브라우저에 입력하면 파일을 다운로드 받을 수 있다 라고 얘기하고 있습니다.

https://classic.clinicaltrials.gov/AllPublicXML.zip


대신 이 파일이 최신 임상 시험 자료까지 포함하고 있다고 자신은 못할 것 같습니다. :)

내부에 미국 임상시험 DB를 구축하고 싶을 때 사용할 수 있음직한 파일이 될 것 같습니다.


다음에 또 유용한 정보를 가지고 돌아와보도록 하겠습니다. :)






출처: @ye._.vely618