Lee Gir-Won (Lee Gil-Won): expert-level

AI라는 용어가 나온지 50년정도가 지난거 같은데 이제서야 우리 삶에 많이 들어온 것 같습니다.

그중에서도 연구를 하는데에 있어서도 AI의 능력, AI를 활용하는 것은 필수적이 된 것 같습니다.

AI와 협업하여 기존의 방법보다 더 낳은 방법들을 빠르게 고안해서 적용 하게 되었으니 말입니다.

아직 정식 저널지에 올라간 것은 아니나 논문 작성자들이 구글 직원들이라는 점에서 들여다보면 좋을것 같아서 한번 가져와봤습니다. 제목은 An AI system to help scientists write expert-level empirical software 입니다.

DOI: 10.48550/arXiv.2509.06503

추석 연휴 시작인데 풍성하고 건강하며 무탈한 추석 연휴들 보내시기 바랍니다 :)

gemini

### 과학자를 돕는 AI 시스템: 과학 연구를 가속화하는 새로운 방법
---
#### 📌 연구 배경 및 목적
[cite_start]과학 연구는 종종 복잡한 계산 소프트웨어를 직접 만들어야 하는 문제에 부딪힙니다[cite: 1, 15]. [cite_start]이러한 '실증적 소프트웨어'는 특정 관측 데이터를 바탕으로 성능을 측정하고 최적화하는 데 사용됩니다[cite: 1, 15]. [cite_start]하지만 이 소프트웨어를 개발하는 데는 수년이 걸리기도 하고, 체계적인 탐색 없이 직관이나 편의에 따라 설계되는 경우가 많아 과학적 발견의 속도를 늦추는 병목 현상이 발생합니다[cite: 15].
[cite_start]이 논문은 이러한 문제를 해결하기 위해 AI 시스템을 개발하고 그 성능을 보여주는 것을 목표로 합니다[cite: 15, 20]. [cite_start]이 시스템은 과학자들이 직접 작성하는 것보다 훨씬 뛰어나고, 새로운 과학적 아이디어를 빠르게 탐색하고 구현할 수 있습니다[cite: 26].
---
#### 🧪 연구 방법
[cite_start]연구팀은 **대규모 언어 모델(LLM)**과 **트리 탐색(Tree Search)** 알고리즘을 결합한 AI 시스템을 만들었습니다[cite: 21, 22]. 이 시스템은 다음과 같이 작동합니다.
1. [cite_start]**AI 소프트웨어 작성:** AI는 과학적 문제와 관련 연구 자료(논문, 교과서 등)를 입력받아 문제를 해결할 수 있는 소프트웨어 코드를 생성합니다[cite: 24, 52].
2. [cite_start]**트리 탐색:** 생성된 여러 후보 코드들을 시험해보고, 성능이 높은 코드를 중심으로 더 나은 해결책을 탐색하는 과정을 반복합니다[cite: 22, 53].
3. [cite_start]**아이디어 통합:** 이 과정에서 AI는 기존에 발표된 여러 논문의 아이디어들을 조합하여 새로운 해결책을 만들어내기도 합니다[cite: 68].
[cite_start]이렇게 AI는 무수히 많은 해결책 후보를 체계적으로 탐색하고, 사람이라면 발견하기 어려웠을 '최고 품질의 해결책'을 찾아냅니다[cite: 27].
---
#### 📊 연구 결과
[cite_start]이 AI 시스템은 여러 과학 분야의 다양한 문제에서 사람의 능력을 뛰어넘는 성과를 보였습니다[cite: 26].
* [cite_start]**생물정보학:** 단일 세포 데이터 분석에서 기존 인간이 개발한 방법보다 우수한 40가지의 새로운 분석법을 찾아냈습니다[cite: 1, 91].
* [cite_start]**역학:** 미국 질병통제예방센터(CDC)의 예측 모델보다 뛰어난 코로나19 입원 환자 수 예측 모델 14개를 생성했습니다[cite: 1, 84, 85, 87, 88].
* [cite_start]**지리공간 분석:** 위성 이미지 분석에서 최신 기술보다 뛰어난 소프트웨어를 만들었습니다[cite: 1, 144].
* [cite_start]**수학:** 기존 수치 계산으로는 풀기 어려운 적분 문제를 해결하는 새로운 방법을 발견했습니다[cite: 166].
[cite_start]특히, AI는 단일 세포 분석 연구에서 두 가지 기존 방법을 결합하여 성능을 획기적으로 향상시키는 새로운 방법을 찾아냈는데 [cite: 64][cite_start], 이는 단순히 코드를 작성하는 것을 넘어 **창의적인 과학적 아이디어까지 조합**할 수 있음을 보여줍니다[cite: 67].
---
#### 💡 고찰, 의의 및 시사점
[cite_start]이 연구는 AI가 단순한 도구를 넘어 과학 연구의 **'공동 과학자(co-scientist)'**가 될 수 있음을 보여줍니다[cite: 90]. AI가 복잡하고 반복적인 소프트웨어 개발 작업을 대신 수행하면서, 과학자들은 더 창의적인 사고와 실험 설계에 집중할 수 있게 됩니다.
이 시스템은 다음과 같은 중요한 의미를 가집니다.
* [cite_start]**과학 발견의 가속화:** AI의 지칠 줄 모르는 탐색 능력을 통해 새로운 해결책을 빠르게 찾고, 과학적 발견의 속도를 획기적으로 높일 수 있습니다[cite: 27].
* [cite_start]**혁신적인 아이디어 창출:** AI가 기존 연구들의 아이디어를 새로운 방식으로 결합하는 능력을 보여주면서, 사람이 생각하지 못한 혁신적인 방법을 제시할 수 있습니다[cite: 64, 67, 83].
* [cite_start]**범용성:** 이 시스템은 생물학, 역학, 지구과학 등 다양한 분야에 적용될 수 있어, 여러 과학 분야에 걸쳐 혁신을 가져올 잠재력이 있습니다[cite: 27, 47, 89, 144, 166].
---
#### 🌟 이 연구가 왜 중요한가요?
이 연구는 AI가 과학자의 단순한 보조 역할에 머무르지 않고, 직접 문제를 해결하고 새로운 지식을 창출하는 데 핵심적인 역할을 할 수 있다는 것을 증명합니다. 이는 인류가 직면한 다양한 난제(질병, 기후 변화 등)를 해결하는 데 필요한 소프트웨어를 훨씬 더 빠르고 효율적으로 개발할 수 있는 새로운 가능성을 열어줍니다. 앞으로 AI와 인간 과학자가 협력하여 이전에는 불가능했던 속도와 규모로 과학적 발전을 이룰 수 있을 것입니다.

chatGPT

다음은 업로드하신 논문 **「An AI system to help scientists write expert-level empirical software」(2025, Google Research & DeepMind 등 공동 연구)** 내용을 일반 성인 독자도 이해할 수 있도록 정리한 요약입니다.
---
## 연구 배경
오늘날 과학 연구는 복잡한 데이터를 다루고, 실험을 뒷받침하는 소프트웨어 없이는 진행하기 어렵습니다. 예를 들어, 단일세포 분석, 날씨 예측, 감염병 확산 모델링 등 거의 모든 과학 분야가 맞춤형 소프트웨어를 필요로 합니다. 그러나 이런 소프트웨어를 개발하려면 많은 시간이 걸리고, 연구자가 일일이 새로운 아이디어를 코드로 구현하는 과정은 매우 느리고 비효율적입니다. 이로 인해 과학 발전 속도가 제한되기도 합니다.
## 연구 목적
연구팀은 **과학자들이 직접 코드를 작성하지 않아도, 인공지능이 전문가 수준의 과학 소프트웨어를 자동으로 만들어 줄 수 있는 시스템**을 개발하고자 했습니다. 목표는 단순히 코드 생성이 아니라, **기존 최고 성능을 넘어서는 ‘새로운 해결책’을 찾는 것**입니다.
## 연구 방법
* **핵심 기술**: 대규모 언어모델(LLM, ChatGPT 같은 모델) + **트리 탐색(Tree Search, TS)**
* **작동 방식**:
1. AI가 초기 코드(해결 시도)를 작성
2. 실행 → 성능 점수 평가
3. 성능이 좋은 후보를 중심으로 다시 코드 변형 및 개선
4. 반복하며 점점 더 좋은 해법을 찾아감
* 단순히 무작정 변형하는 것이 아니라, **논문, 교과서, 검색 결과 등 외부 연구 아이디어를 흡수**해 새로운 조합이나 혁신적 방법을 제안할 수 있습니다.
## 연구 결과
AI 시스템은 여러 과학 분야에서 **인간 전문가보다 뛰어난 성능**을 보여주었습니다.
1. **생명과학 (단일세포 데이터 분석)**
* 40개의 새로운 분석 방법을 고안 → 현재 인간이 개발한 최고 알고리즘보다 더 높은 정확도를 기록.
2. **공중보건 (코로나19 입원 환자 예측)**
* 미국 CDC가 운영하는 예측 모델 집합(Ensemble)보다 뛰어난 14개 모델을 개발.
* 이는 전염병 대응 정책과 자원 배분을 개선할 수 있는 잠재력을 보여줌.
3. **지구환경 연구 (위성 이미지 분석)**
* 산불, 홍수, 토지 이용 변화 감지 같은 위성 이미지 분류 문제에서 최신 논문 성과를 크게 능가.
4. **신경과학 (제브라피시 뇌 활동 예측)**
* 7만 개 이상의 뉴런 활동 데이터를 예측하는 데 기존 모델보다 정확하고 빠른 성과를 냄.
5. **시계열 분석 (기후, 경제, 의료 데이터 예측)**
* 다양한 데이터셋에서 기존 통계/딥러닝 모델보다 우수한 범용 예측 모델 생성.
6. **수학적 계산 (난해한 적분 문제 해결)**
* 기존 표준 라이브러리(scipy.integrate.quad)가 실패하는 복잡한 적분도 정확히 계산할 수 있는 코드 작성.
## 고찰
이 연구는 단순한 코드 자동화가 아니라, **새로운 과학적 아이디어 창출 도구**로서 AI의 가능성을 보여줍니다. 특히 AI가 기존 연구 결과를 "재조합"하여 인간이 생각하지 못한 방법을 발견하는 점이 핵심입니다. 즉, AI는 단순한 조수(Assistant)를 넘어, \*\*공동 연구자(Co-scientist)\*\*로 기능할 수 있습니다.
또한 이 방식은 몇 주, 몇 달 걸릴 실험적 시도를 **단 몇 시간\~며칠** 만에 수행할 수 있어 연구 속도를 비약적으로 가속화합니다.
## 의의와 시사점
* 과학자들은 더 이상 코딩에 많은 시간을 쓸 필요 없이, AI가 제시하는 다양한 후보 해법을 빠르게 검증하고 적용할 수 있습니다.
* 이는 연구 효율을 높이고, 새로운 과학적 발견을 앞당길 수 있습니다.
* 특히 **질병 예측, 환경 변화 분석, 신약 개발** 등 사회적으로 긴급한 문제 해결에 큰 도움이 될 수 있습니다.
---
## 왜 중요한가?
이 연구는 \*\*“AI가 단순히 인간의 작업을 돕는 도구를 넘어, 과학 발전의 속도를 혁신적으로 끌어올릴 수 있다”\*\*는 가능성을 보여줍니다. 앞으로 AI가 새로운 과학 이론이나 방법론을 발견하는 과정에 적극적으로 참여하게 된다면, 과학의 패러다임 자체가 바뀔 수 있습니다.
즉, 인류가 직면한 복잡한 문제들—팬데믹, 기후 위기, 난치병—을 해결하는 속도를 지금보다 훨씬 앞당길 수 있는 길을 연 것입니다.

chatGPT (스토리텔링 형식의 블로그 글)

# 과학자가 코드를 짜지 않아도 되는 시대가 온다면?
“과학자는 아이디어가 넘치는데, 왜 늘 시간이 부족할까?”
많은 연구자들이 이렇게 말합니다. 새로운 가설을 세우고 데이터를 모아도, 정작 그걸 분석하고 검증하는 데 필요한 소프트웨어를 만드는 건 또 다른 큰일이기 때문입니다.
예를 들어, 코로나19가 한창일 때 매주 환자 수를 예측하는 소프트웨어가 필요했지만, 그것을 만드는 건 전문가들에게도 몇 달이 걸리는 어려운 작업이었습니다. 단일세포 유전자 분석, 위성 사진을 이용한 산불 감지, 뇌 신호 해석 같은 연구도 마찬가지입니다. 연구자가 머릿속에서 떠올린 아이디어를 코드로 구현하는 데 너무 많은 시간이 소요되다 보니, 과학의 속도는 늘 한계에 부딪혔습니다.
---
## AI를 공동 연구자로 삼다
이번에 구글 리서치와 딥마인드 연구진이 내놓은 시스템은 이 문제를 정면으로 해결합니다.
바로 \*\*“AI가 과학자를 대신해 전문가 수준의 소프트웨어를 작성하는 시스템”\*\*입니다.
이 AI는 단순히 코드 몇 줄을 자동으로 써주는 ‘프로그래밍 비서’가 아닙니다. 스스로 코드를 만들어내고, 실행해보고, 점수를 매기고, 또 개선하면서 수백·수천 가지의 대안을 탐색합니다. 마치 끊임없이 아이디어를 던지고 실험하는 대학원생 수십 명이 동시에 일하는 것과 비슷합니다.
게다가 이 AI는 사람처럼 논문이나 교과서에서 연구 아이디어를 가져와 재조합할 수도 있습니다. “이 논문의 방식과 저 논문의 방식을 합치면 더 나을까?” 같은 발상을 실제로 코드로 옮겨 실행해보는 것이죠.
---
## 실제 성과는 어땠을까?
연구진은 이 AI를 여러 과학 분야에 적용했습니다. 놀랍게도, 결과는 단순한 ‘보조’ 수준을 넘어섰습니다.
* **단일세포 유전자 데이터 분석**: 기존 최고 성능 알고리즘을 능가하는 **40개의 새로운 방법**을 만들어냈습니다.
* **코로나19 입원 환자 예측**: 미국 CDC가 운영하는 ‘최고의 예측 모델 집합’을 뛰어넘는 **14개의 모델**을 개발했습니다.
* **위성 이미지 분석**: 산불, 홍수, 토지 이용 변화 같은 환경 모니터링에서 최신 논문 성과를 압도했습니다.
* **신경과학**: 물고기(제브라피시)의 7만여 개 뇌세포 활동을 예측하는 데 기존 최고 모델보다 정확했습니다.
* **시계열 예측**: 기후, 경제, 의료 데이터를 다루는 여러 데이터셋에서 범용적으로 성능이 좋은 모델을 창조했습니다.
* **복잡한 수학적 적분 계산**: 기존 표준 라이브러리가 실패한 문제도 정확히 풀어냈습니다.
즉, 이 AI는 단순히 “사람이 만든 방법을 흉내 내는 수준”이 아니라, **새로운 과학적 도구를 직접 발명하는 단계**로 나아간 것입니다.
---
## 왜 이것이 중요한가?
과학의 속도는 종종 ‘코드 작성 속도’에 의해 제한됩니다. 하지만 이제 연구자들은 더 이상 수개월 동안 코드에 매달릴 필요가 없습니다. AI가 수많은 후보 해법을 빠르게 시도하고, 연구자는 그중 의미 있는 결과를 확인해 과학적 통찰에 집중할 수 있습니다.
예를 들어, 전염병이 확산할 때 정책 결정자들이 더 정확한 예측을 하루라도 빨리 얻을 수 있다면, 수많은 생명을 구할 수 있습니다. 기후 변화 대응도 마찬가지입니다. 위성 데이터를 더 정밀하게 분석해 산불을 조기에 발견한다면 피해를 크게 줄일 수 있습니다.
---
## 앞으로의 과학은 어떻게 달라질까?
이제 AI는 단순한 “연구 도우미”가 아니라, 함께 아이디어를 실험하고 새로운 방법을 만들어내는 \*\*“공동 연구자(co-scientist)”\*\*가 될 수 있습니다.
과학자가 아이디어를 던지면, AI는 수백 가지의 코드 버전을 만들어 시험해보고, 때로는 인간이 미처 생각지 못한 길을 찾아냅니다.
이는 결국 과학 발전의 패러다임을 바꿀 수 있습니다.
연구 속도가 몇 배 빨라지고, 새로운 발견이 더 자주 이루어지며, 인류가 직면한 큰 문제들—팬데믹, 기후 위기, 난치병—에 대한 해답을 더 빨리 찾을 수 있게 되는 것입니다.
---
# 맺으며
이번 연구는 “AI가 인간을 대체할까?”라는 낡은 질문보다 더 근본적인 물음을 던집니다.
**“AI와 인간이 함께 새로운 과학을 만들어갈 수 있다면, 우리의 미래는 얼마나 더 빨리 바뀔까?”**
아마 머지않아, 과학자의 실험실 풍경에는 논문과 현미경 옆에 “AI 공동 연구자”가 당당히 자리잡고 있을지도 모릅니다.

grok3

### AI가 과학자를 도와 전문가 수준의 소프트웨어를 만드는 시스템
#### 연구 배경
과학 연구는 종종 컴퓨터 실험을 위한 소프트웨어 제작 때문에 지연됩니다. 이 소프트웨어는 '경험적 소프트웨어'로 불리며, 데이터를 바탕으로 품질 점수를 최대화하도록 설계됩니다. 예를 들어, 위성 사진으로 삼림 벌채를 분석하거나, 단백질 구조를 예측하는 프로그램이 이에 해당하죠. 과학자들은 이런 소프트웨어를 만드는 데 수년이 걸리지만, 직관에 의존해 최적의 방법을 놓치기 쉽습니다. 이 논문은 Google DeepMind와 Google Research 팀이 이러한 문제를 해결하기 위해 개발한 AI 시스템을 소개합니다. 이 시스템은 과학 분야에서 흔한 '점수화 가능한 작업'(scorable tasks)을 자동으로 풀기 위한 소프트웨어를 만듭니다.
#### 연구 목적
이 연구의 목적은 AI를 이용해 과학자들이 수동으로 만드는 소프트웨어를 자동화하는 것입니다. 구체적으로, 대형 언어 모델(LLM)과 트리 검색(Tree Search)을 결합해 품질 점수를 높이는 소프트웨어를 생성합니다. 이를 통해 기존 인간 전문가 수준을 넘어서는 결과를 내고, 다양한 과학 분야(유전학, 역학, 지리학, 신경과학, 시계열 예측, 수치 적분)에서 효과를 검증합니다. 궁극적으로 과학 발견을 가속화하는 도구를 만드는 게 목표입니다.
#### 연구 방법
시스템은 LLM(Gemini 모델 사용)을 통해 코드를 생성하고, 트리 검색으로 최적의 코드를 탐색합니다. 트리 검색은 나뭇가지처럼 후보 코드를 확장하며, 점수가 높은 방향으로 집중합니다. 초기 아이디어는 과학 논문 요약, 검색 엔진, 또는 기존 방법 조합에서 가져옵니다. 예를 들어, 유전학 문제에서는 기존 알고리즘을 재조합해 새로운 코드를 만듭니다. 벤치마크로 Kaggle 대회 16개를 사용해 시스템을 테스트하고, 실제 과학 문제에 적용합니다. 각 문제에서 훈련 데이터로 점수를 높인 후, 별도 테스트 데이터로 평가합니다.
#### 연구 결과
Kaggle 벤치마크에서 트리 검색은 인간 평균을 넘어서는 성능을 보였습니다. 유전학(단일 세포 RNA 시퀀싱 배치 통합)에서는 40개의 새로운 방법을 발견해 기존 최고 기록을 14% 초과했습니다. 예를 들어, 두 기존 알고리즘(ComBat과 BBKNN)을 결합해 더 나은 코드를 만들었습니다. COVID-19 입원 예측에서는 CDC 앙상블 모델을 능가하는 14개 모델을 생성, 미국 52개 주 대부분에서 더 정확했습니다. 지리학(위성 이미지 분할)에서는 mIoU 점수 0.80 이상으로 최신 논문 결과를 초과했습니다. 신경과학(제브라피시 뇌 활동 예측)에서는 기존 최고 모델보다 빠르고 정확한 코드를 만들었고, 시계열 예측(GIFT-Eval)에서는 리더보드 상위권을 차지했습니다. 수치 적분에서는 기존 라이브러리의 실패 사례 17/19를 정확히 풀었습니다.
#### 고찰
이 시스템은 아이디어를 재조합하거나 새로운 개념(예: 시뮬레이션 기반 불확실성)을 도입해 인간 한계를 넘습니다. 그러나 LLM이 지시를 따르는 데 한계가 있어, 복잡한 문제에서 실패할 수 있습니다. 또한, 검색 공간이 방대해 컴퓨팅 자원이 많이 듭니다. 기존 방법(유전자 프로그래밍, AutoML)과 비교해 더 유연하지만, 과학 에이전트로서의 일반화가 과제입니다. 결과적으로, 시스템은 아이디어 탐색을 가속화하지만, 인간 검증이 여전히 필요합니다.
#### 의의와 시사점
이 연구는 AI가 과학 소프트웨어를 자동화해 연구 속도를 높일 수 있음을 보여줍니다. 예를 들어, 단일 세포 데이터 통합은 인간 세포 아틀라스 같은 대형 프로젝트를 촉진하고, COVID 예측은 공공 보건 정책을 개선합니다. 시사점으로는 AI가 '시도와 오류'를 무한히 반복해 혁신을 이끌 수 있다는 점입니다. 앞으로 과학 분야에서 점수화 가능한 작업이 많아지면, AI가 인간 연구자를 보조해 새로운 발견을 촉진할 것입니다.
이 연구가 중요한 이유는 과학 발전의 병목현상을 해소하기 때문입니다. 소프트웨어 제작이 빨라지면, 과학자들이 아이디어 실험에 더 집중할 수 있어 인류의 지식 축적이 가속화됩니다. AI가 '과학자' 역할을 하며, 의학·환경·수학 같은 분야에서 혁명을 일으킬 잠재력이 큽니다.

NotebookLM

## AI가 과학자들의 혁신을 가속화하는 새로운 도구: 전문가 수준 소프트웨어 자동 생성 시스템
**연구 배경 및 목적**
과학자들은 새로운 지식을 탐구하고 세상을 이해하기 위해 수많은 실험을 수행합니다. 특히 현대 과학은 컴퓨터를 활용한 계산 실험에 크게 의존하고 있죠. 하지만 이러한 실험을 뒷받침하는 **소프트웨어 개발은 종종 매우 느리고 수동적인 과정**이어서 과학적 발견의 속도를 저해하는 '병목 현상'으로 지적되어 왔습니다.
예를 들어, 숲 파괴를 분석하는 위성 기반 감지기를 만들거나(이는 특정 과학적 질문에 답하기 위한 소프트웨어입니다), 복잡한 시스템의 모델을 만드는 것 등 수많은 과학 분야에서 소프트웨어가 필수적입니다. 이러한 소프트웨어는 일반적으로 특정 목표(예: 기존 관측치에 대한 적합도 최대화)를 달성하도록 설계되며, 연구자들은 이를 '측정 가능한 과제(scorable task)'를 해결하는 '경험적 소프트웨어(empirical software)'라고 부릅니다. 문제는 이러한 경험적 소프트웨어를 개발하는 것이 **오랜 시간과 노력을 필요로 하며, 디자인 선택이 직관이나 편의에 의해 좌우되는 경우가 많아 혁신적인 탐색이 제한된다**는 점입니다.
이 연구는 이러한 한계를 극복하기 위해 **인공지능(AI) 시스템을 개발하여 과학자들이 전문가 수준의 소프트웨어를 자동으로 생성하고 개선할 수 있도록 돕는 것**을 목표로 합니다. 궁극적으로 과학 연구의 속도를 획기적으로 가속화하는 것이 이 시스템의 핵심적인 의의입니다.
**연구 방법**
이 AI 시스템은 크게 두 가지 핵심 기술을 결합하여 작동합니다. 바로 **대규모 언어 모델(Large Language Model, LLM)과 트리 탐색(Tree Search, TS)**입니다.
1. **아이디어와 프롬프트 주입 (연구 아이디어 통합):**
* 시스템은 먼저 과학적 과제에 대한 설명, 평가 지표, 관련 데이터를 LLM에 제공합니다 [57, Supplementary Fig. 22].
* 사람 과학자들이 연구 아이디어를 얻기 위해 학술 논문, 전문 교과서, 검색 엔진 등을 참고하는 것처럼, 이 시스템도 외부 자료에서 얻은 연구 아이디어를 LLM에 주입하여 코드 작성에 활용하도록 안내합니다.
* 심지어는 **Gemini Deep Research나 AI co-scientist와 같은 다른 LLM 기반 검색 전략**을 통해 자동으로 새로운 연구 아이디어를 생성하고 구현하기도 합니다.
* 또한, 기존에 개발된 코드 솔루션들의 핵심 원리를 파악하고, 이들을 **'재조합(recombination)'하여 새로운 하이브리드 전략을 창출**하도록 LLM을 지시합니다. 이는 여러 기존 방법의 장점을 결합하여 더 나은 성능을 목표로 하는 접근 방식입니다.
2. **LLM 기반 코드 재작성 및 트리 탐색 (솔루션 공간 탐색):**
* LLM은 제공된 프롬프트와 연구 아이디어를 바탕으로 파이썬 코드를 생성하거나 기존 코드를 재작성합니다.
* 생성된 코드는 '샌드박스'라는 안전한 환경에서 실행되고, 그 성능은 미리 정의된 '품질 점수(quality score)'에 따라 평가됩니다.
* 이때 **트리 탐색(Tree Search)** 알고리즘이 중요한 역할을 합니다. 트리 탐색은 LLM이 생성한 여러 후보 코드 솔루션들을 마치 나무 가지처럼 탐색하며, 어떤 코드가 품질 점수를 가장 잘 개선하는지 체계적으로 평가합니다.
* **점수가 높은(성능이 좋은) 코드 솔루션은 더 깊이 탐색하고, 점수가 낮은 솔루션은 가지치기하여 불필요한 탐색을 줄이는 방식**으로 효율적으로 최적의 코드를 찾아냅니다. 이 과정은 AlphaZero에서 영감을 받은 상위 신뢰 경계(UCB) 전략을 사용하며, PUCT(Predictor + Upper Confidence bound applied to Trees) 알고리즘을 통해 실행됩니다.
* 이를 통해 시스템은 전문가 수준의 솔루션을 찾을 때까지 **끊임없이 코드를 개선하고 평가하는 반복적인 피드백 루프**를 만들어냅니다. 연구자들은 Kaggle 경연 대회를 벤치마크로 활용하여 이 코드 변형 시스템을 개발하고 개선했습니다.
**연구 결과**
이 AI 시스템은 다양한 과학 분야의 '측정 가능한 과제'에서 놀라운 성능을 보였습니다.
* **생물정보학 (단일 세포 RNA 서열 데이터 분석):**
* 단일 세포 데이터에서 배치 효과(실험 환경으로 인한 오류)를 제거하는 어려운 과제에서, **인간이 개발한 최고 성능 방법보다 14% 향상된 40가지 새로운 방법**을 발견했습니다.
* 특히, BBKNN (TS)라는 시스템이 만든 솔루션은 기존의 ComBat과 BBKNN이라는 두 가지 방법을 독창적으로 결합하여 성능을 크게 높였습니다. 이는 아이디어를 재조합하는 시스템의 능력을 보여줍니다.
* **역학 (미국 COVID-19 입원 예측):**
* 미국 질병통제예방센터(CDC)의 COVID-19 예측 허브 벤치마크에서, **CDC 앙상블 모델과 다른 모든 개별 모델보다 뛰어난 14가지 예측 모델**을 생성했습니다.
* 이 시스템이 만든 'Google Retrospective' 모델은 평균 WIS(Weighted Interval Score, 낮을수록 좋음)에서 CDC 앙상블의 29점보다 낮은 26점을 기록했습니다.
* 다양한 모델들의 강점을 시너지 효과로 결합하는 '재조합' 전략이 성공적인 예측 모델을 만드는 데 크게 기여했습니다.
* **지리공간 분석 (원격 탐사 이미지 분할):**
* 위성 이미지에서 픽셀 단위로 객체를 분류하는 복잡한 작업에서, **최근 학술 논문의 보고된 결과를 훨씬 뛰어넘는 최고 수준의 소프트웨어**를 개발했습니다 (mIoU 0.80 이상). UNet++ 및 SegFormer와 같은 최신 아키텍처를 활용하고 데이터 증강 및 예측 전략을 최적화했습니다.
* **신경과학 (제브라피시 뇌 활동 예측):**
* 제브라피시 뇌 전체의 신경 활동을 예측하는 벤치마크(ZAPBench)에서 **기존의 모든 베이스라인 모델을 능가하는 성능**을 보였습니다.
* 특히 주목할 점은, 시스템이 개발한 모델은 가장 성능이 좋았던 기존 비디오 모델보다 **훈련 속도가 수십 배에서 수백 배 빨랐다**는 것입니다 (단일 T4 GPU에서 2시간 미만 vs 16 A100 GPU에서 36시간).
* **시계열 예측 (GIFT-Eval):**
* 다양한 시계열 데이터셋에 대한 예측 벤치마크(GIFT-Eval)에서 **기존의 딥러닝 및 통계 모델들을 능가하는 성능**을 달성했습니다. 여러 데이터셋에 걸쳐 작동하는 단일 통합 예측 솔루션도 높은 경쟁력을 보였습니다.
* **수치 해석 (어려운 적분 계산):**
* 표준 파이썬 라이브러리 `scipy.integrate.quad()`가 실패하는 19개의 어려운 적분 문제 중 **17개를 3% 미만의 오차로 정확하게 해결**하는 새로운 방법을 개발했습니다. 이 방법은 무한 영역을 유한 부분으로 나누고, 오일러 변환이라는 기법을 적용하여 수렴 속도를 가속화하는 것이 특징입니다.
**고찰**
이 연구는 AI가 단순한 코딩 도우미를 넘어, **과학적 발견 과정을 직접적으로 가속화하는 강력한 에이전트가 될 수 있음**을 보여줍니다. 시스템은 과학 소프트웨어 개발을 '측정 가능한 과제'로 재정의하고, LLM과 트리 탐색을 결합하여 이 문제를 체계적으로 해결합니다.
기존의 자동화된 프로그래밍 연구와 비교했을 때 이 시스템의 강점은 다음과 같습니다.
* **지능적인 코드 변형:** 유전 프로그래밍(Genetic Programming)이 무작위 변형에 의존하는 반면, 이 시스템은 LLM을 통해 **의미론적으로 코드를 이해하고 지능적으로 재작성**하여 훨씬 복잡하고 의미 있는 변형을 만들어냅니다.
* **유연한 생성 엔진:** 전통적인 생성 프로그래밍이 템플릿 기반의 제한적인 방식인 데 비해, LLM과 트리 탐색은 **방대한 솔루션 공간을 탐색하고 다양한 도메인 지식을 통합하여 새로운 프로그램을 유연하게 합성**합니다.
* **반복적인 개선 루프:** 단순히 한 번의 프롬프트로 코드를 생성하는 LLM과 달리, 이 시스템은 **반복적인 피드백 루프**를 통해 기존 소프트웨어 후보를 재작성하고 품질 점수를 활용하여 코드를 지속적으로 개선합니다.
* **일반화된 탐색 능력:** Google DeepMind의 FunSearch와 유사하지만, 이 시스템은 **트리 탐색 프로세스를 일반화**하고 학술 문헌에서 얻은 지식을 통합하여 더 넓은 범위의 문제에 적용될 수 있습니다.
* **광범위한 적용 가능성:** 자동화된 머신러닝(AutoML)이 특정 ML 프레임워크 내에서 최적의 모델을 찾는 데 초점을 맞추는 반면, 이 시스템은 **전처리, 복잡한 시뮬레이션, 수학적 발견 등 AutoML의 범위를 넘어서는 모든 소프트웨어**를 재작성할 수 있습니다.
* **다목적 문제 해결사:** 특정 과학 분야에 특화된 기존 AI 에이전트와 달리, 이 시스템은 **여러 분야에 걸쳐 전문가 수준을 뛰어넘는 일반적인 문제 해결 능력**을 입증했습니다.
**의의와 시사점 / 연구의 중요성**
이 연구는 과학자들이 직면하는 **소프트웨어 개발의 '병목 현상'을 AI의 힘으로 해결**할 수 있음을 입증했습니다. 가장 중요한 의의와 시사점은 다음과 같습니다.
* **혁신적인 연구 가속화:** 이 시스템은 전문가 수준의 소프트웨어 솔루션을 **수주에서 수개월이 걸리던 작업을 단 몇 시간 또는 며칠 만에 생성**할 수 있습니다. 이는 과학자들이 더 많은 가설을 탐색하고, 더 복잡한 문제를 해결하며, 훨씬 빠른 속도로 새로운 지식을 발견할 수 있게 할 것입니다.
* **인간 과학자의 역량 강화:** 이 AI 시스템은 인간 과학자를 대체하는 것이 아니라, **강력한 'AI 공동 과학자'로서 인간의 창의적인 연구를 지원하고 확장**하는 역할을 합니다. 과학자들은 이제 번거로운 코딩 작업 대신, 더 높은 수준의 개념적 사고와 실험 설계에 집중할 수 있게 될 것입니다.
* **측정 가능한 과학 분야의 혁명:** 이 연구는 **기계가 성능을 객관적으로 평가할 수 있는 모든 과학 분야**에서 혁명적인 가속이 임박했음을 시사합니다. 생물정보학, 역학, 신경과학, 지리공간 분석, 시계열 예측, 수치 해석 등 다양한 분야에서 이미 뛰어난 성능을 보였듯이, 앞으로 더 많은 과학 분야에서 이러한 AI 시스템이 활용될 가능성이 매우 높습니다.
이 연구는 인공지능이 과학적 발견의 새로운 시대를 여는 중요한 전환점이 될 것이며, 인류가 직면한 다양한 문제에 대한 해결책을 찾는 속도를 획기적으로 향상시키는 데 기여할 것으로 기대됩니다.

perplexity.ai

이 논문은 구글 딥마인드와 구글 리서치가 주도한 최신 인공지능 연구로, 과학자들이 복잡한 연구 소프트웨어를 빠르고 정확하게 만들 수 있도록 돕는 **AI 시스템**을 소개합니다.[1]
***
## 연구 배경
현대 과학의 대부분은 데이터를 분석하거나 예측하는 다양한 소프트웨어에 크게 의존합니다. 예를 들어, 산림의 벌채 감지, 기후 변화 예측, 유전자 분석 등 모두 특수한 연구 코드를 필요로 합니다. 그런데 이런 **전문 소프트웨어**를 직접 개발하는 일은 보통 수개월에서 수년까지 걸리고, 다양한 방법을 다 시도해 보기 어려워 새로운 아이디어 실험이 제한됩니다.[1]
## 연구 목적
이 논문의 목표는 “과학 문제를 자동으로 해결하는 소프트웨어”를 **AI로 만들어내는 방법을 제안**하는 것입니다. 즉, 사람이 오랜 기간에 걸쳐 연구했던 작업을 AI가 빠르고 다양하게 탐색하고, 기존의 최고 방법을 능가하는 새 코드를 만드는 것입니다.[1]
## 연구 방법
AI 시스템은 다음과 같이 작동합니다:
- 사용자가 해결하고자 하는 문제와 평가 지표(예: 정확도, 예측의 평균오차 등)를 입력합니다.
- **대형 언어 모델(LLM)**이 여러 가지 해법을 코드로 제시합니다.
- 코드별로 실제 데이터를 넣어 결과 점수를 계산합니다.
- 기존 코드들을 바탕으로 새로운 아이디어(논문, 교과서, 인터넷 등에서 얻은)를 추가해 코드를 계속 발전시키며, **트리 탐색(Tree Search)**라는 방식으로 최고의 결과를 찾습니다.
- 이 과정은 사람의 직관에만 의존하지 않고, 산더미 같은 아이디어를 자동 실험하고 평가하는 'AI 반복 탐색'입니다.[1]
## 핵심 결과
이 시스템은 다양한 실제 과학 작업에서 놀라운 성과를 보여줍니다:
- **유전체 단일세포 분석**: 전 세계 연구자들이 개발한 최고 방법보다 40개가 더 우수한 새 분석법을 AI가 자동으로 완성합니다.
- **코로나19 입원환자 예측**: 미국 CDC가 관리하는 공식 모델보다 더욱 정확한 14개의 모델을 만들어냅니다.
- **위성지도 분석, 뇌 활동 예측, 복잡한 시계열 데이터 예측, 어려운 수학적 적분 계산** 등에서도 기존 최고 수준 소프트웨어를 뛰어넘는 결과를 연이어 보여줍니다.[1]
## 논의와 해석
- 이 AI 시스템은 "실험 → 평가 → 개선"의 과정을 자동화하여, 새로운 아이디어 실험을 **사람보다 훨씬 빠르게, 더 넓고 깊게** 탐색할 수 있습니다.
- 새로운 연구 아이디어를 스스로 생성·조합할 수 있고, 외부 논문 내용, 전문가의 조언 등을 적극적으로 탐색하여 코드에 반영합니다.
- 기존의 유전 프로그래밍, 자동 머신러닝(AutoML), 코드 생성 AI 등을 발전시킨 방식으로, 특히 소프트웨어의 진화를 **학습·탐색·재설계**로 반복합니다.[1]
## 의의와 시사점
- 앞으로 과학의 많은 분야에서 **풀고 싶은 문제가 명확히 점수화될 경우(예를 들어, 더 정확하게 예측, 잘 분류, 빠르게 계산 등)**, 이런 AI가 사람 대신 수많은 아이디어를 자동으로 실험하고, 가장 우수한 연구 방법을 빠르게 찾아낼 수 있습니다.
- 덕분에 과학 연구의 속도와 품질이 급격하게 올라갈 것으로 기대됩니다.
- 실제로 이 방법은 이미 여러 분야에서 기존 최고 방법을 능가하고 있습니다.[1]
***
## 왜 이 연구가 중요한가요?
이 AI 시스템은 '과학적 탐구의 자동화'라는 미래를 현실로 만듭니다. 이제 과학자뿐 아니라 일반인도 복잡한 연구 소프트웨어 개발에 AI의 도움을 받아, 더 빠르게 실험하고 더 좋은 결과를 얻을 수 있습니다. 새로운 과학적 발견, 사회 문제 해결, 의료 혁신 등 **모든 분야의 연구 속도를 획기적으로 높일 수 있는 잠재력**을 보여줬다는 점에서, 매우 중요한 연구입니다.[1]

출처: @ye._.vely618

Lee Gir-Won (Lee Gil-Won)

Pages

금요일, 10월 03, 2025

과학연구를 향상시켜줄 AI