요즘 인공지능이 못 하는 게 뭐냐 싶죠. 글도 쓰고, 그림도 그리고, 심지어 음악까지 만드니까요. 그런데 이번엔 AI가 DNA까지 배우기 시작했습니다.
지구상의 거의 모든 생명체 — 세균, 식물, 동물, 인간까지 — 의 유전 정보를 통째로 학습해서, DNA 속 패턴을 이해하고 예측하고 심지어 새로운 유전자 서열을 직접 만들어내는 모델을 만들었다고 합니다.
쉽게 말해, 텍스트 대신 **유전자의 문장을 읽고 쓰는 AI**인 셈이죠.
"AI가 이제 생명을 코딩한다?"
농담처럼 들리지만, 진짜로 그런 시대가 열리고 있습니다. Evo 2는 단순히 과학자들의 실험을 돕는 수준이 아니라, **‘생명을 설계하는 도구’**로 부상하고 있거든요.
GPT가 인류의 대화를 배웠다면, Evo 2는 생명의 대화를 배운 셈입니다.
우리가 지금 목격하는 건, 과학이 생명을 단순히 **읽는 단계**를 넘어 **설계하는 단계**로 들어서는 순간일지도 모릅니다.
gemini
안녕하세요! 요청하신 대로 업로드해주신 논문의 핵심 내용을 블로그 포스팅 형식으로 알기 쉽게 요약해 드립니다.
### 모든 생명의 설계도를 읽고 쓰는 AI, ‘Evo 2’의 탄생
최근 인공지능 기술이 텍스트와 이미지를 넘어, 생명의 근원인 DNA 설계도까지 파악하기 시작했습니다. [cite_start]이번에 발표된 연구는 박테리아부터 식물, 동물, 그리고 인간에 이르기까지 지구상의 모든 생명체 데이터를 통합 학습한 혁신적인 AI 모델인 **'Evo 2'**에 관한 것입니다[cite: 499, 511].
**1. 연구의 배경: 생명의 복잡한 코드를 해석하려는 시도**
생물학 연구는 분자 단위부터 거대한 생태계까지 넓은 범위를 다룹니다. [cite_start]하지만 DNA라는 거대한 정보 속에서 특정 유전자가 어떤 기능을 하는지, 유전자에 작은 변화가 생겼을 때 어떤 결과가 초래될지 완벽하게 예측하는 것은 여전히 인류에게 큰 숙제였습니다[cite: 497, 505]. [cite_start]기존의 AI들은 주로 박테리아 같은 단순한 생명체나 특정 단백질 정보만을 학습하는 데 그쳤다는 한계가 있었습니다[cite: 510].
**2. 연구의 목적: 모든 생명체를 아우르는 '범용 생물학 AI' 개발**
[cite_start]연구팀은 특정 생명체에 국한되지 않고, 지구상 모든 생명 영역(세균, 고균, 진핵생물)의 데이터를 한데 모아 학습함으로써 생명의 공통 원리를 깨우치는 '거대 생물학 기반 모델'을 만들고자 했습니다[cite: 499, 511]. [cite_start]이를 통해 유전적 변이가 질병에 미치는 영향을 예측하거나, 자연계에는 존재하지 않는 새로운 생물학적 시스템을 설계하는 능력을 갖추는 것이 목표였습니다[cite: 497, 506].
**3. 연구의 방법: 9조 개의 염기서열과 100만 토큰의 시야**
연구팀은 'OpenGenome2'라는 이름의 정교한 데이터셋을 구축했습니다. [cite_start]여기에는 무려 9조 개에 달하는 DNA 염기쌍 정보가 담겨 있습니다[cite: 499, 746]. Evo 2는 이 방대한 데이터를 바탕으로 두 단계에 걸쳐 학습되었습니다. [cite_start]먼저 짧은 유전자 단위를 공부한 뒤, 나중에는 한 번에 100만 개의 염기서열을 동시에 훑어볼 수 있는 '긴 시야(Context Window)'를 갖도록 훈련되었습니다[cite: 499, 749]. [cite_start]이는 유전자 간의 먼 거리 상호작용까지 파악할 수 있게 해줍니다[cite: 749].
**4. 연구의 결과: 질병 예측부터 가상의 생명체 설계까지**
학습을 마친 Evo 2는 별도의 추가 학습 없이도 놀라운 능력을 보여주었습니다. [cite_start]유전자의 미세한 변이가 단백질이나 RNA의 기능에 어떤 영향을 주는지 정확히 예측했으며, 특히 유방암과 관련된 BRCA1 유전자 변이의 위험도를 판별하는 데 있어 기존 모델들보다 뛰어난 성능을 보였습니다[cite: 500, 501, 788]. [cite_start]더 나아가, AI가 스스로 박테리아나 효소의 DNA 서열을 생성해냈는데, 이는 실제 자연계의 유전자 구조와 매우 유사한 논리적 정합성을 갖추고 있었습니다[cite: 502, 107].
**5. 고찰: AI가 스스로 깨우친 '생명의 문법'**
[cite_start]연구팀이 Evo 2의 내부 구조를 분석한 결과, AI는 인간이 가르쳐주지 않았음에도 유전자의 시작과 끝, 단백질의 입체 구조, 심지어 유전자에 숨어 있는 바이러스 정보까지 스스로 구분할 수 있는 능력을 갖게 되었음을 확인했습니다[cite: 501, 81, 82]. [cite_start]이는 AI가 방대한 데이터 속에서 생명이 정보를 처리하는 근본적인 '문법'을 찾아냈음을 시사합니다[cite: 759].
**6. 의의와 시사점: '생명 공학의 프로그래밍' 시대**
Evo 2는 생명 과학 연구의 패러다임을 바꿀 수 있는 도구입니다. [cite_start]복잡한 실험을 수만 번 반복하기 전에 AI로 결과를 미리 예측해 볼 수 있으며, 특정 기능을 수행하는 유전자를 맞춤형으로 디자인할 수도 있습니다[cite: 173, 174]. [cite_start]연구팀은 이 모델과 데이터를 모두 공개(Open Source)하여, 전 세계 과학자들이 질병 치료와 새로운 생물학적 발견에 활용할 수 있도록 했습니다[cite: 504, 256].
**7. 이 연구가 왜 중요한가요?**
이 연구는 인류가 생명의 언어인 DNA를 '소프트웨어 코드'처럼 이해하고 다룰 수 있는 시대를 열었기 때문입니다. 암이나 유전병의 원인을 더 정밀하게 진단하는 것은 물론, 기후 위기에 대응할 수 있는 고효율 미생물을 설계하거나 새로운 의약품을 개발하는 속도를 획기적으로 높일 수 있는 강력한 '두뇌'를 갖게 된 것입니다. 생명의 신비를 푸는 것을 넘어, 이제는 생명을 더 건강하고 유익하게 '설계'할 수 있는 기반이 마련되었다는 점에 이 연구의 결정적인 중요성이 있습니다.
chatGPT
다음은 업로드하신 논문 *“Genome modelling and design across all domains of life with Evo 2”*의 내용을 일반 성인을 대상으로 쉽게 풀어 정리한 요약입니다. (요청하신 대로 문단 간 개행은 한 번씩만 사용했습니다)
---
**연구 배경**
모든 생명체는 DNA에 정보를 저장하고 있으며, 최근에는 유전체를 읽고(시퀀싱), 수정하고(편집), 합성하는 기술이 크게 발전했습니다. 하지만 여전히 “DNA 변화가 실제로 어떤 기능적 결과를 만드는지”를 정확히 예측하거나, 새로운 생명 시스템을 설계하는 능력은 제한적입니다. 특히 유전체는 매우 복잡하고, 유전자뿐 아니라 비암호화 영역까지 포함한 방대한 정보를 담고 있기 때문에 인간의 직관만으로 이해하기 어렵습니다. 이러한 한계를 극복하기 위해 다양한 생물 종의 DNA 데이터를 학습하는 인공지능 모델이 등장하고 있으며, 이 연구는 그 중에서도 가장 큰 규모의 모델 중 하나인 Evo 2를 제시합니다.
**연구 목적**
이 연구의 목적은 세균, 고세균, 진핵생물 등 모든 생명 영역을 아우르는 방대한 DNA 데이터를 학습한 “범용 생물학 AI 모델(Evo 2)”을 구축하고, 이를 통해
1. 유전자 변이의 기능적 영향을 예측하고
2. 실제 생물과 유사한 새로운 유전체를 생성할 수 있는지 검증하는 것입니다.
**연구 방법**
연구진은 약 9조 개 이상의 DNA 염기 정보를 포함하는 대규모 데이터(OpenGenome2)를 이용해 두 가지 크기의 모델(7B, 40B 파라미터)을 학습시켰습니다. 이 모델은 최대 100만 개 염기 길이의 DNA를 한 번에 이해할 수 있도록 설계되어, 기존보다 훨씬 긴 범위의 유전체 구조를 분석할 수 있습니다. 또한 단순히 결과를 맞추는 것이 아니라, DNA 서열의 “확률(가능성)”을 기반으로 변이가 얼마나 해로운지를 판단하는 방식으로 작동합니다.
**연구 결과**
Evo 2는 다양한 수준에서 의미 있는 성능을 보였습니다. 먼저, 단일 염기 변이부터 큰 구조 변화까지 다양한 유전자 변이가 기능에 미치는 영향을 별도의 추가 학습 없이도 상당히 정확하게 예측했습니다. 특히 단백질을 변화시키는 돌연변이, 조기 종결 코돈, 프레임시프트 같은 치명적인 변이에 더 민감하게 반응하는 등 실제 생물학적 원리를 잘 반영했습니다.
또한 인간 유전자 변이 분석에서도 병원성 변이와 정상 변이를 구분하는 데 높은 성능을 보였으며, 특히 기존 모델들이 잘 다루지 못했던 삽입·결실 같은 변이에서도 강점을 보였습니다. BRCA1 같은 암 관련 유전자에서도 기능 상실 변이를 효과적으로 구분했습니다.
흥미롭게도 모델 내부를 분석한 결과, 엑손-인트론 경계, 전사인자 결합 부위, 단백질 구조(α-helix, β-sheet) 등 실제 생물학적 구조와 대응되는 패턴을 스스로 학습한 것이 확인되었습니다. 이는 단순한 예측을 넘어 “생물학적 의미를 이해하는 수준”에 가까운 특징입니다.
더 나아가 Evo 2는 DNA를 생성하는 능력도 보여주었습니다. 인간 미토콘드리아 유전체, 세균 유전체, 효모 유전체 등을 실제와 유사한 구조로 생성했으며, 생성된 서열은 유전자 구성, 코돈 사용, 구조적 특징 등에서 자연 유전체와 상당히 유사했습니다.
**고찰**
이 연구는 하나의 모델이 DNA, RNA, 단백질 수준을 모두 아우르며 다양한 생명체에 적용될 수 있음을 보여줍니다. 특히 별도의 과제별 학습 없이도 다양한 생물학적 문제를 해결할 수 있다는 점에서 “범용 생물학 AI”의 가능성을 제시합니다. 다만 생성된 유전체가 실제로 기능하는 생명체를 만들 수 있는지는 아직 실험적으로 검증되지 않았으며, 일부 필수 유전자 등이 부족한 한계도 존재합니다.
**의의와 시사점**
Evo 2는 기존의 특정 종이나 특정 문제에 특화된 모델과 달리, 생명 전체를 아우르는 통합적인 접근을 제시합니다. 이는 향후 신약 개발, 질병 원인 분석, 합성생물학 등 다양한 분야에서 활용될 수 있습니다. 특히 인간 유전자 변이 해석 능력은 정밀의료 발전에 중요한 기반이 될 수 있습니다.
또한 연구에서 모델을 공개함으로써, 전 세계 연구자들이 동일한 기반 위에서 생명 시스템을 탐구하고 설계할 수 있도록 한 점도 중요한 기여입니다.
**왜 이 연구가 중요한가**
이 연구의 핵심은 “DNA를 이해하는 수준”을 넘어 “설계할 수 있는 수준”으로 생명과학이 확장되고 있다는 점입니다. Evo 2는 생명체의 설계도를 학습한 AI로서, 질병의 원인을 예측하는 것뿐 아니라 새로운 생물학적 기능을 만드는 데까지 이어질 가능성을 보여줍니다. 이는 생명과학이 데이터 기반 공학으로 전환되는 중요한 전환점이며, 미래 의학과 바이오 산업의 방향을 크게 바꿀 수 있는 연구입니다.
grok
Evo 2: 모든 생물의 DNA를 이해하고 새롭게 디자인하는 AI 모델
DNA는 모든 생명의 설계도입니다.
우리는 이미 DNA를 읽고(시퀀싱), 만들고(합성), 고칠(편집) 수 있는 기술을 가지고 있지만, 그 안에 숨겨진 복잡한 규칙을 완전히 이해하지 못해 유전자 변이가 어떤 결과를 가져올지 예측하거나, 새로운 생물 시스템을 의도적으로 만들기 어려웠습니다.
이번 Nature 논문에서 발표된 Evo 2는 바로 이 문제를 해결하기 위해 개발된 생물학 기초 AI 모델입니다.
연구팀은 세균·고세균·진핵생물(식물·동물·곰팡이 등) 모든 영역의 생물을 아우르는 9조 개 DNA 염기쌍을 학습시켰습니다.
모델은 100만 토큰이라는 초장거리 컨텍스트를 가지며, 특정 과제에 따로 훈련하지 않아도 DNA 서열의 기능을 예측하고, 새로운 DNA를 창조적으로 생성할 수 있습니다.
훈련 방법은 두 단계로 나뉩니다.
먼저 8,192 토큰 정도의 짧은 서열로 기본적인 유전자 요소(유전자, 조절 부위 등)를 배우는 사전훈련을 하고, 이후 컨텍스트를 100만 토큰까지 늘리는 중간훈련을 진행합니다.
새로운 StripedHyena 2라는 효율적인 아키텍처를 사용해 40억(40B)과 70억(7B) 파라미터 두 크기의 모델을 만들었고, OpenGenome2라는 정제된 대규모 데이터셋으로 학습했습니다.
또한 모델 내부를 해석하기 위해 희소 오토인코더(SAE)라는 기술을 적용해 어떤 생물학적 특징을 학습했는지 들여다봤습니다.
실험 결과는 놀랍습니다.
Evo 2는 인간의 임상 변이(ClinVar)와 BRCA1·BRCA2 유전자 변이를 거의 전문 모델 수준으로 정확하게 예측했습니다.
코딩 영역뿐 아니라 비코딩 영역, 삽입·결실 변이까지 모두 잘 다루며, 돌연변이가 단백질·RNA·세포 기능에 미치는 영향을 제로샷(추가 학습 없이)으로 판단합니다.
모델은 엑손-인트론 경계, 전사인자 결합 부위, 프로파지(바이러스 삽입 부위), 단백질의 알파나선·베타시트 구조까지 내부적으로 학습했습니다.
생성 능력도 뛰어납니다.
인간 미토콘드리아 전체(16kb), 세균 Mycoplasma genitalium(58만 bp), 효모 염색체 일부(33만 bp)를 프롬프트로 주면 자연스러운 형태의 DNA를 만들어 냅니다.
유전자 개수, 코돈 사용 패턴, 단백질 구조까지 실제 생물과 비슷합니다.
더 나아가 별도의 예측 모델(Enformer, Borzoi)과 결합해 ‘염색질 접근성’ 패턴을 원하는 대로 디자인했습니다.
예를 들어 모스 부호로 “EVO2”, “ARC”, “LO” 같은 메시지를 DNA에 새겨 넣었고, 이를 실제 마우스·인간 세포에 삽입한 뒤 ATAC-seq 실험으로 확인해 예측과 실험 결과가 거의 일치한다는 것을 증명했습니다.
연구팀은 안전을 최우선으로 고려했습니다.
인간을 감염시키는 바이러스 DNA는 훈련 데이터에서 제외해 모델이 위험한 병원체를 만들지 못하도록 했고, 모든 모델·코드·데이터를 완전 오픈소스로 공개했습니다.
이 연구의 가장 큰 의의는 ‘생물학의 모든 규모를 하나의 AI로 연결했다’는 점입니다.
분자 수준부터 유전체 전체까지, 세균부터 인간까지 아우르는 일반적 이해를 얻었고, 예측뿐 아니라 실제 디자인까지 가능하게 만들었습니다.
이전 모델들은 특정 생물이나 짧은 서열에 국한됐지만, Evo 2는 진짜 ‘범용 생물 언어 모델’이 되었습니다.
왜 이 연구가 중요한가요?
AI와 생물학의 융합은 이제 단순한 예측을 넘어 ‘생명을 프로그래밍’하는 단계로 들어섰습니다.
Evo 2는 질병 치료(정확한 변이 진단), 합성생물학(새로운 유기체 디자인), personalized medicine, 심지어 기후·환경 문제 해결까지 열어줄 기반 기술입니다.
모든 것을 공개했기 때문에 전 세계 연구자들이 함께 발전시킬 수 있고, 인류가 생명의 복잡성을 이해하고 더 나은 미래를 설계하는 데 결정적인 전환점이 될 것입니다.
NotebookLM
**[블로그 포스팅] 모든 생명체의 설계도를 읽고 쓰는 인공지능: ‘Evo 2’의 탄생**
지구상의 모든 생명체는 DNA라는 공통된 언어로 정보를 기록합니다. 하지만 수십억 년의 진화가 빚어낸 이 유전체(게놈)의 복잡성은 인간의 직관으로 이해하기에는 너무나 방대했습니다. 최근 세계적인 연구팀(Arc Institute, Stanford 등)은 박테리아부터 인간에 이르기까지 지구상의 모든 생명체 영역을 아우르는 차세대 인공지능 모델인 ‘Evo 2’를 발표하며, 생명 과학의 새로운 지평을 열었습니다.
**1. 연구 배경: 생명의 언어를 해석하는 거대한 도전**
유전자 시퀀싱 기술의 발전으로 우리는 엄청난 양의 DNA 데이터를 쌓아왔지만, 정작 유전자의 변화가 우리 몸에 어떤 구체적인 영향을 미치는지, 혹은 새로운 생물학적 시스템을 어떻게 설계해야 할지는 여전히 미지의 영역이었습니다. 기존의 AI 모델들은 주로 단백질이나 특정 종에 국한된 정보를 학습해 왔기에, 생명체 전체를 관찰하는 ‘일반 지능’을 갖추기에는 한계가 있었습니다.
**2. 연구 목적: 생물학적 복잡성을 위한 범용 기초 모델 구축**
연구팀의 목표는 모든 생명 영역에 걸쳐 기능적 예측과 디자인이 가능한 ‘생물학 기초 모델(Biological Foundation Model)’을 만드는 것이었습니다. 단순히 데이터를 암기하는 수준을 넘어, 유전자가 단백질을 만들고 세포 기능을 조절하는 ‘중심 원리(Central Dogma)’를 스스로 학습하여 생명의 복잡성을 디자인할 수 있는 도구를 개발하고자 했습니다.
**3. 연구 방법: 9조 개의 염기와 100만 배의 시야**
Evo 2는 ‘OpenGenome2’라고 불리는 방대한 데이터셋을 통해 학습되었습니다. 이 데이터셋에는 박테리아, 고균, 진핵생물 등 모든 도메인에서 수집된 **9조 개의 DNA 염기쌍** 정보가 포함되어 있습니다. 특히 연구진은 **‘스트라이프드하이에나 2(StripedHyena 2)’**라는 혁신적인 신경망 구조를 도입하여, 한 번에 무려 **100만 개의 염기 서열(1MB)**을 동시에 분석할 수 있는 능력을 갖추게 했습니다. 이는 기존 모델보다 훨씬 넓은 시야로 유전체 전체의 맥락을 파악할 수 있음을 의미합니다.
**4. 주요 연구 결과: 예측하고, 발견하며, 창조하는 AI**
Evo 2는 별도의 추가 학습 없이도 놀라운 성능을 보여주었습니다.
첫째, **질병 유발 변이 예측**입니다. Evo 2는 DNA의 단일 염기 변화가 유방암(BRCA1)이나 다른 희귀 유전병에 미치는 영향을 제로샷(Zero-shot, 추가 학습 없는 상태)으로 정확하게 예측해냈습니다.
둘째, **스스로 깨우치는 생물학적 특징**입니다. 인공지능은 별도의 라벨링 없이도 데이터 학습만으로 엑손(Exon)과 인트론(Intron)의 경계, 단백질의 구조적 요소, 심지어 박테리아 내부에 숨겨진 바이러스 유전체(프로파지) 영역까지 식별해냈습니다.
셋째, **게놈 규모의 서열 생성**입니다. 인간의 미토콘드리아 DNA(16kb)나 소형 박테리아 게놈(580kb)과 유사한 구조와 기능을 가진 새로운 DNA 서열을 스스로 만들어냈습니다.
넷째, **제어 가능한 설계**입니다. 연구진은 Evo 2를 유도하여 특정 위치에 염색질 접근성을 조절함으로써, 게놈 서열 위에 **모스 부호(‘EVO2’, ‘ARC’ 등) 메시지를 새겨 넣는 실험**에 성공하고 이를 실제 세포 실험으로 검증했습니다.
**5. 고찰 및 시사점: 안전하고 책임감 있는 과학 기술**
연구팀은 기술의 오용을 막기 위해 인간을 감염시키는 바이러스 서열을 학습 데이터에서 제외하는 등 엄격한 안전 조치를 취했습니다. 또한, 이 모든 기술적 성과를 전 세계 과학자들이 자유롭게 사용할 수 있도록 모델의 파라미터와 코드를 **오픈 소스로 완전 공개**했습니다. 이는 개별 연구자들이 각자의 연구 목적에 맞춰 Evo 2를 활용해 난치병 치료나 신약 개발에 속도를 낼 수 있게 하기 위함입니다.
**6. 이 연구가 왜 중요한가요?**
이 연구는 인류가 **‘생명의 언어’를 프로그래밍 가능한 수준으로 이해하기 시작했다는 것**을 보여줍니다. 지금까지의 생물학이 자연이 쓴 글을 읽는 과정이었다면, Evo 2는 그 문법을 익혀 우리가 원하는 기능을 직접 서술할 수 있는 ‘펜’을 쥐여준 것과 같습니다. 아주 긴 맥락의 유전자 정보를 한꺼번에 처리할 수 있는 이 기술은 암이나 희귀 유전 질환의 원인을 더 정확히 찾아내는 것은 물론, 인류가 직면한 질병, 식량, 환경 문제 등을 해결할 수 있는 **맞춤형 생물학적 솔루션을 설계하는 강력한 엔진**이 될 것이기 때문에 매우 중요합니다.
Kimi
이 논문은 **"Evo 2"**라는 새로운 생물학적 AI 모델을 소개하는 연구입니다. 이 모델은 DNA 서열을 이해하고 예측하며, 심지어 새로운 생명체 서열을 디자인할 수 있는 능력을 가지고 있습니다.
---
## 연구 배경: 왜 DNA AI가 필요한가?
우리 몸의 모든 생명 활동은 DNA에 저장된 정보에 따라 이루어집니다. 그러나 DNA의 복잡성은 상상을 초월합니다. 인간 게놈만 해도 30억 개의 염기쌍으로 이루어져 있으며, 이 중 어떤 부분이 질병과 관련 있는지, 어떤 변화가 치명적인 영향을 미치는지 파악하는 것은 여전히 어려운 과제입니다.
기존에는 특정 질병이나 특정 생물체에 대해 개별적으로 연구하는 방식이 대부분이었습니다. 하지만 연구진은 이런 방식의 한계를 느끼고, 모든 생명체의 DNA를 통합적으로 학습하는 **"기초 모델(Foundation Model)"**의 필요성을 제기했습니다. 이는 GPT가 인간 언어를 이해하는 방식과 유사합니다. GPT가 수많은 텍스트를 학습해 언어의 패턴을 이해하듯, Evo 2는 수많은 DNA 서열을 학습해 생명의 언어를 이해하려 합니다.
---
## 연구 목적: 모든 생명체를 아우르는 DNA 언어 모델 만들기
Evo 2의 핵심 목표는 세 가지입니다. 첫째, **세 가지 생명 영역(세균, 고세균, 진핵생물)의 모든 DNA를 통합 학습**하는 것입니다. 둘째, **단일 염기 분해능(1개의 염기쌍 단위로 분석)**으로 최대 **100만 개의 염기쌍**을 한 번에 처리할 수 있는 능력을 갖추는 것입니다. 셋째, **예측과 생성이라는 두 가지 능력**을 동시에 갖추는 것입니다. 즉, 기존 DNA의 기능을 예측할 수도 있고, 완전히 새로운 생명체 서열을 디자인할 수도 있어야 합니다.
---
## 연구 방법: 어떻게 이런 모델을 만들었나?
**데이터 구축: OpenGenome2**
연구진은 9조 개의 염기쌍 데이터로 구성된 **OpenGenome2** 데이터셋을 새로 만들었습니다. 이는 기존 데이터보다 훨씬 정제되고 다양한 생물체를 포함합니다. 세균, 고세균, 진핵생물(동물, 식물, 균류, 원생생물)은 물론, 미토콘드리아 DNA까지 포함되어 있습니다. 특히 바이오안전을 위해 사람을 감염시키는 바이러스 DNA는 의도적으로 제외했습니다.
**모델 아키텍처: StripedHyena 2**
Evo 2는 **StripedHyena 2**라는 새로운 신경망 구조를 사용합니다. 기존 AI 모델들이 긴 서열을 처리할 때 효율이 떨어지는 문제를 해결했습니다. 400억 개의 파라미터를 가진 버전은 100만 개 염기쌍을 처리하면서도 기존 모델보다 3배 빠른 속도를 보입니다.
**두 단계 학습 전략**
모델은 8,192개 염기쌍으로 먼저 학습한 후, 점진적으로 100만 개까지 컨텍스트를 확장하는 **"미드트레이닝"** 방식을 사용했습니다. 이는 짧은 패턴을 먼저 학습하고, 긴 거리의 상호작용을 나중에 학습하는 효과적인 전략입니다.
---
## 연구 결과: Evo 2가 보여준 놀라운 능력들
**1. 변이 효과 예측: 질병 유전자를 찾아낸다**
Evo 2는 학습된 적 없는 변이의 영향을 **"제로샷(Zero-shot)"**으로 예측할 수 있습니다. 특히 **BRCA1 유전자**(유방암과 난소암에 관련된 중요한 유전자)의 변이를 예측하는 테스트에서, 기존의 최신 모델들을 능가하는 성능을 보였습니다. 코딩 영역뿐 아니라 **비코딩 영역(유전자 밖의 조절 영역)**의 변이 예측에서도 뛰어난 성능을 보여, 기존 방법으로는 분석이 어려웠던 영역의 해석을 가능하게 했습니다.
**2. 메커니즘 해석: AI가 배운 생물학적 개념**
연구진은 **희소 오토인코더(SAE)** 기법을 이용해 Evo 2가 내부적으로 어떤 생물학적 개념을 학습했는지 분석했습니다. 놀랍게도 모델은 다음과 같은 개념들을 스스로 발견했습니다: **프로파지(박테리아에 잠입한 바이러스 DNA)**, **CRISPR 스페이서 서열**, **엑손-인트론 경계(유전자의 코딩/비코딩 부분 구분)**, **단백질의 2차 구조(알파-헬릭스, 베타-시트)**, **전사인자 결합 부위(유전자 발동 스위치)**. 이는 Evo 2가 단순히 패턴을 외운 것이 아니라, 생명의 기능적 원리를 이해하고 있음을 보여줍니다.
**3. 게놈 규모 생성: 새로운 생명체 설계**
Evo 2는 단순히 분석만 하는 것이 아니라 **새로운 DNA 서열을 생성**할 수도 있습니다. 연구진은 모델로 다음을 성공적으로 생성했습니다: **인간 미토콘드리아 게놈**(16kb, 정확한 유전자 수와 배열 유지), **마이코플라스마 제니탈리움**(580kb, 최소한의 생명체), **효모 염색체**(330kb, 유전자, 인트론, 프로모터 포함). 생성된 서열들은 실제 생물체와 유사한 구조적 특성을 보였습니다.
**4. 염색질 접근성 디자인: 원하는 대로 유전자 스위치 조절**
가장 혁신적인 응용은 **"추론 시점 검색(Inference-time Search)"**을 통한 디자인입니다. 연구진은 Evo 2로 DNA를 생성하면서, **Enformer와 Borzoi**라는 예측 모델이 실시간으로 검증하는 방식을 사용했습니다. 이를 통해 특정 패턴의 **염색질 접근성(Chromatin Accessibility)**을 가진 DNA를 설계했습니다. 실제로 "EVO2", "ARC", "LO"라는 **모스 부호 메시지**를 염색질 접근성 패턴으로 인코딩한 DNA를 만들어, 마우스 배아줄기세포에 넣고 실험적으로 검증했습니다. 예측과 실제 실험 결과가 매우 일치했습니다(AUROC 0.92-0.95).
---
## 고찰: Evo 2의 의미와 한계
Evo 2는 **생물학의 언어 모델**이라는 새로운 패러다임을 제시합니다. 기존의 생물정보학 도구들은 특정 문제를 위해 특별히 설계되었지만, Evo 2는 다양한 문제에 적용할 수 있는 **범용 기초 모델**입니다. 특히 중요한 점은 이 모델이 **완전히 오픈소스**로 공개되었다는 것입니다. 모델 파라미터, 학습 코드, 추론 코드, 데이터셋 모두 공개되어 전 세계 연구자들이 활용할 수 있습니다.
그러나 한계도 있습니다. 생성된 게놈이 실제로 살아있는 세포에서 기능한다는 것을 보장하지는 못합니다. 또한 복잡한 진핵생물의 게놈 생성은 아직 초기 단계이며, 실제 생물학적 실험 검증이 필요합니다.
---
## 의의와 시사점: 왜 이 연구가 중요한가?
**과학적 의의**
Evo 2는 **생명의 통합 이해**를 향한 중요한 걸음입니다. 수십억년의 진화를 통해 다양해진 생명체들이 공유하는 기본 원리를 AI가 포착했습니다. 특히 메커니즘 해석 연구는 AI가 단순한 블랙박스가 아니라, **해석 가능한 생물학적 지식**을 내재하고 있음을 보여줍니다.
**실용적 시사점**
의학적으로는 **희귀 질병의 유전자 변이 해석**, **개인 맞춤형 유전자 치료**, **합성생물학을 통한 새로운 치료제 생산** 등에 응용될 수 있습니다. 예를 들어, 특정 환자의 유전자 변이가 질병을 유발하는지 Evo 2로 예측할 수 있고, 원하는 기능을 가진 새로운 단백질이나 유전자 회로를 설계할 수 있습니다.
**미래 지향적 의의**
이 연구는 **생명 설계(Life Design)**의 시대를 열었습니다. 자연에서 발견된 생명체를 단순히 연구하는 것을 넘어, 원하는 기능을 가진 생명체를 **프로그래밍하듯 설계**하는 것이 가능해지고 있습니다. 대규모 DNA 합성 기술과 결합될 때, Evo 2는 복잡한 생물학적 기능의 프로그래밍 가능한 설계를 가능하게 할 것입니다.
결론적으로, Evo 2는 생물학과 AI의 융합이 만들어낸 **새로운 과학 도구**이자, **생명의 언어를 해독하고 창조하는 열쇠**입니다. 이는 단순한 기술 발전을 넘어, 인류가 생명을 이해하고 다루는 방식 자체를 변화시킬 잠재력을 지니고 있습니다.
![]() |
| 출처: @ye._.vely618 |









