Lee Gir-Won (Lee Gil-Won): RNA

요즘 AI가 정말 무섭게 발전하고 있죠. 사진 한 장으로 사람 얼굴을 복원하거나, 몇 마디 말만으로 그림을 뚝딱 그려내는 걸 보면 “이게 어디까지 갈까” 싶을 정도입니다. 그런데 이런 AI의 손길이 우리 몸속 아주 작은 분자 세계까지 들어오기 시작했어요.

DNA가 설계도라면, 단백질은 그 설계도를 실제로 움직이는 ‘일꾼’이죠. 그런데 그 사이에서 중요한 전달자이자, 때로는 스스로 일도 하는 존재가 바로 **RNA**입니다. 문제는 이 RNA가 너무 유연해서, 실제로 어떻게 ‘접혀’ 있는지(3차원 구조) 알아내기가 정말 어려웠다는 거예요. 실험으로 확인하려면 시간도 많이 들고 비용도 어마어마하죠.

그런데 최근, 이 오랜 난제를 AI가 상당 부분 풀어내는 연구가 나왔습니다.

오늘 소개할 논문은 Nature Methods에 실린 Accurate RNA 3D structure prediction using a language model-based deep learning approach 입니다.

단백질 구조 예측에서 혁명을 일으킨 AlphaFold의 열풍을 기억하시나요? 이번 RhoFold+는 그 바람을 RNA 세계로 본격적으로 옮겨온 느낌입니다. RNA 염기서열만 입력하면, 복잡한 계산 없이도 **0.14초 만에** 꽤 정확한 3차원 구조를 예측해준다고 하니, 솔직히 놀라울 따름이더라고요.

연구진은 RNA를 ‘문장’처럼 보고, 수천만 개의 RNA 서열을 미리 학습시킨 ‘언어 모델’을 핵심으로 사용했습니다. 마치 우리가 수많은 글을 읽으며 문법을 익히듯, AI가 RNA의 숨겨진 규칙을 배운 거죠.

이 기술이 왜 중요한지, 실제로 얼마나 잘 맞추는지, 그리고 우리에게 어떤 의미가 있는지는 본문에서 자세히 풀어보려고 해요. RNA 구조를 알면 신약 개발이나 합성생물학 분야가 한층 빨라질 수 있다는 이야기도 나오고 있거든요.

AI가 생명의 가장 기본적인 ‘모양’까지 읽어내기 시작했다는 게, 아직도 신기하게 느껴지네요. 함께 살펴볼까요?

DOI: 10.1038/s41592-024-02487-0

※ 너무 "존대말"과 "살펴볼까요?" 라는 말을 하는 것 제외하고는 괜춘한것 같습니다. :)

gemini

최근 생명과학 분야에서 단백질 구조를 예측하는 인공지능 '알파폴드'가 큰 화제를 모았습니다. 그런데 우리 몸에서 단백질만큼이나 중요한 **RNA**의 3차원 구조를 예측하는 것은 훨씬 더 어려운 숙제였습니다.
최근 세계적인 학술지 *Nature Methods*에 게재된 논문 **"RhoFold+: 언어 모델 기반 딥러닝을 이용한 정확한 RNA 3차원 구조 예측"**은 바로 이 난제를 해결하기 위한 혁신적인 인공지능 모델을 소개하고 있습니다. 일반 독자분들도 이해하기 쉽게 이 연구의 내용을 정리해 드립니다.
---
### 1. 연구 배경: 왜 RNA 구조 예측은 어려울까?
RNA는 우리 몸의 유전 정보를 전달하고 단백질 합성을 돕는 핵심 분자입니다. 하지만 RNA는 단백질에 비해 **구조가 매우 유연하고 잘 변하기 때문에**, 실험을 통해 정확한 3차원 모양을 알아내는 것이 매우 까다롭고 비용이 많이 듭니다. 실제로 단백질 구조 데이터는 수십만 개가 쌓여 있는 반면, RNA만의 구조 데이터는 전체의 1%도 되지 않을 정도로 부족한 실정입니다.
### 2. 연구 목적: 데이터 부족을 극복하는 AI, 'RhoFold+'
연구진은 데이터가 부족한 상황에서도 **RNA 염기서열(유전 코드)만 입력하면 그 3차원 구조를 빠르고 정확하게 예측**할 수 있는 인공지능 모델인 **'RhoFold+'**를 개발하고자 했습니다. 특히 기존 모델들이 느리거나 정확도가 떨어졌던 한계를 극복하고, 누구나 쉽게 사용할 수 있는 자동화된 시스템을 만드는 것이 목표였습니다.
### 3. 연구 방법: AI가 RNA의 '언어'를 학습하다
RhoFold+의 핵심은 **'RNA 언어 모델(RNA-FM)'**입니다.
*
**거대 언어 학습**: 마치 챗GPT가 수많은 문장을 읽고 인간의 언어를 배우듯, 이 AI는 약 **2,370만 개의 RNA 서열 데이터**를 미리 학습하여 RNA가 어떻게 구성되고 접히는지에 대한 '문법'을 익혔습니다.
*
**다층 구조 시스템**: 학습된 언어 모델에 더해, 진화적 정보를 분석하는 모듈과 기하학적 위치를 조정하는 모듈 등 여러 단계의 딥러닝 기술을 결합하여 정교한 3차원 모델을 완성합니다.
### 4. 연구 결과: 인간 전문가를 뛰어넘은 정확도
연구진은 이미 구조가 밝혀진 RNA들을 대상으로 RhoFold+의 성능을 테스트했습니다.
*
**세계 대회에서의 압승**: RNA 구조 예측 대회인 'RNA-Puzzles'와 'CASP15'에서 RhoFold+는 **기존의 모든 예측 모델은 물론, 인간 전문가 그룹보다도 뛰어난 성적**을 거두었습니다.
*
**빠른 속도**: 복잡한 검색 없이 단 **0.14초** 만에 구조를 예측할 수 있을 만큼 효율적입니다.
*
**다재다능함**: 단순한 3차원 모양뿐만 아니라, RNA의 2차원 결합 구조와 구조 사이의 각도까지도 정확하게 맞혔습니다.
### 5. 고찰 및 시사점: 실험의 오류까지 잡아내다
이 연구에서 흥미로운 점은 AI가 단순히 실험 결과를 흉내 내는 데 그치지 않는다는 것입니다.
* **실험 오차 교정**: 연구 중 어떤 RNA는 실험으로 밝혀진 구조와 AI의 예측값이 크게 달랐습니다. 확인 결과, 실험 과정에서 인위적으로 발생한 구조적 오류(결정화 결함)가 있었으며, **AI가 예측한 모양이 실제 생물학적으로 더 타당한 구조**임이 밝혀졌습니다.
*
**범용성**: AI가 이전에 본 적 없는 새로운 종류의 RNA 가족이나 유형에 대해서도 일관되게 높은 정확도를 유지했습니다.
---
### 🌟 이 연구가 왜 중요한가요?
1. **신약 개발의 가속화**: 많은 질병이 RNA와 관련이 있습니다. RNA 구조를 정확히 알면, 특정 RNA에 딱 붙어 질병을 치료하는 'RNA 표적 치료제'를 훨씬 정교하게 설계할 수 있습니다.
2. **생명의 신비 해독**: 인간 유전자의 85% 이상이 RNA로 만들어지지만, 그중 3%만이 단백질이 됩니다. 나머지 **'정체를 알 수 없는 RNA'들의 구조와 기능**을 밝혀내는 데 이 AI가 강력한 돋보기가 되어줄 것입니다.
3. **합성 생물학의 발전**: 원하는 기능을 가진 새로운 RNA 분자를 직접 설계하고 만드는 '공학적 설계'의 밑바탕이 되어, 미래 바이오 산업의 핵심 기술로 활용될 수 있습니다.
이제 인공지능은 단백질을 넘어 RNA의 비밀까지 풀어내며, 인류가 생명 현상을 이해하고 질병을 정복하는 새로운 시대를 열고 있습니다.

chatGPT

아래 내용은 **Nature Methods (2024)**에 게재된
**「Accurate RNA 3D structure prediction using a language model-based deep learning approach」** 논문을 바탕으로,
**전문 지식이 없는 일반 성인 독자도 이해할 수 있도록** 블로그용으로 정리한 요약입니다.
(요청하신 대로 *일반론이 아닌, 이 논문에서 실제로 얻을 수 있는 핵심 내용* 위주로 작성했습니다.)
---
## RNA 구조 예측, 왜 이렇게 어려웠을까?
RNA는 DNA와 단백질 사이에서 단순한 “중간 전달자”가 아니라, **유전자 조절, 바이러스 증식, 질병 발생, 신약 표적** 등에서 핵심 역할을 합니다.
하지만 RNA의 기능을 제대로 이해하려면 **3차원(3D) 구조**를 알아야 합니다.
문제는 RNA가 매우 **유연하고 잘 휘어지는 분자**라는 점입니다.
이 때문에 X선 결정학, NMR, 크라이오 전자현미경 같은 실험 기법으로 구조를 규명하기가 어렵고, 실제로 **PDB(단백질 구조 데이터베이스)에 등록된 RNA 단독 구조는 1%도 되지 않습니다.**
이 데이터 부족은 계산 기반 예측 방법에도 큰 한계로 작용했습니다.
---
## 기존 RNA 3D 구조 예측 방법의 한계
기존 방법들은 크게 세 가지 문제가 있었습니다.
1. **템플릿 기반 방법**
→ 이미 알려진 RNA 구조를 참고하는 방식
→ 새로운 RNA에는 적용이 어렵고 정확도 한계가 큼
2. **물리·에너지 기반 샘플링 방법**
→ 가능한 구조를 엄청나게 많이 생성해 가장 안정적인 구조를 선택
→ 계산량이 너무 크고 시간이 오래 걸림
3. **딥러닝 기반 방법**
→ 최근 성과가 있었지만 대부분
**다중서열정렬(MSA)** 검색이 필요해 시간이 많이 들거나
정확도와 속도를 동시에 잡지 못함
---
## 연구 목적: “빠르고 정확한 RNA 3D 구조 예측”
이 논문의 목표는 분명합니다.
> **RNA 서열 하나만 입력하면, 빠르고 정확하게 3D 구조를 예측할 수 있는 완전 자동화 모델을 만드는 것**
이를 위해 연구진은 **RhoFold+**라는 새로운 딥러닝 모델을 제안했습니다.
---
## 핵심 아이디어: RNA용 ‘언어 모델’을 활용하다
### 1️⃣ RNA 언어 모델(RNA-FM)
이 연구의 가장 큰 특징은
**RNA를 ‘문장’, 염기를 ‘단어’처럼 학습한 언어 모델**을 사용했다는 점입니다.
* 약 **2,370만 개 RNA 서열**
* **80만 종 이상의 생물**
* 구조 정보 없이 서열만으로 사전 학습
이 언어 모델은 RNA 서열 속에 숨어 있는
**진화 정보, 구조적 패턴, 염기 간 관계**를 자동으로 학습합니다.
---
### 2️⃣ RhoFold+의 구조 예측 방식
RhoFold+는 다음 단계를 거칩니다.
1. **RNA 서열 입력**
2. RNA 언어 모델(RNA-FM)로 서열 표현 생성
3. Transformer 기반 네트워크(Rhoformer)로 정보 정제
4. 3D 공간에서 염기 위치와 각도를 직접 예측
5. **물리적으로 가능한 RNA 구조를 바로 출력**
👉 별도의 복잡한 샘플링 과정 없이
👉 **한 번에(all-atom) 3D 구조를 생성**
---
## 성능은 실제로 얼마나 좋을까?
### 🔬 RNA-Puzzles 평가 결과
RNA 구조 예측의 국제 경진대회인 **RNA-Puzzles**에서:
* 평균 RMSD **4.02 Å**
* 기존 최고 방법보다 **약 2.3 Å 더 정확**
* 일부 문제에서는 **사람 전문가 그룹보다 우수**
특히 중요한 점은,
* 학습 데이터와 **유사하지 않은 RNA**에서도
* 정확도가 유지되었다는 것입니다.
즉, **외워서 맞춘 것이 아니라 ‘이해하고 예측’**한 결과입니다.
---
### 🧪 CASP15 RNA 평가
CASP는 단백질·RNA 구조 예측의 최고 권위 평가입니다.
* RhoFold+는 **완전 자동(server 방식)**임에도
* 전문가 개입이 필요한 방법들과 **동등하거나 더 우수한 성능**
* AlphaFold3, DeepFoldRNA 등 최신 모델보다도 안정적인 성능
---
### ⚡ 속도까지 빠르다
* 평균 예측 시간: **약 0.14초**
* 기존 샘플링 기반 방법 대비 **수백~수천 배 빠름**
👉 대규모 RNA 분석에도 현실적으로 사용 가능
---
## 단순한 3D 구조 예측을 넘어
이 연구의 또 다른 강점은 **부가 정보 예측 능력**입니다.
### ✔ RNA 2차 구조 예측
* 기존 2차 구조 예측 모델보다 높은 정확도
* 특히 긴 RNA와 복잡한 구조에서 강점
### ✔ 헬릭스 간 각도, 국소 구조 정보 제공
* 합성 생물학 설계
* RNA 기반 치료제 개발에 직접 활용 가능
---
## 한계와 고찰
연구진은 한계도 솔직히 언급합니다.
* 매우 **긴 RNA(200nt 이상)**에서는 정확도가 다소 감소
* 단백질과 강하게 상호작용하는 RNA 구조는 예측이 어려움
* RNA 접합부(junction)처럼 유연한 부위는 여전히 도전 과제
하지만 이는 **현재 RNA 구조 생물학 전체가 가진 공통적 한계**이기도 합니다.
---
## 이 연구의 의의와 시사점
이 논문이 중요한 이유는 다음과 같습니다.
1. **RNA 구조 예측의 패러다임 전환**
* “샘플링 → 언어 모델 기반 직접 예측”
2. **단백질 중심 AI 구조 예측에서 RNA로의 확장**
* AlphaFold 이후 RNA 분야의 본격적 도약
3. **신약 개발·합성 생물학·바이러스 연구에 즉시 활용 가능**
* 실험이 어려운 RNA 구조를 빠르게 탐색 가능
4. **RNA ‘암흑물질’ 영역을 밝힐 도구**
* 인간 유전체의 97%는 비단백질 코딩 RNA
* 구조 예측 없이는 기능 이해도 불가능
---
## 마무리: 이 연구가 왜 중요한가?
> **RNA는 중요하지만, 구조를 알기 어려웠다.
> RhoFold+는 이 장벽을 처음으로 실질적으로 낮춘 연구다.**
이 연구는 단순히 성능이 좋은 모델을 제안한 것이 아니라,
**RNA 구조 연구의 속도와 접근성을 완전히 바꿀 수 있는 기술적 전환점**을 제시합니다.
앞으로 RNA 기반 치료제, mRNA 백신, RNA 합성 설계가 발전할수록
**RhoFold+ 같은 기술은 ‘선택’이 아니라 ‘필수 도구’**가 될 가능성이 큽니다.

grok

### RNA 3D 구조 예측을 위한 딥러닝 모델 RhoFold+ 연구 요약
#### 연구 배경
RNA는 생명 현상의 핵심이지만, 유연한 구조 때문에 3D 형태를 실험적으로 밝히기 어렵습니다. Protein Data Bank(PDB)에 등록된 RNA 구조는 전체의 1% 미만으로 데이터가 부족해 컴퓨터 예측이 필요합니다. 기존 방법은 템플릿 기반(기존 구조 활용)이나 de novo(새로 생성) 방식이지만, 템플릿 부족이나 계산 비용이 문제입니다. 최근 딥러닝(예: AlphaFold2)이 단백질 예측에 성공했으나, RNA에는 데이터 부족으로 적용이 제한적입니다.
#### 연구 목적
연구팀은 RNA 시퀀스만으로 정확하고 빠른 3D 구조 예측을 위해 RhoFold+ 모델을 개발했습니다. 이는 RNA 언어 모델을 활용해 데이터 부족을 극복하고, 단일 체인 RNA 구조를 자동으로 예측하는 end-to-end 시스템입니다. RNA 기능 이해, 약물 개발, 합성 생물학에 활용 가능성을 목표로 합니다.
#### 방법
RhoFold+는 약 2,370만 개 RNA 시퀀스로 사전 훈련된 RNA-FM(언어 모델)을 기반으로 합니다. 입력 시퀀스를 RNA-FM으로 임베딩하고, 여러 시퀀스 정렬(MSA)을 생성해 진화 정보를 추출합니다. Rhoformer(트랜스포머 네트워크)로 특징을 반복 정제한 후, IPA(기하학 인식 주의 메커니즘)로 뼈대 좌표와 비틀림 각도를 예측합니다. 2차 구조와 염기 쌍 제약을 적용해 최종 구조를 생성하며, 평균 0.14초 만에 예측합니다. 훈련 데이터는 PDB에서 비중복 782개 클러스터로 구성했습니다.
#### 결과
RNA-Puzzles(24개 타겟)에서 평균 RMSD 4.02Å로 기존 방법(예: FARFAR2)을 앞질렀습니다. CASP15(6개 자연 RNA 타겟)에서도 최고 성능(Z-점수 기준 1위 동등)을 보였습니다. 10배 교차 검증에서 안정적(평균 TM 점수 0.7 이상), 신규 PDB 구조(76개)에서도 RMSD 7.74Å로 최상위. 교차 가족/유형 검증에서 미본 RNA 가족(예: tRNA) 예측 정확도 높았습니다. 추가로 2차 구조(F1 점수 0.7 이상)와 헬릭스 간 각도(IHA)도 정확히 예측했습니다.
#### 고찰
예측 정확도는 MSA 품질과 RNA 길이/복잡성에 영향을 받습니다. 과적합 없음(훈련 데이터 유사성과 상관 R² 0.23 미만)이 확인됐으나, 복잡 접합부나 의사매듭은 어려움. RNA-단백질 복합체 예측은 약점으로, 데이터 부족과 동적 구조가 원인입니다. 개선으로 2차 구조 프로빙이나 에너지 함수 통합 제안합니다.
#### 의의와 시사점
RhoFold+는 RNA 구조 예측 속도와 정확도를 크게 높여, RNA 기능 연구와 약물 타겟팅을 가속화합니다. 예를 들어, 실험 아티팩트 수정이나 RNA 공학 설계에 유용합니다. 합성 생물학에서 RNA 기반 도구 개발을 돕고, 미지의 RNA(인간 게놈 85% 전사체)를 탐구할 수 있습니다.
이 연구는 RNA 구조 예측의 장벽을 낮춰 생명 과학의 새 시대를 열 수 있습니다. 데이터 부족 문제를 딥러닝으로 극복한 점이 특히 중요하며, 미래 약물 개발과 질병 치료에 기여할 잠재력이 큽니다.

NotebookLM

## AI가 찾아낸 생명의 입체 암호: RNA 구조 예측의 혁명, 'RhoFold+'
**참고 논문:** *Accurate RNA 3D structure prediction using a language model-based deep learning approach* (2024)
---
### 1. 연구 배경: "생명의 전달자, 그 숨겨진 입체 지도를 찾아서"
우리 몸의 설계도인 DNA가 단백질로 변환되는 과정에서 핵심적인 역할을 하는 것이 바로 **RNA**입니다. 최근 연구에 따르면 인간 게놈의 85% 이상이 RNA로 전사되지만, 그중 단 3%만이 단백질을 만드는 데 쓰입니다. 나머지 대다수의 RNA는 그 자체로 특별한 **3차원(3D) 구조**를 형성하여 우리 몸의 유전자를 조절하거나 질병에 관여하지만, 그 구조와 기능은 여전히 베일에 싸여 있습니다.
하지만 RNA의 3D 구조를 알아내는 것은 매우 어렵습니다. RNA는 매우 유연하여 모양이 쉽게 변하기 때문에, 전통적인 실험 방식(X선 결정학, NMR 등)으로는 구조를 밝히기가 까다롭고 시간도 오래 걸립니다. 실제로 전 세계 단백질 구조 데이터베이스(PDB)에 등록된 21만여 개의 구조 중 RNA 전용 구조는 **1%도 채 되지 않을 정도**로 데이터가 매우 부족한 실정입니다.
### 2. 연구 목적: "데이터 부족을 넘어서는 인공지능의 등장"
본 연구의 목적은 데이터가 부족한 상황에서도 RNA 서열만 입력하면 그 **3차원 입체 구조를 정확하고 빠르게 예측할 수 있는 AI 모델인 'RhoFold+'**를 개발하는 것입니다. 연구진은 단백질 구조 예측으로 유명한 '알파폴드'의 성공에서 영감을 얻어, RNA만이 가진 독특한 생물학적 특성을 반영한 새로운 딥러닝 파이프라인을 구축하고자 했습니다.
### 3. 연구 방법: "2,370만 개의 문장을 읽고 'RNA 문법'을 깨우치다"
RhoFold+는 다음과 같은 혁신적인 기술들을 결합하여 만들어졌습니다.
* **RNA 언어 모델(RNA-FM):** 마치 AI가 수많은 문장을 읽고 언어를 배우듯, 약 **2,370만 개의 RNA 서열**을 미리 학습하여 서열 속에 숨겨진 입체적인 규칙과 진화적 정보를 스스로 깨우치게 했습니다.
* **지능형 구조 모듈:** 'Rhoformer'라고 불리는 12층의 신경망과 기하학적 정보를 처리하는 'IPA(Invariant Point Attention)' 모듈을 사용하여, 서열 정보를 실제 원자들의 3차원 좌표로 변환합니다.
* **자가 증류(Self-distillation):** 부족한 실험 데이터를 보완하기 위해, AI가 스스로 예측한 고품질의 구조 데이터를 다시 학습 자료로 사용하는 기술을 적용했습니다.
* **완전 자동화 시스템:** 사용자가 RNA 서열만 넣으면 별도의 전문가 개입 없이도 약 **0.14초** 만에 3D 모델을 생성해 냅니다.
### 4. 연구 결과: "인간 전문가를 뛰어넘은 AI의 실력"
RhoFold+는 공신력 있는 세계적인 구조 예측 대회(RNA-Puzzles, CASP15)에서 압도적인 성능을 증명했습니다.
* **압도적 정확도:** 이전 대회(RNA-Puzzles) 대상 모델들을 분석한 결과, 평균 오차(r.m.s.d.)가 **4.02Å**로 나타났습니다. 이는 기존 2위 모델보다 **2.30Å이나 더 정확한** 수치이며, 인간 전문가 그룹의 예측보다도 뛰어난 성과였습니다.
* **범용성 입증:** AI가 학습하지 않았던 새로운 가족(Family)이나 종류(Type)의 RNA에 대해서도 일관되게 높은 정확도를 유지했습니다.
* **실험 오류 수정:** 흥미롭게도 RhoFold+는 실제 실험 과정에서 발생한 인위적인 오류(Crystallographic artifacts)를 감지하고, **생물학적으로 더 타당한 구조**를 제시하는 능력까지 보여주었습니다.
* **다양한 기능:** 3D 구조뿐만 아니라 RNA의 뼈대인 '2차 구조'와 나선 사이의 각도(IHA)도 정확하게 예측해 낼 수 있습니다.
### 5. 고찰 및 의의: "미래 의학의 새로운 열쇠"
RhoFold+는 RNA 구조 분석에 드는 막대한 비용과 시간을 획기적으로 줄여주었습니다. 특히 기존 모델들이 단백질과 결합한 RNA 위주로 학습되어 단일 RNA 분석에 취약했던 점을 극복하고, **단일 사슬 RNA(Single-chain RNA)** 분석에서 독보적인 성능을 보였다는 점이 큰 의의가 있습니다. 또한, AI가 예측한 구조적 신뢰도(pLDDT) 점수를 함께 제공하여 연구자들이 어떤 부분을 더 믿을 수 있는지 판단할 수 있게 돕습니다.
---
### 💡 이 연구가 왜 중요한가요?
이 연구가 중요한 이유는 **"보이지 않던 질병의 타겟을 보이게 만들었기 때문"**입니다.
우리 몸 안의 수많은 비부호화(non-coding) RNA는 각종 암, 희귀 질환, 유전병 등과 깊은 관련이 있습니다. 하지만 그 모양(구조)을 몰라 이를 조절하는 약을 만들기가 매우 어려웠습니다.
**RhoFold+는 마치 성능 좋은 현미경처럼, 그동안 우리가 알지 못했던 RNA의 입체 모양을 순식간에 보여줍니다.** 이를 통해 과학자들은 새로운 방식의 RNA 표적 신약을 더 빠르고 정확하게 설계할 수 있으며, 이는 차세대 바이오 의약품 및 합성 생물학 분야의 폭발적인 발전을 이끄는 핵심 도구가 될 것입니다.

Perplexity.ai

이 논문은 “RhoFold”라는 새 인공지능 모델이 어떻게 RNA의 3차원(3D) 구조를 빠르고 정확하게 예측하는지 보여주는 연구입니다. RNA 구조를 잘 맞추면 유전자 조절 이해, RNA 표적 신약 개발, 합성생물학 설계 등에 큰 도움을 줍니다.
## 연구 배경: 왜 RNA 3D 구조인가?
- 인간 유전체의 85% 이상은 RNA로 전사되지만 실제 단백질을 만드는 부분은 3% 정도에 불과해, 기능이 잘 모르는 다양한 RNA들이 존재합니다.
- RNA는 모양(구조)에 따라 하는 일이 크게 달라지기 때문에 3D 구조를 알면 기능 예측과 신약 표적 발굴이 훨씬 정밀해집니다.
- 그러나 RNA는 매우 유연하고 여러 모양을 오가서 X선 결정학, NMR, 크라이오-EM 같은 실험으로 구조를 푸는 속도가 느리고, 지금까지 PDB에 등록된 순수 RNA 구조는 전체의 1%도 안 됩니다.
## 연구 목적: RhoFold라는 새 예측 엔진
이 연구의 목표는 다음과 같습니다.
- 단일 RNA 염기서열(문자열)만 넣으면, 사람 손 개입 없이 **자동으로** 고정밀 3D 구조를 예측하는 도구를 만드는 것.
- 기존 방법처럼 느린 샘플링(많은 후보 구조를 만들고 에너지 계산으로 고르는 과정)에 의존하지 않고, 딥러닝으로 **직접 3D 좌표를 출력**해 속도와 정확도를 모두 잡는 것.
- 단지 3D 구조뿐 아니라, 실험적으로 검증하기 쉬운 2차 구조(염기쌍 정보)와 헬릭스(줄기) 사이 각도까지 함께 예측해, 실험 연구자에게 바로 쓸 수 있는 정보를 제공하는 것.
이를 위해 저자들은 “RhoFold”라는 모델을 설계했습니다.
- 핵심 아이디어: 2,373만 개의 RNA 서열로 학습한 **RNA 전용 언어모델(RNA-FM)**과, 여러 생물에서 비슷한 서열을 모은 **MSA(다중서열정렬)** 정보를 결합해, 서열만으로도 구조에 관련된 “언어적 패턴”과 “공진화 신호”를 읽어내는 것입니다.
## 방법: RhoFold가 구조를 그리는 과정
### 1) 학습 데이터 만들기
- PDB에서 모든 RNA 구조를 모으고, 중복을 제거하고, 단일 가닥(single-chain) RNA만 남겨 5,583개의 RNA 사슬을 얻었습니다.
- 서열 유사도 80% 기준으로 클러스터링해 최종적으로 782개의 대표 서열 묶음을 만들고, 이를 학습·검증에 사용했습니다.
### 2) 입력 특징 추출
- 각 RNA 서열을 2,373만 개 RNA 서열로 학습된 **RNA-FM**에 넣어, 진화·구조 정보를 담은 벡터(임베딩)를 뽑습니다.
- 동시에 Rfam, RNAcentral 등 대형 데이터베이스에서 비슷한 서열을 찾고, Infernal, rMSA 같은 도구로 MSA를 만들어 공진화 정보를 특징으로 사용합니다.
### 3) Rhoformer와 3D 구조 모듈
- 이 특징들을 “Rhoformer”라는 트랜스포머(딥러닝 블록)에 넣어,
- 1D: 각 염기 위치별 정보
- 2D: 염기쌍·거리·각도 같은 쌍별 정보
를 반복적으로 갱신합니다.
- 이후 “구조 모듈”에서 RNA 골격의 국소 좌표계와 특정 원자들 사이의 토션 각을 직접 예측하고, 이를 이용해 전체 원자 3D 좌표를 재구성합니다.
- 예측된 구조와 정답 구조의 차이는 r.m.s.d, TM-score, LDDT 같은 지표 및 충돌(clash) 여부, 염기쌍 제약 등을 포함한 손실함수로 학습합니다.
- 신뢰도 점수(pLDDT)를 추정하는 서브모듈을 두고, 이 점수가 수렴할 때까지 예측 구조를 재사용해(recycling) 점진적으로 품질을 올립니다.
### 4) “자기 증류(self-distillation)”로 데이터 부족 보완
- 구조 데이터가 적기 때문에, 먼저 PDB 데이터만으로 RhoFold를 학습한 뒤, 다른 서열 데이터에 대해 RhoFold가 스스로 구조·2차 구조를 예측한 “가짜 라벨(의사 정답)”을 만들어 추가 학습에 활용했습니다.
- 이때 신뢰도(pLDDT)가 낮은 부분은 마스킹해 과적합을 줄이고, PDB 데이터와 증류 데이터를 섞어 다시 학습해 성능을 끌어올렸습니다.
## 주요 결과: 사람·기존 모델보다 잘, 그리고 빠르게
### 1) RNA-Puzzles 대회 문제에서의 성능
RNA-Puzzles는 여러 연구팀이 같은 RNA 구조를 예측해 경쟁하는 국제 커뮤니티 챌린지입니다.
- 단일 가닥 타깃 24개에 대해, RhoFold는 평균 r.m.s.d 4.02 Å를 기록해, 두 번째로 좋은 FARFAR2(top1)의 6.32 Å보다 약 2.3 Å 더 정확했습니다.
- TM-score 기준으로도 평균 0.57로, 다른 상위 모델(0.41, 0.44)을 크게 앞질렀습니다.
- 24개 중 17개 타깃에서 r.m.s.d 5 Å 이하의 고정밀 예측을 달성했습니다.
- 동시에, RhoFold 구조와 훈련 데이터 간 서열·구조 유사도 사이에 뚜렷한 양의 상관이 없어(R² ~ 0.1–0.2), 특정 템플릿을 “베끼는 것”이 아니라 일반화된 규칙을 학습한 것으로 나타났습니다.
속도 면에서도 특징적입니다.
- 대표적인 RNA-Puzzles 타깃들에 대해, RhoFold는 구조 하나를 예측하는 데 약 0.14초면 충분했습니다.
- 반면 FARFAR2, SimRNA, RNAComposer 등 샘플링 기반 방법들은 대규모 탐색 때문에 훨씬 오래 걸립니다.
### 2) CASP15 자연 RNA 타깃에서의 성능
CASP15는 단백질·RNA 구조 예측을 평가하는 또 다른 국제 대회입니다.
- 자연 발생 RNA 타깃 6개에 대해, RhoFold는 r.m.s.d 기준으로 기존 RhoFold(이전 버전)보다 평균 1 Å 더 낮은 값을 보여 발전된 성능을 입증했습니다.
- AIchemyRNA2, Chen, DRFold, DeepFoldRNA, RoseTTAFoldNA, AlphaFold3 등 최신 방법들과 비교했을 때, 모든 타깃에 대해 예측이 있는 모델들 중 RhoFold의 평균 r.m.s.d가 가장 낮았습니다.
- TM-score와 GDT-TS 값을 합산한 Z-score 기준으로도, RhoFold는 최상위권 성능(전문가 그룹인 AIchemyRNA2와 거의 동급)을 보였는데, 이는 **전문가의 수동 조정 없이 자동 서버처럼 동작하는 모델**로서는 매우 높은 수준입니다.
### 3) 새로 발표된 RNA 구조와 전체 PDB RNA에서의 일반화
- BGSU에서 정리한 모든 RNA 구조를 대상으로 10-겹 교차검증을 했을 때, 각 fold마다 TM-score와 LDDT가 비슷하게 유지되어 데이터 분할에 관계없이 안정적인 성능을 보였습니다.
- 길이가 길수록(200nt 이상) 난도가 높아 r.m.s.d 분산이 커지지만, 대부분의 구조에서 10 Å 이하의 정확도를 유지했습니다.
- 학습에 쓰이지 않은 “새로 발표된 PDB 단일 가닥 RNA” 76개를 모은 세트에서도, RhoFold의 평균 r.m.s.d는 7.74 Å로, DeepFoldRNA(약 8.6 Å), AlphaFold3, RoseTTAFold2NA, FARFAR2 등 다른 도구보다 전반적으로 더 정확했습니다.
- 서열 유사도가 0.5 이하인 경우에도 성능 저하는 완만해, 새로운 계통·가족의 RNA에도 어느 정도 일반화됨을 보여줍니다.
### 4) RNA 타입·패밀리별 일반화
- Rfam에서 정의한 여러 RNA 타입(예: tRNA, miRNA, 리보스위치, 리보자임, rRNA, CRISPR RNA 등)에 대해, 특정 타입을 통째로 가리고(마스킹) 나머지 타입으로 학습해 교차-타입 검증을 했습니다.
- tRNA, miRNA, rRNA에서는 TM-score 0.7 안팎의 높은 정확도를 유지했지만, 인트론이나 복잡한 리보스위치 등 구조가 크고 복잡한 타입에선 성능이 떨어지는 한계도 확인했습니다.
- 패밀리 단위(예: 특정 리보스위치 패밀리)를 완전히 마스킹하기도 했는데, 대부분의 패밀리에서 평균 r.m.s.d 약 6.7 Å로, 전혀 보지 못한 계열에 대해서도 유의미한 3D 구조를 예측했습니다.
## 2차 구조·부분 구조·헬릭스 각도 예측
RhoFold는 3D 구조만이 아니라 2차 구조와 세부 기하정보까지 예측에 활용·제공합니다.
### 1) 2차 구조(염기쌍) 예측
- Rhoformer에서 나온 특징을 다시 활용해 2차 구조(어떤 염기끼리 짝을 이루는지)를 예측하는 모듈을 붙였습니다.
- PDB 기반 새 구조 세트에서, RhoFold의 평균 F1 점수는 UFold(기존 딥러닝 2차 구조 모델)를 상회했으며, UFold가 PDB+bpRNA-1M 대규모 데이터로 학습했을 때보다도 0.035 정도 높은 성능을 보였습니다.
- 2,975개 RNA를 담은 ArchiveII 데이터셋에서도, RhoFold는 평균 F1 0.936으로 UFold, SPOT-RNA, MXfold2, RNAfold 등 여러 방법을 앞질렀습니다.
- RNA 길이가 길고 복잡한 경우(예: 바이러스 RNA 영역)에도 상대적으로 성능이 잘 유지되어, 실험 기반 2차 구조 결과와도 일치하는 사례(예: 뎅기바이러스 RNA 도메인 F1 ~0.60)들이 보고되었습니다.
### 2) 서브구조(헤어핀, 내부 루프 등)
- PDB 새 구조 세트에서, 스템(줄기), 헤어핀, 벌지, 멀티루프, 외부루프, 의사결절 등 다양한 부분 구조에 대해 F1을 비교했을 때, RhoFold는 SPOT-RNA, UFold보다 대부분 유형에서 더 높은 점수를 기록했습니다.
- 특히 멀티루프와 외부 루프처럼 구조적으로 복잡한 부분에서 향상이 뚜렷해, RNA 기능 분석에 유리한 세부 구조 설명을 제공합니다.
### 3) 인터헬릭스 각도(IHA)와 실험 아티팩트 교정
- 여러 줄기(helix) 사이의 각도(IHA)는 NMR, cryo-EM 기반 설계에서 중요한 설계 파라미터인데, 이를 실험 구조와 예측 구조에서 모두 계산해 “각도 차이(IHAD)”라는 새로운 지표를 제안했습니다.
- r.m.s.d가 비슷해 보여도, IHAD를 보면 줄기 방향이 틀어진 경우를 구별할 수 있어, 구조의 “실질적인 유용성”을 평가하는 데 도움이 됩니다.
- 대부분의 경우 RhoFold는 IHA를 잘 맞추지만, 0°나 180°에 가까운, 거의 평행한 줄기 배치는 상대적으로 어렵다는 점도 밝혀졌습니다.
- 흥미로운 사례로, THF 리보자임(3SUH) 구조에서 PDB에 등록된 결정 구조는 도메인 스와핑으로 인한 이합체(artifact)였는데, RhoFold 예측 구조는 생물학적으로 타당한 단량체 구조와 더 잘 맞았고 r.m.s.d도 크게 개선되었습니다(10.11 → 5.71 Å 수준). 이는 RhoFold가 실험 구조의 “왜곡”을 잡아내는 데도 활용될 수 있음을 보여줍니다.
## 성능에 영향을 주는 요소와 한계
### 1) 무엇이 성능을 끌어올리는가? (Ablation 연구)
연구진은 RhoFold의 여러 구성요소를 하나씩 제거해보며 기여도를 평가했습니다.
- MSA 모듈 제거: r.m.s.d가 가장 크게 악화되어, 공진화 정보(MSA)가 여전히 핵심적임을 확인했습니다.
- RNA-FM 제거: 서열이 훈련 세트와 많이 다른 경우 성능이 특히 크게 떨어져, 언어모델이 “MSA가 부족한 영역”에서 빈 곳을 메워주는 역할을 한다는 것을 보여줍니다.
- 재활용(recycling) 제거: 특히 긴 서열에서 성능 저하가 두드러져, 반복적 구조 개선이 중요함을 확인했습니다.
- 전체적으로, RhoFold의 모든 모듈이 r.m.s.d 개선에 기여했지만, MSA > RNA-FM > 재활용 순으로 영향이 컸습니다.
또한, MSA 깊이(서열 개수)가 100개 이상일 때 TM-score가 뚜렷이 좋아지는 등, “MSA가 깊고, 학습 데이터와 MSA 프로필 유사도가 높을수록” 성능이 더 올라가는 경향을 보였습니다.
### 2) 여러 모델 샘플링(Top-K) 전략
- RhoFold는 한 번 예측할 때 최대 256개 MSA를 사용하지만, 서로 다른 방식으로 MSA를 샘플링·클러스터링해 여러 번(예: 5회) 구조를 만들고 그 중 가장 좋은 것을 고르는 “TopK” 전략을 사용할 수 있습니다.
- RNA-Puzzles 및 CASP15 타깃에서, 이 방식으로 최저 r.m.s.d가 최대 10 Å까지 개선되는 경우도 보여, 특히 어려운 타깃에서는 여러 구조를 뽑아 보는 것이 유리함을 보였습니다.
### 3) 현재 한계
연구진은 RhoFold와 유사 모델들의 한계를 솔직히 정리합니다.
- 하나의 RNA가 실제로는 여러 입체 구조(ensemble)를 오가는데, 현재 모델은 주로 “대표 구조” 하나를 예측하므로, 동적 성질을 반영하기 어렵습니다.
- 길이가 500 뉴클레오타이드 이상인 매우 큰 RNA, 다중 헬릭스 및 복잡한 의사결절이 있는 구조는 여전히 예측이 어렵습니다.
- 단백질·리간드와 강하게 상호작용하는 RNA 복합체의 경우, RhoFold는 RNA만 보고 구조를 예측하기 때문에 상호작용을 충분히 고려하지 못하며, 이 점에서 AlphaFold3, RoseTTAFoldNA 같은 “복합체 모델”과의 통합이 필요합니다.
- MSA에 의존하는 구조상, 합성 설계 RNA나 자연계에 거의 없는 “고립 서열”에 대해선 MSA를 구하기 어렵고, 따라서 예측 신뢰도가 낮아질 수 있습니다.
이를 보완하기 위해 저자들은 2차 구조 실험(probing) 정보 통합, 분자동역학·에너지 함수와의 결합, MSA 검색 고도화, 단백질·리간드 구조 모델과의 연동 등을 향후 과제로 제안합니다.
## 이 연구의 의의와 시사점
이 논문이 주는 핵심 메시지는 다음과 같습니다.
1. **RNA 구조 예측의 “알파폴드 모멘트”에 한 걸음 다가감**
- RhoFold는 서열과 MSA, RNA 언어모델을 결합한 엔드투엔드 딥러닝으로, 기존 RNA 3D 예측법보다 더 정확하고 훨씬 빠르게 구조를 예측합니다.
- RNA-Puzzles, CASP15, 새 PDB 세트, 교차-타입·교차-패밀리 검증 등 다양한 상황에서 일관되게 상위 수준 성능을 보여, “실제 연구 현장에서 바로 쓸 수 있는 수준”에 근접했습니다.
2. **실험 연구를 돕는 “구조 동반자”**
- 3D 구조뿐 아니라 2차 구조, 부분 구조, 헬릭스 간 각도까지 예측해, RNA 설계와 구조 검증, 도메인 설계, 나노구조 디자인 등에서 구체적인 설계 지표를 제공합니다.
- 결정 구조의 도메인 스와핑 같은 실험 아티팩트를 잡아내고, 더 생물학적으로 타당한 구조를 제안할 수 있어, 구조 생물학자에게도 유용한 보조 도구가 될 수 있습니다.
3. **RNA 표적 신약·합성생물학·기초 생물학에의 파급 효과**
- RNA를 직접 겨냥하는 소분자 약물, RNA 기반 치료제, RNA 스위치·센서 같은 합성 회로를 설계할 때, 미리 구조를 고해상도로 예측할 수 있다면 실험 비용과 시간을 크게 줄일 수 있습니다.
- 많은 비암호화 RNA의 기능이 아직 미지인데, 구조를 예측해볼 수 있다면 후보 기능을 추론하고 후속 실험을 설계하는 데 큰 도움을 줍니다.
### 왜 중요한가?
- RNA는 DNA·단백질 사이에서 정보만 전달하는 “중간 매개자”가 아니라, 유전자 발현을 제어하고, 화학 반응을 촉매하고, 약물 표적이 되는 **능동적인 주체**입니다.
- 하지만 실험 구조 데이터는 적고, 복잡한 RNA 구조를 하나하나 푸는 데는 막대한 시간·비용이 듭니다.
- RhoFold는 대규모 RNA 서열 데이터와 딥러닝을 활용해 이 격차를 메우고, 이전보다 훨씬 넓은 RNA 세계에 대해 “구조 지도”를 빠르게 그릴 수 있게 해주는 도구입니다.
- 이는 기초 생물학 이해를 넘어, RNA 표적 신약, mRNA·siRNA·lncRNA 기반 치료제, RNA 나노기술 등 다양한 분야의 혁신 속도를 가속하는 기반 기술이라는 점에서 매우 중요한 연구입니다.

Kimi

아래는 2024년 11월 Nature Methods에 실린 「RhoFold+: RNA 3차원 구조를 언어모델로 예측하다」 논문을 **블로그용**으로 쉽게 요약한 글입니다.
A4 두 장 분량(한글 약 1,200~1,400자)으로, 전문 지식이 없는 독자도 이해할 수 있도록 썼습니다.
---
### 🧬 RNA는 왜 중요할까?
우리 몸에는 DNA와 단백질 외에도 **RNA**라는 분자가 있습니다. RNA는 유전정보를 전달하는 역할도 하지만, **스스로 3차원 구조를 만들어** 효소처럼 반응을 돕거나, **약물의 표적**이 되기도 합니다.
문제는 RNA 구조가 **너무 유연해서** 실험으로 확인하기 어렵다는 점입니다. 게다가 단백질에 비해 **구조 데이터가 턱없이 적어**, 인공지능(AI)으로 예측하기도 쉽지 않았습니다.
---
### 🎯 연구의 목표
이 연구는 **RNA 서열(문자열)만으로 3차원 구조를 정확하고 빠르게 예측**하는 AI 모델 **‘RhoFold+’**를 개발하는 것이 목표였습니다.
기존 방식은
- 실험 데이터가 많이 필요하거나
- 수십 분~수십 시간씩 계산하거나
- 전문가의 수작업이 필요한 경우가 많았습니다.
반면 RhoFold+는 **딥러닝 언어모델**을 이용해 **0.14초 만에 자동으로 3D 구조**를 그려냅니다.
---
### 🧪 어떻게 만들었을까?
1. **거대 RNA 언어모델 ‘RNA-FM’**
- 2,370만 개의 RNA 서열로 **사전학습**(BERT 방식)
- RNA도 단백질처럼 **진화적 정보**를 숨기고 있다는 아이디어
2. **MSA(다중 서열 정렬) 활용**
- RNA 서열 간 **유사도**를 계산해 **공통 조상 정보** 보충
- 단백질 구조 예측의 AlphaFold2 방식을 RNA에 맞게 개조
3. **end-to-end 구조 예측**
- 서열 → 2D/3D 특징 추출 → **원자 좌표 직접 출력**
- **재활용(recycling)**과 **자가증류(self-distillation)**로 데이터 부족 문제 극복
---
### 📊 성능은 어땠을까?
- **RNA-Puzzles**(국제 공동 평가):
24개 타깃 중 **평균 오차 4.02Å**(기존 최고 6.32Å)
→ **2.3Å 더 정확**하게 맞춤
- **CASP15**(최신 대회):
자연 RNA 6개 중 **5개에서 1위**, 전문가 그룹보다 나음
- **신규 RNA 구조**(PDB 최신 데이터):
**평균 7.74Å** 오차, AlphaFold3보다 **2.2Å 정확**
- **속도**: 기존 대비 **수천 배 빠르고**, **GPU 하나로 0.14초**
---
### 🧩 추가로 잘하는 것들
- **2차 구조도 함께 예측**: 기존 전문 툴보다 **F1 점수 ↑**
- **가짜 구조(결정 아티팩트) 걸러냄**: 실제 생물학적 모델로 **자동 교정**
- **나선-나선 각도(IHA) 예측**: 나노 설계나 NMR 실험 **설계 지원**
---
### 🤔 한계는?
- **500개 이상 긴 RNA**는 아직 어려움
- **RNA-단백질 복합체**나 **리간드 결합 형태**는 미지원
- **서열이 매우 독특한 인공 RNA**는 MSA가 부족해 정확도 떨어짐
---
### 🔍 왜 이 연구가 중요한가?
1. **‘RNA 표적 신약’** 개발 가속화
- 예: 코로나19 mRNA 백신, **리보스위치** 항생제 등
2. **합성생물학 설계**에 활용
- 원하는 기능을 가진 RNA **나노 구조**를 **인공 설계** 가능
3. **실험 비용·시간 절감**
- 복잡한 결정학 실험 없이 **컴퓨터로 선별** 후 실험
4. **AI 모델의 한계 돌파 사례**
- 데이터가 적은 분야에서도 **언어모델 + MSA + 자가증류**로 **정확도↑ + 속도↑** 달성
---
### ✨ 한 줄로 정리
**“RhoFold+는 RNA 서열 한 줄로 3차원 구조를 순식간에 그려내, RNA 신약·합성생물학·기초과학 연구의 새로운 지름길을 열었다.”**

출처: @ye._.vely618

Lee Gir-Won (Lee Gil-Won)

Pages

금요일, 5월 08, 2026

단백질은 AlphaFold, RNA는 RhoFold+? 생명의 숨겨진 3D 지도