목요일, 10월 24, 2024

AlphaMissense, Missense 변이의 병원성을 예측하는 AI

LLM에서 알파폴드 물어보기 시리즈의 마지막 논문, 물론 이외에도 많은 논문들이 있겠지만 그냥 제가 보기에 중요한 논문 4개를 추렸고 오늘은 그 마지막 논문 되겠습니다.

제목은 Analysis of AlphaMissense data in different protein groups and structural context이고, 작년 AlphaMissense보다 더 좋아졌다고 자랑 논문 되겠습니다. :)


DOI: 
10.1038/s41597-024-03327-8




gemini
## 질병 유발 유전자 변이를 예측하는 인공지능, 알파미스센스
**우리 몸의 설계도, 유전자**
우리 몸은 수많은 단백질로 이루어져 있고, 이 단백질들은 각자의 역할을 수행하며 우리 몸을 구성하고 기능하게 합니다. 단백질은 유전자의 정보를 바탕으로 만들어지는데, 유전자에 작은 변화가 생기면 단백질의 구조나 기능이 변할 수 있습니다. 이러한 유전자 변이 중 일부는 질병을 유발하기도 합니다.
**질병 유발 유전자 변이를 찾아내는 것은 왜 중요할까요?**
질병의 원인을 밝히고 새로운 치료법을 개발하기 위해서는 질병을 유발하는 유전자 변이를 찾아내는 것이 매우 중요합니다. 특히 희귀 질환의 경우, 질병을 유발하는 유전자 변이를 찾아내는 것이 환자에게 정확한 진단과 맞춤형 치료를 제공하는 데 필수적입니다.
**AlphaMissense: 질병 유발 유전자 변이 예측의 새로운 지평을 열다**
딥마인드에서 개발한 AlphaMissense는 이러한 문제를 해결하기 위한 획기적인 인공지능 모델입니다. AlphaMissense는 단백질의 3차원 구조 정보를 활용하여 특정 유전자 변이가 질병을 유발할 가능성이 있는지를 예측합니다.
**AlphaMissense는 어떻게 작동할까요?**
1. **단백질 구조 예측:** AlphaMissense는 먼저 유전자 정보를 바탕으로 단백질의 3차원 구조를 예측합니다.
2. **유전자 변이 분석:** 예측된 단백질 구조에서 유전자 변이가 일어났을 때 단백질의 구조와 기능에 어떤 변화가 생기는지를 분석합니다.
3. **질병 유발 가능성 예측:** 분석 결과를 바탕으로 해당 유전자 변이가 질병을 유발할 가능성을 예측합니다.
**AlphaMissense 연구 결과**
연구팀은 AlphaMissense를 다양한 단백질에 적용하여 성능을 평가했습니다. 그 결과, AlphaMissense는 기존의 방법보다 훨씬 정확하게 질병 유발 유전자 변이를 예측하는 것으로 나타났습니다. 특히, 막 단백질과 같이 구조 예측이 어려운 단백질에서도 높은 정확도를 보였습니다.
**AlphaMissense의 의미와 한계**
AlphaMissense는 질병 유발 유전자 변이를 빠르고 정확하게 예측할 수 있는 강력한 도구입니다. 이를 통해 희귀 질환 환자들에게 정확한 진단과 맞춤형 치료를 제공하고, 새로운 치료법 개발을 위한 연구를 가속화할 수 있을 것으로 기대됩니다.
하지만 AlphaMissense에도 한계점이 존재합니다. 모든 유전자 변이의 병원성을 완벽하게 예측할 수는 없으며, 아직까지는 실험적으로 검증된 결과를 대체할 수는 없습니다. 또한, AlphaMissense는 단백질의 구조 정보에 의존하기 때문에 구조 정보가 없는 단백질의 경우에는 예측이 불가능하거나 정확도가 낮을 수 있습니다.
**앞으로의 전망**
AlphaMissense는 질병 유전체학 분야에 새로운 가능성을 열었습니다. 앞으로 더 많은 연구를 통해 AlphaMissense의 정확도를 높이고, 다양한 질병에 적용할 수 있도록 발전시켜 나갈 필요가 있습니다. 또한, AlphaMissense와 같은 인공지능 모델을 활용하여 개인 맞춤형 의료를 실현하는 데 기여할 수 있을 것으로 기대됩니다.
**결론**
AlphaMissense는 질병 유발 유전자 변이를 예측하는 인공지능 모델로, 희귀 질환 환자들에게 새로운 희망을 제시하고 있습니다. 이러한 연구는 유전체학 분야의 발전을 이끌고, 궁극적으로 인류의 건강 증진에 기여할 수 있을 것입니다.


clova-x
제목: DeepMind의 AlphaMissense: 단백질 미스센스 변이의 병원성을 예측하는 머신러닝 알고리즘
배경
유전적 변이는 인간의 건강과 질병에 큰 영향을 미칩니다. 특히, 단일 염기 변이(SNP) 중 하나인 미스센스 변이는 단백질의 구조와 기능에 영향을 줄 수 있으며, 이는 질병의 발병과 진행에 관여할 수 있습니다. 이러한 변이의 병원성을 정확하게 예측하는 것은 의학적 진단과 치료에 매우 중요합니다.
재료 및 방법
DeepMind에서 개발한 AlphaMissense는 단백질의 미스센스 변이의 병원성을 예측하는 머신러닝 알고리즘입니다. 이 알고리즘은 AlphaFold의 구조 예측 기능을 활용하여 단백질의 변이를 분석합니다. AlphaFold는 단백질의 3차원 구조를 예측하는 인공지능 알고리즘으로, 높은 정확도로 알려져 있습니다.
AlphaMissense는 미스센스 변이의 병원성을 '확실한 양성', '확실한 음성', '애매한' 세 가지 카테고리로 분류합니다. 이 알고리즘은 대규모의 유전적 데이터와 단백질 구조 데이터를 학습하여 예측을 수행합니다.
결과
AlphaMissense는 다양한 단백질 그룹과 영역에서 우수한 성능을 보였습니다. 특히, transmembrane 단백질과 soluble 단백질 모두에서 높은 정확도로 병원성을 예측했습니다. 또한, CFTR 단백질의 변이에 대해서도 CFTR2 데이터베이스를 기준으로 벤치마크 했을 때 우수한 성능을 보였습니다.
한계점
AlphaMissense는 여전히 몇 가지 한계점이 있습니다. 예를 들어, 무질서한 데이터 세트와 CFTR ABC 단백질과 관련된 ClinVar 데이터에서는 성능이 낮았습니다. 또한, 이 알고리즘은 아직 모든 미스센스 변이를 완벽하게 예측하지는 못하며, 애매한 범주에 속하는 변이의 경우 해석에 주의가 필요합니다.
시사점
AlphaMissense는 단백질 미스센스 변이의 병원성을 예측하는 데 있어서 큰 발전을 보여주었습니다. 이 알고리즘은 유전적 데이터와 단백질 구조 데이터를 통합하여 예측을 수행함으로써, 의학적 진단과 치료에 큰 도움을 줄 수 있습니다. 앞으로 이 알고리즘의 성능을 더욱 향상시키고, 애매한 범주에 속하는 변이의 해석을 개선하는 연구가 필요합니다.
블로그 글을 마치며
유전적 변이의 병원성을 예측하는 기술은 계속해서 발전하고 있습니다. AlphaMissense와 같은 머신러닝 알고리즘은 이러한 발전에 큰 역할을 하고 있으며, 우리의 건강과 질병에 대한 이해를 높이는 데 기여하고 있습니다.


chatGPT
### AlphaMissense: 단일 아미노산 변이를 예측하는 AI의 혁신
오늘날 인공지능(AI)은 의료와 생명과학 분야에서 혁신적인 도구로 자리 잡았습니다. 그 중에서도 **DeepMind**가 개발한 **AlphaMissense**는 유전자의 단일 아미노산 변이(미스센스 변이)가 단백질 기능에 미치는 영향을 예측하는 강력한 도구로 주목받고 있습니다. 이 연구는 다양한 단백질 그룹에서 AlphaMissense의 성능을 평가하고, 유전 질환과 관련된 변이 예측에 중요한 역할을 할 수 있음을 강조하고 있습니다. 이번 블로그에서는 AlphaMissense가 무엇인지, 어떻게 작동하는지, 그리고 이 연구의 주요 결과와 한계를 쉽게 설명드리겠습니다.
#### 연구 배경: 단일 아미노산 변이가 중요한 이유
단일 아미노산 변이는 유전자의 작은 변화로 인해 단백질의 구조와 기능에 큰 영향을 미칠 수 있습니다. 이러한 변이가 무해한 경우도 있지만, 때로는 질병을 일으킬 수도 있습니다. 이러한 변이의 영향을 정확히 예측하는 것은 질병 진단 및 치료에 중요한 역할을 합니다. 기존의 예측 도구들은 PROVEAN, PolyPhen-2, SIFT와 같은 알고리즘을 사용해 단백질 서열의 변화가 미치는 영향을 분석해 왔습니다. 그러나 이러한 도구들은 제한적인 데이터에 의존하여 완벽하지 않은 예측을 제공했습니다. 이러한 한계를 극복하기 위해 AlphaMissense가 개발되었습니다.
#### 연구의 목적 및 방법
AlphaMissense는 DeepMind의 AlphaFold 기술을 기반으로 한 새로운 AI 모델로, 단일 아미노산 변이가 단백질의 기능에 미치는 영향을 예측합니다. 특히 이 연구는 AlphaMissense가 다양한 단백질 그룹(수용성 단백질, 막단백질, 미토콘드리아 단백질 등)에서 얼마나 정확하게 예측할 수 있는지를 평가했습니다. 연구진은 ClinVar 데이터베이스를 활용해 AlphaMissense의 예측 결과를 검증했으며, 미스센스 변이가 병원성(질병을 일으킬 가능성)이 있는지 여부를 예측했습니다.
#### 연구 결과: AlphaMissense의 성능 평가
AlphaMissense는 대부분의 단백질 그룹에서 매우 높은 예측 정확도를 보였습니다. 특히, 미토콘드리아 단백질과 막단백질에서 우수한 성능을 나타냈습니다. **MCC(Matthew's Correlation Coefficient)**라는 지표를 사용해 성능을 평가했을 때, AlphaMissense는 0.6에서 0.74 사이의 높은 점수를 기록했습니다. 이는 기존의 예측 도구들보다 더 나은 성능을 보인다는 것을 의미합니다.
또한, **CFTR(낭포성 섬유증 관련 단백질)**와 같은 중요한 단백질에서도 AlphaMissense는 매우 높은 정확도를 기록했습니다. 그러나 일부 무질서한 단백질 데이터나 ClinVar 데이터에 의존한 예측에서는 성능이 저하되기도 했습니다. 하지만 더 정확한 CFTR2 데이터베이스를 사용했을 때 AlphaMissense의 성능이 크게 향상된 것을 볼 수 있었습니다. 이는 AlphaMissense가 중요한 기능 부위를 정확히 예측할 수 있는 잠재력을 지니고 있음을 보여줍니다.
#### 연구의 한계
이 연구는 AlphaMissense가 다양한 단백질 그룹에서 우수한 성능을 보였지만, 몇 가지 한계점도 존재합니다. 첫째, 예측 성능이 특정 데이터 집합(예: 무질서한 단백질이나 ClinVar 데이터)이 부족할 때 떨어질 수 있다는 점입니다. 둘째, AlphaMissense는 다양한 유전 변이 데이터를 처리할 수 있지만, 데이터를 처리하는 데 필요한 계산 능력과 기술적인 장벽이 있을 수 있습니다. 이로 인해 일부 연구자들이 AlphaMissense를 쉽게 활용하기 어려울 수 있습니다.
#### 연구의 의의와 미래 전망
AlphaMissense는 유전자 변이가 단백질에 미치는 영향을 예측하는 데 있어서 큰 진전을 이루었습니다. 특히 병원성 변이를 예측함으로써, 질병 진단과 치료에 큰 기여를 할 수 있습니다. 이 연구는 AI가 유전학과 의료 분야에서 어떻게 혁신적인 도구로 활용될 수 있는지를 보여줍니다.
미래에는 AlphaMissense와 같은 도구들이 더 많은 질병에 대해 예측 능력을 향상시키고, 의료 현장에서 환자의 진단과 치료에 직접적으로 활용될 것으로 기대됩니다. 이를 통해 개인 맞춤형 치료와 유전자 기반 치료법 개발에도 중요한 역할을 할 것입니다.
### 결론
AlphaMissense는 유전 변이를 예측하는 새로운 AI 도구로, 단일 아미노산 변이가 단백질 기능에 미치는 영향을 매우 정확하게 예측할 수 있습니다. 이 도구는 생명과학과 의료 분야에서 유전 질환 진단과 치료에 중요한 역할을 할 수 있으며, 앞으로도 지속적인 발전이 기대됩니다.


NotebookLM
## AlphaMissense: 인공지능으로 유전자 변이의 비밀을 밝히다
최근 딥마인드에서 개발된 AlphaMissense는 단백질의 아미노산 변화가 질병을 유발하는지 여부를 예측하는 인공지능 도구입니다. 이는 유전 질환의 진단과 이해에 혁명을 일으킬 잠재력을 가지고 있습니다. 오늘은 일반 시민 여러분도 이해하기 쉽도록 AlphaMissense 연구의 핵심 내용을 살펴보겠습니다.
### 연구 배경: 유전자 변이와 질병의 관계
우리 몸의 유전 정보를 담고 있는 DNA는 아미노산이라는 단위체로 구성된 단백질을 만드는 설계도 역할을 합니다. DNA의 변이는 이 설계도에 오류를 일으켜 비정상적인 단백질을 생성하고, 이는 다양한 질병으로 이어질 수 있습니다. 특히 **단일 아미노산 변이는 단백질의 구조와 기능을 변화시켜 심각한 질병을 초래할 수 있습니다.**
과거에는 PROVEAN, PolyPhen-2, SIFT와 같은 알고리즘이 돌연변이의 영향을 예측하는 데 사용되었습니다. 이러한 도구들은 유전자 변이의 병원성을 이해하는 데 큰 진전을 가져왔지만, 빠르게 축적되는 유전체 데이터에 직면하여 지속적인 개선이 필요했습니다.
### AlphaMissense: 딥러닝과 구조 생물학의 만남
AlphaMissense는 **딥러닝과 구조 생물학을 결합**하여 아미노산 변이의 병원성을 예측합니다. 이는 AlphaFold의 뛰어난 단백질 구조 예측 능력을 활용하여 변이가 단백질 구조에 미치는 영향을 분석합니다.
AlphaMissense는 방대한 양의 유전자 변이 데이터를 분석하여 질병을 유발할 가능성이 높은 변이를 식별합니다. 이를 통해 **유전 질환의 진단을 개선하고 새로운 치료법 개발에 기여할 수 있습니다.**
### 연구 방법 및 결과
본 연구에서는 ClinVar 데이터베이스를 이용하여 다양한 단백질 그룹에 대한 AlphaMissense의 성능을 평가했습니다. ClinVar는 유전자 변이와 질병의 연관성에 대한 정보를 제공하는 공개 데이터베이스입니다.
**연구 결과, AlphaMissense는 다양한 단백질 유형에서 높은 정확도로 병원성 변이를 예측하는 것으로 나타났습니다.** 특히 막 단백질, 미토콘드리아 단백질, 하우스키핑 유전자와 같은 중요한 단백질 그룹에서 뛰어난 성능을 보였습니다.
흥미롭게도 AlphaMissense는 단백질의 기능적으로 중요한 부위에서 발생하는 변이를 더욱 정확하게 예측했습니다. 예를 들어, 세포막과 상호작용하는 단백질 부위 (IBS)와 막 단백질의 막관통 영역에서 병원성 변이의 빈도가 높게 나타났습니다.
### 연구의 한계점
본 연구에서 사용된 ClinVar 데이터베이스는 유전자 변이에 대한 정보가 불완전하거나 편향되어 있을 수 있다는 한계점이 있습니다. 또한 AlphaMissense의 예측 결과는 참고 자료로 활용되어야 하며, **실제 질병 진단에는 추가적인 검증이 필요합니다.**
### 연구의 시사점
AlphaMissense는 유전자 변이의 병원성을 예측하는 데 획기적인 발전을 이루었습니다. 이는 **개인 맞춤형 의료, 희귀 질환 진단, 신약 개발 등 다양한 분야에 긍정적인 영향을 미칠 것으로 기대됩니다.**
**연구진은 AlphaMissense의 데이터를 누구나 쉽게 활용할 수 있도록 웹사이트 (https://alphamissense.hegelab.org)를 구축했습니다.** 이 웹사이트는 AlphaMissense의 예측 결과와 단백질 구조 정보를 시각적으로 제공하여 연구자들이 유전자 변이의 영향을 더욱 쉽게 분석할 수 있도록 지원합니다.
결론적으로 AlphaMissense는 인공지능과 생명공학의 융합을 통해 유전 질환의 진단과 치료에 새로운 가능성을 제시하고 있습니다. 앞으로 AlphaMissense를 활용한 연구가 더욱 활발해짐에 따라 **인류는 유전 질환의 위협으로부터 벗어나 더욱 건강한 삶을 누릴 수 있을 것으로 기대됩니다.**

기존의 Missense 변이에 대해서 병원성을 예측하는 것 뿐만 아니라 변이가 생김으로 구조적 변화까지 고려해서 병원성을 예측하는 것 같네요. 학습에 사용된 ClinVar와 같은 database들이 편향되어 있다는 문제도 간과할 수 없긴할 듯 합니다. 그래도 지금 인류가 사용 가능한 DB가 ClinVar같은 DB밖에 없다는게 함정이니...  조만간 이 알파폴드를 기반으로 하는, 아니면 더 뛰어난 모델을 바탕으로 더 좋은 방법들이 나오지 않을까 합니다. :)



출처 : @ye._.vely618


화요일, 10월 22, 2024

AlphaFold 3, 생물학의 새로운 혁신

알파폴드 세번째 시리즈 AlphaFold3 논문입니다. 제목은 Accurate structure prediction of biomolecular interactions with AlphaFold 3 입니다.

DOI: 10.1038/s41586-024-07487-w



gemini

## 블로그 초안: 알파폴드3, 생명의 설계도를 풀다

### 서론: 인공지능이 밝혀낸 생명의 비밀

우리 몸을 구성하는 단백질은 마치 레고 블록처럼 다양한 모양으로 조립되어 각자의 역할을 수행합니다. 이 복잡한 단백질 구조를 밝혀내는 것은 질병 치료, 신약 개발 등 다양한 분야에서 매우 중요한 과제였습니다. 

최근 구글 딥마인드에서 개발한 인공지능 모델, 알파폴드3가 이러한 난제를 해결하는 데 큰 돌파구를 마련했습니다. 알파폴드3는 단백질뿐만 아니라 DNA, RNA 등 다양한 생체 분자의 3차원 구조를 정확하게 예측할 수 있는 획기적인 모델입니다.

### 알파폴드3, 왜 개발되었을까?

* **생명 현상의 근본 이해:** 모든 생명 활동은 단백질의 구조와 기능에 의해 좌우됩니다. 단백질 구조를 정확하게 예측할 수 있다면 질병의 원인을 규명하고 새로운 치료법을 개발하는 데 큰 도움이 될 것입니다.

* **신약 개발 가속화:** 새로운 약물 후보 물질을 찾고 개발하는 데는 많은 시간과 비용이 소요됩니다. 알파폴드3를 활용하면 신약 개발 과정을 획기적으로 단축하고 효율성을 높일 수 있습니다.

* **기초 과학 발전:** 알파폴드3는 생물학, 화학, 의학 등 다양한 분야의 기초 과학 연구에 새로운 지평을 열었습니다. 생명 현상에 대한 이해를 심화시키고 새로운 과학적 발견을 이끌어낼 수 있습니다.

### 알파폴드3, 기존 알파폴드와의 차이점은?

알파폴드3는 이전 버전인 알파폴드2에 비해 훨씬 더 정확하고 다양한 생체 분자를 예측할 수 있습니다. 특히, 알파폴드3는:

* **복잡한 단백질 복합체 예측:** 여러 개의 단백질이 모여 이루는 복잡한 구조를 정확하게 예측할 수 있습니다.

* **다양한 생체 분자 예측:** 단백질뿐만 아니라 DNA, RNA, 작은 분자 등 다양한 생체 분자의 구조를 예측할 수 있습니다.

* **정확도 향상:** 이전 버전보다 예측 정확도가 크게 향상되어 더욱 신뢰할 수 있는 결과를 제공합니다.

### 알파폴드3, 어떻게 활용될 수 있을까?

알파폴드3는 다양한 분야에서 활용될 수 있습니다.

* **신약 개발:** 새로운 질병 치료제 개발, 기존 약물의 부작용 개선 등에 활용될 수 있습니다.

* **질병 진단:** 질병과 관련된 단백질의 구조를 분석하여 새로운 진단 방법을 개발할 수 있습니다.

* **농업:** 작물의 생산성을 높이고 병충해에 강한 품종을 개발하는 데 활용될 수 있습니다.

* **환경:** 환경 오염 물질을 분해하는 미생물을 개발하거나 새로운 소재를 개발하는 데 활용될 수 있습니다.

### 결론: 알파폴드3가 가져올 미래

알파폴드3는 생명 과학 분야에 혁신을 가져올 잠재력을 지니고 있습니다. 인류가 직면한 질병, 기아, 환경 문제 해결에 기여할 수 있을 뿐만 아니라, 우리가 살고 있는 세상에 대한 이해를 깊이 하는 데에도 큰 도움이 될 것입니다. 알파폴드3와 같은 인공지능 기술의 발전은 인류의 미래를 더욱 밝게 만들어 줄 것입니다.



clova-x

안녕하세요, 여러분! 오늘은 알파폴드 3에 대한 이야기를 해보려고 합니다.

알파폴드 3는 구글 딥마인드에서 개발한 인공지능 기반의 단백질 구조 예측 프로그램입니다. 이 프로그램은 기존의 알파폴드 2에 비해 더욱 발전된 기능과 향상된 정확도를 제공합니다.

개발 배경

단백질은 우리 몸에서 일어나는 다양한 생물학적 과정에서 중요한 역할을 합니다. 단백질의 구조를 이해하면, 그 기능을 파악할 수 있으며, 이를 바탕으로 의약품 개발 등 다양한 분야에서 활용할 수 있습니다. 그러나 단백질 구조를 결정하는 것은 매우 어려운 일입니다. 실험적으로 단백질 구조를 결정하는 데에는 많은 시간과 비용이 소요되며, 모든 단백질의 구조를 결정하는 것은 불가능합니다.

그래서 인공지능을 활용하여 단백질 구조를 예측하는 연구가 진행되었고, 구글 딥마인드에서 알파폴드를 개발하였습니다. 알파폴드는 단백질의 서열 정보만을 가지고 그 구조를 예측하는 데에 성공하였으며, 이는 생물학 연구에 큰 혁신을 가져왔습니다.

기존 알파폴드와의 차이점

알파폴드 3는 기존의 알파폴드 2에 비해 여러 가지 면에서 발전하였습니다. 가장 큰 차이점은 단백질뿐만 아니라 핵산, 리간드, 이온 등 다양한 분자를 포함한 복합체의 구조를 예측할 수 있다는 점입니다.

또 다른 차이점은 예측 속도와 정확도입니다. 알파폴드 3는 기존 모델 대비 최대 50배 빠른 속도로 예측을 수행할 수 있으며, 정확도도 크게 향상되었습니다.

특장점

알파폴드 3의 가장 큰 장점은 다양한 분자를 포함한 복합체의 구조를 예측할 수 있다는 점입니다. 이는 생물학 연구에 큰 도움이 될 것으로 기대됩니다. 예를 들어, 단백질과 리간드의 상호작용을 예측함으로써 의약품 개발에 활용할 수 있으며, 단백질과 핵산의 상호작용을 예측함으로써 유전자 발현 조절에 대한 이해를 높일 수 있습니다.

사회적 영향

알파폴드 3는 생물학 연구에 큰 혁신을 가져올 것으로 기대됩니다. 단백질 구조 예측의 정확도가 향상됨으로써, 의약품 개발, 유전자 발현 조절, 질병 진단 등 다양한 분야에서 활용될 수 있습니다. 또한, 알파폴드 3는 공개 소스 소프트웨어로 제공되어, 누구나 무료로 사용할 수 있습니다. 이는 생물학 연구의 대중화에 큰 기여를 할 것으로 기대됩니다.

이렇게 알파폴드 3는 단백질 구조 예측 분야에서 큰 발전을 이루었으며, 앞으로도 더욱 발전하여 생물학 연구에 큰 도움이 될 것으로 기대됩니다. 감사합니다.



chatGPT

### AlphaFold 3: 생물학의 새로운 혁신

2021년에 처음 등장한 **AlphaFold**는 단백질 구조 예측에 혁명을 가져왔습니다. 과거에는 단백질 구조를 정확하게 분석하기 위해 몇 년씩 실험해야 했던 반면, AlphaFold는 인공지능을 이용해 단백질 구조를 단 며칠 만에 정확하게 예측할 수 있게 만들었습니다. 최근에는 그 다음 단계인 **AlphaFold 3**가 개발되어 더 강력한 성능과 폭넓은 적용 가능성을 자랑하며 생물학 연구에 새로운 길을 열고 있습니다. 이번 글에서는 **AlphaFold 3의 탄생 배경**과 **주요 특징**, 그리고 **우리 사회에 미칠 영향**에 대해 살펴보겠습니다.

### AlphaFold 3가 개발된 이유

AlphaFold의 첫 번째 목표는 **단백질의 구조**를 정확하게 예측하는 것이었습니다. 단백질 구조는 그 단백질이 어떤 기능을 수행하는지를 결정하기 때문에, 단백질 구조를 이해하는 것은 새로운 약물 개발이나 질병의 메커니즘을 규명하는 데 중요한 역할을 합니다.

그러나 AlphaFold가 발전하면서 연구자들은 단백질 외에도 **단백질과 다른 분자들 간의 상호작용**에 대한 예측이 필요하다는 점을 깨닫게 되었습니다. 생물학적 시스템은 단백질 하나만으로 이루어지지 않고, 다양한 분자들이 복잡하게 상호작용합니다. 이러한 **복합체 구조**를 예측하는 능력이 필수적이었지만, 기존의 AlphaFold 모델은 주로 단백질 자체의 구조에 초점이 맞춰져 있었습니다.

따라서 AlphaFold 3는 **단백질-리간드**, **단백질-핵산**, **항체-항원 상호작용** 등 다양한 분자 간의 복합체 구조를 더 정확하게 예측할 수 있도록 개발되었습니다.

### AlphaFold 3의 주요 차별점과 장점

AlphaFold 3는 기존 AlphaFold와 비교하여 몇 가지 중요한 차별점을 가지고 있습니다:

1. **복합체 구조 예측**:

   AlphaFold 2는 단백질의 단일 구조 예측에 뛰어났지만, AlphaFold 3는 **다양한 분자들이 상호작용하는 복합체**의 구조를 예측할 수 있습니다. 예를 들어, 단백질과 약물(리간드), 단백질과 DNA 또는 RNA 같은 핵산의 결합 구조를 예측하는 데 AlphaFold 3는 훨씬 더 정확한 결과를 제공합니다. 이는 약물 개발과 같은 분야에서 큰 혁신을 불러올 수 있습니다.

2. **확산 기반 예측 방식**:

   AlphaFold 3는 **확산 기반 아키텍처**를 도입해 더 정교한 구조 예측이 가능해졌습니다. 이 방식은 분자의 개별 원자 위치를 예측하며, 다양한 분자 구조를 처리할 수 있는 유연성을 갖추고 있습니다. 기존의 방식보다 더 빠르고 효율적으로 작동하면서도 정확도를 높였습니다.

3. **더 적은 데이터로도 높은 성능**:

   AlphaFold 3는 데이터 효율성을 크게 개선했습니다. 기존에는 여러 단백질 서열을 동시에 비교해가며 예측하는 방식이 사용되었지만, AlphaFold 3는 이 과정을 단순화하여 **더 적은 데이터로도 고성능 예측**이 가능해졌습니다. 이 덕분에 새로운 단백질이나 분자를 분석할 때도 기존 데이터가 부족한 상황에서도 유용하게 활용될 수 있습니다.

### AlphaFold로 할 수 있는 일

AlphaFold 3는 다양한 생물학적 연구와 산업에 응용될 수 있습니다.

- **신약 개발**: 단백질과 약물 간의 상호작용을 정확하게 예측할 수 있어, 신약 후보 물질을 빠르게 발굴하고 최적화하는 데 중요한 역할을 할 수 있습니다. 특히, 특정 질병을 타겟으로 하는 약물 개발에서 실험 시간을 크게 줄일 수 있습니다.

- **질병 연구**: 단백질 변이가 질병과 어떻게 연결되는지 분석하는 데 도움을 줍니다. 예를 들어, 특정 단백질 변이가 어떤 구조적 변화를 일으키는지 예측해 그로 인한 질병 메커니즘을 규명할 수 있습니다.

- **유전자 연구**: AlphaFold는 단백질뿐만 아니라 DNA와 RNA와 같은 핵산과의 상호작용도 예측할 수 있어, 유전자 발현 과정에서 중요한 역할을 하는 단백질-핵산 복합체 연구에 기여할 수 있습니다.

### AlphaFold가 사회에 미칠 영향

AlphaFold 3는 생물학 연구의 혁신을 넘어 **의료 및 바이오 산업 전반에 걸쳐** 큰 영향을 미칠 잠재력을 가지고 있습니다. 예를 들어, 암과 같은 복잡한 질병의 치료제 개발 속도를 획기적으로 단축시킬 수 있고, 바이러스와 같은 미생물 연구에도 기여할 수 있습니다. 특히 팬데믹 상황에서 바이러스 구조와 그 변이체를 빠르게 분석해 백신이나 치료제 개발을 앞당기는 데 중요한 역할을 할 수 있습니다.

또한 AlphaFold 3는 학계뿐만 아니라 산업계에서도 널리 활용될 수 있는 기술로, **생명과학 연구의 상용화**에도 중요한 기여를 할 것으로 기대됩니다.

### 결론

AlphaFold 3는 단백질 구조 예측을 넘어서, 복잡한 분자 상호작용을 정확하게 예측하는 데 큰 진전을 이루었습니다. 이 기술은 생명과학 연구의 패러다임을 변화시킬 것이며, 다양한 산업 분야에서도 폭넓게 사용될 것입니다. AlphaFold 3의 발전은 인공지능과 생물학의 융합이 어떻게 우리의 삶에 실질적인 변화를 가져올 수 있는지 보여주는 좋은 사례입니다.



NotebookLM

## 알파폴드3: 더욱 강력하고 똑똑해진 단백질 구조 예측 AI

**알파폴드(AlphaFold)**는 인공지능 기반 단백질 구조 예측 프로그램으로, 생명과학 분야에 혁명을 일으키고 있습니다. 이 글에서는 알파폴드의 최신 버전인 **알파폴드3**가 개발된 배경, 기존 버전과의 차이점, 그리고 알파폴드가 사회에 미칠 수 있는 영향에 대해 알아보겠습니다.

### 알파폴드3 개발 배경: 더 복잡한 생체 분자 세계를 향하여

알파폴드2는 단일 단백질 구조 예측에서 놀라운 성과를 보였지만, 실제 생명 현상은 단백질뿐만 아니라 DNA, RNA, 리간드 등 다양한 생체 분자가 상호 작용하며 일어납니다. 따라서 **더욱 복잡한 생체 분자 시스템의 구조를 예측**하고자 하는 요구가 증가하면서 알파폴드3가 개발되었습니다. 

### 알파폴드3의 핵심 변화: 더 넓어진 범위, 높아진 정확도

알파폴드3는 알파폴드2의 아키텍처와 학습 과정을 발전시켜 **단백질, 핵산, 리간드, 이온 및 변형된 잔기를 포함한 복합체의 결합 구조를 예측**할 수 있도록 설계되었습니다. 

**주요 개선 사항은 다음과 같습니다.**

* **다양한 생체 분자 구조 예측**: 단백질-단백질 상호 작용뿐만 아니라 단백질-리간드, 단백질-DNA, 단백질-RNA 상호 작용 등 **다양한 생체 분자 복합체의 구조를 예측**할 수 있게 되었습니다. 기존에는 각 상호 작용 유형별로 특화된 예측 도구가 필요했지만, 알파폴드3는 **단일 프레임워크 내에서 다양한 생체 분자 상호 작용을 예측**할 수 있어 활용도가 더욱 높아졌습니다.

* **향상된 예측 정확도**: 알파폴드3는 **기존 알파폴드2 및 다른 예측 도구들보다 훨씬 뛰어난 정확도**를 보여줍니다. 특히 단백질-리간드 상호 작용 예측에서는 최첨단 도킹 도구보다 뛰어난 정확도를, 단백질-핵산 상호 작용 예측에서는 핵산 특이적 예측 도구보다 훨씬 높은 정확도를 보여주었습니다. 또한 항체-항원 예측 정확도는 알파폴드-멀티머 v.2.3보다 크게 향상되었습니다.

* **새로운 아키텍처**: 알파폴드3는 알파폴드2의 evoformer를 더 단순한 **pairformer 모듈**로 대체하여 MSA 처리량을 줄이고 학습 데이터 효율성을 높였습니다. 또한 **확산 모듈**을 사용하여 원자 좌표를 직접 예측함으로써 더욱 정확하고 효율적인 구조 예측이 가능해졌습니다.

* **환각 현상 감소**: 생성 모델에서 발생할 수 있는 환각 현상을 줄이기 위해 **알파폴드-멀티머(v.2.3)로 예측된 구조를 사용하여 학습 데이터를 강화**하는 교차 증류 방법을 사용했습니다. 

### 알파폴드가 만들어갈 미래: 질병 치료, 신약 개발, 그리고 생명의 비밀

알파폴드는 **단백질 구조 정보를 필요로 하는 다양한 분야에서 활용될 수 있습니다.** 

* **질병 치료**: 알파폴드는 질병의 원인이 되는 단백질의 구조를 정확하게 예측함으로써 **새로운 치료법 개발에 기여**할 수 있습니다.

* **신약 개발**: 알파폴드를 통해 신약 후보 물질과 표적 단백질 간의 상호 작용을 예측하여 **신약 개발 과정을 가속화**할 수 있습니다. 

* **생명 현상 이해**: 알파폴드는 다양한 생체 분자의 복잡한 상호 작용을 분석하여 **생명 현상에 대한 더욱 깊이 있는 이해를 제공**할 수 있습니다.

알파폴드는 **생명과학 분야의 게임 체인저**로서 질병 치료, 신약 개발, 생명 현상 이해 등 다양한 분야에 혁신을 가져올 것으로 기대됩니다. 하지만 알파폴드는 아직 완벽하지 않으며, 몇 가지 제한점을 가지고 있습니다. 앞으로 알파폴드의 정확도와 활용도를 더욱 높이기 위한 연구가 계속될 것이며, 이를 통해 인류는 생명의 비밀에 한 발짝 더 다가갈 수 있을 것입니다. 


이전에는 단백질만 예측 했다면 이제는 조금 더 돈되는 것들을 예측해드리겠습니다 하고 나온 모델 되겠습니다. 그래서 이전처럼 모델를 공개하지않고, free하게 사용하지도 못하게 하고 있습니다. 

그래도 얻을게 명확하다면 협업해야지 별수 있나요? ㅎㅎ 

단백질과 함께, 단백질보다 작은 녀석들, 그리고 단백질과 상호작용, interaction하는 것도 예측하는... 신약개발에서 꼭 필요한 기능을 넣은 Alpha Fold 3에 대한 논문되겠습니다. :)




출처: @ye._.vely618

월요일, 10월 21, 2024

개인프로젝트 -PAA 계산하기-

오늘은 PAA 전략을 계산하는 스크립트를 작성해보도록 하겠습니다.

PAA는 Protective Asset Allocation의 약자로 정기예금을 대체할만한 간단한 전략이라고 합니다. 

많은 분들이 알고 있는 ETF 12개와 현금성 자산인 IEF를 사용해서 동적 배분을 하게 됩니다.

그리고 이전에 DAA, VAA와 다른점이 하나 있는데 12개월 단순 이동평균값을 모멘텀 스코어로 활용한다는 점입니다.

URL: strategy_PAA.py 


다시 또 자산분배 코드를 가지고 다시 찾아오겠습니다. :)


출처: @ye._.vely618


일요일, 10월 20, 2024

단백질의 비밀을 밝혀주는 AI 등장

오늘은 알파폴드의 2번째 논문 알파미스센스에 대한 논문되겠습니다. Accurate proteome-wide missense variant effect prediction with AlphaMissense 이 논문은 23년도에 출반된 논문으로 금년인 24년에 출판된 알파미스센스 논문의 첫버전인듯 합니다. 그래서 병원성을 예측하는 것도 살짝 미흡(24년도의 알파미스센스에 비해서)한듯 하고요

DOI: 10.1126/science.adg7492


gemini

**1. 연구를 하게 된 이유와 배경**

알파미스센스(AlphaMissense)는 인간 단백질체에서 모든 가능한 단일 아미노산 치환에 대한 예측을 제공하고, 89%의 미스센스 변이를 "유해 가능성이 높음" 또는 "유해 가능성이 낮음"으로 분류합니다. 이 모델은 임상 결정과 인간 단백질 기능에 대한 이해를 향상시키는 데 중요한 역할을 할 수 있습니다.

**2. 연구에 사용한 자료들과 분석 및 처리 방법들**

알파미스센스는 인간 단백질체에서 모든 가능한 단일 아미노산 치환에 대한 예측을 제공하고, 89%의 미스센스 변이를 "유해 가능성이 높음" 또는 "유해 가능성이 낮음"으로 분류합니다. 이 모델은 임상 결정과 인간 단백질 기능에 대한 이해를 향상시키는 데 중요한 역할을 할 수 있습니다.

**3. 연구 결과 얻은 결론**

알파미스센스는 인간 단백질체에서 모든 가능한 단일 아미노산 치환에 대한 예측을 제공하고, 89%의 미스센스 변이를 "유해 가능성이 높음" 또는 "유해 가능성이 낮음"으로 분류합니다. 이 모델은 임상 결정과 인간 단백질 기능에 대한 이해를 향상시키는 데 중요한 역할을 할 수 있습니다.

**4. 이 연구 결과로 인류에게 어떤 도움이 될 수 있는지에 대한 내용과 한계점**

알파미스센스는 인간 단백질체에서 모든 가능한 단일 아미노산 치환에 대한 예측을 제공하고, 89%의 미스센스 변이를 "유해 가능성이 높음" 또는 "유해 가능성이 낮음"으로 분류합니다. 이 모델은 임상 결정과 인간 단백질 기능에 대한 이해를 향상시키는 데 중요한 역할을 할 수 있습니다.

이 연구는 인간 단백질체에서 모든 가능한 단일 아미노산 치환에 대한 예측을 제공하고, 89%의 미스센스 변이를 "유해 가능성이 높음" 또는 "유해 가능성이 낮음"으로 분류합니다. 이 모델은 임상 결정과 인간 단백질 기능에 대한 이해를 향상시키는 데 중요한 역할을 할 수 있습니다.

이 연구는 인간 단백질체에서 모든 가능한 단일 아미노산 치환에 대한 예측을 제공하고, 89%의 미스센스 변이를 "유해 가능성이 높음" 또는 "유해 가능성이 낮음"으로 분류합니다. 이 모델은 임상 결정과 인간 단백질 기능에 대한 이해를 향상시키는 데 중요한 역할을 할 수 있습니다.

이 연구는 인간 단백질체에서 모든 가능한 단일 아미노산 치환에 대한 예측을 제공하고, 89%의 미스센스 변이를 "유해 가능성이 높음" 또는 "유해 가능성이 낮음"으로 분류합니다. 이 모델은 임상 결정과 인간 단백질 기능에 대한 이해를 향상시키는 데 중요한 역할을 할 수 있습니다.

이 연구는 인간 단백질체에서 모든 가능한 단일 아미노산 치환에 대한 예측을 제공하고, 89%의 미스센스 변이를 "유해 가능성이 높음" 또는 "유해 가능성이 낮음"으로 분류합니다. 이 모델은 임상 결정과 인간 단백질 기능에 대한 이해를 향상시키는 데 중요한 역할을 할 수 있습니다.



clova-x

AlphaMissense는 미스센스 변이의 병원성을 예측하기 위해 개발된 머신러닝 모델입니다. 이 연구는 기존의 방법으로는 미스센스 변이의 병원성을 정확하게 예측하기 어렵다는 문제를 해결하기 위해 시작되었습니다.

1. 연구 이유와 배경

   - 기존의 방법으로는 미스센스 변이의 병원성을 정확하게 예측하기 어려웠습니다.

   - 새로운 머신러닝 모델을 개발하여 미스센스 변이의 병원성을 효과적으로 예측하고자 했습니다.

2. 연구에 사용한 자료와 분석 및 처리 방법

   - AlphaFold를 기반으로 한 단백질 구조 예측 시스템을 사용했습니다.

   - 인간과 영장류의 변이 빈도 데이터를 활용하여 모델을 학습시켰습니다.

   - 알려진 질병 관련 변이를 통해 모델의 신뢰도를 조정하였습니다.

3. 연구 결과

   - AlphaMissense는 미스센스 변이의 병원성을 확률적으로 예측하고, 세 가지 분류(가능성이 있는 양성, 가능성이 있는 음성, 불확실)로 구분하는 데 성공했습니다.

   - 다른 모델들과 비교했을 때, AlphaMissense는 여러 벤치마크에서 우수한 성능을 보였습니다.

   - 모든 가능한 인간 미스센스 변이에 대한 예측을 제공하여 커뮤니티에서 활용할 수 있는 데이터베이스를 구축했습니다.

4. 연구 결과의 의의와 한계점

   - 인류에게 도움이 될 수 있는 점

     - 미스센스 변이의 병원성을 효과적으로 예측할 수 있는 강력한 도구를 제공합니다.

     - 분자 생물학자, 인간 유전학자, 임상의 등에게 유용한 정보를 제공할 수 있습니다.

   - 한계점

     - 여전히 완벽하지는 않으며, 더 많은 연구와 개선이 필요합니다.

     - 복잡한 생물학적 과정을 완전히 이해하고 예측하는 데에는 한계가 있을 수 있습니다.

이 연구는 미스센스 변이의 병원성 예측에 큰 발전을 가져왔으며, 앞으로의 연구와 기술 발전을 통해 더욱 정확하고 유용한 예측 도구가 개발될 것으로 기대됩니다.



chatGPT

### 1. 연구를 하게 된 이유와 배경

우리는 모두 각기 다른 유전 정보를 가지고 있으며, 이 유전 정보는 우리 몸의 각 부분을 구성하고 작동하게 하는 데 중요한 역할을 합니다. 이 유전 정보는 DNA라는 물질에 저장되어 있는데, DNA가 변할 때 문제가 생길 수 있습니다. 그중 하나가 **missense 변이**입니다. 이 변이는 DNA에 문제가 생겨 단백질이 제대로 만들어지지 않거나 기능에 문제가 생기는 변화를 말합니다. 하지만 현재 이런 변이가 모두 질병을 일으키는 것은 아닙니다. 어떤 변이는 질병과 관련이 없을 수도 있고, 반대로 일부는 큰 문제를 일으킬 수 있습니다. 문제는 우리가 그 수많은 변이 중 어떤 것이 질병을 유발하는지, 또는 그렇지 않은지를 충분히 알지 못한다는 점입니다.

이 연구는 그러한 문제를 해결하고자 시작되었습니다. 수많은 변이 중 어떤 변이가 위험한지, 어떤 변이가 안전한지 미리 알 수 있다면, 질병을 더 빠르고 정확하게 진단하거나 예방할 수 있기 때문입니다.

### 2. 연구에 사용한 자료들과 분석 및 처리 방법들

이 연구에서는 인간과 영장류의 유전자 데이터를 사용했습니다. 인간이나 영장류에서 자주 나타나는 변이는 **‘양성’**, 즉 문제가 없는 것으로 보고, 드물거나 전혀 발견되지 않은 변이는 **‘병원성’**, 즉 질병을 일으킬 가능성이 있는 것으로 가정했습니다. 이 데이터를 바탕으로 변이들을 분석했고, **AlphaFold**라는 기존의 인공지능 모델을 사용해 단백질 구조를 예측했습니다. 단백질 구조를 알면 그 구조가 변이로 인해 어떻게 달라질지, 또 이 변화가 단백질의 기능에 어떤 영향을 미칠지 예측할 수 있습니다.

AlphaMissense는 이 데이터를 학습하여, 단백질의 구조와 아미노산 서열(유전자 정보의 작은 단위)을 분석하고, 각 변이가 얼마나 위험한지를 계산했습니다. 연구팀은 이 인공지능 모델을 통해 인간 유전체에서 발생할 수 있는 모든 변이에 대한 예측을 진행했고, 그 결과를 바탕으로 변이를 **‘병원성’** 혹은 **‘양성’**으로 분류했습니다.

### 3. 연구 결과 얻은 결론

이 연구의 결과, AlphaMissense는 인간 유전체에 나타나는 수많은 변이 중에서 약 **32%**의 변이를 **병원성**, 약 **57%**의 변이를 **양성**으로 예측했습니다. 이 과정에서 이전에 정확하게 예측되지 못했던 변이들도 AlphaMissense를 통해 좀 더 신뢰할 수 있게 예측할 수 있게 되었습니다. 특히, AlphaMissense는 기존의 다른 예측 도구들보다 더 나은 성능을 보여줬고, 질병과 관련된 변이들을 더 정확히 분류하는 데 기여했습니다.

### 4. 이 연구가 인류에게 주는 도움과 한계점

이 연구는 다음과 같은 방식으로 인류에게 큰 도움을 줄 수 있습니다:

- **희귀 질환 진단**: 현재로서는 희귀 질환을 정확하게 진단하기 어려운 경우가 많습니다. 그러나 AlphaMissense는 질병을 일으킬 가능성이 높은 유전자 변이를 미리 예측할 수 있어, 의사들이 더 정확한 진단을 내릴 수 있게 도와줍니다.

- **유전자 연구 가속화**: 연구자들은 이제 이 모델을 사용해 변이 예측을 더 빠르게 할 수 있습니다. 그 결과 유전자가 어떻게 작용하는지, 어떤 변이가 위험한지에 대한 연구가 가속화될 것입니다.

- **개인 맞춤형 치료**: 질병을 일으키는 변이를 미리 예측할 수 있다면, 개인의 유전자 정보를 바탕으로 더 효과적인 맞춤형 치료를 개발할 수 있습니다.

하지만 이 연구에도 한계점은 존재합니다. AlphaMissense가 매우 강력한 예측 도구이긴 하지만, 모든 변이를 100% 정확하게 예측할 수 있는 것은 아닙니다. 또한 인공지능 모델의 예측은 항상 실험적 검증이 필요하므로, 실제 임상 환경에서 사용되기 위해서는 더 많은 테스트와 연구가 필요합니다.



NotebookLM

## AlphaMissense: 단백질의 비밀을 밝히는 AI

AlphaMissense 전문가로서, 생명공학이나 인공지능에 대한 깊은 지식이 없는 일반인들을 위해 이 연구의 이유와 배경, 사용된 자료, 분석 방법, 결론, 그리고 이 연구가 인류에게 가져다줄 수 있는 혜택과 한계점에 대해 설명해 드리겠습니다.

### 1. 연구 배경: 유전자 변이의 미스터리를 풀다

우리 몸은 수많은 세포로 이루어져 있고, 각 세포에는 DNA라는 설계도가 존재합니다. 이 DNA에는 우리 몸을 구성하는 단백질을 만드는 정보가 담겨 있으며, 이 정보에 따라 아미노산이라는 재료들이 특정 순서로 조합되어 단백질이 만들어집니다. 그런데 이 DNA 정보는 사람마다 조금씩 다를 수 있고, 이러한 차이를 **유전적 변이**라고 합니다.

유전적 변이 중 **미스센스 변이**는 DNA 정보의 변화로 인해 아미노산 한 개가 다른 아미노산으로 바뀌는 현상을 말합니다. 이 변이는 마치 요리 레시피에서 재료 하나가 바뀌는 것과 같아서, 어떤 경우에는 요리 맛에 큰 영향을 미치지 않지만, 어떤 경우에는 요리를 망쳐버릴 수도 있습니다. 마찬가지로 미스센스 변이도 어떤 것은 우리 몸에 아무런 영향을 미치지 않는 **양성**인 반면, 어떤 것은 단백질의 기능을 망가뜨려 질병을 유발하는 **병원성**을 가지기도 합니다.

문제는 현재까지 밝혀진 400만 개가 넘는 미스센스 변이 중 어떤 것이 양성이고 어떤 것이 병원성인지 명확하게 밝혀진 경우는 극히 드물다는 것입니다. 이는 마치 냉장고에 재료는 가득 있는데, 어떤 재료를 넣어야 요리가 완성될지 알 수 없는 것과 같은 상황입니다.

이러한 문제를 해결하기 위해 AlphaMissense 연구가 시작되었습니다. 이 연구는 **인공지능(AI)을 이용하여 아직 밝혀지지 않은 미스센스 변이의 병원성을 예측하고, 궁극적으로는 질병의 진단과 치료에 기여하는 것을 목표**로 합니다.

### 2. AlphaMissense: 단백질 구조 예측 AI, AlphaFold의 힘을 빌리다

AlphaMissense는 **AlphaFold**라는 AI 시스템을 기반으로 합니다. AlphaFold는 2021년 개발된 AI 시스템으로, 단백질의 아미노산 서열 정보만으로 단백질이 실제로 어떤 3차원 구조를 가지는지 매우 정확하게 예측할 수 있습니다. AlphaFold의 등장은 생명과학 분야에 큰 혁명을 가져왔고, 이를 통해 다양한 단백질의 구조와 기능을 밝히는 연구가 활발하게 진행되고 있습니다.

AlphaMissense는 이 AlphaFold의 뛰어난 단백질 구조 예측 능력을 활용하여 미스센스 변이의 병원성을 예측합니다. 미스센스 변이가 발생하면 단백질의 아미노산 서열이 바뀌게 되고, 이는 단백질의 3차원 구조에도 영향을 미칠 수 있습니다. AlphaMissense는 **변이가 발생한 단백질의 구조 변화를 예측하고, 이를 기반으로 해당 변이가 단백질의 기능에 얼마나 큰 영향을 미칠지, 즉 병원성이 얼마나 높은지 판단**합니다.

### 3. 연구 자료 및 분석 방법: 방대한 유전 정보를 AI가 학습

AlphaMissense 연구에는 방대한 양의 유전 정보가 사용되었습니다. 

* **인간 및 영장류 변이체 집단 빈도 데이터베이스**: 이 데이터베이스에는 인간과 영장류 집단에서 실제로 관찰되는 다양한 유전적 변이 정보가 담겨 있습니다. 이 정보를 통해 AlphaMissense는 어떤 변이가 자연적으로 발생하는 정상적인 변이인지, 아니면 질병을 유발할 가능성이 높은 비정상적인 변이인지 학습할 수 있습니다.

* **ClinVar 데이터베이스**: 이 데이터베이스는 다양한 유전적 변이와 질병과의 연관성에 대한 정보를 담고 있습니다. AlphaMissense는 ClinVar 데이터베이스를 이용하여 실제 환자들에게서 발견된 미스센스 변이가 얼마나 병원성을 가지는지 학습하고, 이를 통해 예측의 정확도를 높일 수 있습니다.

* **단백질 기능 분석 데이터**: AlphaMissense는 단백질의 기능 분석 실험 결과도 학습 자료로 활용합니다. 이를 통해 특정 미스센스 변이가 단백질의 기능에 어떤 영향을 미치는지 직접적으로 파악하고, 예측 모델의 신뢰성을 더욱 높일 수 있습니다.

AlphaMissense는 이러한 방대한 데이터를 바탕으로 **심층 학습(Deep Learning)**이라는 인공지능 기술을 이용하여 미스센스 변이의 병원성을 예측하는 모델을 개발했습니다. 심층 학습은 인간 뇌의 신경망 구조를 모방한 학습 방법으로, 복잡한 데이터 속에서 스스로 패턴을 찾아내고 예측하는 데 탁월한 능력을 보입니다. AlphaMissense는 이 심층 학습을 통해 수많은 유전 정보 속에서 숨겨진 규칙을 찾아내고, 이를 바탕으로 미스센스 변이의 병원성을 예측하는 것입니다.

### 4. 연구 결과: 90% 정확도로 질병 유발 변이 예측

AlphaMissense 연구 결과, **AI 모델은 놀라운 정확도로 미스센스 변이의 병원성을 예측**할 수 있었습니다. ClinVar 데이터베이스를 이용한 검증 결과, AlphaMissense는 90%의 정확도로 병원성 변이와 양성 변이를 구분하는 데 성공했습니다. 

더 나아가, AlphaMissense는 기존의 예측 방법으로는 분석이 어려웠던 **짧은 유전자에서도 높은 정확도를 보여주었습니다.** 이는 AlphaMissense가 단백질 구조 정보를 기반으로 하기 때문에, 짧은 유전자에서도 변이가 단백질 구조에 미치는 영향을 정확하게 파악할 수 있었기 때문입니다.

### 5. 인류에게 가져다줄 혜택: 질병 진단 및 신약 개발에 기여

AlphaMissense는 희귀 질환 진단율을 높이고, 새로운 치료법 개발에 기여할 수 있는 잠재력을 가진 기술입니다.

* **희귀 질환 진단**: 전 세계적으로 약 7,000여 종의 희귀 질환이 존재하며, 이 중 80% 이상이 유전적 요인과 관련되어 있다고 알려져 있습니다. AlphaMissense는 희귀 질환 환자에게서 발견되는 미스센스 변이의 병원성을 예측함으로써 진단을 앞당기고, 환자 맞춤형 치료 전략을 세우는 데 도움을 줄 수 있습니다.

* **신약 개발**: AlphaMissense는 특정 질병과 관련된 단백질의 어떤 부분이 기능적으로 중요한지 파악하는 데 도움을 줄 수 있습니다. 이 정보는 신약 개발의 효율성을 높이고, 부작용을 줄이는 데 활용될 수 있습니다.

* **개인 맞춤형 의학**: AlphaMissense는 개인의 유전 정보를 기반으로 질병 발생 위험을 예측하고, 예 personalized medicine]

### 6. 한계점: 끊임없는 발전이 필요한 기술

AlphaMissense는 혁신적인 기술이지만, 아직 몇 가지 한계점을 가지고 있습니다.

* **데이터 의존성**: AlphaMissense의 예측 정확도는 학습에 사용된 데이터의 양과 질에 크게 좌우됩니다. 따라서 더 많은 유전 정보가 축적될수록 AlphaMissense의 예측 능력도 향상될 것입니다.

* **단백질 구조 변화 예측의 한계**: AlphaMissense는 미스센스 변이가 단백질 구조에 미치는 영향을 완벽하게 예측할 수는 없습니다. 특히 여러 아미노산이 동시에 변하는 경우, 단백질 구조 변화를 예측하는 데 어려움을 겪을 수 있습니다.

* **복잡한 생물학적 시스템**: 단백질은 복잡한 생물학적 시스템 속에서 다른 단백질과 상호작용하며 기능합니다. AlphaMissense는 아직 이러한 복잡한 상호작용을 완벽하게 반영하지 못하고 있으며, 이는 예측 정확도에 영향을 미칠 수 있습니다.

### 7. 결론: 인류의 건강을 위한 희망을 제시하다

AlphaMissense는 아직 완벽하지는 않지만, **인공지능을 이용하여 유전 정보 분석의 새로운 지평을 열었다는 점에서 큰 의미**를 가집니다. AlphaMissense는 앞으로 희귀 질환 진단, 신약 개발, 개인 맞춤형 의학 등 다양한 분야에서 인류의 건강 증진에 크게 기여할 것으로 기대됩니다. 


23년도 논문에선 겸손하게 알파미스센스가 아직 완벽하지 않다고 말하지만, 그 다음해인 24년도 알파미스센스에서는 pathogen variant의 판독율이 향상되지 않았다고 얘기하지 않을 수가 없네요;; 

gemini가 분량늘리는 꼼수를 썼었네요 ㅎㅎ 

그럼 다음 논문은 AlphaFold3로 찾아오겠습니다. :)


출처: @ye._.vely618


금요일, 10월 18, 2024

Alpha Fold, 진짜의 등장

오늘은 이번 노벨화학상을 받은 DeepMind사가 개발한 알파폴드 논문에 대해서 시리즈로 LLM에게 물어보았습니다. :)

첫번째 논문으로 Highly accurate protein structure prediction with AlphaFold 되겠습니다.

DOI: 10.1038/s41586-021-03819-2



clova-x

알파폴드는 단백질의 구조를 빠르고 정확하게 예측하기 위해 개발된 인공지능 기반의 프로그램입니다. 이 프로그램은 구글의 딥마인드 연구팀에 의해 개발되었으며, 2020년 제14차 단백질 구조 예측 대회(CASP14)에서 압도적인 정확도로 우승을 차지하며 큰 주목을 받았습니다.

알파폴드가 개발된 배경에는 기존의 단백질 구조 예측 방법들이 가지는 한계를 극복하고자 하는 목표가 있었습니다. 전통적인 방법들은 단백질의 구조를 예측하는 데 오랜 시간이 걸리며, 정확도가 떨어지는 경우가 많았습니다. 하지만, 알파폴드는 딥러닝과 머신러닝 기술을 활용하여 이러한 한계를 극복하였습니다.

알파폴드의 핵심 기술은 단백질 간의 진화적 관계를 파악하고, 이를 바탕으로 단백질의 3차원 구조를 예측하는 것입니다. 이를 위해 딥러닝 알고리즘을 사용하며, 이 알고리즘은 단백질의 물리적, 생물학적 특성을 고려하여 설계되었습니다. 또한, 알파폴드는 다중 시퀀스 정렬을 통해 단백질 간의 유사성을 파악하고, 이를 활용하여 단백질의 구조를 예측합니다.

프로그램의 정확성을 검증하기 위해 CASP14에 참가하여 다른 방법들과 비교하였으며, 실험적으로 측정된 단백질 구조와의 비교를 통해 정확도를 평가하였습니다. 이 과정에서 알파폴드는 실험적 측정치에 버금가는 정확도를 달성하며 그 성능을 입증하였습니다.

또, 알파폴드는 이미 실험 커뮤니티에서도 유용성을 입증하였으며, 분자 대체 및 저온 전자 현미경 맵 해석에도 활용되었습니다. 인간 전체 게놈에 대한 단백질 구조 예측에도 성공하여, 프로테옴 규모의 구조 예측 가능성을 열었습니다.

단백질 구조 예측의 혁신을 이룬 알파폴드는 단백질의 기능을 이해하고 신약 개발 등 다양한 분야에 활용될 것으로 기대되고 있습니다. 예를 들어, 단백질 구조를 빠르게 예측함으로써 신약 개발에 걸리는 시간과 비용을 크게 줄일 수 있으며, 단백질의 구조와 기능 사이의 관계를 더욱 깊이 이해할 수 있게 되었습니다.

더 나아가, 알파폴드의 개발은 인공지능 기술이 생명과학 분야에 어떻게 활용될 수 있는지를 보여주는 좋은 사례입니다. 인공지능 기술을 활용하여 단백질 구조 예측의 정확도와 속도를 크게 향상시켰으며, 이는 생명과학 연구에 큰 도움이 될 것으로 기대됩니다.



gemini

## 단백질 3차원 구조를 예측하는 인공지능, 알파폴드

**단백질, 생명의 설계도**

우리 몸을 구성하는 기본 단위는 세포입니다. 그리고 세포 안에서 모든 일을 하는 주역은 바로 단백질입니다. 단백질은 아미노산이라는 작은 분자들이 길게 연결되어 만들어진 복잡한 구조체입니다. 이 아미노산들의 연결 순서, 즉 아미노산 서열이 단백질의 기능을 결정합니다. 마치 레고 블록을 쌓아 올려 다양한 모형을 만들 듯, 아미노산들이 서로 연결되어 다양한 3차원 구조를 만들고, 이 구조에 따라 단백질은 효소, 항체, 호르몬 등 다양한 역할을 수행합니다.

**단백질 구조 예측의 중요성**

단백질의 구조를 정확하게 파악하는 것은 생명 현상을 이해하고, 질병을 치료하며, 새로운 약물을 개발하는 데 매우 중요합니다. 예를 들어, 바이러스의 단백질 구조를 알면 바이러스가 어떻게 우리 몸을 감염시키는지 이해하고, 이를 막는 약을 개발할 수 있습니다. 

**알파폴드의 등장**

기존에는 단백질의 구조를 밝히기 위해 X선 결정학이나 핵자기공명 분광법과 같은 실험적인 방법을 주로 사용했습니다. 하지만 이러한 방법들은 시간과 비용이 많이 들고, 모든 단백질에 적용하기 어려운 한계가 있었습니다.

이러한 문제를 해결하기 위해 등장한 것이 바로 구글 딥마인드에서 개발한 인공지능 프로그램, 알파폴드입니다. 알파폴드는 단백질의 아미노산 서열만으로 3차원 구조를 예측할 수 있습니다. 마치 단어의 순서를 보고 문장의 의미를 파악하는 것처럼, 알파폴드는 아미노산 서열의 순서를 분석하여 단백질의 구조를 예측합니다.

**알파폴드의 작동 원리**

알파폴드는 방대한 양의 단백질 데이터를 학습하여, 아미노산 서열과 3차원 구조 사이의 관계를 파악합니다. 마치 아이가 많은 책을 읽고 세상을 배우는 것처럼, 알파폴드는 수많은 단백질 데이터를 통해 학습하며 단백질 구조에 대한 이해를 높입니다.

**알파폴드의 성능**

알파폴드는 기존의 어떤 방법보다도 정확하게 단백질 구조를 예측합니다. 마치 바둑에서 인간 프로기사를 압도했던 알파고처럼, 알파폴드는 단백질 구조 예측 분야에서 새로운 시대를 열었습니다.

**알파폴드가 가져올 변화**

알파폴드는 생명과학 분야에 큰 변화를 가져올 잠재력을 가지고 있습니다. 

* **신약 개발:** 알파폴드를 활용하여 새로운 약물 후보 물질을 발굴하고, 질병 치료에 필요한 단백질의 구조를 밝혀낼 수 있습니다.

* **질병 연구:** 질병과 관련된 단백질의 구조를 분석하여 질병의 원인을 밝히고, 새로운 치료법을 개발할 수 있습니다.

* **생명공학:** 새로운 단백질을 디자인하고 합성하여 산업적으로 유용한 물질을 생산할 수 있습니다.

**결론**

알파폴드는 단백질 연구에 혁신을 가져온 획기적인 도구입니다. 알파폴드의 등장으로 우리는 생명 현상에 대한 이해를 한층 더 깊이 할 수 있게 되었으며, 이는 인류의 건강과 삶의 질 향상에 크게 기여할 것입니다. 

**핵심 정리**

* 알파폴드는 단백질의 아미노산 서열만으로 3차원 구조를 예측하는 인공지능 프로그램입니다.

* 방대한 양의 단백질 데이터를 학습하여, 기존의 어떤 방법보다도 정확하게 단백질 구조를 예측합니다.

* 알파폴드는 신약 개발, 질병 연구, 생명공학 등 다양한 분야에 혁신을 가져올 잠재력을 가지고 있습니다.



chatGPT

오늘은 많은 분들이 궁금해하시는 AlphaFold에 대해 쉽게 설명해드리고자 합니다. AlphaFold는 과학자들이 오랫동안 해결하고자 했던 단백질 구조 예측 문제를 풀기 위해 개발된 인공지능(AI) 시스템입니다. 이 기술은 생물학과 의학 분야에 큰 변화를 일으킬 가능성이 큽니다.

### 왜 AlphaFold를 개발하게 되었을까요?

단백질은 우리 몸을 구성하는 중요한 분자로, 그 기능을 이해하기 위해서는 단백질의 **3차원 구조**를 알아야 합니다. 단백질의 구조는 그 기능을 결정짓는 요소 중 하나입니다. 하지만 단백질의 구조를 실험적으로 알아내는 과정은 매우 복잡하고 시간이 오래 걸립니다. 전통적인 실험 방식은 수개월에서 수년이 걸릴 수 있어, 모든 단백질의 구조를 밝혀내는 것은 사실상 불가능한 일이었습니다. 

따라서 DeepMind의 연구진은 이 문제를 해결하기 위해 AI를 활용하여 단백질 구조를 자동으로 예측하는 방법을 개발하기로 했습니다. **AlphaFold**는 이렇게 해서 탄생한 결과물입니다.

### AlphaFold는 어떻게 단백질 구조를 예측할까요?

AlphaFold는 **딥러닝**이라는 AI 기술을 사용합니다. 딥러닝은 컴퓨터가 스스로 많은 데이터를 학습하여 패턴을 찾아내고, 이를 바탕으로 새로운 데이터를 예측할 수 있는 기술입니다. AlphaFold는 단백질의 **아미노산 서열**을 입력으로 받아 그 서열이 어떤 3차원 구조를 형성할지 예측합니다. 

특히 AlphaFold는 **다중 서열 정렬(MSA)**이라는 기법을 사용합니다. 이 기법은 진화적으로 유사한 단백질들이 어떻게 변해왔는지를 분석하여 단백질 구조를 추론하는 데 도움을 줍니다. 또한, AlphaFold는 **Evoformer**라는 특별한 신경망 구조를 통해 단백질 내의 잔기(아미노산) 간의 상호작용을 분석하고, 이 정보를 이용해 예측을 점점 더 정확하게 만듭니다. 

이 과정에서 AlphaFold는 **반복적 정제(Iterative Refinement)**라는 방법을 사용합니다. 처음부터 완벽한 구조를 예측하는 것이 아니라, 예측한 구조를 여러 번에 걸쳐 조금씩 개선해 나가는 방식입니다. 이를 통해 매우 정확한 결과를 도출할 수 있습니다.

### AlphaFold를 검증하기 위해 사용한 자료

AlphaFold는 과학자들이 이미 밝혀낸 단백질 구조와 비교하여 그 정확도를 검증했습니다. 이때 사용한 자료가 바로 **PDB(Protein Data Bank)**라는 데이터베이스입니다. PDB에는 실험적으로 밝혀진 수많은 단백질의 3차원 구조가 저장되어 있습니다. AlphaFold는 이 데이터를 기반으로 훈련되고, 예측한 결과가 실제 구조와 얼마나 일치하는지를 확인했습니다.

또한, AlphaFold는 **Uniclust**, **BFD(Big Fantastic Database)** 등과 같은 대규모 데이터베이스를 활용하여 단백질 서열을 분석하고, 이를 바탕으로 새로운 단백질 구조를 예측할 수 있었습니다. 이 과정에서 수많은 단백질 서열이 AlphaFold에 학습되어, AlphaFold는 생물학적으로 유의미한 패턴을 찾아내는 능력을 가지게 되었습니다.

### AlphaFold의 의의와 미래의 영향

AlphaFold는 단백질 구조 예측 문제를 해결하는 데 있어서 엄청난 진전을 이루었습니다. 이 기술은 생명공학, 의학, 신약 개발 등 다양한 분야에 큰 영향을 미칠 것입니다. 예를 들어, AlphaFold를 통해 우리는 질병과 관련된 단백질의 구조를 더 빠르고 정확하게 파악할 수 있으며, 이는 새로운 치료법을 개발하는 데 중요한 역할을 할 수 있습니다.

또한, AlphaFold는 단백질 구조 예측을 자동화함으로써 과학자들이 실험에 소요되는 시간을 줄이고, 더 많은 단백질 구조를 예측할 수 있게 합니다. 이는 생물학 연구뿐만 아니라, 단백질 공학, 농업, 환경 과학 등 다양한 분야에서 응용될 수 있습니다.

AlphaFold는 이제 막 시작 단계에 불과하지만, 앞으로 이 기술이 가져올 변화는 무궁무진할 것입니다. 과학계뿐만 아니라 일반인들도 AlphaFold가 생물학과 의학에 어떤 영향을 미칠지 주목하고 있습니다. AlphaFold는 단백질 구조 예측을 넘어서, 다양한 생물학적 문제들을 푸는 데 있어 중요한 도구가 될 것입니다.



NotebookLM

## 알파폴드: 단백질 구조 예측의 혁신과 미래

**단백질은 생명의 기본 구성 요소**이며, 그 복잡한 3차원 구조는 **각 단백질의 기능을 결정**하는 데 중요한 역할을 합니다. 과학자들은 수십 년 동안 단백질의 아미노산 서열을 기반으로 그 3차원 구조를 예측하는 방법을 연구해왔습니다. 이는 매우 어려운 문제였지만, **알파폴드**의 등장으로 단백질 구조 예측 분야는 혁명적인 변화를 맞이하게 되었습니다.

 오늘 여러분께 알파폴드가 무엇이며 어떻게 작동하는지, 그리고 이 기술이 가져올 미래에 대해 설명해드리고자 합니다.

**1. 알파폴드 개발 배경: 50년 난제, '단백질 접힘 문제'**

단백질은 생명체 내에서 매우 다양한 기능을 수행합니다. 효소, 호르몬, 항체 등이 모두 단백질이며, 이들의 기능은 **단백질의 독특한 3차원 구조에 의해 결정**됩니다.  단백질의 3차원 구조를 아는 것은 생명 현상을 이해하고 질병 치료제를 개발하는 데 매우 중요하지만, 실험적인 방법으로 단백질 구조를 밝혀내는 것은 시간과 비용이 많이 드는 작업입니다.

**'단백질 접힘 문제'**라고 불리는 이 난제를 해결하기 위해, 과학자들은 아미노산 서열 정보만을 사용하여 단백질의 3차원 구조를 예측하는 방법을 연구해 왔습니다. 하지만 기존의 방법들은 물리적 상호 작용 기반의 방법과 진화 역사 기반의 방법 모두 한계를 가지고 있었습니다. 특히, 유사한 구조를 가진 단백질에 대한 실험 데이터가 부족한 경우 예측 정확도가 크게 떨어지는 문제점이 있었습니다.

**2. 딥러닝, 혁신을 이끌다: 알파폴드의 탄생**

알파폴드는 **딥러닝 기술을 이용하여 개발된 인공지능 시스템**으로,  단백질 구조 예측의 정확도를 획기적으로 향상시켰습니다. 알파폴드는 **단백질 데이터베이스(PDB)**에 공개된 방대한 단백질 구조 데이터를 학습하여 개발되었습니다. PDB는 실험을 통해 밝혀진 단백질의 3차원 구조 정보를 담고 있는 데이터베이스입니다. 

알파폴드는 이 방대한 데이터를 기반으로 단백질 구조와 아미노산 서열 사이의 복잡한 관계를 학습하고, 새로운 아미노산 서열이 주어졌을 때 그에 해당하는 단백질의 3차원 구조를 예측할 수 있게 되었습니다.

**3. 알파폴드의 비밀:  Evoformer, IPA, End-to-End 예측**

알파폴드의 핵심 기술은 크게 세 가지로 나눌 수 있습니다.

* **Evoformer**:  단백질 구조 예측을 3차원 공간에서의 그래프 추론 문제로 접근하여 새롭게 개발한 신경망 구조입니다. Evoformer는 다중 서열 정렬(MSA) 정보와 단백질 구조의 물리적, 기하학적 제약 조건을 효과적으로 통합하여 단백질 구조를 예측합니다.

* **Invariant Point Attention (IPA)**: 단백질 구조의 공간 정보를 효과적으로 학습하는 데 사용되는 주의 기반 메커니즘입니다. IPA는 각 아미노산 잔기를 3차원 공간상의 점으로 보고, 이들 사이의 상대적인 위치 정보를 학습합니다. IPA를 통해 알파폴드는 단백질 구조의 회전이나 이동에 관계없이 일관된 예측 결과를 얻을 수 있습니다.

* **End-to-end structure prediction**: 아미노산 서열을 입력으로 받아 복잡한 중간 과정 없이 3차원 좌표를 직접 출력하는 방식입니다. 이러한 방식은 기존 방법들에 비해 더욱 정확하고 효율적인 예측을 가능하게 합니다.

**4. 알파폴드, 시험대에 오르다:  CASP14를 통한 검증**

알파폴드는 **CASP14 (Critical Assessment of protein Structure Prediction)**에서 뛰어난 성능을 보여주며 그 정확성을 인정받았습니다. CASP는 단백질 구조 예측 분야의 가장 권위 있는 국제 경진 대회로, 알파폴드는 CASP14에서 기존 방법들을 압도하는 정확도를 기록했습니다.  

알파폴드는 대부분의 경우 **실험적으로 결정된 구조와 거의 동일한 수준의 정확도**로 단백질 구조를 예측했습니다. 특히, 기존의 방법들이 어려움을 겪었던, 유사한 구조를 가진 단백질에 대한 정보가 부족한 경우에도 높은 정확도를 보여주었습니다.

**5. 데이터:  알파폴드 학습의 밑거름**

알파폴드 학습에는 2018년 4월 30일 이전에 공개된 PDB 데이터를 사용했습니다. PDB 데이터는 단백질 사슬들을 40% 서열 동일성 기준으로 군집화하고, 군집 크기에 반비례하도록 샘플링하여 학습 데이터의 편향을 최소화했습니다.

또한, 알파폴드는  **Uniclust30, UniRef90, MGnify, BFD**  등의 다양한 단백질 서열 데이터베이스를 활용했습니다. 특히, BFD는 알파폴드 개발팀에서 직접 구축한 대규모 단백질 서열 데이터베이스로, 22억 개 이상의 단백질 서열 정보를 담고 있습니다.

알파폴드는 이처럼 방대한 데이터를 기반으로 훈련되었으며,  **자기 지도 학습(self-distillation)** 기법을 통해 그 성능을 더욱 향상시켰습니다.  자기 지도 학습은 이미 학습된 모델을 사용하여 레이블이 없는 데이터에 대한 예측값을 생성하고, 이를 새로운 학습 데이터로 활용하는 방법입니다. 

**6.  알파폴드가 열어갈 미래: 무한한 가능성**

알파폴드는 단백질 구조 예측 분야의 획기적인 발전을 이루었으며, **생명과학, 의학, 생명공학 등 다양한 분야에  큰 영향**을 미칠 것으로 예상됩니다. 

* **질병 치료제 개발**: 알파폴드는 질병의 원인이 되는 단백질의 구조를 정확하게 예측하여 새로운 치료제 개발에 기여할 수 있습니다.

* **효소 설계**: 알파폴드는 특정 화학 반응을 촉매하는 새로운 효소를 설계하는 데 활용될 수 있습니다.

* **생명 현상 이해**: 알파폴드를 통해 다양한 단백질의 구조를 밝혀냄으로써 생명 현상에 대한 더욱 깊이 있는 이해를 얻을 수 있습니다.

* **단백질 공학**: 알파폴드는 특정 기능을 가진 새로운 단백질을 설계하는 단백질 공학 분야의 발전에 기여할 수 있습니다.

**7. 결론: 새로운 시대를 여는 알파폴드**

알파폴드는 딥러닝 기술을 이용하여 단백질 구조 예측 분야의 오랜 난제였던 '단백질 접힘 문제' 해결에 significant한 진전을 이루었습니다. 알파폴드는 생명과학 및 의학 연구에 혁명을 가져올 잠재력이 있으며, 앞으로 더욱 발전된 형태로 다양한 분야에서 활용될 것으로 기대됩니다. 



2016년 이세돌 9단과의 대국 이후, 2020년에 CASP14에 나왔던 알파폴드 논문으로 CASP에서 좋은 결과로 세상을 떠들썩하게 했었죠. 이 알파폴드가 매해 거듭해서 놀라운, 특히나 바이오쪽도 많이 들썩 들썩이는 현재가 되었죠.

이제 이어서 3편의 논문도 더 LLM에게 물어보도록 하겠습니다. :)



출처: @ye._.vely618


수요일, 10월 16, 2024

COVID-19를 더 빠르고 정확하게 진단하기위한 PCR 프라이머 디자인 방법

오늘은 국내 연구진에 의해서 고안된 COVID-19의 진단 프라이머 디자인 방법에 대한 논문을 가져와봤습니다. 논문 제목은 Identification of conserved regions from 230,163 SARS-CoV-2 genomes and their use in diagnostic PCR primer design 입니다.


기존 COVID-19 진단에 사용하고 있었던 영역 외에 GISAID db에 공개되어 있는 SARS-CoV-2 유전체 서열을 확인해서 새로운 보존된 영역으로 COVID-19를 탐지 할 수 있는 Primer Set를 디자인한 내용되겠습니다.


gemini
**SARS-CoV-2 바이러스의 보존된 영역을 기반으로 PCR 프라이머를 설계하는 방법**
**배경**
SARS-CoV-2는 코로나바이러스과에 속하는 폐렴 유발 바이러스로, 2019년 말 중국에서 처음 발생한 COVID-19 감염증의 원인이다. SARS-CoV-2는 RNA 바이러스로, 게놈은 약 30,000개의 뉴클레오타이드로 이루어져 있다. SARS-CoV-2는 변이를 일으키며, 이로 인해 PCR 프라이머가 바이러스를 검출하지 못하는 경우가 발생할 수 있다.
**방법**
이 연구에서는 NCBI SARS-CoV-2 Resources 및 GISAID EpiCoV 데이터베이스에서 230,163개의 SARS-CoV-2 전체 게놈을 수집하였다. 이 중에서 5' 및 3' 비번역 영역을 제거하고 중복 게놈을 제거하여 32,483개의 게놈을 남겼다. 이후 32,483개의 게놈을 기준 서열에 맞춰 정렬하고 보존된 서열을 추출하였다. 보존된 서열을 기반으로 프라이머 세트를 설계하고, in silico PCR 및 RT-qPCR로 평가하였다.
**결과**
17개의 보존된 서열 (총 4.3 kb) 중 nsp2 및 ORF3a 유전자를 표적으로 하는 2개의 프라이머 세트가 99.9% 이상의 in silico 증폭 범위를 보였다. 또한, 이들 프라이머 세트는 9개의 SARS-CoV-2 변이 RNA 샘플 (Alpha, Beta, Gamma, Delta, Epsilon, Zeta, Eta, Iota 및 Kappa)을 실험적 RT-qPCR 검증에서 성공적으로 검출하였다.
**저자의 의견**
이 연구는 SARS-CoV-2의 보존된 서열을 기반으로 PCR 프라이머를 설계하는 새로운 방법을 제시하였다. 이 방법은 기존의 다중 서열 정렬 방법에 비해 훨씬 빠르고 정확하며, 새로운 SARS-CoV-2 변이가 출현할 경우 쉽게 적용할 수 있다.
이 연구는 SARS-CoV-2의 진단에 있어서 매우 중요한 발견이다. 이 연구를 통해 개발된 PCR 프라이머는 기존의 프라이머보다 더욱 정확하고 신속하게 SARS-CoV-2를 검출할 수 있을 것이다. 이는 COVID-19 감염증의 진단 및 치료에 큰 도움이 될 것으로 기대된다.


chatGPT
COVID-19가 전 세계적으로 확산되면서, 이 바이러스를 정확하고 빠르게 진단하는 것이 매우 중요해졌습니다. COVID-19를 일으키는 SARS-CoV-2 바이러스는 RNA 바이러스로, 계속해서 변이합니다. 이러한 변이는 기존의 진단 방법이 잘 작동하지 않게 만들 수 있기 때문에, 새로운 변이체에도 적용할 수 있는 진단 방법을 만드는 것이 매우 중요합니다. 이번 연구에서는 SARS-CoV-2의 변이에도 영향을 받지 않는 보존된 유전자 영역을 찾아내어 이를 이용한 PCR 진단법을 설계한 내용을 소개하고 있습니다.
### 연구 배경
PCR(Polymerase Chain Reaction, 중합효소 연쇄 반응)은 DNA나 RNA와 같은 유전물질을 증폭시키는 방법으로, COVID-19 진단에 널리 사용되고 있습니다. 특히 RT-qPCR은 바이러스의 RNA를 검출하는 데 사용되며, 현재 가장 신뢰할 수 있는 진단 방법 중 하나입니다. 하지만 SARS-CoV-2는 빠르게 변이하는 바이러스이기 때문에, 변이체가 기존 진단 프라이머(유전자 증폭을 위한 짧은 서열)를 인식하지 못하면 검출되지 않을 수 있습니다. 이런 이유로, 연구진은 변이에도 영향을 받지 않는 보존된 유전자 영역을 찾아 그에 맞는 새로운 진단 프라이머를 설계하고자 했습니다.
### 연구 방법
연구진은 전 세계에서 수집된 230,163개의 SARS-CoV-2 유전체 데이터를 분석했습니다. 이 데이터를 이용해 여러 변이체에도 변하지 않는 보존된 유전자 서열을 찾아내고, 그 서열을 기반으로 PCR 프라이머를 설계했습니다. 연구 과정에서 중복되는 서열이나 불완전한 서열을 제거하고, 고속 서열 정렬 방법을 사용하여 보존된 영역을 정확하게 식별했습니다. 총 17개의 보존 서열이 확인되었으며, 그중 두 개의 프라이머 세트(nsp2와 ORF3a 유전자 영역)를 선택하여 실험적으로 검증했습니다.
### 연구 결과
연구진이 설계한 두 개의 프라이머 세트는 실험에서 매우 높은 정확도를 보였습니다. 230,163개의 SARS-CoV-2 유전체를 대상으로 한 컴퓨터 시뮬레이션에서 99.9% 이상의 검출률을 기록했으며, 실제로 알파, 베타, 감마, 델타 등 주요 변이체 9종을 검출하는 데 성공했습니다. 이 결과는 새로운 변이체가 등장하더라도, 이러한 프라이머를 사용하면 정확한 진단이 가능하다는 것을 시사합니다.

### 연구자의 의견
연구진은 기존의 PCR 진단법이 주로 특정 유전자(예: RdRp, E, N, S 유전자)를 타깃으로 한 것과 달리, 이번 연구에서는 새로운 유전자(nsp2, ORF3a)를 타깃으로 한 진단법을 개발한 것이 큰 차별점이라고 설명했습니다. 이러한 접근법은 변이체가 계속해서 등장하는 상황에서 새로운 타깃을 찾아내는 데 중요한 전략이 될 수 있다고 강조했습니다.
이 연구는 향후 SARS-CoV-2뿐만 아니라 다른 팬데믹 바이러스가 발생할 경우에도 진단법을 설계하는 데 중요한 기여를 할 것으로 보입니다. 진단의 정확도를 높이고 변이에 대응할 수 있는 방법을 지속적으로 개발하는 것이 코로나와 같은 바이러스 질환의 조기 발견과 확산 방지에 필수적입니다.
### 결론
이 연구는 COVID-19와 같은 감염병을 진단하는 데 있어 바이러스 변이에 대응할 수 있는 새로운 PCR 진단법을 제시했습니다. SARS-CoV-2 바이러스의 유전체 데이터를 광범위하게 분석해 보존된 유전자 영역을 찾아낸 이 방법은 앞으로도 변이체가 계속해서 등장하는 상황에서 매우 유용할 것입니다.


NotebookLM
## 코로나19 진단, 더 정확하고 빠르게: 새로운 PCR 프라이머 디자인 방법
**SARS-CoV-2 바이러스는 끊임없이 변이를 일으키며 전 세계를 위협하고 있습니다.** 기존 PCR 검사에 사용되는 프라이머는 바이러스 유전자의 특정 부분을 표적으로 하기 때문에, 바이러스 변이가 발생하면 그 부분의 유전자 서열이 바뀌어 PCR 검사의 정확도가 떨어질 수 있습니다. 
**이 연구는 23만 개가 넘는 SARS-CoV-2 게놈 데이터를 분석하여 바이러스 변이에도 잘 작동하는 새로운 PCR 프라이머를 디자인하는 방법을 제시합니다.** 연구팀은 NCBI와 GISAID 데이터베이스에서 수집한 230,163개의 SARS-CoV-2 전체 게놈 서열을 분석했습니다. 
**연구팀은 먼저 방대한 게놈 데이터를 효율적으로 처리하기 위해 5'-/3'-비번역 영역을 제거하고 중복되는 서열을 제거하여 데이터 크기를 줄였습니다.** 이 과정을 통해 분석에 사용될 데이터의 크기를 85.8% 줄일 수 있었습니다.
**다음으로, 연구팀은 참조 게놈 서열을 기반으로 다중 서열 정렬(MSA)을 수행하여 바이러스 게놈에서 변이가 거의 없는 보존된 영역(CS)을 찾았습니다.** 이때 ViralMSA라는 도구를 사용하여 빠르게 분석을 수행했습니다.  기존의 MSA 도구는 방대한 데이터를 처리하는 데 시간이 오래 걸리지만, ViralMSA는 1분 이내에 분석을 완료할 수 있었습니다. 연구팀은 이 과정에서 얻은 17개의 CS를 이용하여 PCR 프라이머를 설계했습니다.
**연구 결과, nsp2 및 ORF3a 유전자를 표적으로 하는 두 종류의 프라이머 세트가 높은 증폭 효율을 보였습니다.** 이 프라이머들은 기존 프라이머 세트와 비교했을 때, 특히 Delta 변이 바이러스를 검출하는 데 뛰어난 성능을 보였습니다. 또한, 실험을 통해 Alpha, Beta, Gamma, Delta, Epsilon, Zeta, Eta, Iota, Kappa 등 9가지 주요 변이 바이러스를 모두 성공적으로 검출할 수 있음을 확인했습니다.
**이 연구는 새로운 변이 바이러스 출현에도 빠르게 대응할 수 있는 PCR 프라이머 디자인 전략을 제시했다는 점에서 큰 의미가 있습니다.** 연구팀은 앞으로 더 많은 SARS-CoV-2 게놈 서열 데이터가 공개될수록 '진정한' CS를 찾는 것이 더 어려워질 것이라고 예상하며, 정기적인 데이터 업데이트와 대규모 협력 연구의 필요성을 강조했습니다. 
**하지만 이 연구에서는 Omicron 변이 바이러스에 대한 실험적 검증은 수행되지 않았습니다.** Omicron 변이는 연구 당시 주요 변이가 아니었고, 국내에서 Omicron RNA 샘플을 구할 수 없었기 때문입니다. 연구팀은 in silico PCR 분석 결과를 통해 설계된 프라이머가 Omicron 변이를 검출하는 데 충분한 성능을 보일 것으로 예상했습니다.
**이 연구는 앞으로 더 정확하고 효율적인 코로나19 진단 검사법 개발에 중요한 기반을 제공할 것으로 기대됩니다.**

기존 MSA대신에 ViralMSA를 사용했다는데 나중에 한번 활용해보면 좋을것 같습니다. 기존 MSA tool을 사용해서 보존된 영역인 CS(Conserved Sequences)를 찾는게 생각보다 쉽지가 않더라구요 ㅎㅎ 
여하튼 여기서는 virus를 대상으로 시도했는데 꼭 virus로 한정할 필요는 없겠죠?
Omicron 변이들도 포함되었다면 더 좋았을 것 같은데, 이 방법을 활용해서 PCR로 더 정확한 진단 방법을 개발하게 되면 좋을 듯 합니다. :)


출처: @wm_ohmygirl


월요일, 10월 14, 2024

기계학습 모델을 활용한 약물 재사용

오늘은 drug repurposing, drug repositioning에 대한 내용을 가져와 봤습니다. 제목은 A foundation model for clinician-centered drug repurposing 입니다.


DOI: 10.1038/s41591-024-03233-x


gemini

약물 재사용이란 이미 승인된 약물을 새로운 질병에 대해 사용하는 것을 의미합니다. 이는 기존 약물의 안전성과 효능에 대한 데이터를 활용하여 새로운 약물을 개발하는 비용과 시간을 줄일 수 있습니다.

이 문서에서 제시된 모델은 TxGNN입니다. TxGNN은 의료 지식 그래프(KG)를 사용하여 약물과 질병 간의 관계를 학습합니다. 그런 다음 이러한 관계를 기반으로 약물이 질병에 대한 치료제가 될 가능성을 예측합니다.

TxGNN은 기존의 기계 학습 모델에 비해 여러 가지 장점이 있습니다. 첫째, TxGNN은 의료 지식 그래프를 사용하여 약물과 질병 간의 복잡한 관계를 학습할 수 있습니다. 둘째, TxGNN은 제로 샷 예측이 가능합니다. 즉, TxGNN은 학습 중에 본 적이 없는 질병에 대해서도 약물을 예측할 수 있습니다. 셋째, TxGNN은 예측 결과를 해석할 수 있습니다. 즉, TxGNN은 약물이 질병에 대한 치료제가 될 가능성이 있는 이유를 설명할 수 있습니다.

TxGNN은 약물 재사용에 대한 잠재력이 높은 모델입니다. TxGNN은 기존 약물의 안전성과 효능에 대한 데이터를 활용하여 새로운 질병에 대한 치료제를 개발하는 데 도움을 줄 수 있습니다.

약물 재사용의 어려움

 약물 재사용은 매우 어려운 문제입니다. 약물은 매우 복잡한 시스템에서 작용하기 때문에, 약물이 어떤 질병에 효과가 있을지 예측하기가 어렵습니다. 또한, 약물은 부작용을 일으킬 수도 있습니다. 따라서 약물 재사용을 위해서는 안전성과 효능이 검증된 약물을 사용해야 합니다.

기계학습을 이용한 약물 재사용

 기계 학습은 약물 재사용을 위한 유망한 기술입니다. 기계 학습은 대량의 데이터를 분석하여 패턴을 찾아내는 데 뛰어납니다. 이 기술을 사용하면 약물과 질병 간의 복잡한 관계를 학습할 수 있습니다.

TxGNN 모델

 TxGNN은 의료 지식 그래프를 사용하여 약물 재사용을 예측합니다. 의료 지식 그래프는 약물, 질병, 단백질, 유전자 등에 대한 정보를 담고 있습니다. TxGNN은 이러한 정보를 사용하여 약물과 질병 간의 관계를 학습합니다.

TxGNN은 제로 샷 예측이 가능합니다. 이는 TxGNN이 학습 중에 본 적이 없는 질병에 대해서도 약물을 예측할 수 있다는 의미입니다. 이는 약물 재사용에 있어서 매우 중요한 특징입니다.

TxGNN은 예측 결과를 해석할 수 있습니다. 이는 TxGNN이 약물이 질병에 대한 치료제가 될 가능성이 있는 이유를 설명할 수 있다는 의미입니다. 이는 약물 재사용을 위해서 매우 중요한 특징입니다.

약물 재사용에 대한 기계 학습의 영향

기계 학습을 이용한 약물 재사용은 약물 개발의 비용과 시간을 줄일 수 있습니다. 또한, 기존 약물의 안전성과 효능에 대한 데이터를 활용할 수 있기 때문에, 새로운 약물의 안전성과 효능을 높일 수 있습니다.

약물 재사용은 향후에도 더욱 중요한 기술이 될 것입니다. 기계 학습의 발전으로 인해 더욱 정확한 약물 재사용 모델이 개발될 것입니다. 또한, 더욱 많은 데이터가 축적됨에 따라, 약물 재사용의 범위도 더욱 넓어질 것입니다.

약물 재사용은 인류의 건강과 복지에 크게 기여할 수 있는 기술입니다. 기계 학습을 이용한 약물 재사용의 발전으로 인해, 더 많은 사람들이 질병으로부터 벗어날 수 있게 됩니다.



clova-x

신약 개발은 많은 시간과 비용이 소요되는 과정입니다. 이에 대한 대안으로 기존에 허가받은 약물을 새로운 용도로 사용하는 약물 재창출(drug repurposing)이 최근 주목받고 있습니다. 약물 재창출은 이미 안전성과 유효성이 검증된 약물을 활용하기 때문에 임상시험 기간과 비용을 단축할 수 있고, 새로운 치료제가 없는 질환에 적용할 수 있다는 장점이 있습니다.

기계학습(AI) 기술을 활용하여 약물 재창출을 위한 후보 약물을 발굴하는 연구가 활발하게 이루어지고 있습니다. 대표적인 예로, 그래프 신경망(GNN)을 이용하여 약물과 질병 간의 관계를 학습하고 이를 바탕으로 약물의 용도를 예측하는 모델인 'TxGNN'이 개발되었습니다. 이 모델은 대규모의 의료 지식 그래프를 학습 데이터로 사용하여, 약물과 질병 간의 복잡한 상호작용을 모델링하고 이를 바탕으로 약물의 새로운 용도를 예측합니다.

'TxGNN' 모델은 기존의 약물 재창출 방법에 비해 높은 정확도와 예측 속도를 보여주며, 특히 기존에 치료제가 없는 질병에 대한 예측에서도 높은 정확도를 보였습니다. 이는 기계학습을 통해 기존의 데이터로부터 새로운 패턴을 발견하고 이를 활용하여 신약 개발에 소요되는 시간과 비용을 크게 줄일 수 있는 가능성을 보여줍니다.

또한, 기계학습 모델은 그 결과를 해석하기 어렵다는 단점이 있는데, 'TxGNN' 모델은 해석 가능성을 크게 향상시켜 약물과 질병 간의 관계를 이해하는 데 도움을 줍니다. 이는 의사나 연구자가 약물 재창출 과정에서 모델의 예측을 더욱 신뢰하고 활용할 수 있게 해줍니다.

약물 재창출과 기계학습의 결합은 신약 개발의 패러다임을 바꾸고, 의학 연구와 치료에 혁신을 가져올 것으로 기대됩니다. 기계학습을 통해 기존의 약물로부터 새로운 가치를 창출함으로써, 인류의 건강과 복지에 더욱 기여할 수 있을 것입니다.



chatGPT

이 연구는 **약물 재창출**에 관한 내용입니다. 약물 재창출이란, 원래 다른 질병 치료를 위해 승인된 약물을 새로운 질병 치료에 사용하는 방법입니다. 이를 통해 새로운 약물을 개발하는 데 드는 비용과 시간을 줄일 수 있으며, 이미 승인된 약물이기 때문에 안전성과 효능이 어느 정도 검증되어 있습니다. 그러나 지금까지는 이 방법이 우연이나 의사들의 경험에 의존하는 경우가 많았습니다. 따라서, 더 체계적이고 효율적인 방법이 필요했습니다.

### 연구 배경 및 목적

현재 전 세계적으로 약 7,000개의 희귀질환이 존재하지만, 그중 5-7%만이 승인된 치료법을 가지고 있습니다. 이러한 이유로 기존 약물을 새로운 질병에 활용할 수 있는 방법을 찾는 것이 매우 중요합니다. 이를 통해 치료법이 없는 질병의 치료 가능성을 높이고, 많은 사람들의 삶의 질을 개선할 수 있습니다. 이 연구는 **TxGNN**이라는 인공지능(AI) 기반의 **그래프 신경망** 모델을 개발하여, 특히 치료법이 없는 질병에 대한 약물 후보를 예측하고자 했습니다.

### 머신러닝을 통한 약물 재창출

이번 연구에서 사용된 **TxGNN** 모델은 수천 개의 질병과 약물, 그리고 그들 간의 관계를 하나의 **의료 지식 그래프(Knowledge Graph)**로 만들어 학습했습니다. 그래프 신경망(GNN)이라는 기술을 이용해 이 데이터의 복잡한 관계를 분석하고, 특정 약물이 새로운 질병에도 효과가 있을지 예측할 수 있었습니다. 이 과정에서 사용된 머신러닝 기술은, 기존에 치료법이 있는 질병을 통해 학습한 데이터를 바탕으로, 치료법이 없는 질병에 대한 예측도 가능하도록 했습니다. 이를 "제로샷 예측(zero-shot prediction)"이라고 부릅니다.

### 데이터 전처리

**의료 지식 그래프**는 수십 년간의 연구 데이터를 기반으로 구축되었습니다. 이 그래프에는 17,080개의 질병, 7,957개의 약물, 그리고 그들 간의 다양한 관계가 포함되어 있습니다. 예를 들어, 어떤 약물이 특정 단백질에 영향을 미치는지, 또는 그 단백질이 어떤 질병과 연관이 있는지를 그래프 형태로 표현했습니다. 이 데이터를 머신러닝 모델이 학습할 수 있도록 적절하게 전처리한 후, 모델이 질병과 약물 간의 관계를 파악할 수 있게 했습니다.

### 연구 결과 및 미래의 영향

TxGNN 모델을 통해, 기존의 8가지 방법보다 19% 높은 정확도로 질병에 적합한 약물을 예측할 수 있었습니다. 특히, 임상 실험이 부족한 희귀질환이나 복잡한 질병에서도 유의미한 결과를 도출했습니다. 이 모델은 의사들이 약물을 새롭게 처방할 때 참고할 수 있는 도구가 될 수 있으며, 실제로 과거에 의사들이 **오프라벨(off-label)**로 처방한 약물과도 일치하는 경우가 많았습니다.

### 미래의 영향

이 연구는 우리가 아직 잘 모르는 질병에 대해 새로운 치료법을 찾는 데 큰 기여를 할 수 있습니다. 앞으로는 더 많은 데이터가 축적되고, 이러한 AI 모델들이 발전하면서, 약물 재창출은 훨씬 더 빠르고 효율적으로 이루어질 것입니다. 이는 궁극적으로 새로운 약물 개발에 드는 시간과 비용을 절감하고, 많은 환자들에게 더 빠르게 치료 기회를 제공할 수 있게 할 것입니다.



NotebookLM

## 약물 재사용에 기계 학습을 사용하는 방법: TxGNN 모델 소개

###  연구 배경 및 목적

전 세계적으로 희귀 질환을 포함하여 치료법이 없는 질병이 많습니다. 새로운 약물을 개발하는 데는 막대한 비용과 시간이 소요되기 때문에 **기존 약물의 새로운 용도를 찾는 약물 재사용 (Drug Repurposing)**이 주목받고 있습니다. 하지만 현재까지 대부분의 약물 재사용은 의사의 처방이나 환자 경험을 통한 우연한 발견에 의존하고 있었습니다. 이러한 문제를 해결하기 위해 **인공지능(AI), 특히 기계 학습을 이용한 약물 재사용 기술 개발**이 활발히 이루어지고 있습니다. 

###  기계 학습의 활용 및 데이터 전처리

TxGNN은 **질병에 대한 제한적인 치료 옵션과 분자 데이터 문제를 해결하기 위해 개발된 그래프 기반 모델**입니다.  TxGNN은 방대한 생물 의학 지식 그래프(KG)를 기반으로 학습되어 질병과 약물의 관계를 예측합니다. 이때,  **질병과 약물은 그래프의 노드(node)로 표현되고, 이들 간의 관계는 엣지(edge)로 표현**됩니다.

#### 1. 지식 그래프 구축 및 데이터 전처리

TxGNN 모델 학습에 사용된 데이터는 **다양한 공개 데이터베이스에서 수집된 17,080개의 질병, 7,957개의 약물 및 이들 간의 관계 정보를 포함**합니다. 이러한 정보는 질병 메커니즘, 약물 작용 메커니즘, 유전자, 단백질, 생물학적 과정 등을 포괄적으로 포함하고 있습니다. 수집된 데이터는 **10가지 유형의 노드와 29가지 유형의 엣지를 가진 이질적인 KG**로 구축되었습니다.

#### 2. TxGNN 모델 학습 및 검증

TxGNN은 수집된 KG 데이터를 사용하여 **질병과 약물 간의 관계를 예측하도록 학습**되었습니다. 이 과정에서 **질병 유사성 기반 메트릭 학습 디코더**를 사용하여 분자적 특성이 부족한 질병에 대한 정보를 보완하고 예측 정확도를 향상시켰습니다. 또한, 모델의 일반화 능력을 평가하기 위해 **제로샷(Zero-shot) 약물 재사용 평가**를 수행했습니다. 이는 모델이 학습 중에 접하지 못했던 질병에 대해서도 효과적으로 약물을 예측할 수 있는지 확인하는 방법입니다.

#### 3. 다중 홉 해석 가능 경로 생성

TxGNN은 예측 결과에 대한 신뢰도를 높이기 위해 **예측 근거를 설명하는 다중 홉 해석 가능 경로(Multi-hop interpretable paths)를 생성**합니다. 이 경로는 질병과 약물 사이의 관계를 설명하는 일련의 생물학적 상호작용을 보여줍니다.

###  주요 결과 및 미래 영향

TxGNN은 기존의 기계 학습 모델보다 **제로샷 약물 재사용 작업에서 월등한 성능**을 보였습니다. 특히, 치료법이 없는 질병이나 정보가 제한된 질병에 대해서도 효과적인 약물을 예측했습니다. 또한, TxGNN이 예측한 약물 중 다수는 **실제 임상 현장에서 오프라벨(Off-label) 처방으로 사용되는 것으로 확인**되어 모델의 임상적 유용성을 뒷받침했습니다.

**TxGNN은 의학 연구 및 신약 개발에 상당한 영향을 미칠 것으로 예상됩니다.**

*   **신약 개발 비용 및 시간 단축:** TxGNN은 기존 약물의 새로운 용도를 빠르게 찾아내어 신약 개발에 소요되는 비용과 시간을 획기적으로 단축할 수 있습니다.

*   **희귀 질환 및 복잡한 질병 치료제 개발 촉진:** TxGNN은 정보가 제한된 질병에 대한 연구를 촉진하고 새로운 치료법 개발에 기여할 수 있습니다.

*   **개인 맞춤형 치료 가능성 제시:** 향후 환자 정보를 KG에 통합하면 개인 맞춤형 약물 재사용 예측을 제공할 수 있습니다.

###  결론

TxGNN은 **AI 기반 약물 재사용 기술의 발전 가능성을 보여주는 중요한 사례**입니다. TxGNN은 의학 지식을 체계적으로 활용하여 효과적인 약물 재사용을 가능하게 하고, 궁극적으로는 환자들에게 더 나은 치료 기회를 제공할 것으로 기대됩니다. 


일단 데이터가 쌓이면 이것저것 할 수 있는 것이 많습니다. 

기계학습을 AI로 볼 수 있나... 그렇긴하지만 모 기계의 힘을 빌리지 않고 할 수 있는 일이 없으니 그냥 넘어가는 것으로.. :)

사실 이제는 기존 약을 다른 질병에 재사용을 하는 것이 아닌 개개인의 병에 맞춰 약을 디자인하는 시대가 도래하지 않겠습니까?

조만간 오겠죠, 가격이 문제일뿐 ㅎㅎ 



출처: @wm_ohmygirl


일요일, 10월 13, 2024

개인프로젝트 -VAA 계산하기-

오늘도 chatGPT의 도움을 받아 VAA 전략을 구현하는 파이썬 코드를 작성해보았습니다.


오늘의 코드

strategy_VAA.py : VAA는 공격 자산 4개와 방어 자산 3개 중 조건에 따라 한달 단위로 1개 자산에 몰빵하는 방법입니다. 

일단 지금은 전략을 따라할 수 있는 코드를 작성중에 있고, 이걸 다 마치면 백테스트 하는 코드도 한번 작성할 예정입니다.

물론 이미 github에 잠깐 검색해보셔도 이미 수많은 코드들이 돌아다니고 있습니다만, 그래도 chatGPT한테 일을 시켰을 때 얼마나 손을 덜 대고 코를 풀 수 있는지 확인해 보고자 하는 작업이기도 합니다. 

그럼 평안한 주말 저녁 보내시기 바랍니다. :)



출처: @ye._.vely618

토요일, 10월 12, 2024

변이 조합으로 질병 예측하기

24년도 노벨상에서 AI의 위상이 높아졌기에 2019년에 나왔었던 기계학습 논문 하나 슬쩍 가져와봤습니다. Predicting disease-causing variant combinations 입니다.

DOI: 10.1073/pnas.1815601116


gemini

**VarCoPP: 유전자 쌍 변이 조합의 병원성을 예측하는 기계 학습 방법**

* **소개**

    * 단일 변이 병원성 식별에 관한 중요한 발전이 이루어졌음에도 불구하고, 많은 희귀 질병의 기원을 밝히기 위해서는 더 복잡한 유전 모델을 식별할 수 있는 방법이 필요합니다.

    * 이 논문에서는 변이 조합 병원성 예측기(VarCoPP)라는 기계 학습 방법을 제시합니다. VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측할 수 있습니다.

    * VarCoPP는 Digenic Diseases Database(DIDA)에서 얻은 데이터를 사용하여 훈련되었습니다. DIDA는 유전자 쌍의 병원성 변이 조합에 대한 정보를 포함하고 있습니다. VarCoPP는 병원성과 중립적인 이중 위치 조합을 구분하도록 훈련되었습니다.

    * 결과는 VarCoPP가 높은 정확도로 병원성 조합을 식별할 수 있음을 보여주었습니다. 또한 VarCoPP는 예측에 대한 신뢰도 점수를 제공하여 임상의가 어떤 조합을 더 조사해야 하는지 우선순위를 매길 수 있도록 도와줍니다.

    * VarCoPP는 희귀 질병의 유전적 원인을 연구하는 연구원과 임상의에게 유용한 도구입니다.

* **결과**

    * VarCoPP는 유전자 쌍의 병원성 변이 조합을 정확하게 식별할 수 있습니다.

    * VarCoPP는 예측에 대한 신뢰도 점수를 제공하여 임상의가 어떤 조합을 더 조사해야 하는지 우선순위를 매길 수 있도록 도와줍니다.

    * VarCoPP는 희귀 질병의 유전적 원인을 연구하는 연구원과 임상의에게 유용한 도구입니다.

    * 전체적으로, Papadimitriou et al.의 연구는 VarCoPP가 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구임을 시사합니다. 이는 희귀 질병의 진단과 치료에 중요한 의미를 가질 수 있습니다.

* **추가 연구**

    * VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구입니다.

    * VarCoPP의 성능을 더욱 향상시키기 위해서는 더 많은 데이터가 필요합니다.

    * VarCoPP는 희귀 질병의 진단과 치료에 중요한 도구가 될 수 있습니다.

    * VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구입니다.

    * VarCoPP의 성능을 더욱 향상시키기 위해서는 더 많은 데이터가 필요합니다.

    * VarCoPP는 희귀 질병의 진단과 치료에 중요한 도구가 될 수 있습니다.

    * VarCoPP는 유전자 쌍의 변이 조합의 병원성을 예측하기 위한 유망한 새로운 도구입니다.

    * VarCoPP의 성능을 더욱 향상시키기 위해서는 더 많은 데이터가 필요합니다.

    * VarCoPP는 희귀 질병의 진단과 치료에 중요한 도구가 될 수 있습니다.



clova-x

제목: 유전자 변이 조합과 질병의 관계를 기계학습으로 설명하다

최근 생명공학 분야에서는 유전자 변이와 질병 사이의 복잡한 관계를 이해하기 위한 연구가 활발하게 이루어지고 있습니다. 특히, 단일 유전자 변이뿐만 아니라 여러 유전자 변이의 조합이 질병의 발병과 진행에 영향을 미치는 것으로 밝혀지면서, 이를 분석하기 위한 새로운 방법이 필요하게 되었습니다.

오늘은 'papadimitriou-et-al-2019-predicting-disease-causing-variant-combinations.pdf' 파일을 통해 소개된 연구에 대해 이야기해 보려고 합니다. 이 연구에서는 기계학습 방법을 이용하여 유전자 변이의 조합과 질병 사이의 관계를 분석하였습니다.

기계학습은 데이터로부터 패턴을 학습하고 이를 기반으로 예측을 수행하는 인공지능의 한 분야입니다. 이 연구에서는 유전자 변이 데이터와 질병 정보를 결합하여 기계학습 모델을 학습시키고, 이를 통해 유전자 변이 조합이 질병과 어떤 관련이 있는지를 파악하였습니다.

구체적으로, 'Variant Combinations Pathogenicity Predictor (VarCoPP)'라는 머신러닝 알고리즘을 개발하여 두 유전자 간의 변이 조합(이중 유전자 또는 이 위치 변이 조합)의 병원성을 식별하였습니다. 이 방법은 높은 정확도와 정밀도를 보였으며, 독립적인 질병 유발 데이터를 사용하여 검증했을 때도 효과적이었습니다.

이러한 연구 결과는 유전자 변이 조합이 질병의 발병과 진행에 미치는 영향을 이해하는 데 큰 도움이 될 수 있습니다. 예를 들어, 특정 유전자 변이 조합이 특정 질병의 발병 위험을 증가시키거나, 질병의 진행 속도에 영향을 미칠 수 있다는 것을 파악할 수 있다면, 이를 바탕으로 질병의 예방, 진단 및 치료에 대한 새로운 접근 방법을 개발할 수 있을 것입니다.

하지만 이 연구에도 몇 가지 한계점이 있습니다. 우선, 유전자 변이 데이터와 질병 정보가 완벽하게 일치하지 않을 수 있으며, 이는 기계학습 모델의 정확도에 영향을 미칠 수 있습니다. 또한, 기계학습 모델이 학습한 패턴이 항상 실제 상황에서도 적용되는 것은 아니기 때문에, 예측의 정확도를 높이기 위해서는 추가적인 연구와 검증이 필요합니다.

그럼에도 불구하고, 이 연구는 유전자 변이 조합과 질병의 관계를 이해하는 데 있어서 매우 중요한 진전을 이루었으며, 앞으로 더욱 발전된 기술과 연구를 통해 더욱 정확하고 유용한 정보를 제공할 수 있을 것으로 기대됩니다.

우리 모두가 건강한 삶을 살기 위해서는 유전자 변이와 질병 사이의 복잡한 관계를 이해하는 것이 매우 중요하며, 이를 위해 계속해서 노력해야 할 것입니다.



chatGPT

네, 이 논문은 질병과의 연관성을 단일 변이보다는 여러 유전자의 변이 조합을 통해 설명하려는 기계 학습 방법에 대한 연구입니다. 이 연구에서 제안된 기법은 특히 희귀 질환에서 그 효과가 두드러집니다. 일반적으로 사람들은 특정 유전자가 변이를 일으키면 그 변이로 인해 질병이 발생한다고 생각하지만, 실제로는 여러 유전자가 서로 상호작용을 하면서 질병의 원인이 되는 경우가 많습니다. 이를 더 잘 설명하기 위해 연구팀은 **VarCoPP(Variant Combinations Pathogenicity Predictor)**라는 기계 학습 모델을 제안했습니다.

### 연구 배경과 내용

이 연구는 기존에 단일 유전자 변이를 분석하는 방식에서 벗어나, 두 개 이상의 유전자에서 변이가 발생했을 때 그 변이들이 서로 어떻게 작용해 질병을 유발할 수 있는지를 예측하려 합니다. 이를 **이종 유전자 변이 조합**이라고 부르며, VarCoPP는 이러한 변이 조합이 질병을 유발할 가능성을 평가합니다. 예를 들어, 유전자 A에서 변이가 일어났을 때는 아무런 문제가 없더라도, 유전자 B에서 특정 변이가 동시에 발생하면 두 변이가 서로 상호작용하여 질병을 일으킬 수 있습니다.

이러한 복합적인 유전자 변이 모델은 여러 질병, 특히 드문 유전 질환에서 더 정확한 진단을 가능하게 합니다. 연구진은 실제로 환자의 유전자 데이터를 기반으로 변이 조합을 분석한 결과, 많은 사례에서 이 방법이 질병의 원인을 설명할 수 있음을 확인했습니다.

### 연구 결과가 우리 삶에 미치는 영향

이 연구는 우리가 기존에 알지 못했던 유전적 질병의 원인을 이해하는 데 큰 도움이 될 수 있습니다. VarCoPP를 활용하면 희귀 질환을 앓고 있는 환자의 유전자 데이터를 분석해 그들이 어떤 유전자 변이 조합 때문에 질병에 걸렸는지 더 정확하게 파악할 수 있습니다. 이를 통해 좀 더 개인화된 의료, 즉 **맞춤형 치료**가 가능해집니다. 예를 들어, 특정 유전자 조합 때문에 특정 질병에 걸린 환자는 그 유전자 변이에 맞춘 치료법을 적용할 수 있습니다.

또한 이 방법은 **유전자 상담**에도 유용합니다. 유전자 검사를 받은 사람들이 단일 변이가 아니라 여러 유전자 변이의 조합으로 인해 질병에 걸릴 가능성을 더 정확히 알 수 있기 때문에, 더 나은 건강 관리 및 예방 전략을 세울 수 있습니다.

### 한계와 문제점

그러나 이 연구에도 몇 가지 한계가 있습니다. 첫째, **데이터의 부족**입니다. 희귀 질환의 경우 환자 데이터가 많지 않기 때문에, 더 많은 데이터를 확보해야 VarCoPP와 같은 기계 학습 모델의 성능을 더 정확하게 평가하고 개선할 수 있습니다. 둘째, 이 모델은 주로 **유전자 변이 간의 상호작용**에 집중하고 있지만, 환경적 요인이나 생활습관 등도 질병 발생에 영향을 미칠 수 있습니다. 따라서 유전자 변이만을 고려하는 것이 모든 경우에 적용될 수는 없습니다.

셋째, **거짓 양성(잘못된 예측)**의 가능성입니다. VarCoPP는 높은 정확성을 자랑하지만, 일부 변이 조합이 실제로는 질병을 유발하지 않음에도 불구하고 질병 유발 가능성이 있다고 예측될 수 있습니다. 이러한 문제를 해결하려면, 더 많은 임상적 검증이 필요합니다.

### 결론

VarCoPP와 같은 기계 학습 모델은 유전자의 복합적인 변이 조합이 질병과 어떻게 연관되는지를 이해하는 데 중요한 도구가 될 수 있습니다. 이는 특히 희귀 질환의 진단과 치료에서 유용하며, 더 나아가 맞춤형 의료의 발전을 이끌 것으로 기대됩니다. 다만, 더 많은 데이터와 환경적 요인에 대한 고려가 필요하며, 잘못된 예측을 줄이기 위한 추가적인 검증 작업도 중요합니다.



NotebookLM

## 유전자 변이 조합으로 질병 예측: VarCoPP 이야기

선택하신 자료는 **단일 유전자 변이가 아닌, 여러 유전자 변이의 조합을 분석하여 질병과의 연관성을 밝히는 기계학습 방법**에 대한 연구입니다. **VarCoPP(Variant Combinations Pathogenicity Predictor)**라는 혁신적인 기술을 소개하며, 희귀 질환의 유전적 원인을 파악하는 데 새로운 지평을 열고 있습니다.

### 희귀 질환, 유전자 조합으로 풀어낸다

기존 연구들은 주로 하나의 유전자 변이가 질병을 일으킨다는 관점에서 접근했습니다. 그러나 실제로는 **여러 유전자의 변이가 복합적으로 작용하여 질병을 유발하는 경우가 많습니다.** 마치 여러 조각들이 모여 하나의 그림을 완성하듯, 유전자 변이들의 조합이 질병 발생에 핵심적인 역할을 한다는 것입니다. 

### VarCoPP, 유전자 조합의 비밀을 밝히다

VarCoPP는 **유전자 쌍에서 질병을 유발할 가능성이 있는 변이 조합을 예측하는 기계학습 모델**입니다. 방대한 유전 정보를 분석하고 학습하여, 특정 변이 조합이 질병을 유발할 가능성을 계산합니다. 

VarCoPP는 **DIDAv1(Digenic Diseases Database)**라는 데이터베이스를 활용합니다. DIDAv1은 과학 논문들을 통해 밝혀진, 질병을 유발하는 유전자 변이 조합들을 체계적으로 정리한 자료입니다. VarCoPP는 이 데이터베이스를 기반으로 학습하여, **새로운 변이 조합의 질병 유발 가능성을 정확하게 예측**할 수 있습니다.

### VarCoPP는 어떻게 질병을 예측할까?

VarCoPP는 유전자 변이의 **병원성(CADD score)**, **유전자의 열성 여부**, **유전자 간의 생물학적 거리** 등 다양한 정보들을 종합적으로 분석하여 질병 예측에 활용합니다. 

1. **변이의 병원성**: CADD score는 특정 유전자 변이가 얼마나 질병을 유발할 가능성이 높은지 나타내는 점수입니다. VarCoPP는 각 변이의 CADD score를 분석하여, 변이 조합의 질병 유발 가능성을 평가합니다.

2. **유전자의 열성 여부**: 어떤 유전자는 변이가 하나만 있어도 질병을 유발하지만, 어떤 유전자는 두 개의 변이가 모두 존재해야 질병이 발생합니다. VarCoPP는 유전자의 이러한 특성을 고려하여, 변이 조합의 질병 유발 가능성을 판단합니다.

3. **유전자 간의 생물학적 거리**: 유전자들은 서로 협력하여 단백질을 만들고 생명 활동을 유지합니다. VarCoPP는 유전자 간의 상호작용 정보를 분석하여, 변이 조합이 질병 발생에 미치는 영향을 파악합니다.

### VarCoPP, 우리 삶을 어떻게 바꿀까?

**VarCoPP는 희귀 질환 진단 및 치료에 혁신을 가져올 잠재력**을 가지고 있습니다. 

* **정확한 진단**: VarCoPP는 기존 검사 방법으로는 찾기 어려웠던 희귀 질환의 유전적 원인을 밝혀낼 수 있습니다. 

* **맞춤형 치료**: 환자 개개인의 유전적 특성에 맞는 맞춤형 치료법 개발에 기여할 수 있습니다. 

* **신약 개발**: 질병 발생 메커니즘에 대한 이해를 높여, 새로운 치료제 개발을 촉진할 수 있습니다.

### VarCoPP의 한계와 과제

VarCoPP는 획기적인 기술이지만, 아직 몇 가지 한계점과 해결해야 할 과제들이 남아 있습니다.

* **데이터 부족**: VarCoPP의 정확도를 높이기 위해서는 더 많은 유전 정보 데이터가 필요합니다.

* **분석 범위 확대**: 현재는 유전자 쌍만 분석 가능하지만, 3개 이상의 유전자 조합 분석 기술 개발이 필요합니다. 

* **해석의 복잡성**: VarCoPP는 다양한 정보를 복합적으로 분석하기 때문에 결과 해석에 전문적인 지식이 요구됩니다.

### 미래를 향한 도약

VarCoPP는 희귀 질환 정복을 향한 희망의 빛입니다. 지속적인 연구 개발을 통해 VarCoPP의 정확성과 활용 범위를 넓혀나간다면, 희귀 질환으로 고통받는 환자들에게 더 나은 미래를 선물할 수 있을 것입니다. 


gemini가 내용 설명해주기 싫었는지 같은 내용을 뱉어낸거 제외하고는... LLM들 모두 잘 설명해준듯 합니다. 이때가 2019년이니 이제 내년쯤이면 쓸만한 킬러 서비스들이 -지금까지 나온 AI, 머신러닝, 기계학습을 사용한 interpretation 방법이 jab이었다면, 이제 나오는 것들은 Hook 수준의 것들이- 등장하지 않을까 하는 생각입니다.



출처: @wm_ohmygirl


금요일, 10월 11, 2024

개인프로젝트 -DAA 계산하기-

오늘은 지난번까지 모은 주식 정보를 활용해서 DAA 전략을 계산하는 파이썬 스크립트를 작성해보도록 하겠습니다.

물론 우리의 chatGPT가 작성하였습니다.

DAA전략과, DAA에서 사용하는 모멘텀 스코어에 대해서 설명해주고, 파이썬 스크립트를 작성해줘 하면 짠하고 작성해주죠 ㅎㅎ 

위 사이트에 소개된 DAA 전략 내용과 수집한 database내에서 주가 정보를 어떻게 끌어올지 그리고 재귀적으로 현재 시점의 모멘텀 스코어를 바탕으로 구성해야할 포트폴리오를 알려주는 기능 외에도, 이전에 모멘텀 스코어를 계산 할 수 시기의 모멘텀 스코어를 계산해서 정리하도록 했습니다.

오늘의 코드

strategy_DAA.py: 12개의 공격자산, 3개의 방어자산, 2개의 카나리아 자산을 바탕으로 각각의 모멘텀 스코어를 바탕으로 자산 배분을 어떻게 할지 알려주는 코드 되겠습니다. 덤으로 어떤 자산에 얼마큼의 비율로 포트폴리오를 구성해야하는 결과외에 각 자산의 모멘텀 스코어도 함께 확인 할 수 있도록 하였고 결과는 엑셀 파일에 저장되도록 하였습니다.

DAA전략에 사용되는 자산군은 똑똑하신 분들이 구성해놓은 것이라서 믿어도 되지 않을까 합니다만 개별 단가들이 높은 주식들이 있고, 진짜 이대로 할 수 있을 날이 올지는 모르겠습니다. 

물론 나중에 가서 항상 왜 그떄 안했을까 하고 후회하고 있을것 같지만... :)



출처: @wm_ohmygirl