목요일, 10월 10, 2024

단백질 언어 모델을 통한 모든 가능한 질병 변이 예측

오늘은 변이가 질병에 미치는 영향을 예측하는 내용의 논문을 가져와봤습니다. 제목은 Genome-wide prediction of disease variant effects with a deep protein language model 으로, 비슷한 내용으로는 alphafold의 alphamissense가 있지않을까 합니다. 


DOI: 10.1038/s41588-023-01465-0



gemini

이 논문은 단백질 언어 모델을 사용하여 모든 인간 유전자 변이가 질병에 미치는 영향을 예측하는 방법을 제시합니다. 이 방법은 기존 방법보다 정확하고, 모든 유전자 변이에 대해 예측이 가능하며, 단백질 언어 모델을 사용하기 때문에 쉽게 사용할 수 있습니다.

**연구 배경**

유전자 변이가 질병에 미치는 영향을 예측하는 것은 인간 유전학에서 매우 중요한 과제입니다. 유전자 변이는 단백질의 아미노산 서열을 변경하여 단백질의 기능을 변경할 수 있습니다. 이러한 변경은 질병을 유발하거나 질병을 악화시킬 수 있습니다. 그러나 유전자 변이의 영향을 예측하는 것은 매우 어렵습니다. 기존의 방법은 유전자 변이의 위치, 아미노산 서열의 변경, 단백질의 구조 및 기능 등을 고려하여 예측을 수행합니다. 그러나 이러한 방법은 매우 복잡하고, 많은 데이터가 필요하며, 일부 유전자 변이는 예측이 불가능합니다.

**연구 방법**

이 논문에서는 단백질 언어 모델을 사용하여 유전자 변이의 영향을 예측하는 방법을 제시합니다. 단백질 언어 모델은 자연어 처리 기술을 사용하여 단백질 서열을 분석하는 모델입니다. 이 모델은 단백질의 아미노산 서열을 입력으로 받아, 단백질의 기능을 예측할 수 있습니다. 이 논문에서는 ESM1b라는 단백질 언어 모델을 사용하여 모든 인간 유전자 변이의 영향을 예측했습니다. ESM1b는 650억 개의 매개변수를 가진 거대한 모델이며, 250억 개의 단백질 서열을 학습했습니다.

**연구 결과**

연구 결과, ESM1b는 기존 방법보다 모든 유전자 변이의 영향을 더 정확하게 예측할 수 있었습니다. 또한, ESM1b는 모든 유전자 변이에 대해 예측이 가능했습니다. 이는 기존 방법에서는 불가능한 것이었습니다. ESM1b는 또한 단백질의 기능을 예측할 수 있기 때문에, 유전자 변이가 단백질의 기능을 어떻게 변경하는지도 예측할 수 있었습니다.

**연구의 의미**

이 논문의 결과는 단백질 언어 모델을 사용하여 유전자 변이의 영향을 예측할 수 있음을 보여주었습니다. 이는 인간 유전학에서 매우 중요한 발전입니다. 이 방법을 사용하면, 유전자 변이의 영향을 더 정확하게 예측할 수 있기 때문에, 유전자 변이에 기반한 질병 진단과 치료에 큰 도움이 될 수 있습니다. 또한, 이 방법은 단백질 언어 모델을 사용하기 때문에 쉽게 사용할 수 있습니다. 이는 많은 연구자들이 이 방법을 사용하여 유전자 변이의 영향을 예측할 수 있게 될 것입니다.

**우리 삶에 미치는 영향**

이 논문의 결과는 인간 유전학에서 매우 중요한 발전입니다. 이 방법을 사용하면, 유전자 변이의 영향을 더 정확하게 예측할 수 있기 때문에, 유전자 변이에 기반한 질병 진단과 치료에 큰 도움이 될 수 있습니다. 또한, 이 방법은 단백질 언어 모델을 사용하기 때문에 쉽게 사용할 수 있습니다. 이는 많은 연구자들이 이 방법을 사용하여 유전자 변이의 영향을 예측할 수 있게 될 것입니다.

이 논문의 결과는 우리 삶에 많은 영향을 미칠 것으로 예상됩니다. 예를 들어, 이 방법을 사용하여 유전자 변이에 기반한 질병 진단과 치료를 개발할 수 있습니다. 또한, 이 방법을 사용하여 새로운 약물을 개발할 수도 있습니다. 이러한 발전은 인류의 건강과 복지에 큰 도움이 될 것입니다.

**결론**

이 논문에서는 단백질 언어 모델을 사용하여 모든 인간 유전자 변이의 영향을 예측하는 방법을 제시했습니다. 이 방법은 기존 방법보다 정확하고, 모든 유전자 변이에 대해 예측이 가능하며, 단백질 언어 모델을 사용하기 때문에 쉽게 사용할 수 있습니다. 이 논문의 결과는 인간 유전학에서 매우 중요한 발전이며, 우리 삶에 많은 영향을 미칠 것으로 예상됩니다.



clova-x

제목: 단백질 언어 모델을 통한 인간 게놈의 모든 가능한 미스센스 변이 예측

인간 게놈에는 약 20,000개의 유전자가 있으며, 각 유전자는 여러 가지 변형 버전인 isoform을 가질 수 있습니다. 이러한 isoform들은 유전자의 기능에 영향을 미치며, 일부 변형은 질병과 관련이 있을 수 있습니다. 따라서, 유전자의 변형을 이해하고 예측하는 것은 의학 연구와 치료에 매우 중요합니다.

최근 연구에서는 단백질 언어 모델을 사용하여 인간 게놈의 모든 가능한 미스센스 변이 효과를 예측하는 방법을 개발했습니다. 이 방법은 기존의 방법보다 더 정확하고 포괄적으로 변이를 예측할 수 있어, 의학 연구와 치료에 큰 도움이 될 것으로 기대됩니다.

연구팀은 6억 5천만 개의 매개변수를 가진 단백질 언어 모델인 ESM1b를 사용하여 인간 게놈의 약 4억 5천만 개 가능한 미스센스 변이 효과를 예측하는 워크플로우를 개발했습니다. ESM1b는 이미 많은 양의 단백질 데이터를 학습하여 단백질의 구조와 기능을 예측하는 데 사용되고 있었습니다. 이번 연구에서는 이 모델을 확장하여 미스센스 변이의 효과를 예측하는 데 사용했습니다.

이 모델은 기존의 방법보다 15만 개의 ClinVar/HGMD 미스센스 변이를 병원성 또는 양성으로 분류하고 28개의 딥 돌연변이 스캔 데이터 세트의 측정값을 예측하는 데 더 우수한 성능을 보였습니다. 또한, 인프레임 삽입 및 정지 획득과 같은 더 복잡한 코딩 변이에도 일반화될 수 있었습니다.

이러한 연구 결과는 단백질 언어 모델이 변이 효과를 예측하는 데 효과적이고 정확하며 일반적인 접근 방법임을 입증합니다. 이는 앞으로 의학 연구와 치료에 큰 영향을 미칠 것입니다. 예를 들어, 특정 질병과 관련된 유전자의 변이를 미리 예측하고, 이에 대한 맞춤형 치료법을 개발할 수 있게 될 것입니다. 또한, 개인의 유전자 정보를 분석하여 건강 상태를 모니터링하고 예방하는 데도 활용될 수 있습니다.



chatGPT

이번 블로그 포스트에서는 2023년 9월 *Nature Genetics*에 발표된 연구 내용을 쉽고 간단하게 설명해 드리려고 합니다. 이 연구는 인간 유전자에서 발생할 수 있는 모든 미스센스 변이(missense variants)가 우리 건강에 미치는 영향을 예측하는 방법을 다룹니다. 미스센스 변이는 유전자 변이의 한 형태로, 단백질을 구성하는 아미노산이 바뀌면서 질병을 일으킬 수 있습니다. 이번 연구에서는 ESM1b라는 단백질 언어 모델을 이용해 이 변이가 우리 몸에 어떤 영향을 줄 수 있는지 예측하는 방법을 제시했습니다.

### 연구의 배경

유전자 변이는 사람마다 다르게 나타날 수 있고, 이 중 일부는 질병을 일으킬 수 있습니다. 특히 미스센스 변이는 단백질의 기능에 영향을 미칠 수 있어서 많은 질병과 관련이 있는데요. 예를 들어, 암이나 유전병과 같은 질환은 단백질의 기능이 제대로 작동하지 않아서 발생할 수 있습니다. 그러나 현재까지는 유전자 변이가 실제로 어떤 영향을 미치는지 명확하게 예측하기 어려웠습니다. 기존 방법은 단백질의 특정 부분만 분석하거나, 비슷한 단백질 서열에만 의존하기 때문에 한계가 있었습니다.

### 연구에 사용된 도구

이번 연구에서 사용된 ESM1b는 6억 5천만 개의 매개변수를 가진 대규모 단백질 언어 모델입니다. 이 모델은 약 2억 5천만 개의 단백질 서열을 학습해서, 단백질 서열이 어떻게 구조와 기능을 결정하는지 파악할 수 있습니다. 이렇게 학습된 모델을 통해 약 450만 개의 미스센스 변이를 분석했습니다. 이 모델의 특징은 단백질 서열의 일부분만 분석하는 것이 아니라, 전체 서열을 고려할 수 있다는 점입니다.

### 연구 결과

이 연구에서 밝혀진 주요 결과는 다음과 같습니다.

1. **미스센스 변이 예측**: 연구진은 인간 유전자에서 발생할 수 있는 모든 미스센스 변이를 분석하여, 그 중 병을 일으킬 가능성이 높은 변이와 그렇지 않은 변이를 분류했습니다. 약 15만 개의 변이에 대해 기존 방법보다 더 높은 정확도로 병리학적 영향을 예측할 수 있었습니다.

2. **특정 단백질 아이소폼(isoform)에서만 손상되는 변이**: 약 200만 개의 변이가 특정 단백질 아이소폼에서만 손상을 일으키는 것으로 나타났습니다. 단백질은 다양한 형태로 존재할 수 있는데, 같은 유전자 변이도 어떤 형태에서는 문제가 되지만 다른 형태에서는 그렇지 않을 수 있습니다.

### 우리의 삶에 미칠 영향

이 연구는 우리가 유전자 변이를 더 정확하게 이해할 수 있게 해줍니다. 예를 들어, 유전적 검사를 통해 알게 된 변이가 병을 일으킬 가능성이 높은지, 아니면 단순한 변이인지 더 쉽게 판단할 수 있게 될 것입니다. 또한, 특정 변이가 질병을 일으키는지 아닌지 더 정확히 알 수 있기 때문에, 의사들은 환자에게 더 적절한 치료 방법을 제공할 수 있습니다.

이 기술은 유전자 변이로 인해 발생하는 질병을 진단하고 치료하는 데 큰 도움이 될 것입니다. 예를 들어, 암이나 희귀 질환과 같은 복잡한 유전적 질환을 진단하는 데 더 빠르고 정확한 도구로 사용될 수 있으며, 이는 환자들이 더 나은 치료를 받을 수 있도록 도울 것입니다.

이번 연구는 유전 정보 해석에 새로운 길을 열었으며, 앞으로 질병 진단과 개인 맞춤형 치료에 많은 기여를 할 것으로 기대됩니다.



NotebookLM

##  단백질 언어 모델을 이용한 질병 변이 예측: ESM1b

**들어가며:**

우리 몸의 유전 정보를 담고 있는 DNA는 생명 현상 유지에 중요한 역할을 합니다. DNA에는 단백질을 만드는 정보가 담겨 있으며, 이 정보에 따라 다양한 단백질이 생성되어 우리 몸의 기능을 조절합니다. 하지만, DNA 정보에 변이가 발생하면 비정상적인 단백질이 만들어져 질병을 일으킬 수 있습니다. 이러한 질병을 유전 질환이라고 합니다.

최근 과학자들은 DNA 변이가 단백질에 미치는 영향을 예측하는 연구를 활발하게 진행하고 있습니다. 이 연구는 유전 질환의 진단과 치료에 중요한 단서를 제공할 수 있습니다. 이번 블로그 글에서는 **ESM1b**라는 단백질 언어 모델을 사용하여 질병 변이 효과를 예측하는 **새로운 연구**를 소개하고자 합니다.

**연구 배경:**

인간 게놈에는 4억 5천만 개가 넘는 미스센스 변이가 존재할 수 있으며, 이 변이들은 단백질의 아미노산 서열을 변화시켜 단백질의 기능에 영향을 미칠 수 있습니다. 이러한 변이 중 일부는 질병을 유발하는 반면, 다른 변이는 아무런 영향을 미치지 않거나 심지어 유익한 경우도 있습니다. 따라서 어떤 변이가 질병을 유발하는지 예측하는 것은 매우 중요하며, 이를 **변이 효과 예측 (Variant Effect Prediction, VEP)**이라고 합니다.

기존의 VEP 방법들은 주로 단백질의 진화적 정보를 활용하는 상동성 기반 방법을 사용해왔습니다. 하지만, 이러한 방법들은 충분한 진화적 정보가 없는 경우 예측 정확도가 떨어지는 한계점을 가지고 있었습니다. 

**새로운 접근 방식: 단백질 언어 모델**

이번 연구에서는 **ESM1b**라는 단백질 언어 모델을 사용하여 VEP의 정확도를 향상시키는 새로운 접근 방식을 제시했습니다. 단백질 언어 모델은 대량의 단백질 서열 데이터를 학습하여 아미노산 서열 간의 복잡한 관계를 파악합니다. 이를 통해 ESM1b는 기존 방법들보다 더 정확하게 질병을 유발하는 변이를 예측할 수 있습니다.

**연구 결과:**

연구팀은 ESM1b를 사용하여 ClinVar와 HGMD 데이터베이스에 등재된 다양한 유전 질환 변이들을 분석했습니다. 그 결과, ESM1b는 기존의 상동성 기반 방법들보다 **높은 정확도로 병원성 변이를 예측**하는 것으로 나타났습니다. 

**더 나아가 ESM1b는:**

* **모든 가능한 미스센스 변이의 효과 예측**: 상동성 기반 방법들과 달리, ESM1b는 충분한 진화적 정보가 없는 경우에도 모든 가능한 미스센스 변이의 효과를 예측할 수 있습니다. 

* **다양한 단백질 이소폼의 변이 효과 평가**:  ESM1b는 단백질의 서로 다른 형태인 이소폼을 고려하여 변이의 효과를 더욱 정확하게 예측할 수 있습니다.

* **복잡한 코딩 변이 예측**: ESM1b는 단일 아미노산 변화뿐만 아니라, 인프레임 인델 및 정지획득과 같은 더욱 복잡한 코딩 변이도 예측할 수 있습니다.

**우리 삶에 미치는 영향:**

본 연구는 단백질 언어 모델이 VEP에 효과적으로 사용될 수 있음을 보여주었으며, 이는 유전 질환 연구에 큰 영향을 미칠 것으로 예상됩니다. 특히, **개인별 맞춤형 의료 시대**에 더욱 중요해질 **유전체 분석** 분야에 큰 도움을 줄 수 있습니다.  

* **정확한 질병 진단**:  ESM1b를 이용하면 기존 방법으로는 알 수 없었던 질병 유발 변이를 찾아내어 질병 진단율을 높일 수 있습니다. 

* **새로운 치료법 개발**:  ESM1b를 통해 질병을 유발하는 단백질 변이를 정확하게 파악함으로써, 이를 표적으로 하는 새로운 치료법 개발에 활용될 수 있습니다.

* **희귀 질환 치료**: 특히, 희귀 질환의 경우 원인 유전자를 찾는 것이 매우 어려운데, ESM1b를 이용하면  **희귀 질환의 진단 및 치료에 큰 도움**이 될 수 있습니다.

**결론:**

본 연구는 단백질 언어 모델 ESM1b를 이용한 질병 변이 예측 연구를 소개했습니다. ESM1b는 기존 방법보다 정확하고 다양한 변이를 예측할 수 있으며, 이를 통해 유전 질환 연구 및 개인 맞춤형 의료 시대에 크게 기여할 수 있을 것으로 기대됩니다. 


이 논문에서 사용한 ESM1b 모델은 ESM, Evolutionary Scale Modeling에서 파생된 모델로 자세한 내용은 esm github에 방문하시면 더 잘 확인 하실 수 있습니다. 여튼 단백질 언어 모델을 통한 모든 가능한 질병 변이 예측이라고 제목을 달았지만 정확히는 missense로 인한 질병 변이 예측만 가능합니다. 좀더 확장하자면... mRNA의 stop gain, stop loss에 대한 질병의 예측은 가능하겠지만 그외 DNA의 차이로 생기는 문제는 예측하지 못한다는... 한계는 있습니다. 그래도 단백질로 translation되는 부위에서의 문제라도 예측 할 수 있다는 것도 엄청난것이긴 합니다. alphamissense도 그렇고 점점 좋은 예측 tool들이 나와주기에 활용만 잘 하면 될 것 같습니다. :)


출처: @wm_ohmygirl


댓글 없음: