레이블이 clinvar인 게시물을 표시합니다. 모든 게시물 표시
레이블이 clinvar인 게시물을 표시합니다. 모든 게시물 표시

수요일, 5월 07, 2025

유전자에 대해서 정확하게 답변해주는 GeneGPT

오늘은 LLM을 활용해서 Biomedical 정보에 더 쉽게 접근 할 수 있는 방법을 소개하려고 합니다.  이미 2024년 작년에 출판된 논문으로 NCBI 훃아들이 자기들 DB 활용해서 만들었다고 합니다. 여튼 제목은 GeneGPT: augmenting large language models with domain tools for improved access to biomedical information 입니다.

DOI: 10.1093/bioinformatics/btae075


clova-x

GeneGPT는 대규모 언어 모델(LLM)을 생물의학 정보에 더 쉽게 접근할 수 있도록 NCIB 웹 API를 활용하여 향상시키는 방법입니다. 이 연구는 GeneGPT가 GenoTuring 벤치마크에서 기존의 LLM보다 우수한 성능을 발휘함을 보여줍니다.

1. **연구 배경 및 목적**

   - LLM은 다양한 작업에 성공적으로 적용되었지만, 환각 현상이라는 도전에 직면해 있습니다.

   - 도메인 특정 도구를 통해 LLM의 생물의학 지식 접근성을 향상시키고자 합니다.

2. **GeneGPT의 설계 및 작동 방식**

   - GeneGPT는 Codex를 사용하여 NCBI 웹 API를 통해 유전체 질문에 답하도록 가르칩니다.

   - API 사용법을 시연하고, API 호출을 감지하고 실행할 수 있는 증강 디코딩 알고리즘을 사용합니다.

3. **성능 평가 및 결과**

   - GeneGPT는 GenoTuring 벤치마크의 여덟 가지 작업에서 평균 점수 0.83으로 최고 성능을 달성하였습니다.

   - 이는 New Bing(0.44), BioMedLM(0.08), BioGPT(0.04), GPT-3(0.16), ChatGPT(0.12)보다 훨씬 높은 성과입니다.

4. **GeneGPT의 특징 및 기여**

   - API 시연은 문맥 학습에 문서화보다 더 유용하며, 여러 API 호출을 일반화할 수 있습니다.

   - GeneGPT는 새로운 GeneHop 데이터셋을 통해 다단계 유전체 질문에 응답할 수 있습니다.



chatGPT

# 유전학 질문에 똑똑하게 답하는 AI, GeneGPT 이야기

## 연구 배경 – 왜 이런 연구가 필요했을까?

요즘은 ChatGPT 같은 인공지능이 사람처럼 글을 쓰고, 질문에도 똑똑하게 답하죠. 하지만 이런 AI도 전문 지식이 필요한 분야에서는 가끔 “지어내는” 답을 하기도 해요. 특히 생명과학이나 유전학처럼 정보가 방대하고 복잡한 분야에서는 더더욱 그렇습니다. 그래서 연구자들은 AI가 믿을 수 있는 데이터베이스를 직접 찾아보게 하면 더 정확한 답을 할 수 있지 않을까 하는 아이디어를 떠올렸습니다.

## 연구 목적 – 연구진은 무엇을 알고 싶었을까?

연구팀은 “AI가 유전학 정보를 정확하게 검색하고 활용할 수 있도록 도와주는 방법”을 만들고 싶었습니다. 그래서 미국 국립생명공학정보센터(NCBI)의 유전학 데이터베이스를 AI가 직접 사용할 수 있도록 훈련시킨 ‘GeneGPT’라는 시스템을 만들었죠.

## 사용된 데이터 – 어떤 자료를 활용했을까?

이 연구에서 사용한 데이터는 NCBI에서 제공하는 공식 유전학 데이터베이스(API)를 기반으로 합니다. 쉽게 말하면, 인터넷 주소를 통해 유전자, 단백질, 질병 정보 등을 검색할 수 있는 시스템이에요. 연구팀은 이 API를 사용해 유전 정보를 찾는 과정을 AI에게 가르쳤습니다.

## 연구 방법 – 어떻게 연구를 진행했을까?

연구팀은 OpenAI의 Codex 모델(코드를 잘 이해하는 AI)을 활용해, 특정한 질문이 들어오면 필요한 정보를 NCBI 데이터베이스에서 검색하고 그 결과를 분석한 뒤 답변을 만들도록 했어요. 예를 들어 "이 DNA 조각이 어느 유전자에 해당하나요?" 같은 질문을 받으면, AI가 단계별로 관련 정보를 찾아서 답을 구성하죠.

이를 위해 연구팀은 AI에게 API를 사용하는 예시를 여러 개 보여주고, 그 패턴을 스스로 익히도록 했습니다. 이 과정을 ‘인컨텍스트 러닝’이라고 해요. 복잡하게 들리지만, 쉽게 말해 "이런 식으로 검색해 봐~"라고 보여주는 식입니다.

## 연구 결과 및 예시 – 어떤 결과가 나왔을까?

GeneGPT는 ‘GeneTuring’이라는 유전학 질문 시험에서 매우 높은 성적(평균 0.83점)을 기록했어요. 기존의 ChatGPT나 바이오 전문 AI보다 훨씬 나은 성능이었습니다. 예를 들어 다른 모델이 "이 SNP(유전변이)는 어떤 유전자와 관련이 있나요?"라는 질문에 잘 답하지 못했지만, GeneGPT는 정확하게 찾아낼 수 있었어요.

또한, GeneGPT는 한 번에 여러 단계를 거쳐 답해야 하는 복잡한 질문(예: 특정 질병에 관련된 유전자의 위치는 어디인가요?)에도 잘 대응했답니다.

## 의미와 영향 – 이 연구가 우리에게 주는 의미는?

이 연구는 AI가 단순히 '아는 척' 하는 것을 넘어서, 실제로 믿을 수 있는 데이터를 찾아서 답하도록 진화할 수 있다는 것을 보여줍니다. 특히 생명과학, 의학처럼 정밀한 정보가 중요한 분야에서는 큰 도움이 될 수 있어요. 앞으로 GeneGPT 같은 시스템이 발전하면, 일반 사람들도 더 쉽게 유전 정보를 검색하고 활용할 수 있는 시대가 열릴지도 모릅니다.



NotebookLM

## 안녕하세요! 유전자 정보, 이제 똑똑하게 물어보세요: GeneGPT 연구 이야기

안녕하세요, 오늘 여러분께 **인공지능이 유전자와 질병 정보를 더 쉽고 정확하게 알려줄 수 있는 흥미로운 연구**를 소개해 드리려고 합니다. 복잡한 유전체 정보에 대한 궁금증, 이제 어렵게 검색하거나 전문가에게 물어보지 않아도 될 날이 머지않았는지도 모릅니다!

### 연구 배경 – 왜 이런 연구가 필요했을까요?

최근 인공지능, 특히 **사람처럼 자연스럽게 글을 쓰고 이해하는 거대 언어 모델(LLM)**이 정말 많은 분야에서 활용되고 있습니다. 하지만 이러한 모델들도 **정확하지 않은, 그럴듯해 보이는 답변(‘환각’이라고 부릅니다)**을 할 때가 있어서, 특히 **정확성이 중요한 의학이나 유전체 분야**에서는 큰 문제로 지적되어 왔습니다. 예를 들어, 어떤 유전자의 정확한 위치나 특정 질병과 관련된 유전자를 물어봤을 때, 모델이 사실과 다른 정보를 제공할 수 있다는 것이죠. 그래서 연구자들은 이러한 문제를 해결하기 위해 고민하기 시작했습니다. **“인공지능에게 정확한 정보를 찾고 활용할 수 있는 ‘도구’를 알려주면 어떨까?”** 하고 말이죠.

### 연구 목적 – 연구진은 무엇을 알고 싶었을까요?

이 연구를 진행한 연구진은 **거대 언어 모델이 전문적인 도구를 사용할 수 있도록 가르치는 새로운 방법**을 개발하고자 했습니다. 특히, **국립생물정보센터(NCBI)**에서 제공하는 다양한 **생물학 데이터베이스와 분석 도구의 웹 API**를 거대 언어 모델이 직접 활용할 수 있도록 하는 것이 목표였습니다. 마치 우리가 스마트폰 앱을 사용하듯이, 인공지능이 필요한 유전자 정보를 NCBI 데이터베이스에서 정확하게 찾아내고, 이를 바탕으로 질문에 답변할 수 있게 만드는 것이죠. 이렇게 하면 **부정확한 답변의 가능성을 줄이고, 더욱 신뢰할 수 있는 정보를 얻을 수 있을 것**이라고 연구진은 생각했습니다.

### 데이터 또는 재료 설명 – 어떤 ‘재료’들이 사용되었나요?

이 연구에서는 다음과 같은 중요한 ‘재료’들이 사용되었습니다.

*   **NCBI 웹 API:** NCBI는 유전자, 단백질, 질병 등 **다양한 생물학 정보를 담고 있는 거대한 데이터베이스**입니다. NCBI 웹 API는 이러한 데이터베이스에 **인터넷을 통해 접근하고 필요한 정보를 가져올 수 있도록** 만들어진 일종의 ‘문’과 같습니다. 마치 식당에서 메뉴판을 보고 음식을 주문하는 것처럼, 정해진 ‘주문 방식’(URL)에 따라 원하는 정보를 요청할 수 있습니다. 주요 API로는 **E-utilities** (유전자, 단백질 정보 검색 및 요약)와 **BLAST URL API** (DNA 또는 단백질 서열 유사성 검색)가 있습니다.

*   **GeneTuring:** 연구진들은 개발한 방법의 성능을 평가하기 위해 **유전체학 관련 질문과 답변으로 이루어진 ‘시험 문제’ 세트인 GeneTuring**을 사용했습니다. 이 시험에는 다양한 종류의 유전자 관련 질문들이 포함되어 있습니다.

*   **GeneHop:** 더 나아가, **하나의 질문에 여러 단계를 거쳐 답해야 하는 복잡한 질문 세트인 GeneHop**을 새롭게 만들어 인공지능의 추론 능력을 시험했습니다. 예를 들어, “특정 SNP와 관련된 유전자의 기능은 무엇인가?”와 같은 질문은 먼저 SNP와 관련된 유전자를 찾고, 그 유전자의 기능을 다시 찾아야 답할 수 있는 다단계 질문입니다.

*   **Codex:** 연구진은 처음에는 **코딩 능력이 뛰어난 거대 언어 모델인 Codex**를 사용하여 NCBI 웹 API를 활용하도록 가르쳤습니다.

### 연구 방법 – 인공지능에게 ‘도구 사용법’을 어떻게 가르쳤을까요?

연구진은 **GeneGPT**라는 새로운 방법을 개발하여 인공지능에게 NCBI 웹 API 사용법을 가르쳤습니다. 이 방법의 핵심은 다음과 같습니다.

*   **프롬프트 디자인:** 인공지능에게 **“당신의 임무는 NCBI API를 사용하여 유전체학 질문에 답변하는 것입니다.”**라는 **명확한 지시**를 내립니다. 그리고 NCBI 웹 API의 기능과 사용법에 대한 **설명서 (Documentation)**와 **실제 사용 예시 (Demonstration)**를 함께 제공합니다. 마치 요리책의 레시피처럼, API의 ‘문법’과 실제 ‘요리 과정’을 보여주는 것이죠. 흥미로운 점은 **단순한 설명서보다 실제 사용 예시가 인공지능의 학습에 더 효과적이었다**는 것입니다.

*   **추론 알고리즘:** 인공지능이 답변을 생성하는 과정에서 **“->”라는 특별한 표시**를 감지하면, 그 시점에서 생성을 멈추고 **API 호출 URL을 만들어 실제로 NCBI 웹 API를 실행**합니다. API 실행 결과로 얻은 **생생한 데이터**를 다시 인공지능에게 입력하여 답변 생성을 이어가도록 합니다. 마치 숙련된 연구원처럼, 필요한 정보를 데이터베이스에서 직접 찾아보고, 그 결과를 바탕으로 결론을 내리는 방식입니다.

### 연구 결과 및 예시 – 어떤 결과가 나왔나요?

GeneGPT를 사용하여 GeneTuring 문제들을 풀어본 결과, **기존의 다른 어떤 인공지능 모델들보다 훨씬 높은 정확도**를 보였습니다. 특히, **새로운 Bing (0.44점) 이나 BioMedLM (0.08점), BioGPT (0.04점), 심지어 GPT-3 (0.16점)와 ChatGPT (0.12점)보다 평균 0.83점이라는 압도적인 성능**을 나타냈습니다.

예를 들어, GeneGPT는 다음과 같은 질문에 NCBI 웹 API를 활용하여 정확하게 답변할 수 있습니다 (실제 블로그 글에서는 더 쉬운 예시로 각색될 수 있습니다):

*   **질문:** “BRCA1 유전자의 다른 이름들은 무엇인가?”

    *   GeneGPT는 NCBI의 E-utilities API를 사용하여 ‘BRCA1’을 검색하고, 그 결과에서 BRCA1 유전자의 공식 명칭 외에 알려진 다른 이름들(이명)을 정확하게 찾아낼 수 있습니다.

*   **질문:** “특정 DNA 서열과 가장 유사한 인간 염색체는 무엇인가?”

    *   GeneGPT는 BLAST URL API를 사용하여 주어진 DNA 서열과 인간 유전체 데이터베이스를 비교 분석하고, 가장 유사한 염색체 위치를 찾아낼 수 있습니다.

더욱 놀라운 점은 GeneGPT가 **여러 단계를 거쳐야 하는 복잡한 질문(GeneHop)**에도 비교적 잘 답변했다는 것입니다. 예를 들어, “특정 질병과 관련된 유전자들의 염색체 위치는 어디인가?”라는 질문에 대해, 먼저 질병과 관련된 유전자 목록을 찾고, 각 유전자의 염색체 위치를 순차적으로 파악하는 능력을 보여주었습니다.

### 의미와 영향 – 이 연구가 우리 삶에 어떤 의미를 가질까요?

이 연구는 **인공지능이 생물 의학 분야의 전문 지식에 더욱 쉽고 정확하게 접근**할 수 있는 가능성을 보여줍니다. 특히, 전문 지식이 없는 일반 대중도 **유전자나 질병에 대한 궁금증을 해소하는 데 큰 도움**을 받을 수 있을 것으로 기대됩니다. 더 이상 복잡한 전문 용어와 씨름하거나 여러 웹사이트를 뒤적거리지 않아도, **인공지능에게 질문하면 필요한 정보를 정확하게 얻을 수 있는 시대**가 다가올 수 있다는 의미입니다.

또한, 연구자들이 **방대한 생물학 데이터를 분석하고 새로운 발견을 하는 과정**에서도 GeneGPT와 같은 기술이 중요한 역할을 할 수 있습니다. 데이터베이스 관리의 부담을 줄이고, 더 효율적인 연구를 가능하게 할 잠재력을 가지고 있습니다.

물론 아직 연구 단계이지만, GeneGPT가 보여준 가능성은 **미래의 의료 및 생명 과학 분야에 큰 변화를 가져올 수 있을 것**으로 기대됩니다. 복잡하고 방대한 유전체 정보를 누구나 쉽게 이해하고 활용할 수 있는 날을 꿈꿔봅니다!



grok3

안녕하세요, 여러분! 오늘은 흥미로운 연구 논문 하나를 소개하려고 해요. 이 논문은 'GeneGPT'라는 이름으로, 생물학 정보를 더 쉽게 찾을 수 있도록 도와주는 새로운 기술에 관한 거예요. 전문 용어가 많을 수 있지만, 제가 최대한 쉽게 풀어서 설명할게요. 자, 시작해볼까요?

---

### 연구 배경 – 이 연구가 왜 필요했는지

우리는 요즘 인공지능(AI), 특히 대형 언어 모델(LLM, 쉽게 말해 똑똑한 챗봇 같은 거예요)을 많이 사용하죠. 이 AI들은 책, 뉴스, 웹사이트 같은 텍스트를 학습해서 질문에 답할 수 있어요. 하지만 문제는, 가끔 AI가 잘못된 정보를 만들어내거나(이걸 '환각'이라고 불러요), 전문적인 생물학 정보는 잘 찾지 못한다는 거예요. 예를 들어, 특정 유전자에 대해 물어보면, AI가 엉뚱한 답을 내놓거나 "모르겠어요"라고 할 때가 많죠.

특히 생물학이나 유전학 같은 분야는 전문 데이터베이스에서 정확한 정보를 찾아야 하는데, 일반 AI는 이런 데이터베이스를 잘 활용하지 못해요. 그래서 연구진은 AI가 생물학 정보를 더 정확하고 쉽게 찾을 수 있도록 도와주는 방법을 만들어보자고 생각했어요.

---

### 연구 목적 – 연구진이 알고자 했던 것

이 연구의 목표는 AI가 생물학 전문 데이터베이스(특히 미국 국립생물공학정보센터, NCBI의 데이터베이스)를 직접 활용해서 유전자 관련 질문에 정확히 답할 수 있게 만드는 거였어요. 연구진은 AI가 검색엔진처럼 웹을 뒤지는 대신, 전문 도구를 사용해 더 믿을 만한 답을 주도록 하고 싶었죠. 또, 단순한 질문뿐 아니라 복잡한 질문(예: "이 유전자와 관련된 질병은 뭐야?" 같은)에도 잘 대답할 수 있는지 확인하고 싶었어요.

---

### 데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지

이 연구에서는 실제로 물리적인 재료 대신, 컴퓨터와 데이터베이스를 사용했어요. 핵심은 두 가지 도구예요:

1. **NCBI 웹 API**: NCBI는 생물학 정보를 모아놓은 거대한 도서관 같은 곳이에요. 여기에는 유전자, 단백질, DNA 정보가 가득하죠. 웹 API는 이 도서관에서 정보를 꺼내오는 '사서' 같은 역할을 해요. 예를 들어, 특정 유전자의 이름을 검색하거나 DNA 조각이 어디에 맞는지 찾아줄 수 있죠.

2. **GeneTuring과 GeneHop 데이터셋**: 연구진은 AI가 얼마나 잘 답하는지 테스트하기 위해 두 가지 질문 모음을 사용했어요. 

   - **GeneTuring**은 유전자 이름, 위치, 기능 같은 단순한 질문 450개가 담긴 시험지예요. 예: "이 유전자는 어디에 있어?" 같은 질문이죠.

   - **GeneHop**은 좀 더 복잡한 질문 150개로, 여러 단계를 거쳐야 답을 찾을 수 있어요. 예: "이 DNA 조각이 속한 유전자의 별칭은 뭐야?"처럼요.

이 질문들은 일반인이 이해하기 쉽게 비유하자면, 도서관에서 책 제목 찾기(단순 질문)와 책 내용을 읽고 저자 정보까지 알아내기(복잡 질문) 같은 차이예요.

---

### 연구 방법 – 연구가 어떻게 진행되었는지

연구진은 AI(여기서는 Codex라는 모델을 주로 사용했어요)에게 NCBI 데이터베이스를 사용하는 법을 가르쳤어요. 어떻게 했냐면, 마치 선생님이 학생에게 예제를 보여주듯이 AI에게 몇 가지 예시를 보여줬어요. 예를 들어:

- "이 유전자 이름을 찾으려면 NCBI에서 이렇게 검색해"라며 검색 방법과 결과를 보여줬죠.

- 또, "DNA 조각을 비교하려면 BLAST라는 도구를 이렇게 써"라고 알려줬어요.

이걸 전문 용어로 '인컨텍스트 학습'이라고 하는데, 쉽게 말하면 AI에게 "이렇게 해봐!"라고 예시를 주고 따라 하게 만드는 거예요. 그리고 AI가 질문에 답할 때, NCBI 데이터베이스에서 정보를 직접 가져오도록 했어요. 예를 들어, AI가 "이 유전자는 뭐야?"라는 질문을 받으면, NCBI에 접속해서 정확한 답을 찾아오는 식이죠.

또, 복잡한 질문에는 AI가 문제를 작은 조각으로 나눠서 하나씩 해결하도록 했어요. 이를 '생각의 연쇄(chain-of-thought)'라고 부르는데, 마치 퍼즐을 맞추듯 단계별로 답을 찾아가는 방식이에요.

---

### 연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시

결과는 정말 놀라웠어요! GeneGPT라는 이 새로운 AI는 기존 AI들보다 훨씬 잘했어요. GeneTuring 시험지에서 8개 과목(유전자 이름 찾기, 위치 확인, DNA 비교 등) 평균 점수가 0.83(1점 만점)이었어요. 비교하자면, 다른 AI들은 0.44(뉴 빙), 0.08(바이오메드LM) 정도로 훨씬 낮았죠.

**예시 하나**: 

질문: "SNP rs1241371358이라는 유전 변이가 어떤 유전자와 관련이 있지?"

GeneGPT는 NCBI 데이터베이스에서 이 변이를 검색해서 "LRRC23"이라는 유전자를 찾아냈어요. 심지어 "이 유전자의 기능은 뭐야?"라는 추가 질문에도 "세포질에서 활동할 가능성이 있다"고 정확히 답했죠.

**일반인에게 비유**: 이건 마치 여러분이 도서관에서 책 제목만 알고 저자를 찾아야 할 때, 사서가 정확한 책을 찾아서 저자 이름까지 알려주는 것과 같아요. 다른 AI들은 책을 대충 뒤져서 엉뚱한 답을 줄 때가 많았지만, GeneGPT는 제대로 찾아줬어요.

복잡한 질문에서도 GeneGPT는 잘했어요. GeneHop 시험지에서 평균 0.50점을 받았는데, 뉴 빙은 0.24점에 그쳤죠. 예를 들어, "이 질병과 관련된 유전자는 어디에 있어?" 같은 질문에서 GeneGPT는 질병을 먼저 찾아보고, 관련 유전자를 확인한 뒤, 그 유전자의 위치까지 정확히 알려줬어요.

---

### 의미와 영향 – 이 연구가 우리 일상이나 사회에 어떤 영향을 줄 수 있는지

이 연구는 우리 삶에 큰 도움을 줄 수 있어요! 왜냐하면:

1. **의료와 건강**: 유전자 정보를 빠르고 정확히 찾을 수 있으면, 의사나 연구자들이 질병 원인을 더 쉽게 파악할 수 있어요. 예를 들어, 특정 유전자가 암과 관련이 있는지 알아내면 더 나은 치료법을 찾는 데 도움이 되죠.

2. **일반인의 접근성**: 생물학은 복잡하지만, GeneGPT 같은 기술이 발전하면 우리 같은 일반인도 유전자 정보를 쉽게 이해할 수 있어요. 예를 들어, "내 유전자 검사 결과가 뭐를 의미하지?" 같은 질문에 AI가 친절히 설명해줄 날이 올지도 몰라요.

3. **과학 연구 속도 UP**: 연구자들이 유전자 데이터를 찾는 데 시간을 덜 쓰고, 새로운 발견에 더 집중할 수 있게 돕죠. 이건 결국 신약 개발이나 질병 예방 같은 분야에서 큰 진전을 가져올 수 있어요.

4. **AI의 신뢰도 향상**: AI가 엉뚱한 답을 덜 내놓고, 전문 데이터베이스를 활용하면 더 믿을 만한 답변을 들을 수 있어요. 이건 생물학뿐 아니라 다른 분야에서도 비슷한 기술로 확장될 가능성이 크죠.

---

### 마무리

GeneGPT는 AI가 생물학 정보를 더 똑똑하게 찾아주는 첫걸음이에요. 아직 완벽하지는 않지만, 이 기술이 발전하면 우리 모두가 유전자와 건강에 대해 더 쉽게 알 수 있는 날이 올 거예요. 여러분은 이 연구에서 어떤 점이 가장 흥미로웠나요? 댓글로 알려주세요! 😊



perplexity.ai

### 연구 요약: GeneGPT - 대형 언어 모델의 생물정보학 활용 증대

---

**연구 배경 – 이 연구가 왜 필요했는지**  

대형 언어 모델(LLMs)은 자연어 처리(NLP) 분야에서 뛰어난 성과를 내고 있지만, 여전히 잘못된 정보를 생성하거나 과도한 일반화를 하는 "환각(hallucination)" 문제를 겪고 있습니다. 특히 생물정보학과 같은 전문 분야에서는 정확한 데이터 접근이 중요하기 때문에, 기존 LLM의 한계를 극복하고 더 신뢰할 수 있는 답변을 제공할 수 있는 방법이 필요했습니다[1].

---

**연구 목적 – 연구진이 알고자 했던 것**  

이 연구는 LLM에 생물정보학 데이터베이스를 활용하는 능력을 부여하여 전문적인 질문에 더 정확히 답변할 수 있도록 하는 새로운 방법을 개발하는 것을 목표로 했습니다. 이를 위해 연구진은 GeneGPT라는 시스템을 설계하여, LLM이 NCBI(National Center for Biotechnology Information)의 웹 API를 통해 데이터를 검색하고 활용할 수 있도록 했습니다[1].

---

**데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지**  

GeneGPT는 NCBI의 웹 API를 사용하여 생물정보학 데이터베이스에 접근합니다. 이 API는 유전자 정보, 단백질 구조, DNA 서열 등을 포함한 38개의 데이터베이스를 제공합니다. 또한 BLAST API를 통해 DNA 또는 단백질 서열을 비교하여 유사성을 분석할 수 있습니다. 일반 사용자는 인터넷 연결만으로 이러한 데이터를 활용할 수 있습니다[1].

---

**연구 방법 – 연구가 어떻게 진행되었는지**  

GeneGPT는 두 가지 주요 구성 요소로 이루어져 있습니다:

1. **특별히 설계된 프롬프트**: API 사용법에 대한 문서와 예시를 포함하여 LLM이 API 호출을 학습하도록 돕습니다.

2. **추론 알고리즘**: LLM이 질문을 이해하고 필요한 데이터를 검색한 후 API 호출 결과를 기반으로 답변을 생성하도록 설계되었습니다.

GeneGPT는 Codex라는 LLM을 기반으로 작동하며, 생물정보학 관련 질문에 대해 NCBI API를 호출해 데이터를 검색하고 이를 바탕으로 답변을 생성합니다[1].

---

**연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시가 있다면 함께 설명**  

GeneGPT는 GeneTuring이라는 생물정보학 질문 벤치마크에서 평균 점수 0.83을 기록하며 기존 모델(Bing, BioGPT 등)을 크게 능가했습니다. 예를 들어, 특정 질병과 관련된 유전자를 찾거나 DNA 서열의 위치를 인간 염색체와 매칭하는 작업에서 매우 높은 정확도를 보였습니다. 이는 일반인에게도 유용한 정보로, 특정 질병의 원인을 이해하거나 유전자 분석 결과를 해석하는 데 도움이 될 수 있습니다[1].


그냥 LLM에 물어보는 것보다는 이런 전문화된 LLM에 물어보면 조금 더 내가 원하는 답에 가까운 답변을 얻을 수 있었어요가 결론이네요. 각각 분야마다 특화된 LLM들을 만들면.... 근데 그러기에는 너무 세분화되어야하는 문제도 있을거 같은데.... 어떻게든 해결하겠죠 :)



출처: @ye._.vely618


금요일, 4월 25, 2025

문헌 속에서 질병과 유전자의 관계를 찾는 AI이야기 (feat. LLM)

LLM을 이용해서 지금까지 연구된 자료들 속에서 질병과 유전자 사이의 관계를 예측하는 방법에 대해서 알아보는 논문을 가져와봤습니다. 제목은 A large language model framework for literature-based disease–gene association prediction 입니다.


DOI: 10.1093/bib/bbaf070


clvoa-x는 파일을 업로드하면 별도의 프롬프트 없이 업로드한 파일에 대해서 요약(딱 한국인이 좋아할만한.. ㅎㅎ )해줘서 우선 따로 블로그에 올릴 글을 작성해 달라는 얘기를 하지 않고 있습니다. 그러나 다른 LLM의 경우 별도의 프롬프트를 작성해야 결과물을 뱉어내다 보니 고등학생이 이해할 수 있는 글을 작성해달라고 한번 해봤습니다.



clova-x

이 연구는 대규모 언어 모델을 활용하여 문헌 기반 질병-유전자 연관성 예측을 향상시키는 방법을 제시합니다. LORE라는 새로운 두 단계 읽기 방법론을 통해 생물의학 문헌의 복잡성을 이해하고, 유전자 병독성 정보를 효과적으로 추출하여 치료 표적을 효율적으로 식별할 수 있습니다.

1. **연구 배경**

   - 생물의학 문헌의 폭발적인 증가로 인해 자동화된 의학 지식 이해가 정밀 의학 발전에 필수적입니다.

   - 기존 방법들은 생물학적 관계를 추출하는 데 있어 신뢰성과 검증 가능성, 확장성에 어려움을 겪고 있습니다.

2. **LORE 방법론**

   - LORE는 대규모 언어 모델을 이용하여 문헌을 검증 가능한 사실적 진술로 이루어진 지식 그래프로 모델링하고, 이를 유클리드 공간에서의 의미적 임베딩으로 변환합니다.

   - 이 방법론은 PubMeid 초록을 대상으로 적용하여 질병-유전자 관계를 대규모로 이해하는 데 성공했습니다.

3. **결과 및 의의**

   - LORE를 통해 ClinVar 데이터베이스의 감독 하에 유전자 병독성 정보를 추출하여 90%의 평균 정밀도를 달성하였습니다.

   - 이 연구는 생물의학 문헌 분석에 있어 scalable하고 재현 가능한 접근법을 제공하며, 연구자들이 치료 표적을 효율적으로 식별할 수 있는 새로운 기회를 열어줍니다.



Q. 당신은 대규모 언어 모델을 활용하여 문헌 기반 질병-유전자 연관성 예측을 향상시키는 방법에 대한 전문가입니다. 이 연구는 대규모 언어 모델을 활용하여 문헌 기반 질병-유전자 연관성 예측을 향상시키는 방법을 제시하고 있습니다. 2025년 대한민국에서 고등학교를 다니고 있는 학생들이 이해할 수 있도록 풀어서 블로그 글을 작성해주세요. 업로드한 파일의 내용 안에서 작성해야하고, 업로드한 파일의 내용과 다르지 않는 선에서 이해를 돕기 위해 비유를 들어서 설명하여도 됩니다.


gemini

## 2025년, 인공지능이 질병과 유전자 연결고리를 찾아낸다?! (문헌 기반 질병-유전자 연관성 예측)

안녕하세요, 미래의 과학 꿈나무 여러분! 혹시 '인공지능'이라는 단어를 들으면 어떤 생각이 드나요? 영화 속 로봇이나 복잡한 컴퓨터 프로그램이 떠오르나요? 오늘은 인공지능이 우리 삶에 얼마나 놀라운 변화를 가져올 수 있는지, 특히 질병과 유전자 연구 분야에서 어떤 활약을 펼치고 있는지 흥미로운 연구 결과를 바탕으로 이야기해 보려고 합니다.

### 인공지능, 방대한 의학 문헌 속에서 보물찾기!

마치 넓은 바다에서 숨겨진 진주를 찾는 것처럼, 과학자들은 수많은 의학 문헌 속에서 질병과 유전자의 숨겨진 연결고리를 찾기 위해 노력하고 있습니다. 하지만 이 작업은 엄청난 시간과 노력이 필요한 고된 작업이죠.

여기, 우리의 똑똑한 친구 '대규모 언어 모델'이 등장합니다! 마치 수많은 책을 읽고 내용을 완벽하게 이해하는 천재처럼, 대규모 언어 모델은 방대한 의학 문헌을 분석하여 질병과 유전자 사이의 숨겨진 관계를 찾아냅니다.

### 인공지능, 질병-유전자 연관성 예측의 정확도를 높이다!

연구 결과에 따르면, 대규모 언어 모델을 활용했을 때 질병-유전자 연관성 예측의 정확도가 훨씬 높아졌다고 합니다. 마치 숙련된 탐정이 사건 현장의 단서를 분석하여 범인을 찾아내는 것처럼, 인공지능은 문헌 속의 정보를 분석하여 질병과 관련된 유전자를 정확하게 예측합니다.

### 인공지능, 질병 치료의 새로운 희망을 제시하다!

인공지능의 도움으로 질병과 유전자의 관계를 더 정확하게 파악할 수 있게 되면서, 우리는 질병 치료의 새로운 가능성을 엿볼 수 있게 되었습니다. 마치 맞춤형 레시피처럼, 각 환자의 유전적 특성에 맞는 맞춤형 치료법 개발이 가능해진 것이죠!

### 마치며

2025년, 인공지능은 더 이상 영화 속 이야기가 아닙니다. 인공지능은 우리 삶 곳곳에서 놀라운 변화를 만들어내고 있으며, 특히 의료 분야에서 인공지능의 활약은 앞으로 더욱 기대됩니다. 미래의 과학 꿈나무 여러분, 인공지능과 함께 더 건강하고 행복한 미래를 만들어가는 주인공이 되어보는 건 어떨까요?



chatGPT

# 📚 문헌 속에서 질병과 유전자의 관계를 찾는 AI 이야기: LLM과 LORE의 마법

안녕하세요! 오늘은 **AI가 어떻게 과학 논문을 읽고, 질병과 유전자 사이의 숨은 연결고리를 찾아내는지**에 대해 재미있고 쉽게 풀어보려고 해요. 혹시 “AI가 논문을 읽는다고?” 싶은 친구들이 있다면, 더 흥미로울 거예요 😎

---

## 🧩 시작은 간단한 궁금증에서…

우리 몸에 있는 유전자 중 어떤 게 질병에 영향을 줄까요? 이걸 알려면 과학자들이 쓴 수많은 논문을 읽고 정리해야 해요. 근데 논문이 너무 많아요… 매년 수백만 개씩 쏟아지죠. 그래서 사람이 다 읽고 정리하긴 너무 벅차요.

여기서 등장하는 게 바로 **AI, 특히 LLM(대규모 언어 모델)**이에요! GPT처럼 문장을 잘 이해하고 생성하는 AI가, 이 논문들을 대신 읽어주는 거예요.

---

## 🧠 LORE, 똑똑한 AI 친구를 소개합니다

이번 연구에서는 **LORE**라는 시스템을 개발했어요. 이름은 조금 어렵지만, 쉽게 말하면:

> “LORE는 논문을 읽고, 거기서 유전자와 질병이 어떻게 연결되어 있는지 찾아주는 AI 시스템이에요.”

이건 두 단계를 거쳐서 작동해요.

### 1️⃣ 첫 번째 단계: 문장을 관계로 요약하기

LORE는 논문을 읽고, 그 안에서 "이 유전자는 이 질병과 관련 있다" 같은 **사실 문장들**을 뽑아내요. 예를 들어 이런 식이죠:

- “TP53 유전자는 암 환자에게 자주 발견된다.”

- “BRCA1 돌연변이는 유방암과 연관이 있다.”

이걸 수백만 개 논문에서 찾아내고, 정리해서 하나의 **지식 그래프**로 만들어요. 마치 수많은 점(질병과 유전자)과 선(관계)으로 이뤄진 거대한 연결망이에요.

### 2️⃣ 두 번째 단계: 숫자로 이해하기

그다음엔, 이 관계들을 숫자로 바꿔요. 각 질병-유전자 관계를 하나의 점으로 보고, AI가 이 점들 사이의 위치를 보고 판단할 수 있게 해요. 마치 유전자와 질병이 있는 “의미의 지도”를 만드는 거죠.

---

## 🌊 “병을 일으키는 흐름”을 찾는 방법

이 AI 지도 속에는 흥미로운 흐름이 있어요. **병을 일으키는 유전자들은 지도 속에서도 비슷한 위치에 모여 있었던 거예요!**

연구자들은 이걸 **"pathogenic flow" (병원성 흐름)**이라고 불렀어요. 쉽게 말하면,

> “건강한 유전자에서 병을 일으키는 유전자로 갈수록 AI가 보는 좌표도 일정 방향으로 바뀌더라!”는 거예요.

이 흐름을 이용하면, 아직 공식적으로는 병과 연결되지 않았지만 **“의심스러운 유전자”를 예측**할 수 있어요.

---

## 🎯 진짜 성능은 어땠을까?

이 시스템은 **ClinVar** 같은 전문가들이 만든 데이터와 비교했을 때도 놀라운 성능을 보였어요:

- 질병 2097개에 대해 예측을 했고,

- 실제로 병을 일으키는 유전자를 **평균 90% 정확도로 예측**했대요!

GPT-4한테 그냥 “이 유전자가 병을 일으킬까?” 하고 물어보는 것보다 훨씬 뛰어났어요.

---

## 📦 진짜 중요한 건 ‘출처를 보여준다’는 것!

이 시스템은 **예측한 이유도 함께 보여줘요.** 즉, “이 유전자가 병을 일으킨다고 생각한 건, 이런 논문에서 이런 식으로 나왔기 때문이야!”라고 설명해줘요. 그래서 의사나 연구자도 AI의 판단을 믿고 참고할 수 있어요.

---

## 🍀 마무리하며…

이 연구는 단순히 AI가 똑똑하다는 걸 보여주는 게 아니에요. 수많은 논문을 **빠르고 정확하게 분석해서, 새로운 병의 원인을 찾고, 더 좋은 치료법을 개발하는 데 큰 도움이 될 수 있다는 걸 보여줘요.**

📌 **한 줄 요약:**

> “LORE는 AI 친구가 논문을 읽고, 질병과 유전자의 관계를 찾아서 지도 위에 표시해주는 시스템이에요. 덕분에 우리는 숨은 병의 원인도 더 쉽게 찾을 수 있게 됐어요!”



NotebookLM

## 똑똑한 인공지능이 알려주는 질병과 유전자의 비밀! (feat. 대규모 언어 모델)

안녕하세요! 2025년, 대한민국 고등학생 여러분! 혹시 SF 영화에서 인공지능이 엄청난 양의 데이터를 분석해서 숨겨진 비밀을 찾아내는 장면을 본 적 있나요? 오늘 이야기할 연구가 바로 그런 멋진 SF의 한 장면과 비슷하답니다.

최근 엄청나게 똑똑해진 인공지능, 특히 **대규모 언어 모델 (Large Language Model, LLM)**이라는 특별한 종류의 인공지능을 활용해서, 과학자들이 아주 흥미로운 연구를 진행하고 있다는 소식이에요. 이 똑똑한 AI는 마치 엄청나게 많은 책을 읽고 이해하는 사람처럼, 방대한 양의 과학 논문을 분석해서 **어떤 유전자가 어떤 질병과 관련이 있는지**를 더 정확하고 빠르게 찾아낼 수 있다고 합니다!

### 너무나 많은 과학 논문, 어떻게 다 읽고 이해할까?

우리가 배우는 생명과학 분야만 해도 매일 새로운 연구 결과가 쏟아져 나오고 있어요. 과학자들은 이 많은 정보를 일일이 다 읽고 어떤 유전자가 어떤 질병의 원인이 되는지, 혹은 질병의 진행에 어떤 영향을 미치는지 파악하기가 정말 어렵습니다. 마치 **넓은 바다에서 특정 물고기 한 마리를 찾는 것**처럼 힘들죠.

그래서 과학자들은 컴퓨터를 이용해서 이 문제를 해결하려고 노력해왔어요. 이전에도 다양한 방법들이 있었지만, 대부분 **특정 단어나 문장에만 집중**해서 전체적인 내용을 이해하는 데는 한계가 있었죠.

### 똑똑한 AI, LLM의 등장!

이러한 상황에서 **GPT-3.5, GPT-4o** 같은 엄청나게 똑똑한 **대규모 언어 모델 (LLM)**이 등장하면서 새로운 가능성이 열렸습니다! LLM은 단순히 단어를 인식하는 것을 넘어서, 문장 전체의 의미를 이해하고, 여러 문장과 문단을 연결해서 **사람처럼 생각하고 추론**할 수 있는 능력을 가지고 있어요. 마치 **수많은 책을 읽고 내용을 요약하고 서로 연결 지을 수 있는 똑똑한 친구**가 생긴 것과 같다고 생각하면 쉬울 거예요.

### LORE: LLM을 활용한 새로운 방법

이번 연구에서는 **LORE (LLM-based Open Relation extraction and Embedding)**라는 새로운 방법을 제시했어요. LORE는 LLM을 이용해서 과학 논문을 **두 단계**로 꼼꼼하게 읽고 이해하는 방식입니다.

*   **1단계: LLM-ORE (오픈 관계 추출)**: 먼저 LLM이 수많은 과학 논문을 읽으면서 **질병, 유전자, 유전자 변이** 사이의 관계를 **하나하나의 명확한 사실**로 끄집어냅니다. 예를 들어, "A라는 유전자의 변이가 B라는 질병을 유발한다"와 같은 문장을 보고, "A 유전자", "유발한다", "B 질병"이라는 관계를 정확하게 파악하는 거죠. 마치 **레고 블록으로 복잡한 구조물을 분해해서 각각의 블록과 연결 관계를 정리하는 것**과 비슷해요. 이렇게 정리된 정보는 **지식 그래프**라는 형태로 저장되어 나중에 쉽게 찾아보고 확인할 수 있도록 만들어집니다.

*   **2단계: LLM-EMB (임베딩)**: 다음으로, 이렇게 추출된 수많은 관계들을 이용해서 **각각의 질병-유전자 쌍이 어떤 의미를 가지는지**를 컴퓨터가 이해할 수 있는 **숫자 형태의 정보 (임베딩)**로 바꿔줍니다. 마치 **각각의 레고 블록 묶음을 특별한 색깔과 모양을 가진 덩어리로 표현하는 것**과 같아요. 비슷한 의미를 가진 질병-유전자 쌍은 비슷한 숫자 형태로 표현되기 때문에, 컴퓨터가 이 숫자 정보들을 분석해서 어떤 유전자가 특정 질병과 더 강하게 연관되어 있는지 파악할 수 있게 되는 거죠.

### 숨겨진 '병의 흐름'을 찾아서

LORE를 이용해서 과학 논문을 분석한 결과, 연구진들은 아주 흥미로운 사실을 발견했어요! 바로 **질병-유전자 관계의 '병의 흐름 (pathogenic flow)'**이라는 것이 존재한다는 겁니다. 이건 마치 **강물이 높은 곳에서 낮은 곳으로 흐르는 것처럼, 어떤 유전자가 질병을 일으키는 방향으로 의미가 흘러가는 패턴**을 발견한 것과 같아요. 이 흐름은 여러 다른 질병들에서도 비슷하게 나타나는 **일관성**을 보였다고 합니다.

### ML-Ranker: 누가 진짜 '범인' 유전자일까?

연구진들은 이 '병의 흐름'을 이용해서 **ML-Ranker**라는 특별한 인공지능 모델을 만들었어요. 이 모델은 마치 **수사 드라마에서 단서를 따라 범인을 추적하는 형사**처럼, 질병과 관련된 수많은 유전자들 중에서 **진짜로 병을 일으키는 '범인' 유전자**를 높은 정확도로 예측할 수 있습니다. 실제로 이 모델은 기존의 방법들보다 훨씬 뛰어난 성능을 보여주었다고 해요.

### PMKB-CV 데이터셋: 더 넓어진 수사망

연구진들은 LORE를 평가하고 성능을 검증하기 위해서 **PMKB-CV**라는 새로운 데이터셋도 만들었습니다. 이 데이터셋은 기존의 유명한 데이터베이스인 **ClinVar**보다 **약 200배나 더 많은 질병-유전자 관계 정보**를 담고 있다고 해요. 마치 **기존의 좁은 동네 수사망에서 전국 단위의 광범위한 수사망으로 넓힌 것**과 같다고 할 수 있죠. 이 풍부한 데이터를 바탕으로 LORE와 ML-Ranker의 능력을 더욱 확실하게 보여줄 수 있었습니다.

### 핵심 의미 (Key Semantics): 중요한 단서들

연구진들은 또한 질병-유전자 관계를 설명하는 중요한 단어들, 즉 **핵심 의미 (key semantics)**들을 모아서 정리했어요. 예를 들어, "유발하다", "원인이다", "변이", "관련되다"와 같은 단어들이죠. 이 단어들은 마치 **범죄 현장의 중요한 증거**와 같이, 어떤 유전자가 특정 질병과 관련 있는지 판단하는 데 결정적인 역할을 합니다. LORE는 이러한 핵심 의미들을 자동으로 파악해서 질병-유전자 관계를 더욱 정확하게 분석할 수 있도록 도와줍니다.

### 미래를 향한 기대

이번 연구는 **대규모 언어 모델**이 방대한 과학 논문 속에서 숨겨진 질병-유전자 관계를 찾아내고, 더 나아가 질병의 원인을 이해하고 새로운 치료법을 개발하는 데 아주 중요한 역할을 할 수 있다는 것을 보여줍니다. 마치 **똑똑한 AI 조력자가 과학자들의 연구를 도와서 인류의 건강 증진에 크게 기여할 수 있을 것**이라는 희망을 제시하는 것 같아요.

물론 아직 해결해야 할 과제들도 남아있지만, LORE와 같은 혁신적인 기술 덕분에 우리는 미래에는 지금보다 훨씬 더 많은 질병의 비밀을 밝혀내고, 더욱 효과적인 치료법을 개발할 수 있을 것으로 기대됩니다!

이번 연구 이야기가 여러분의 과학적 호기심을 자극하고, 미래 사회를 이끌어갈 멋진 과학자를 꿈꾸는 계기가 되었기를 바랍니다! 😊


grok3

안녕하세요, 고등학생 여러분! 오늘은 최신 과학 연구를 쉽게 풀어서 이야기해보려고 해요. 여러분이 좋아하는 스마트폰이나 컴퓨터처럼, 과학도 날마다 새롭게 발전하고 있죠. 오늘 다룰 주제는 **대규모 언어 모델(LLM)**을 사용해서 질병과 유전자의 관계를 알아내는 연구예요. 이 연구는 *Briefings in Bioinformatics*라는 학술지(2025년)에 실린 논문에서 가져왔어요. 자, 함께 재미있게 탐험해볼까요?

---

### 📚 도서관에서 보물찾기: 질병과 유전자의 연결고리

여러분, 도서관에 책이 수백만 권 있다고 상상해봐요. 각 책에는 질병과 유전자에 대한 이야기가 적혀 있는데, 어떤 유전자가 어떤 질병을 일으키는지 알아내려면 책을 하나하나 읽어야 해요. 엄청난 시간이 걸리겠죠? 그런데 여기 똑똑한 로봇 사서가 등장했어요! 이 로봇은 책을 빠르게 읽고, 중요한 정보를 정리해서 우리에게 알려주는 대규모 언어 모델(LLM)이에요.

이 연구에서는 **LORE**라는 이름을 가진 특별한 방법을 소개해요. LORE는 도서관(여기서는 생물학 관련 논문들)을 샅샅이 뒤져서 질병과 유전자가 어떻게 연결되어 있는지 정리해줍니다. 예를 들어, "이 유전자가 이 질병을 일으킬 가능성이 높아요!" 같은 정보를 찾아내는 거예요.

---

### 🧩 LORE는 어떻게 일할까?

LORE는 두 가지 단계로 정보를 정리해요. 비유를 들어서 설명해볼게요. 여러분이 친구들과 보물찾기 게임을 한다고 생각해봐요. 보물은 질병과 유전자의 관계이고, 지도는 논문이에요.

1. **첫 번째 단계: 지도 읽기 (LLM-ORE)**  

   LORE는 논문(지도)을 읽으면서 중요한 단서를 찾아요. 예를 들어, "이 유전자가 이 질병과 관련이 있다"는 문장을 발견하면 그걸 기록해둬요. 이렇게 찾아낸 단서들을 모아서 **지식 그래프**라는 거대한 퍼즐판을 만들어요. 이 퍼즐판에는 유전자와 질병이 어떻게 연결되는지, 어떤 단서(예: "유전자 돌연변이가 질병을 일으킨다")가 있는지가 정리되어 있어요.

   - 실제로 연구에서는 170만 개의 논문에서 1100만 개의 단서를 찾아냈어요! 마치 도서관에서 1100만 개의 쪽지를 모은 것과 같죠.

2. **두 번째 단계: 퍼즐 맞추기 (LLM-EMB)**  

   이제 LORE는 모은 단서들을 보고, 유전자와 질병이 얼마나 가까운 관계인지 숫자로 표현해요. 이걸 **임베딩**이라고 불러요. 임베딩은 퍼즐 조각을 맞춰서 큰 그림을 그리는 과정과 비슷해요. 예를 들어, "이 유전자는 이 질병과 자주 같이 언급되니까 중요한 관계일 거야"라고 판단하는 거죠.

   - 연구에서는 이 퍼즐을 3D 그림으로 만들어서 어떤 유전자가 질병을 일으킬 가능성이 높은지 살펴봤어요. 마치 3D 영화처럼 생생하게 보인다고 생각하면 돼요!

---

### 🔍 보물찾기의 결과: 무엇을 발견했나?

LORE는 엄청난 양의 논문을 읽고 나서 몇 가지 멋진 결과를 보여줬어요.

1. **질병과 유전자의 지도 완성**  

   연구팀은 **PMKB-CV**라는 데이터셋을 만들었어요. 이 데이터셋에는 2097개의 질병과 관련된 유전자 정보가 들어 있어요. 이건 마치 보물찾기 지도에 2097개의 보물 위치를 표시한 것과 같아요. ClinVar라는 기존 데이터보다 200배 큰 규모라서 정말 대단하죠!

2. **정확한 보물 예측**  

   LORE는 **ML-Ranker**라는 도구를 사용해서 어떤 유전자가 질병을 일으킬 가능성이 높은지 점수를 매겼어요. 이건 마치 보물찾기 게임에서 "이 위치에 보물이 있을 확률은 90%야!"라고 말해주는 것과 비슷해요. 결과적으로 LORE는 90%의 정확도로 유전자를 찾아냈어요. 다른 방법들(예: 그냥 논문에서 단어를 세는 방식)은 69% 정도밖에 안 됐으니, LORE가 훨씬 똑똑하다는 걸 알 수 있죠.

3. **보물의 증거 제시**  

   LORE는 단순히 "이 유전자가 중요해!"라고 말하는 데 그치지 않아요. 어떤 논문에서 그 정보를 찾았는지, 어떤 단서(예: "돌연변이", "원인")를 발견했는지까지 알려줘요. 이건 보물을 찾은 후에 "이 보물은 이 지도에서 발견했어!"라고 증거를 보여주는 것과 같아요.

---

### 🌟 이 연구가 왜 중요할까?

여러분, 이 연구는 왜 고등학생인 우리에게도 의미가 있을까요? 몇 가지 이유를 들어볼게요.

1. **질병 치료의 첫걸음**  

   어떤 유전자가 질병을 일으키는지 알면, 과학자들은 그 질병을 치료할 방법을 더 빨리 찾을 수 있어요. 예를 들어, 암이나 희귀 질병 같은 것들을 치료하는 약을 만들 때 이 정보가 큰 도움이 돼요.

2. **미래의 과학자들에게 영감**  

   여러분 중에 과학자나 의사가 되고 싶은 친구들이 있다면, 이 연구는 컴퓨터와 인공지능이 어떻게 과학을 바꾸는지 보여줘요. LORE 같은 기술은 미래에 여러분이 새로운 발견을 할 때 큰 도구가 될 거예요.

3. **시간과 노력 절약**  

   사람이 논문 수백만 개를 읽으려면 몇 년이 걸릴지도 몰라요. 하지만 LORE는 그 일을 빠르게 해내죠. 이건 마치 숙제를 로봇이 대신 해주는 것과 비슷하다고 생각하면 재미있을 거예요(물론 숙제는 직접 해야 하지만요!).

---

### 🎉 마무리하며

LORE는 마치 똑똑한 도서관 사서처럼, 엄청난 양의 논문을 읽고 질병과 유전자의 관계를 정리해줬어요. 이 연구는 과학이 어떻게 인공지능과 함께 더 똑똑해지고 있는지를 보여줍니다. 여러분도 언젠가 이런 멋진 연구에 참여할 수 있을 거예요. 과학은 어렵게 들릴 수 있지만, 결국엔 우리 모두를 더 건강하고 행복하게 만들기 위한 보물찾기라는 걸 잊지 마세요!

궁금한 점이 있다면 언제든 댓글로 물어보세요. 다음에 또 재미있는 과학 이야기로 돌아올게요! 🚀



perplexity.ai

의료 분야에서 질병과 유전자의 관계를 이해하는 것은 맞춤형 치료를 개발하는 데 중요합니다. 최근 인공지능(AI) 기술 중 하나인 **대규모 언어 모델(LLM)**을 활용해 의학 논문에서 질병-유전자 연관성을 자동으로 분석하는 방법이 개발되었습니다. 이 방법은 마치 도서관에서 원하는 정보를 빠르게 찾아주는 '지능형 검색 시스템'과 비슷합니다.  

### 1. **문제 해결을 위한 두 단계 접근법**  

연구팀은 **LORE**라는 프레임워크를 제안했는데, 이는 두 단계로 작동합니다:  

1. **단계 1: 논문 요약 및 관계 추출**  

   - AI가 수만 개의 의학 논문을 읽고, "유전자 A가 질병 B와 관련있다" 같은 핵심 문장을 추출합니다.  

   - 예시: "BRCA1 유전자 변이가 유방암 발병 위험을 증가시킨다"라는 문장을 찾아냅니다.  

   - 이 과정에서 **11만 개**의 논문 요약과 **358,888개**의 키워드가 생성됩니다[1].  

2. **단계 2: 숫자로 변환해 패턴 분석**  

   - 추출된 정보를 컴퓨터가 이해할 수 있는 숫자(임베딩)로 변환합니다.  

   - 예시: 유전자와 질병의 관계를 512차원의 숫자 조합으로 표현해, "유사한 관계"끼리 묶습니다[1].  

### 2. **비유로 이해하기**  

- **지식 그래프**: SNS에서 해시태그(#)로 연결되는 정보처럼, 논문 속 유전자-질병 관계를 연결한 "개념 지도"입니다.  

- **임베딩**: 음악 앱이 노래를 장르별로 분류하듯, AI가 유전자-질병 관계를 숫자로 분류해 패턴을 찾습니다.  

### 3. **성과와 의의**  

- **90% 정확도**: 전문가가 수집한 데이터(ClinVar)를 바탕으로 학습한 결과, 2,097개 질병에 대한 유전자 예측 정확도가 90%에 달했습니다[1].  

- **확장성**: 기존 방법보다 **200배** 많은 유전자-질병 관계를 분석할 수 있어, 희귀 질환 연구에 도움이 됩니다[1].  

### 4. **미래 전망**  

이 기술은 의료 연구 시간을 단축하고, 개인마다 맞춤형 치료법을 찾는 데 기여할 것으로 기대됩니다. 예를 들어, 특정 유전자 변이를 가진 환자에게 최적의 약물을 추천하는 데 활용될 수 있습니다.  

이처럼 AI는 복잡한 의학 논문을 체계적으로 분석해 인간의 연구를 보조하는 '디지털 조수' 역할을 하고 있습니다. 앞으로 더 많은 질병 치료의 길이 열릴 것으로 기대해 봅시다!  



물론 정확한 것(얼마나 구라가 녹아있을지는)은 논문을 들여다봐야겠지만... 사실 리뷰어가 아닌 이상 이정도면 그럴듯하게 잘 작성한것 같네요 :)

각 분야마다 특화된 LLM들이 나오면 잘 쓰면될것 같네요 :)



출처: @ye._.vely618


금요일, 12월 18, 2020

ClinVar XML파일을 Tab 구분자 파일로 변환해서 사용하기

Clinvar안에 있는 정보를 활용하기 위해서는 대부분 다음과 같이 ncbi ftp에 들어가서 clinvar의 xml파일을 사용하게 됩니다.

https://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/clinvar_variation/ClinVarVariationRelease_00-latest.xml.gz


근데 이 xml 파일이...


솔찬히 번거롭고 귀찮쥬?

xml과 함께 json도 만만치 않쥬...

그래서 clinvar xml을 parsing해서 조금 더 핸들링하기 쉽게 tab으로 구분된 파일을 만들어 보겠습니다.

이 xml을 받을 때 처럼 ncbi의 ftp인

https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/에 접근합니다.

그리고 variant_summary.txt.gz을 찾으시면되겠습니다.


parsing script가 아닌 그냥 파일을 새로 받으면 되는것이었습니다. :)



출처: @ye._.vely618