오늘은 LLM을 활용해서 Biomedical 정보에 더 쉽게 접근 할 수 있는 방법을 소개하려고 합니다. 이미 2024년 작년에 출판된 논문으로 NCBI 훃아들이 자기들 DB 활용해서 만들었다고 합니다. 여튼 제목은 GeneGPT: augmenting large language models with domain tools for improved access to biomedical information 입니다.
DOI: 10.1093/bioinformatics/btae075
clova-x
GeneGPT는 대규모 언어 모델(LLM)을 생물의학 정보에 더 쉽게 접근할 수 있도록 NCIB 웹 API를 활용하여 향상시키는 방법입니다. 이 연구는 GeneGPT가 GenoTuring 벤치마크에서 기존의 LLM보다 우수한 성능을 발휘함을 보여줍니다.
1. **연구 배경 및 목적**
- LLM은 다양한 작업에 성공적으로 적용되었지만, 환각 현상이라는 도전에 직면해 있습니다.
- 도메인 특정 도구를 통해 LLM의 생물의학 지식 접근성을 향상시키고자 합니다.
2. **GeneGPT의 설계 및 작동 방식**
- GeneGPT는 Codex를 사용하여 NCBI 웹 API를 통해 유전체 질문에 답하도록 가르칩니다.
- API 사용법을 시연하고, API 호출을 감지하고 실행할 수 있는 증강 디코딩 알고리즘을 사용합니다.
3. **성능 평가 및 결과**
- GeneGPT는 GenoTuring 벤치마크의 여덟 가지 작업에서 평균 점수 0.83으로 최고 성능을 달성하였습니다.
- 이는 New Bing(0.44), BioMedLM(0.08), BioGPT(0.04), GPT-3(0.16), ChatGPT(0.12)보다 훨씬 높은 성과입니다.
4. **GeneGPT의 특징 및 기여**
- API 시연은 문맥 학습에 문서화보다 더 유용하며, 여러 API 호출을 일반화할 수 있습니다.
- GeneGPT는 새로운 GeneHop 데이터셋을 통해 다단계 유전체 질문에 응답할 수 있습니다.
chatGPT
# 유전학 질문에 똑똑하게 답하는 AI, GeneGPT 이야기
## 연구 배경 – 왜 이런 연구가 필요했을까?
요즘은 ChatGPT 같은 인공지능이 사람처럼 글을 쓰고, 질문에도 똑똑하게 답하죠. 하지만 이런 AI도 전문 지식이 필요한 분야에서는 가끔 “지어내는” 답을 하기도 해요. 특히 생명과학이나 유전학처럼 정보가 방대하고 복잡한 분야에서는 더더욱 그렇습니다. 그래서 연구자들은 AI가 믿을 수 있는 데이터베이스를 직접 찾아보게 하면 더 정확한 답을 할 수 있지 않을까 하는 아이디어를 떠올렸습니다.
## 연구 목적 – 연구진은 무엇을 알고 싶었을까?
연구팀은 “AI가 유전학 정보를 정확하게 검색하고 활용할 수 있도록 도와주는 방법”을 만들고 싶었습니다. 그래서 미국 국립생명공학정보센터(NCBI)의 유전학 데이터베이스를 AI가 직접 사용할 수 있도록 훈련시킨 ‘GeneGPT’라는 시스템을 만들었죠.
## 사용된 데이터 – 어떤 자료를 활용했을까?
이 연구에서 사용한 데이터는 NCBI에서 제공하는 공식 유전학 데이터베이스(API)를 기반으로 합니다. 쉽게 말하면, 인터넷 주소를 통해 유전자, 단백질, 질병 정보 등을 검색할 수 있는 시스템이에요. 연구팀은 이 API를 사용해 유전 정보를 찾는 과정을 AI에게 가르쳤습니다.
## 연구 방법 – 어떻게 연구를 진행했을까?
연구팀은 OpenAI의 Codex 모델(코드를 잘 이해하는 AI)을 활용해, 특정한 질문이 들어오면 필요한 정보를 NCBI 데이터베이스에서 검색하고 그 결과를 분석한 뒤 답변을 만들도록 했어요. 예를 들어 "이 DNA 조각이 어느 유전자에 해당하나요?" 같은 질문을 받으면, AI가 단계별로 관련 정보를 찾아서 답을 구성하죠.
이를 위해 연구팀은 AI에게 API를 사용하는 예시를 여러 개 보여주고, 그 패턴을 스스로 익히도록 했습니다. 이 과정을 ‘인컨텍스트 러닝’이라고 해요. 복잡하게 들리지만, 쉽게 말해 "이런 식으로 검색해 봐~"라고 보여주는 식입니다.
## 연구 결과 및 예시 – 어떤 결과가 나왔을까?
GeneGPT는 ‘GeneTuring’이라는 유전학 질문 시험에서 매우 높은 성적(평균 0.83점)을 기록했어요. 기존의 ChatGPT나 바이오 전문 AI보다 훨씬 나은 성능이었습니다. 예를 들어 다른 모델이 "이 SNP(유전변이)는 어떤 유전자와 관련이 있나요?"라는 질문에 잘 답하지 못했지만, GeneGPT는 정확하게 찾아낼 수 있었어요.
또한, GeneGPT는 한 번에 여러 단계를 거쳐 답해야 하는 복잡한 질문(예: 특정 질병에 관련된 유전자의 위치는 어디인가요?)에도 잘 대응했답니다.
## 의미와 영향 – 이 연구가 우리에게 주는 의미는?
이 연구는 AI가 단순히 '아는 척' 하는 것을 넘어서, 실제로 믿을 수 있는 데이터를 찾아서 답하도록 진화할 수 있다는 것을 보여줍니다. 특히 생명과학, 의학처럼 정밀한 정보가 중요한 분야에서는 큰 도움이 될 수 있어요. 앞으로 GeneGPT 같은 시스템이 발전하면, 일반 사람들도 더 쉽게 유전 정보를 검색하고 활용할 수 있는 시대가 열릴지도 모릅니다.
NotebookLM
## 안녕하세요! 유전자 정보, 이제 똑똑하게 물어보세요: GeneGPT 연구 이야기
안녕하세요, 오늘 여러분께 **인공지능이 유전자와 질병 정보를 더 쉽고 정확하게 알려줄 수 있는 흥미로운 연구**를 소개해 드리려고 합니다. 복잡한 유전체 정보에 대한 궁금증, 이제 어렵게 검색하거나 전문가에게 물어보지 않아도 될 날이 머지않았는지도 모릅니다!
### 연구 배경 – 왜 이런 연구가 필요했을까요?
최근 인공지능, 특히 **사람처럼 자연스럽게 글을 쓰고 이해하는 거대 언어 모델(LLM)**이 정말 많은 분야에서 활용되고 있습니다. 하지만 이러한 모델들도 **정확하지 않은, 그럴듯해 보이는 답변(‘환각’이라고 부릅니다)**을 할 때가 있어서, 특히 **정확성이 중요한 의학이나 유전체 분야**에서는 큰 문제로 지적되어 왔습니다. 예를 들어, 어떤 유전자의 정확한 위치나 특정 질병과 관련된 유전자를 물어봤을 때, 모델이 사실과 다른 정보를 제공할 수 있다는 것이죠. 그래서 연구자들은 이러한 문제를 해결하기 위해 고민하기 시작했습니다. **“인공지능에게 정확한 정보를 찾고 활용할 수 있는 ‘도구’를 알려주면 어떨까?”** 하고 말이죠.
### 연구 목적 – 연구진은 무엇을 알고 싶었을까요?
이 연구를 진행한 연구진은 **거대 언어 모델이 전문적인 도구를 사용할 수 있도록 가르치는 새로운 방법**을 개발하고자 했습니다. 특히, **국립생물정보센터(NCBI)**에서 제공하는 다양한 **생물학 데이터베이스와 분석 도구의 웹 API**를 거대 언어 모델이 직접 활용할 수 있도록 하는 것이 목표였습니다. 마치 우리가 스마트폰 앱을 사용하듯이, 인공지능이 필요한 유전자 정보를 NCBI 데이터베이스에서 정확하게 찾아내고, 이를 바탕으로 질문에 답변할 수 있게 만드는 것이죠. 이렇게 하면 **부정확한 답변의 가능성을 줄이고, 더욱 신뢰할 수 있는 정보를 얻을 수 있을 것**이라고 연구진은 생각했습니다.
### 데이터 또는 재료 설명 – 어떤 ‘재료’들이 사용되었나요?
이 연구에서는 다음과 같은 중요한 ‘재료’들이 사용되었습니다.
* **NCBI 웹 API:** NCBI는 유전자, 단백질, 질병 등 **다양한 생물학 정보를 담고 있는 거대한 데이터베이스**입니다. NCBI 웹 API는 이러한 데이터베이스에 **인터넷을 통해 접근하고 필요한 정보를 가져올 수 있도록** 만들어진 일종의 ‘문’과 같습니다. 마치 식당에서 메뉴판을 보고 음식을 주문하는 것처럼, 정해진 ‘주문 방식’(URL)에 따라 원하는 정보를 요청할 수 있습니다. 주요 API로는 **E-utilities** (유전자, 단백질 정보 검색 및 요약)와 **BLAST URL API** (DNA 또는 단백질 서열 유사성 검색)가 있습니다.
* **GeneTuring:** 연구진들은 개발한 방법의 성능을 평가하기 위해 **유전체학 관련 질문과 답변으로 이루어진 ‘시험 문제’ 세트인 GeneTuring**을 사용했습니다. 이 시험에는 다양한 종류의 유전자 관련 질문들이 포함되어 있습니다.
* **GeneHop:** 더 나아가, **하나의 질문에 여러 단계를 거쳐 답해야 하는 복잡한 질문 세트인 GeneHop**을 새롭게 만들어 인공지능의 추론 능력을 시험했습니다. 예를 들어, “특정 SNP와 관련된 유전자의 기능은 무엇인가?”와 같은 질문은 먼저 SNP와 관련된 유전자를 찾고, 그 유전자의 기능을 다시 찾아야 답할 수 있는 다단계 질문입니다.
* **Codex:** 연구진은 처음에는 **코딩 능력이 뛰어난 거대 언어 모델인 Codex**를 사용하여 NCBI 웹 API를 활용하도록 가르쳤습니다.
### 연구 방법 – 인공지능에게 ‘도구 사용법’을 어떻게 가르쳤을까요?
연구진은 **GeneGPT**라는 새로운 방법을 개발하여 인공지능에게 NCBI 웹 API 사용법을 가르쳤습니다. 이 방법의 핵심은 다음과 같습니다.
* **프롬프트 디자인:** 인공지능에게 **“당신의 임무는 NCBI API를 사용하여 유전체학 질문에 답변하는 것입니다.”**라는 **명확한 지시**를 내립니다. 그리고 NCBI 웹 API의 기능과 사용법에 대한 **설명서 (Documentation)**와 **실제 사용 예시 (Demonstration)**를 함께 제공합니다. 마치 요리책의 레시피처럼, API의 ‘문법’과 실제 ‘요리 과정’을 보여주는 것이죠. 흥미로운 점은 **단순한 설명서보다 실제 사용 예시가 인공지능의 학습에 더 효과적이었다**는 것입니다.
* **추론 알고리즘:** 인공지능이 답변을 생성하는 과정에서 **“->”라는 특별한 표시**를 감지하면, 그 시점에서 생성을 멈추고 **API 호출 URL을 만들어 실제로 NCBI 웹 API를 실행**합니다. API 실행 결과로 얻은 **생생한 데이터**를 다시 인공지능에게 입력하여 답변 생성을 이어가도록 합니다. 마치 숙련된 연구원처럼, 필요한 정보를 데이터베이스에서 직접 찾아보고, 그 결과를 바탕으로 결론을 내리는 방식입니다.
### 연구 결과 및 예시 – 어떤 결과가 나왔나요?
GeneGPT를 사용하여 GeneTuring 문제들을 풀어본 결과, **기존의 다른 어떤 인공지능 모델들보다 훨씬 높은 정확도**를 보였습니다. 특히, **새로운 Bing (0.44점) 이나 BioMedLM (0.08점), BioGPT (0.04점), 심지어 GPT-3 (0.16점)와 ChatGPT (0.12점)보다 평균 0.83점이라는 압도적인 성능**을 나타냈습니다.
예를 들어, GeneGPT는 다음과 같은 질문에 NCBI 웹 API를 활용하여 정확하게 답변할 수 있습니다 (실제 블로그 글에서는 더 쉬운 예시로 각색될 수 있습니다):
* **질문:** “BRCA1 유전자의 다른 이름들은 무엇인가?”
* GeneGPT는 NCBI의 E-utilities API를 사용하여 ‘BRCA1’을 검색하고, 그 결과에서 BRCA1 유전자의 공식 명칭 외에 알려진 다른 이름들(이명)을 정확하게 찾아낼 수 있습니다.
* **질문:** “특정 DNA 서열과 가장 유사한 인간 염색체는 무엇인가?”
* GeneGPT는 BLAST URL API를 사용하여 주어진 DNA 서열과 인간 유전체 데이터베이스를 비교 분석하고, 가장 유사한 염색체 위치를 찾아낼 수 있습니다.
더욱 놀라운 점은 GeneGPT가 **여러 단계를 거쳐야 하는 복잡한 질문(GeneHop)**에도 비교적 잘 답변했다는 것입니다. 예를 들어, “특정 질병과 관련된 유전자들의 염색체 위치는 어디인가?”라는 질문에 대해, 먼저 질병과 관련된 유전자 목록을 찾고, 각 유전자의 염색체 위치를 순차적으로 파악하는 능력을 보여주었습니다.
### 의미와 영향 – 이 연구가 우리 삶에 어떤 의미를 가질까요?
이 연구는 **인공지능이 생물 의학 분야의 전문 지식에 더욱 쉽고 정확하게 접근**할 수 있는 가능성을 보여줍니다. 특히, 전문 지식이 없는 일반 대중도 **유전자나 질병에 대한 궁금증을 해소하는 데 큰 도움**을 받을 수 있을 것으로 기대됩니다. 더 이상 복잡한 전문 용어와 씨름하거나 여러 웹사이트를 뒤적거리지 않아도, **인공지능에게 질문하면 필요한 정보를 정확하게 얻을 수 있는 시대**가 다가올 수 있다는 의미입니다.
또한, 연구자들이 **방대한 생물학 데이터를 분석하고 새로운 발견을 하는 과정**에서도 GeneGPT와 같은 기술이 중요한 역할을 할 수 있습니다. 데이터베이스 관리의 부담을 줄이고, 더 효율적인 연구를 가능하게 할 잠재력을 가지고 있습니다.
물론 아직 연구 단계이지만, GeneGPT가 보여준 가능성은 **미래의 의료 및 생명 과학 분야에 큰 변화를 가져올 수 있을 것**으로 기대됩니다. 복잡하고 방대한 유전체 정보를 누구나 쉽게 이해하고 활용할 수 있는 날을 꿈꿔봅니다!
grok3
안녕하세요, 여러분! 오늘은 흥미로운 연구 논문 하나를 소개하려고 해요. 이 논문은 'GeneGPT'라는 이름으로, 생물학 정보를 더 쉽게 찾을 수 있도록 도와주는 새로운 기술에 관한 거예요. 전문 용어가 많을 수 있지만, 제가 최대한 쉽게 풀어서 설명할게요. 자, 시작해볼까요?
---
### 연구 배경 – 이 연구가 왜 필요했는지
우리는 요즘 인공지능(AI), 특히 대형 언어 모델(LLM, 쉽게 말해 똑똑한 챗봇 같은 거예요)을 많이 사용하죠. 이 AI들은 책, 뉴스, 웹사이트 같은 텍스트를 학습해서 질문에 답할 수 있어요. 하지만 문제는, 가끔 AI가 잘못된 정보를 만들어내거나(이걸 '환각'이라고 불러요), 전문적인 생물학 정보는 잘 찾지 못한다는 거예요. 예를 들어, 특정 유전자에 대해 물어보면, AI가 엉뚱한 답을 내놓거나 "모르겠어요"라고 할 때가 많죠.
특히 생물학이나 유전학 같은 분야는 전문 데이터베이스에서 정확한 정보를 찾아야 하는데, 일반 AI는 이런 데이터베이스를 잘 활용하지 못해요. 그래서 연구진은 AI가 생물학 정보를 더 정확하고 쉽게 찾을 수 있도록 도와주는 방법을 만들어보자고 생각했어요.
---
### 연구 목적 – 연구진이 알고자 했던 것
이 연구의 목표는 AI가 생물학 전문 데이터베이스(특히 미국 국립생물공학정보센터, NCBI의 데이터베이스)를 직접 활용해서 유전자 관련 질문에 정확히 답할 수 있게 만드는 거였어요. 연구진은 AI가 검색엔진처럼 웹을 뒤지는 대신, 전문 도구를 사용해 더 믿을 만한 답을 주도록 하고 싶었죠. 또, 단순한 질문뿐 아니라 복잡한 질문(예: "이 유전자와 관련된 질병은 뭐야?" 같은)에도 잘 대답할 수 있는지 확인하고 싶었어요.
---
### 데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지
이 연구에서는 실제로 물리적인 재료 대신, 컴퓨터와 데이터베이스를 사용했어요. 핵심은 두 가지 도구예요:
1. **NCBI 웹 API**: NCBI는 생물학 정보를 모아놓은 거대한 도서관 같은 곳이에요. 여기에는 유전자, 단백질, DNA 정보가 가득하죠. 웹 API는 이 도서관에서 정보를 꺼내오는 '사서' 같은 역할을 해요. 예를 들어, 특정 유전자의 이름을 검색하거나 DNA 조각이 어디에 맞는지 찾아줄 수 있죠.
2. **GeneTuring과 GeneHop 데이터셋**: 연구진은 AI가 얼마나 잘 답하는지 테스트하기 위해 두 가지 질문 모음을 사용했어요.
- **GeneTuring**은 유전자 이름, 위치, 기능 같은 단순한 질문 450개가 담긴 시험지예요. 예: "이 유전자는 어디에 있어?" 같은 질문이죠.
- **GeneHop**은 좀 더 복잡한 질문 150개로, 여러 단계를 거쳐야 답을 찾을 수 있어요. 예: "이 DNA 조각이 속한 유전자의 별칭은 뭐야?"처럼요.
이 질문들은 일반인이 이해하기 쉽게 비유하자면, 도서관에서 책 제목 찾기(단순 질문)와 책 내용을 읽고 저자 정보까지 알아내기(복잡 질문) 같은 차이예요.
---
### 연구 방법 – 연구가 어떻게 진행되었는지
연구진은 AI(여기서는 Codex라는 모델을 주로 사용했어요)에게 NCBI 데이터베이스를 사용하는 법을 가르쳤어요. 어떻게 했냐면, 마치 선생님이 학생에게 예제를 보여주듯이 AI에게 몇 가지 예시를 보여줬어요. 예를 들어:
- "이 유전자 이름을 찾으려면 NCBI에서 이렇게 검색해"라며 검색 방법과 결과를 보여줬죠.
- 또, "DNA 조각을 비교하려면 BLAST라는 도구를 이렇게 써"라고 알려줬어요.
이걸 전문 용어로 '인컨텍스트 학습'이라고 하는데, 쉽게 말하면 AI에게 "이렇게 해봐!"라고 예시를 주고 따라 하게 만드는 거예요. 그리고 AI가 질문에 답할 때, NCBI 데이터베이스에서 정보를 직접 가져오도록 했어요. 예를 들어, AI가 "이 유전자는 뭐야?"라는 질문을 받으면, NCBI에 접속해서 정확한 답을 찾아오는 식이죠.
또, 복잡한 질문에는 AI가 문제를 작은 조각으로 나눠서 하나씩 해결하도록 했어요. 이를 '생각의 연쇄(chain-of-thought)'라고 부르는데, 마치 퍼즐을 맞추듯 단계별로 답을 찾아가는 방식이에요.
---
### 연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시
결과는 정말 놀라웠어요! GeneGPT라는 이 새로운 AI는 기존 AI들보다 훨씬 잘했어요. GeneTuring 시험지에서 8개 과목(유전자 이름 찾기, 위치 확인, DNA 비교 등) 평균 점수가 0.83(1점 만점)이었어요. 비교하자면, 다른 AI들은 0.44(뉴 빙), 0.08(바이오메드LM) 정도로 훨씬 낮았죠.
**예시 하나**:
질문: "SNP rs1241371358이라는 유전 변이가 어떤 유전자와 관련이 있지?"
GeneGPT는 NCBI 데이터베이스에서 이 변이를 검색해서 "LRRC23"이라는 유전자를 찾아냈어요. 심지어 "이 유전자의 기능은 뭐야?"라는 추가 질문에도 "세포질에서 활동할 가능성이 있다"고 정확히 답했죠.
**일반인에게 비유**: 이건 마치 여러분이 도서관에서 책 제목만 알고 저자를 찾아야 할 때, 사서가 정확한 책을 찾아서 저자 이름까지 알려주는 것과 같아요. 다른 AI들은 책을 대충 뒤져서 엉뚱한 답을 줄 때가 많았지만, GeneGPT는 제대로 찾아줬어요.
복잡한 질문에서도 GeneGPT는 잘했어요. GeneHop 시험지에서 평균 0.50점을 받았는데, 뉴 빙은 0.24점에 그쳤죠. 예를 들어, "이 질병과 관련된 유전자는 어디에 있어?" 같은 질문에서 GeneGPT는 질병을 먼저 찾아보고, 관련 유전자를 확인한 뒤, 그 유전자의 위치까지 정확히 알려줬어요.
---
### 의미와 영향 – 이 연구가 우리 일상이나 사회에 어떤 영향을 줄 수 있는지
이 연구는 우리 삶에 큰 도움을 줄 수 있어요! 왜냐하면:
1. **의료와 건강**: 유전자 정보를 빠르고 정확히 찾을 수 있으면, 의사나 연구자들이 질병 원인을 더 쉽게 파악할 수 있어요. 예를 들어, 특정 유전자가 암과 관련이 있는지 알아내면 더 나은 치료법을 찾는 데 도움이 되죠.
2. **일반인의 접근성**: 생물학은 복잡하지만, GeneGPT 같은 기술이 발전하면 우리 같은 일반인도 유전자 정보를 쉽게 이해할 수 있어요. 예를 들어, "내 유전자 검사 결과가 뭐를 의미하지?" 같은 질문에 AI가 친절히 설명해줄 날이 올지도 몰라요.
3. **과학 연구 속도 UP**: 연구자들이 유전자 데이터를 찾는 데 시간을 덜 쓰고, 새로운 발견에 더 집중할 수 있게 돕죠. 이건 결국 신약 개발이나 질병 예방 같은 분야에서 큰 진전을 가져올 수 있어요.
4. **AI의 신뢰도 향상**: AI가 엉뚱한 답을 덜 내놓고, 전문 데이터베이스를 활용하면 더 믿을 만한 답변을 들을 수 있어요. 이건 생물학뿐 아니라 다른 분야에서도 비슷한 기술로 확장될 가능성이 크죠.
---
### 마무리
GeneGPT는 AI가 생물학 정보를 더 똑똑하게 찾아주는 첫걸음이에요. 아직 완벽하지는 않지만, 이 기술이 발전하면 우리 모두가 유전자와 건강에 대해 더 쉽게 알 수 있는 날이 올 거예요. 여러분은 이 연구에서 어떤 점이 가장 흥미로웠나요? 댓글로 알려주세요! 😊
perplexity.ai
### 연구 요약: GeneGPT - 대형 언어 모델의 생물정보학 활용 증대
---
**연구 배경 – 이 연구가 왜 필요했는지**
대형 언어 모델(LLMs)은 자연어 처리(NLP) 분야에서 뛰어난 성과를 내고 있지만, 여전히 잘못된 정보를 생성하거나 과도한 일반화를 하는 "환각(hallucination)" 문제를 겪고 있습니다. 특히 생물정보학과 같은 전문 분야에서는 정확한 데이터 접근이 중요하기 때문에, 기존 LLM의 한계를 극복하고 더 신뢰할 수 있는 답변을 제공할 수 있는 방법이 필요했습니다[1].
---
**연구 목적 – 연구진이 알고자 했던 것**
이 연구는 LLM에 생물정보학 데이터베이스를 활용하는 능력을 부여하여 전문적인 질문에 더 정확히 답변할 수 있도록 하는 새로운 방법을 개발하는 것을 목표로 했습니다. 이를 위해 연구진은 GeneGPT라는 시스템을 설계하여, LLM이 NCBI(National Center for Biotechnology Information)의 웹 API를 통해 데이터를 검색하고 활용할 수 있도록 했습니다[1].
---
**데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지**
GeneGPT는 NCBI의 웹 API를 사용하여 생물정보학 데이터베이스에 접근합니다. 이 API는 유전자 정보, 단백질 구조, DNA 서열 등을 포함한 38개의 데이터베이스를 제공합니다. 또한 BLAST API를 통해 DNA 또는 단백질 서열을 비교하여 유사성을 분석할 수 있습니다. 일반 사용자는 인터넷 연결만으로 이러한 데이터를 활용할 수 있습니다[1].
---
**연구 방법 – 연구가 어떻게 진행되었는지**
GeneGPT는 두 가지 주요 구성 요소로 이루어져 있습니다:
1. **특별히 설계된 프롬프트**: API 사용법에 대한 문서와 예시를 포함하여 LLM이 API 호출을 학습하도록 돕습니다.
2. **추론 알고리즘**: LLM이 질문을 이해하고 필요한 데이터를 검색한 후 API 호출 결과를 기반으로 답변을 생성하도록 설계되었습니다.
GeneGPT는 Codex라는 LLM을 기반으로 작동하며, 생물정보학 관련 질문에 대해 NCBI API를 호출해 데이터를 검색하고 이를 바탕으로 답변을 생성합니다[1].
---
**연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시가 있다면 함께 설명**
GeneGPT는 GeneTuring이라는 생물정보학 질문 벤치마크에서 평균 점수 0.83을 기록하며 기존 모델(Bing, BioGPT 등)을 크게 능가했습니다. 예를 들어, 특정 질병과 관련된 유전자를 찾거나 DNA 서열의 위치를 인간 염색체와 매칭하는 작업에서 매우 높은 정확도를 보였습니다. 이는 일반인에게도 유용한 정보로, 특정 질병의 원인을 이해하거나 유전자 분석 결과를 해석하는 데 도움이 될 수 있습니다[1].
그냥 LLM에 물어보는 것보다는 이런 전문화된 LLM에 물어보면 조금 더 내가 원하는 답에 가까운 답변을 얻을 수 있었어요가 결론이네요. 각각 분야마다 특화된 LLM들을 만들면.... 근데 그러기에는 너무 세분화되어야하는 문제도 있을거 같은데.... 어떻게든 해결하겠죠 :)
![]() |
출처: @ye._.vely618 |