Lee Gir-Won (Lee Gil-Won): API

레이블이 API인 게시물을 표시합니다. 모든 게시물 표시

금요일, 4월 10, 2026

과연 사업보고서를 읽고 LLM은 어떻게 정리, 요약해줄것인가

3월 정기 주총을 진행하면서 각 회사들의 25년도 사업보고서 공개되었기에 지금까지 제가 다녔었던 회사들의 사업보고서를 정리해보는 시간을 가져볼려고 합니다.

물론 몇몇 회사는 폐업하기도 했고, 상장사가 아니기에 사업보고서는 올라오지 않고 감사보고서만 올라오는 경우도 있습니다. 그래서 모든 사업보고서가 있으면 사업보고서를, 없으면 감사보고서 LLM, 그 중에서도 NotebooKLM을 사용해서 분석해보고자 합니다.

대략 한 10년치는 읽어봐야지 회사들이 어떻게 변화되고 있는지 알 수 있겠죠

그래서 (10년치가 있으면)10년치 정도의 사업보고서를 다운받아서 NotebookLM에 업로드해서,

NotebookLM의 기능 중 하나인 [스튜디오] →[보고서]→[블로그 게시물] 형식을 사용해서 오롯히 사업보고서 내용을 바탕으로 어떻게 정리, 요약하는지 보고자 합니다.

원래는 지난주즈음에도 가능할 것 같았는데, 몇가지 테스트 하느라고 좀 늦어졌습니다.

1. 사업보고서를 걍 pdf로 올리면 잘 분석 할 수 있을까?

물론 지금까지 논문들을 쌩 pdf로 올리고 요약해달라고 해도 잘 했지만, 재무제표와 같이 어마무시하게 많은 숫자들이 들어있기에 좀 헷갈려 할 수 있을 것 같아서 구조를 가지고 있는 json 형식으로 변환해 봤습니다.

근데 문제가 역시 재무제표를 읽을 때, 단위를 빼먹고 작성하는 경우가 있어서 조금 거슬리긴 했으나 대세에는 크게 영향을 주지 않을 것 같아서 무시했습니다. (각각 원, 천원, 백만원 개성있게 사용하나 그래도 개별 회사들 마다 통일성을 유지하고 있기에...)

2. DART에 올라오는 사업보고서를 사용하면 구조화된 문서를 확보 할 수 있지 않을까?

결론: 응? 모르겠음. 아놔.

DART에서 OPENDART라고 API 서비스를 사용해서 공시보고서를 XML형식으로 다운로드 받을 수 있게 해주는데 XML 파일을 파싱하는게 생각보다 마음처럼 되지 않아서 일단 포기했습니다.

XML형식을 읽는데 형식에 문제가 있다고 에러가 항시 발생하더라구요 ㅋ

파이썬 XML 모듈의 문제인지 모르겠지만.. load할 때 에러가 나는 지점들도 달랐지만 그래도 어찌저찌해서 json형식으로 변환시켰는데, 온전한 사업 내용 문장을 하나의 변수안에 넣으려고 하니... 이게 파편화되어 있어서..

OPENDART나중에 시간을 들여서 한번 확인해 보려고 합니다.

그래서 결론은 네이버에서 확인 할 수 있는 사업보고서 pdf 파일을 json으로 변환시켜서 NotebookLM에게 읽혀서 "블로그 게시물" 형식에 맞게

- 바이오니아

- 테라젠이텍스 (지금은... 테라젠바이오가 가까운데, 당시 재직할 때는 테라젠이텍스라서..)

- 마크로젠

- 엔젠바이오

- SML제니트리

의 너의 생각을 알려줘 라는 내용의 글들을 다음 주 동안에 하나씩 오픈 하도록 하겠습니다.

항상 그렇지만 LLM들은 멋진 녀석들이라는 것에 놀라고 있습니다. :)

※정보 공개에 의무가 있는 상장회사들이나 비상장 회사들의 정보를 확인 할 수 있는 곳

네이버증권

DART 홈페이지

한국거래소

출처: @ye._.vely618

화요일, 11월 25, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (4)

지난주에 작업한 공공데이터포털에서 API를 활용하여 아파트 매매 데이터를 수집하는 코드를 작성해보았는데... 이게 생각보다 시간이 많이 걸리는 작업이더라구요.

그래서 일단 불편하지만 국토교통부 실거래가 공개시스템(https://rt.molit.go.kr/pt/xls/xls.do)을 통해서 한땀 한땀 엑셀 또는 CSV로 파일을 다운로드 받는게 더 빨라서 구분해서 작업을 하기로 했습니다. Orz

우선 국토교통부 실거래가 공개시스템에서 서울시와 경기도의 실거래가와 전월세 데이터를 CSV로 파일을 받습니다.

※참고1, 시도단위는 1년단위로 받을 수 있고, 전체 데이터는 월단위로 받을 수 있습니다.

※참고2, 매매 거래가는 2005년부터, 전월세 거래가는 2011년부터 존재합니다. 참고하시기 바랍니다.

이번 작업은 grok(자동)를 사용해봤습니다.

아파트 실거래가 CSV 파일을 mongodb에 업로드 하는 스크립트를 작성해줘
--
□ 본 서비스에서 제공하는 정보는 법적인 효력이 없으므로 참고용으로만 활용하시기 바랍니다.
□ 신고정보가 실시간 변경, 해제되어 제공시점에 따라 공개건수 및 내용이 상이할 수 있는 점 참고하시기 바랍니다.
□ 본 자료는 계약일 기준입니다. (※ 7월 계약, 8월 신고건 → 7월 거래건으로 제공)
□ 통계자료 활용시에는 수치가 왜곡될 수 있으니 참고자료로만 활용하시기 바라며, 외부 공개시에는 반드시 신고일 기준으로 집계되는 공식통계를 이용하여 주시기 바랍니다.

* 국토교통부 실거래가 공개시스템의 궁금하신 점이나 문의사항은 콜센터 1533-2949로 연락 주시기 바랍니다.
□ 검색조건
계약일자 : 2005-01-01 ~ 2005-12-31
실거래구분 : 아파트(매매)
주소구분 : 지번주소
시도 : 경기도
시군구 : 전체
읍면동 : 전체
면적 : 전체
금액선택 : 전체
NO 시군구 번지 본번 부번 단지명 전용면적(㎡) 계약년월 계약일 거래금액(만원) 동 층 매수자 매도자 건축년도 도로명 해제사유발생일 거래유형 중개사소재지 등기일자
1 경기도 광주시 신현동 588-1 588 1 현대모닝사이드2 84.778 200512 31 24,000 - 4 - - 2001 새말길 93 - - - -
2 경기도 부천시 소사구 송내동 372 372 0 푸르지오 84.874 200511 30 23,650 - 3 - - 2005 중동로 64 - - - -
3 경기도 안성시 원곡면 반제리 743 743 0 산수화 59.76 200511 30 5,000 - 16 - - 2003 벚꽃길 73 - - - -
4 경기도 광주시 곤지암읍 삼리 125-1 125 1 곤지암킴스빌리지 35.63 200511 30 3,200 - 17 - - 2001 평촌길 20 - - - -
5 경기도 부천시 소사구 소사본동 135 135 0 소사에스케이뷰 84.9841 200511 30 18,800 - 18 - - 2004 소삼로 62 - - - -
6 경기도 오산시 원동 826-1 826 1 대우푸르지오 84.616 200511 30 17,630 - 14 - - 2005 남부대로 411-15 - - - -
7 경기도 오산시 원동 826-1 826 1 대우푸르지오 84.616 200511 29 7,800 - 8 - - 2005 남부대로 411-15 - - - -
8 경기도 오산시 원동 826-1 826 1 대우푸르지오 84.557 200511 29 17,480 - 3 - - 2005 남부대로 411-15 - - - -
9 경기도 광주시 곤지암읍 곤지암리 459 459 0 쌍용1 84.97 200511 29 13,000 - 16 - - 1998 곤지암로 120 - - - -
10 경기도 시흥시 대야동 275 275 0 삼보 70.71 200511 29 8,150 - 6 - - 1991 은행로 188-15 - - - -
11 경기도 광주시 곤지암읍 삼리 125-1 125 1 곤지암킴스빌리지 35.63 200511 29 3,300 - 10 - - 2001 평촌길 20 - - - -
12 경기도 부천시 소사구 송내동 336-6 336 6 동신(336-6) 69.48 200511 29 7,100 - 5 - - 1985 경인로29번길 73 - - - -
13 경기도 부천시 소사구 송내동 372 372 0 푸르지오 59.8 200511 29 15,950 - 5 - - 2005 중동로 64 - - - -
--
CSV를 파싱해서 파이썬 3.12버전을 문법에 맞춰 mongodb에 insert하는 스크립트를 작성해줘
NO 컬럼은 mongodb에 insert/update하지 않아도 돼
csv파일은 첫번째부터 15번째행 까지 파일에 대한 설명이 적혀있고, 16번째 행에는 컬럼 이름들이 있어 그리고 17번째 행부터 실제 매매 정보가 표시되
단 16번째 행에 컬럼들이 나오기는 하지만 꼭 동일하지는 않을 수 있으니, 컬럼 이름이 나올 때 까지의 행은 mongodb에 insert/update하면 안되야해
그리고 컬럼중 해제사유발생일 이라는 컬럼이 있어
이 컬럼은 아파트 매매를 계약 했는데 해제했을 때 값이 채워지는 컬럼이야
예를 들어 계약년월 200512, 계약일 12에 계약을 했는데 2006년 1월 12일에 계약이 해제될 수 있어 이때 "해제사유발생일"이라는 컬럼이 업데이트 될꺼야
해제사유발생일은 언제 발생될지 모르기 때문에 row를 insert할 때 해제사유발생일 컬럼 외에 다른 정보들이 동일한 행이 있다면 그 row에 해제사유발생일 정보만 업데이트하도록 코드를 작성해줘

그리고 전월세 실거래가 정보를 업데이트 하는 코드는 아래와 같이 이어서 생성해달라고 하였습니다.

아래는 아파트 전월세 실거래가 기록을 저장한 CSV 파일의 일부입니다. 위의 아파트 매매 실거래가 정보를 mongodb에 insert/update하는 스크립트와 동일한 기능을 가지는 python 스크립트 작성해줘. 전월세 실거래가에서는 "해제사유발생일"이라는 컬럼이 없어.

>아파트 매매 실거래가 파일<

>아파트 전월세 실거래가 파일<

그래서 기본 데이터는 한땀 한땀 다운받은 CSV로 만들어 놓고 한달에 한번씩 서울시와 경기도 구별로 API로 mongoDB에 적재하는 식으로 사용해보고자 합니다.

그럼에도 불구하고 API를 사용한 적재 방법이 느리다면 걍 매달 한번씩 업데이트 해야겠죠;;

조만간 mongoDB에 적재된 데이터 이후에 대로 증분이 필요한 데이터만 끌고오도록 API를 사용한 스크립트를 생성해서 올려보겠습니다. :)

출처: @ye._.vely618

토요일, 11월 22, 2025

LLM을 이용한 환율, 지수, 주가 비교 사이트 제작기 (3)

오늘 파이썬 코드는 기존의 비교 사이트 제작이 아닌 부동산 정보를 수집하는 코드 되겠습니다.

지금까지는 국토교통부 실거래가 공개시스템(https://rt.molit.go.kr/pt/xls/xls.do)을 통해서 한땀 한땀 엑셀을 다운받아서 SQLite에 업데이트하는 방법으로 부동산 정보를 수집하고 있었습니다.

-국토교통부 실거래가 공개시스템-

처음에는 이 사이트를 분석해서 일괄적으로 특정 년도의 매매 정보를 다운로드(크롤링) 받을까 하다가 당연히 API로 정보를 제공하고 있지 않을까 해서 검색을 해보니 공공데이터포털(https://www.data.go.kr)에서 API신청해서 다운로드 받을 수 있게 되어 있었네요 ㅎㅎ

그래서 LLM의 도움을 받기전에 검색을 해보니 이미 많은 분들이 이 API를 가지고 많이 해보셨으나 notebook이나 colab을 사용하고 있어서 LLM의 도움을 받아 API에서 정보를 받아 mongodb에 삽입/업데이트하는 코드를 작성해보았습니다.

↓↓↓↓↓이미 공공데이터포털의 API를 사용한 사례↓↓↓↓↓

Py) API(공공) 아파트 매매 실거래가 상세 - Data Doctor

[부동산 데이터 수집] 아파트 매매 실거래가 조회하기(파이썬)

[파이썬 부동산] 아파트 매매 실거래가 API 활용

[공공데이터포털 API] 아파트 매매 실거래 자료 수집

공공데이터포탈에서 API를 신청하겠다고 하면 이런 저런 예제와 문서를 주는데 신청한 다음 바로 테스트할 때는 잘 안됩니다. 몇시간이나 다음날 정도되면 잘 될겁니다. (정보를 동기화하는데 시간이 좀 걸리는듣 합니다.)

-공공데이터포털 API 신청된 화면-

국토교통부에서 제공해주는 실거래가 시스템에서는 시단위 기준으로 데이터를 가져올 수 있었는데 API에서는 시도 기준으로는 데이터를 가져올 수가 없었습니다. 그래서 어쩔 수 없이 구 단위 기준의 법정동코드를 확보해서 구 기준으로 API를 작동 할 수 있게 하였슴다 :)

※ 법정동코드는 code.go.kr에서 찾지말고 공공데이터포털 국토교통부 법정동코드 라고 csv파일로 다운로드 받을 수 있는 것이 있습니다. >여기<

공공데이터포털에서 제공받은 API로 코드를 작성해서 github에 업로드 하였습니다.

>아파트 매매 실거래가 자료<

근데 법정동코드를 for문으로 돌리는데 시간이 좀 많이 걸리는것 같네요. 병렬로 처리해봤는데 이게 잘 되는건지 잘 확인도 되지않아서.. 일단 하나씩 돌리고 있습니다.

다음에는 매매 실거래가 수집했으니 전월세 수집하겠죠? :)

출처: @ye._.vely618

수요일, 5월 07, 2025

유전자에 대해서 정확하게 답변해주는 GeneGPT

오늘은 LLM을 활용해서 Biomedical 정보에 더 쉽게 접근 할 수 있는 방법을 소개하려고 합니다. 이미 2024년 작년에 출판된 논문으로 NCBI 훃아들이 자기들 DB 활용해서 만들었다고 합니다. 여튼 제목은 GeneGPT: augmenting large language models with domain tools for improved access to biomedical information 입니다.

DOI: 10.1093/bioinformatics/btae075

clova-x

GeneGPT는 대규모 언어 모델(LLM)을 생물의학 정보에 더 쉽게 접근할 수 있도록 NCIB 웹 API를 활용하여 향상시키는 방법입니다. 이 연구는 GeneGPT가 GenoTuring 벤치마크에서 기존의 LLM보다 우수한 성능을 발휘함을 보여줍니다.
1. **연구 배경 및 목적**
- LLM은 다양한 작업에 성공적으로 적용되었지만, 환각 현상이라는 도전에 직면해 있습니다.
- 도메인 특정 도구를 통해 LLM의 생물의학 지식 접근성을 향상시키고자 합니다.
2. **GeneGPT의 설계 및 작동 방식**
- GeneGPT는 Codex를 사용하여 NCBI 웹 API를 통해 유전체 질문에 답하도록 가르칩니다.
- API 사용법을 시연하고, API 호출을 감지하고 실행할 수 있는 증강 디코딩 알고리즘을 사용합니다.
3. **성능 평가 및 결과**
- GeneGPT는 GenoTuring 벤치마크의 여덟 가지 작업에서 평균 점수 0.83으로 최고 성능을 달성하였습니다.
- 이는 New Bing(0.44), BioMedLM(0.08), BioGPT(0.04), GPT-3(0.16), ChatGPT(0.12)보다 훨씬 높은 성과입니다.
4. **GeneGPT의 특징 및 기여**
- API 시연은 문맥 학습에 문서화보다 더 유용하며, 여러 API 호출을 일반화할 수 있습니다.
- GeneGPT는 새로운 GeneHop 데이터셋을 통해 다단계 유전체 질문에 응답할 수 있습니다.

chatGPT

# 유전학 질문에 똑똑하게 답하는 AI, GeneGPT 이야기
## 연구 배경 – 왜 이런 연구가 필요했을까?
요즘은 ChatGPT 같은 인공지능이 사람처럼 글을 쓰고, 질문에도 똑똑하게 답하죠. 하지만 이런 AI도 전문 지식이 필요한 분야에서는 가끔 “지어내는” 답을 하기도 해요. 특히 생명과학이나 유전학처럼 정보가 방대하고 복잡한 분야에서는 더더욱 그렇습니다. 그래서 연구자들은 AI가 믿을 수 있는 데이터베이스를 직접 찾아보게 하면 더 정확한 답을 할 수 있지 않을까 하는 아이디어를 떠올렸습니다.
## 연구 목적 – 연구진은 무엇을 알고 싶었을까?
연구팀은 “AI가 유전학 정보를 정확하게 검색하고 활용할 수 있도록 도와주는 방법”을 만들고 싶었습니다. 그래서 미국 국립생명공학정보센터(NCBI)의 유전학 데이터베이스를 AI가 직접 사용할 수 있도록 훈련시킨 ‘GeneGPT’라는 시스템을 만들었죠.
## 사용된 데이터 – 어떤 자료를 활용했을까?
이 연구에서 사용한 데이터는 NCBI에서 제공하는 공식 유전학 데이터베이스(API)를 기반으로 합니다. 쉽게 말하면, 인터넷 주소를 통해 유전자, 단백질, 질병 정보 등을 검색할 수 있는 시스템이에요. 연구팀은 이 API를 사용해 유전 정보를 찾는 과정을 AI에게 가르쳤습니다.
## 연구 방법 – 어떻게 연구를 진행했을까?
연구팀은 OpenAI의 Codex 모델(코드를 잘 이해하는 AI)을 활용해, 특정한 질문이 들어오면 필요한 정보를 NCBI 데이터베이스에서 검색하고 그 결과를 분석한 뒤 답변을 만들도록 했어요. 예를 들어 "이 DNA 조각이 어느 유전자에 해당하나요?" 같은 질문을 받으면, AI가 단계별로 관련 정보를 찾아서 답을 구성하죠.
이를 위해 연구팀은 AI에게 API를 사용하는 예시를 여러 개 보여주고, 그 패턴을 스스로 익히도록 했습니다. 이 과정을 ‘인컨텍스트 러닝’이라고 해요. 복잡하게 들리지만, 쉽게 말해 "이런 식으로 검색해 봐~"라고 보여주는 식입니다.
## 연구 결과 및 예시 – 어떤 결과가 나왔을까?
GeneGPT는 ‘GeneTuring’이라는 유전학 질문 시험에서 매우 높은 성적(평균 0.83점)을 기록했어요. 기존의 ChatGPT나 바이오 전문 AI보다 훨씬 나은 성능이었습니다. 예를 들어 다른 모델이 "이 SNP(유전변이)는 어떤 유전자와 관련이 있나요?"라는 질문에 잘 답하지 못했지만, GeneGPT는 정확하게 찾아낼 수 있었어요.
또한, GeneGPT는 한 번에 여러 단계를 거쳐 답해야 하는 복잡한 질문(예: 특정 질병에 관련된 유전자의 위치는 어디인가요?)에도 잘 대응했답니다.
## 의미와 영향 – 이 연구가 우리에게 주는 의미는?
이 연구는 AI가 단순히 '아는 척' 하는 것을 넘어서, 실제로 믿을 수 있는 데이터를 찾아서 답하도록 진화할 수 있다는 것을 보여줍니다. 특히 생명과학, 의학처럼 정밀한 정보가 중요한 분야에서는 큰 도움이 될 수 있어요. 앞으로 GeneGPT 같은 시스템이 발전하면, 일반 사람들도 더 쉽게 유전 정보를 검색하고 활용할 수 있는 시대가 열릴지도 모릅니다.

NotebookLM

## 안녕하세요! 유전자 정보, 이제 똑똑하게 물어보세요: GeneGPT 연구 이야기
안녕하세요, 오늘 여러분께 **인공지능이 유전자와 질병 정보를 더 쉽고 정확하게 알려줄 수 있는 흥미로운 연구**를 소개해 드리려고 합니다. 복잡한 유전체 정보에 대한 궁금증, 이제 어렵게 검색하거나 전문가에게 물어보지 않아도 될 날이 머지않았는지도 모릅니다!
### 연구 배경 – 왜 이런 연구가 필요했을까요?
최근 인공지능, 특히 **사람처럼 자연스럽게 글을 쓰고 이해하는 거대 언어 모델(LLM)**이 정말 많은 분야에서 활용되고 있습니다. 하지만 이러한 모델들도 **정확하지 않은, 그럴듯해 보이는 답변(‘환각’이라고 부릅니다)**을 할 때가 있어서, 특히 **정확성이 중요한 의학이나 유전체 분야**에서는 큰 문제로 지적되어 왔습니다. 예를 들어, 어떤 유전자의 정확한 위치나 특정 질병과 관련된 유전자를 물어봤을 때, 모델이 사실과 다른 정보를 제공할 수 있다는 것이죠. 그래서 연구자들은 이러한 문제를 해결하기 위해 고민하기 시작했습니다. **“인공지능에게 정확한 정보를 찾고 활용할 수 있는 ‘도구’를 알려주면 어떨까?”** 하고 말이죠.
### 연구 목적 – 연구진은 무엇을 알고 싶었을까요?
이 연구를 진행한 연구진은 **거대 언어 모델이 전문적인 도구를 사용할 수 있도록 가르치는 새로운 방법**을 개발하고자 했습니다. 특히, **국립생물정보센터(NCBI)**에서 제공하는 다양한 **생물학 데이터베이스와 분석 도구의 웹 API**를 거대 언어 모델이 직접 활용할 수 있도록 하는 것이 목표였습니다. 마치 우리가 스마트폰 앱을 사용하듯이, 인공지능이 필요한 유전자 정보를 NCBI 데이터베이스에서 정확하게 찾아내고, 이를 바탕으로 질문에 답변할 수 있게 만드는 것이죠. 이렇게 하면 **부정확한 답변의 가능성을 줄이고, 더욱 신뢰할 수 있는 정보를 얻을 수 있을 것**이라고 연구진은 생각했습니다.
### 데이터 또는 재료 설명 – 어떤 ‘재료’들이 사용되었나요?
이 연구에서는 다음과 같은 중요한 ‘재료’들이 사용되었습니다.
* **NCBI 웹 API:** NCBI는 유전자, 단백질, 질병 등 **다양한 생물학 정보를 담고 있는 거대한 데이터베이스**입니다. NCBI 웹 API는 이러한 데이터베이스에 **인터넷을 통해 접근하고 필요한 정보를 가져올 수 있도록** 만들어진 일종의 ‘문’과 같습니다. 마치 식당에서 메뉴판을 보고 음식을 주문하는 것처럼, 정해진 ‘주문 방식’(URL)에 따라 원하는 정보를 요청할 수 있습니다. 주요 API로는 **E-utilities** (유전자, 단백질 정보 검색 및 요약)와 **BLAST URL API** (DNA 또는 단백질 서열 유사성 검색)가 있습니다.
* **GeneTuring:** 연구진들은 개발한 방법의 성능을 평가하기 위해 **유전체학 관련 질문과 답변으로 이루어진 ‘시험 문제’ 세트인 GeneTuring**을 사용했습니다. 이 시험에는 다양한 종류의 유전자 관련 질문들이 포함되어 있습니다.
* **GeneHop:** 더 나아가, **하나의 질문에 여러 단계를 거쳐 답해야 하는 복잡한 질문 세트인 GeneHop**을 새롭게 만들어 인공지능의 추론 능력을 시험했습니다. 예를 들어, “특정 SNP와 관련된 유전자의 기능은 무엇인가?”와 같은 질문은 먼저 SNP와 관련된 유전자를 찾고, 그 유전자의 기능을 다시 찾아야 답할 수 있는 다단계 질문입니다.
* **Codex:** 연구진은 처음에는 **코딩 능력이 뛰어난 거대 언어 모델인 Codex**를 사용하여 NCBI 웹 API를 활용하도록 가르쳤습니다.
### 연구 방법 – 인공지능에게 ‘도구 사용법’을 어떻게 가르쳤을까요?
연구진은 **GeneGPT**라는 새로운 방법을 개발하여 인공지능에게 NCBI 웹 API 사용법을 가르쳤습니다. 이 방법의 핵심은 다음과 같습니다.
* **프롬프트 디자인:** 인공지능에게 **“당신의 임무는 NCBI API를 사용하여 유전체학 질문에 답변하는 것입니다.”**라는 **명확한 지시**를 내립니다. 그리고 NCBI 웹 API의 기능과 사용법에 대한 **설명서 (Documentation)**와 **실제 사용 예시 (Demonstration)**를 함께 제공합니다. 마치 요리책의 레시피처럼, API의 ‘문법’과 실제 ‘요리 과정’을 보여주는 것이죠. 흥미로운 점은 **단순한 설명서보다 실제 사용 예시가 인공지능의 학습에 더 효과적이었다**는 것입니다.
* **추론 알고리즘:** 인공지능이 답변을 생성하는 과정에서 **“->”라는 특별한 표시**를 감지하면, 그 시점에서 생성을 멈추고 **API 호출 URL을 만들어 실제로 NCBI 웹 API를 실행**합니다. API 실행 결과로 얻은 **생생한 데이터**를 다시 인공지능에게 입력하여 답변 생성을 이어가도록 합니다. 마치 숙련된 연구원처럼, 필요한 정보를 데이터베이스에서 직접 찾아보고, 그 결과를 바탕으로 결론을 내리는 방식입니다.
### 연구 결과 및 예시 – 어떤 결과가 나왔나요?
GeneGPT를 사용하여 GeneTuring 문제들을 풀어본 결과, **기존의 다른 어떤 인공지능 모델들보다 훨씬 높은 정확도**를 보였습니다. 특히, **새로운 Bing (0.44점) 이나 BioMedLM (0.08점), BioGPT (0.04점), 심지어 GPT-3 (0.16점)와 ChatGPT (0.12점)보다 평균 0.83점이라는 압도적인 성능**을 나타냈습니다.
예를 들어, GeneGPT는 다음과 같은 질문에 NCBI 웹 API를 활용하여 정확하게 답변할 수 있습니다 (실제 블로그 글에서는 더 쉬운 예시로 각색될 수 있습니다):
* **질문:** “BRCA1 유전자의 다른 이름들은 무엇인가?”
* GeneGPT는 NCBI의 E-utilities API를 사용하여 ‘BRCA1’을 검색하고, 그 결과에서 BRCA1 유전자의 공식 명칭 외에 알려진 다른 이름들(이명)을 정확하게 찾아낼 수 있습니다.
* **질문:** “특정 DNA 서열과 가장 유사한 인간 염색체는 무엇인가?”
* GeneGPT는 BLAST URL API를 사용하여 주어진 DNA 서열과 인간 유전체 데이터베이스를 비교 분석하고, 가장 유사한 염색체 위치를 찾아낼 수 있습니다.
더욱 놀라운 점은 GeneGPT가 **여러 단계를 거쳐야 하는 복잡한 질문(GeneHop)**에도 비교적 잘 답변했다는 것입니다. 예를 들어, “특정 질병과 관련된 유전자들의 염색체 위치는 어디인가?”라는 질문에 대해, 먼저 질병과 관련된 유전자 목록을 찾고, 각 유전자의 염색체 위치를 순차적으로 파악하는 능력을 보여주었습니다.
### 의미와 영향 – 이 연구가 우리 삶에 어떤 의미를 가질까요?
이 연구는 **인공지능이 생물 의학 분야의 전문 지식에 더욱 쉽고 정확하게 접근**할 수 있는 가능성을 보여줍니다. 특히, 전문 지식이 없는 일반 대중도 **유전자나 질병에 대한 궁금증을 해소하는 데 큰 도움**을 받을 수 있을 것으로 기대됩니다. 더 이상 복잡한 전문 용어와 씨름하거나 여러 웹사이트를 뒤적거리지 않아도, **인공지능에게 질문하면 필요한 정보를 정확하게 얻을 수 있는 시대**가 다가올 수 있다는 의미입니다.
또한, 연구자들이 **방대한 생물학 데이터를 분석하고 새로운 발견을 하는 과정**에서도 GeneGPT와 같은 기술이 중요한 역할을 할 수 있습니다. 데이터베이스 관리의 부담을 줄이고, 더 효율적인 연구를 가능하게 할 잠재력을 가지고 있습니다.
물론 아직 연구 단계이지만, GeneGPT가 보여준 가능성은 **미래의 의료 및 생명 과학 분야에 큰 변화를 가져올 수 있을 것**으로 기대됩니다. 복잡하고 방대한 유전체 정보를 누구나 쉽게 이해하고 활용할 수 있는 날을 꿈꿔봅니다!

grok3

안녕하세요, 여러분! 오늘은 흥미로운 연구 논문 하나를 소개하려고 해요. 이 논문은 'GeneGPT'라는 이름으로, 생물학 정보를 더 쉽게 찾을 수 있도록 도와주는 새로운 기술에 관한 거예요. 전문 용어가 많을 수 있지만, 제가 최대한 쉽게 풀어서 설명할게요. 자, 시작해볼까요?
---
### 연구 배경 – 이 연구가 왜 필요했는지
우리는 요즘 인공지능(AI), 특히 대형 언어 모델(LLM, 쉽게 말해 똑똑한 챗봇 같은 거예요)을 많이 사용하죠. 이 AI들은 책, 뉴스, 웹사이트 같은 텍스트를 학습해서 질문에 답할 수 있어요. 하지만 문제는, 가끔 AI가 잘못된 정보를 만들어내거나(이걸 '환각'이라고 불러요), 전문적인 생물학 정보는 잘 찾지 못한다는 거예요. 예를 들어, 특정 유전자에 대해 물어보면, AI가 엉뚱한 답을 내놓거나 "모르겠어요"라고 할 때가 많죠.
특히 생물학이나 유전학 같은 분야는 전문 데이터베이스에서 정확한 정보를 찾아야 하는데, 일반 AI는 이런 데이터베이스를 잘 활용하지 못해요. 그래서 연구진은 AI가 생물학 정보를 더 정확하고 쉽게 찾을 수 있도록 도와주는 방법을 만들어보자고 생각했어요.
---
### 연구 목적 – 연구진이 알고자 했던 것
이 연구의 목표는 AI가 생물학 전문 데이터베이스(특히 미국 국립생물공학정보센터, NCBI의 데이터베이스)를 직접 활용해서 유전자 관련 질문에 정확히 답할 수 있게 만드는 거였어요. 연구진은 AI가 검색엔진처럼 웹을 뒤지는 대신, 전문 도구를 사용해 더 믿을 만한 답을 주도록 하고 싶었죠. 또, 단순한 질문뿐 아니라 복잡한 질문(예: "이 유전자와 관련된 질병은 뭐야?" 같은)에도 잘 대답할 수 있는지 확인하고 싶었어요.
---
### 데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지
이 연구에서는 실제로 물리적인 재료 대신, 컴퓨터와 데이터베이스를 사용했어요. 핵심은 두 가지 도구예요:
1. **NCBI 웹 API**: NCBI는 생물학 정보를 모아놓은 거대한 도서관 같은 곳이에요. 여기에는 유전자, 단백질, DNA 정보가 가득하죠. 웹 API는 이 도서관에서 정보를 꺼내오는 '사서' 같은 역할을 해요. 예를 들어, 특정 유전자의 이름을 검색하거나 DNA 조각이 어디에 맞는지 찾아줄 수 있죠.
2. **GeneTuring과 GeneHop 데이터셋**: 연구진은 AI가 얼마나 잘 답하는지 테스트하기 위해 두 가지 질문 모음을 사용했어요.
- **GeneTuring**은 유전자 이름, 위치, 기능 같은 단순한 질문 450개가 담긴 시험지예요. 예: "이 유전자는 어디에 있어?" 같은 질문이죠.
- **GeneHop**은 좀 더 복잡한 질문 150개로, 여러 단계를 거쳐야 답을 찾을 수 있어요. 예: "이 DNA 조각이 속한 유전자의 별칭은 뭐야?"처럼요.
이 질문들은 일반인이 이해하기 쉽게 비유하자면, 도서관에서 책 제목 찾기(단순 질문)와 책 내용을 읽고 저자 정보까지 알아내기(복잡 질문) 같은 차이예요.
---
### 연구 방법 – 연구가 어떻게 진행되었는지
연구진은 AI(여기서는 Codex라는 모델을 주로 사용했어요)에게 NCBI 데이터베이스를 사용하는 법을 가르쳤어요. 어떻게 했냐면, 마치 선생님이 학생에게 예제를 보여주듯이 AI에게 몇 가지 예시를 보여줬어요. 예를 들어:
- "이 유전자 이름을 찾으려면 NCBI에서 이렇게 검색해"라며 검색 방법과 결과를 보여줬죠.
- 또, "DNA 조각을 비교하려면 BLAST라는 도구를 이렇게 써"라고 알려줬어요.
이걸 전문 용어로 '인컨텍스트 학습'이라고 하는데, 쉽게 말하면 AI에게 "이렇게 해봐!"라고 예시를 주고 따라 하게 만드는 거예요. 그리고 AI가 질문에 답할 때, NCBI 데이터베이스에서 정보를 직접 가져오도록 했어요. 예를 들어, AI가 "이 유전자는 뭐야?"라는 질문을 받으면, NCBI에 접속해서 정확한 답을 찾아오는 식이죠.
또, 복잡한 질문에는 AI가 문제를 작은 조각으로 나눠서 하나씩 해결하도록 했어요. 이를 '생각의 연쇄(chain-of-thought)'라고 부르는데, 마치 퍼즐을 맞추듯 단계별로 답을 찾아가는 방식이에요.
---
### 연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시
결과는 정말 놀라웠어요! GeneGPT라는 이 새로운 AI는 기존 AI들보다 훨씬 잘했어요. GeneTuring 시험지에서 8개 과목(유전자 이름 찾기, 위치 확인, DNA 비교 등) 평균 점수가 0.83(1점 만점)이었어요. 비교하자면, 다른 AI들은 0.44(뉴 빙), 0.08(바이오메드LM) 정도로 훨씬 낮았죠.
**예시 하나**:
질문: "SNP rs1241371358이라는 유전 변이가 어떤 유전자와 관련이 있지?"
GeneGPT는 NCBI 데이터베이스에서 이 변이를 검색해서 "LRRC23"이라는 유전자를 찾아냈어요. 심지어 "이 유전자의 기능은 뭐야?"라는 추가 질문에도 "세포질에서 활동할 가능성이 있다"고 정확히 답했죠.
**일반인에게 비유**: 이건 마치 여러분이 도서관에서 책 제목만 알고 저자를 찾아야 할 때, 사서가 정확한 책을 찾아서 저자 이름까지 알려주는 것과 같아요. 다른 AI들은 책을 대충 뒤져서 엉뚱한 답을 줄 때가 많았지만, GeneGPT는 제대로 찾아줬어요.
복잡한 질문에서도 GeneGPT는 잘했어요. GeneHop 시험지에서 평균 0.50점을 받았는데, 뉴 빙은 0.24점에 그쳤죠. 예를 들어, "이 질병과 관련된 유전자는 어디에 있어?" 같은 질문에서 GeneGPT는 질병을 먼저 찾아보고, 관련 유전자를 확인한 뒤, 그 유전자의 위치까지 정확히 알려줬어요.
---
### 의미와 영향 – 이 연구가 우리 일상이나 사회에 어떤 영향을 줄 수 있는지
이 연구는 우리 삶에 큰 도움을 줄 수 있어요! 왜냐하면:
1. **의료와 건강**: 유전자 정보를 빠르고 정확히 찾을 수 있으면, 의사나 연구자들이 질병 원인을 더 쉽게 파악할 수 있어요. 예를 들어, 특정 유전자가 암과 관련이 있는지 알아내면 더 나은 치료법을 찾는 데 도움이 되죠.
2. **일반인의 접근성**: 생물학은 복잡하지만, GeneGPT 같은 기술이 발전하면 우리 같은 일반인도 유전자 정보를 쉽게 이해할 수 있어요. 예를 들어, "내 유전자 검사 결과가 뭐를 의미하지?" 같은 질문에 AI가 친절히 설명해줄 날이 올지도 몰라요.
3. **과학 연구 속도 UP**: 연구자들이 유전자 데이터를 찾는 데 시간을 덜 쓰고, 새로운 발견에 더 집중할 수 있게 돕죠. 이건 결국 신약 개발이나 질병 예방 같은 분야에서 큰 진전을 가져올 수 있어요.
4. **AI의 신뢰도 향상**: AI가 엉뚱한 답을 덜 내놓고, 전문 데이터베이스를 활용하면 더 믿을 만한 답변을 들을 수 있어요. 이건 생물학뿐 아니라 다른 분야에서도 비슷한 기술로 확장될 가능성이 크죠.
---
### 마무리
GeneGPT는 AI가 생물학 정보를 더 똑똑하게 찾아주는 첫걸음이에요. 아직 완벽하지는 않지만, 이 기술이 발전하면 우리 모두가 유전자와 건강에 대해 더 쉽게 알 수 있는 날이 올 거예요. 여러분은 이 연구에서 어떤 점이 가장 흥미로웠나요? 댓글로 알려주세요! 😊

perplexity.ai

### 연구 요약: GeneGPT - 대형 언어 모델의 생물정보학 활용 증대
---
**연구 배경 – 이 연구가 왜 필요했는지**
대형 언어 모델(LLMs)은 자연어 처리(NLP) 분야에서 뛰어난 성과를 내고 있지만, 여전히 잘못된 정보를 생성하거나 과도한 일반화를 하는 "환각(hallucination)" 문제를 겪고 있습니다. 특히 생물정보학과 같은 전문 분야에서는 정확한 데이터 접근이 중요하기 때문에, 기존 LLM의 한계를 극복하고 더 신뢰할 수 있는 답변을 제공할 수 있는 방법이 필요했습니다[1].
---
**연구 목적 – 연구진이 알고자 했던 것**
이 연구는 LLM에 생물정보학 데이터베이스를 활용하는 능력을 부여하여 전문적인 질문에 더 정확히 답변할 수 있도록 하는 새로운 방법을 개발하는 것을 목표로 했습니다. 이를 위해 연구진은 GeneGPT라는 시스템을 설계하여, LLM이 NCBI(National Center for Biotechnology Information)의 웹 API를 통해 데이터를 검색하고 활용할 수 있도록 했습니다[1].
---
**데이터 또는 재료 설명 – 어떤 데이터나 재료가 사용되었는지**
GeneGPT는 NCBI의 웹 API를 사용하여 생물정보학 데이터베이스에 접근합니다. 이 API는 유전자 정보, 단백질 구조, DNA 서열 등을 포함한 38개의 데이터베이스를 제공합니다. 또한 BLAST API를 통해 DNA 또는 단백질 서열을 비교하여 유사성을 분석할 수 있습니다. 일반 사용자는 인터넷 연결만으로 이러한 데이터를 활용할 수 있습니다[1].
---
**연구 방법 – 연구가 어떻게 진행되었는지**
GeneGPT는 두 가지 주요 구성 요소로 이루어져 있습니다:
1. **특별히 설계된 프롬프트**: API 사용법에 대한 문서와 예시를 포함하여 LLM이 API 호출을 학습하도록 돕습니다.
2. **추론 알고리즘**: LLM이 질문을 이해하고 필요한 데이터를 검색한 후 API 호출 결과를 기반으로 답변을 생성하도록 설계되었습니다.
GeneGPT는 Codex라는 LLM을 기반으로 작동하며, 생물정보학 관련 질문에 대해 NCBI API를 호출해 데이터를 검색하고 이를 바탕으로 답변을 생성합니다[1].
---
**연구 결과 및 예시 – 어떤 결과가 나왔고, 일반인들이 이해할 수 있는 예시가 있다면 함께 설명**
GeneGPT는 GeneTuring이라는 생물정보학 질문 벤치마크에서 평균 점수 0.83을 기록하며 기존 모델(Bing, BioGPT 등)을 크게 능가했습니다. 예를 들어, 특정 질병과 관련된 유전자를 찾거나 DNA 서열의 위치를 인간 염색체와 매칭하는 작업에서 매우 높은 정확도를 보였습니다. 이는 일반인에게도 유용한 정보로, 특정 질병의 원인을 이해하거나 유전자 분석 결과를 해석하는 데 도움이 될 수 있습니다[1].

그냥 LLM에 물어보는 것보다는 이런 전문화된 LLM에 물어보면 조금 더 내가 원하는 답에 가까운 답변을 얻을 수 있었어요가 결론이네요. 각각 분야마다 특화된 LLM들을 만들면.... 근데 그러기에는 너무 세분화되어야하는 문제도 있을거 같은데.... 어떻게든 해결하겠죠 :)

출처: @ye._.vely618

목요일, 5월 02, 2024

Open Dart 활용하기 (1)

오늘은 전공 대신에 데이터 수집 관련한 내용을 올리려고 합니다.

데이터 수집 하는 테스트 하는데에 주식정보 만큼 좋은게 없어서 한번

투자공부하는 겸사겸사 dart 사이트에 제공하는 open dart를 활용하는 사용기를 시리즈로 올려보려고 합니다.

오늘은 그중에서 첫번째로 보통 국내 주식은 6자리 숫자 코드로 되어 있는데 open dart에서는 8자리의 별도 기업 코드를 사용하고 있어서 먼저, 그 기업코드를 확보해보도록 하겠습니다.

기업코드는 zip파일로 제공되고 있다고 >여기<에서 설명하고 있습니다.

결론적으로 API Key를 발급받아 crtfc_key=항목에 넣어주고 브라우저의 주소창에 넣어주면

corpCode.xml 파일을 다운로드 받을 수 있습니다.

https://opendart.fss.or.kr/api/corpCode.xml?crtfc_key=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

저장된 파일은 corpCode.xml이라고 하지만 사실은 zip로 압축된 파일!!

파일이름을 corpCode.xml에서 corpCode.zip 으로 변경해주고 압축을 해제하면 우리가 찾는 기업코드를 품고 있는 xml파일을 확인할 수 있습니다.

이 xml 파일에는 약 10만개정도의 기업코드가 기록되어 있는데.. 이는 상장회사 뿐만 아니라 dart에 공시를 올리는 모든 회사의를 구별하기 위한 코드입니다.

xml파일에서 필요한 정보(기업코드)를 뽑아서 tab delimited 파일을 생성하는 스크립트를 작성해보도록 하겠습니다.

import xml.etree.ElementTree as ET
# XML 파일 읽기
tree = ET.parse("CORPCODE.xml")
root = tree.getroot()
# 결과를 저장할 딕셔너리 생성
result = {}
# XML 파일의 각 리스트 항목을 순회
for item in root.findall("list"):
# 회사 이름, 회사 코드, 주식 코드 추출
corp_name = item.find("corp_name").text
corp_code = item.find("corp_code").text
stock_code = item.find("stock_code").text
# 딕셔너리에 추가
if stock_code.strip() == '':
stock_code = '-'
else:
pass
result[corp_code] = {"corp_name":corp_name, "stock_code": stock_code}
ow = open('CORPCODE.txt','w')
for key, value in result.items():
#print (f"{value['stock_code']}\t{value['corp_name']}\t{key}")
ow.write(f"{value['stock_code']}\t{value['corp_name']}\t{key}\n")
ow.close()