수요일, 11월 20, 2024

비침습적 산전 검사(NIPT)에 대한 모든 것: VeriSeq 연구를 중심으로

간만에 비침습적 산전 검사, NIPT/NIPS 논문을 가져와봤습니다. 제목은 Performance of cell-free DNA sequencing-based non-invasive prenatal testing: experience on 36,456 singleton and multiple pregnancies 으로 21년도 최근에 나온 논문인데 NIPT/NIPS의 유용성이라기 보다는 일루미나의 VeriSeq을 홍보하기 위한 논문으로 보시면 되겠습니다. 

DOI: 10.1186/s12920-021-00941-y


gemini

## 비침습적 산전 검사(NIPT)에 대한 모든 것: VeriSeq 연구를 중심으로

### NIPT란 무엇일까요?

NIPT는 **임산부의 혈액**을 통해 태아의 염색체 이상 유무를 확인하는 검사입니다. 과거에는 태아에게 직접적인 영향을 줄 수 있는 침습적인 방법으로 검사했지만, NIPT는 **안전하고 정확하게** 태아의 건강을 확인할 수 있다는 장점이 있습니다.

### WGS 기반 NIPT는 어떻게 작동할까요?

**WGS**는 **전체 유전체 염기서열 분석**을 의미합니다. 즉, 태아의 DNA를 구성하는 모든 염기서열을 읽어서 분석하는 것이죠. NIPT는 산모 혈액 속에 떠다니는 아주 작은 조각의 태아 DNA를 분석하여 염색체 이상 유무를 판단합니다.

### VeriSeq NIPT는 어떤 검사일까요?

**VeriSeq**는 Illumina라는 회사에서 개발한 NIPT 분석 시스템입니다. 이 시스템은 **NextSeq 550**이라는 장비를 사용하여 태아의 DNA를 정밀하게 분석합니다.

### VeriSeq의 장점은 무엇일까요?

* **정확도**: 연구 결과, VeriSeq는 다운증후군, 에드워드 증후군, 파타우 증후군과 같은 주요 염색체 이상을 거의 100% 정확하게 찾아냈습니다.

* **안전성**: 산모의 혈액만을 사용하므로 태아에게 전혀 해를 끼치지 않습니다.

* **효율성**: 명확한 분석 과정을 통해 빠르고 정확하게 결과를 얻을 수 있습니다.

### VeriSeq의 단점은 무엇일까요?

* **비용**: 다른 산전 검사에 비해 비용이 다소 높을 수 있습니다.

* **제한적인 검사 항목**: 현재는 주요 염색체 이상에 대한 검사에 집중되어 있습니다.

### VeriSeq와 다른 NIPT 검사의 차이점은 무엇일까요?

기존의 NIPT 검사도 있지만, VeriSeq는 **표준화된 분석 과정**과 **정밀한 장비**를 통해 더욱 **정확하고 신뢰할 수 있는 결과**를 제공합니다.

### 연구 결과는 어떻게 해석해야 할까요?

이 연구는 VeriSeq이 **대규모 임산부를 대상으로 매우 높은 정확도**를 보였다는 것을 입증했습니다. 특히, **다태아 임신**에서도 우수한 성능을 보여 더욱 의미가 큽니다.

## 결론

VeriSeq NIPT는 **안전하고 정확하며 효율적인** 태아 염색체 이상 검사 방법입니다. 임산부는 VeriSeq을 통해 태아의 건강을 미리 확인하고 안심할 수 있습니다.

**주의:** NIPT는 **선별 검사**이며, 정확한 진단을 위해서는 추가적인 검사가 필요할 수 있습니다. 검사 결과에 대한 궁금한 점은 담당 의사와 상담해야 합니다.

**간단히 정리하면:**

* NIPT는 산모 혈액으로 태아의 염색체 이상을 확인하는 검사입니다.

* VeriSeq는 NIPT 분석 시스템 중 하나로 정확도가 높습니다.

* VeriSeq은 안전하고 효과적인 검사 방법입니다.

* 검사 결과에 대한 자세한 내용은 의사와 상담해야 합니다.



clova-x

비침습적 산전 검사(NIPT)는 산모의 혈액을 통해 태아의 염색체 이상을 진단하는 검사입니다. 그 중에서도 WGS 기반의 NIPT는 가장 정확하고 민감한 검사로 알려져 있습니다.

이번 연구에서는 VeriSeq이라는 WGS 기반의 NIPT를 사용하여 단태아와 쌍태아의 염색체 이상을 진단하였습니다. 이 검사는 산모의 혈액에서 추출한 세포 유리 DNA를 분석하여 태아의 염색체 이상을 감지합니다.

VeriSeq은 염색체 이상을 감지하기 위해 Likelihood Ratio(LLR) 점수를 계산합니다. 이 점수는 태아의 염색체 이상 여부를 판단하는 데 사용됩니다. 연구 결과, VeriSeq은 단태아와 쌍태아 모두에서 높은 정확도와 민감도를 보였습니다. 특히, 다운 증후군, 에드워드 증후군, 파타우 증후군 및 성염색체 이상을 감지하는 데 있어 높은 정확도를 나타냈습니다.

이 기술의 장점은 높은 정확도와 민감도를 가지고 있어 태아의 염색체 이상을 조기에 발견할 수 있다는 점입니다. 또한, 산모와 태아에게 안전한 비침습적 검사이기 때문에 불필요한 침습적 검사를 줄일 수 있습니다. 그러나 비용이 상대적으로 비싸고, 검사 결과가 나오기까지 시간이 걸린다는 단점이 있습니다.

기존의 WGS 기반 NIPT와 비교했을 때, VeriSeq은 더 높은 정확도와 민감도를 보입니다. 또한, 단태아뿐만 아니라 쌍태아에서도 높은 성능을 보여줍니다. 따라서, 태아의 염색체 이상을 진단하는 데 있어 매우 유용한 검사라고 할 수 있습니다.



chatGPT

### 이해하기 쉬운 비침습적 산전 검사(NIPT) 이야기: VeriSeq와 기존 WGS 기반 NIPT의 차이점과 성능 비교

최근 비침습적 산전 검사(NIPT)는 많은 임산부들이 선택하는 중요한 산전 검사로 자리 잡았습니다. 비침습적이라는 말처럼, 이 검사는 단순히 임산부의 혈액만으로도 태아의 건강 상태를 확인할 수 있어 안전하고 효과적인 검진 방식입니다. 이번 블로그에서는 특히 **VeriSeq**라는 최신 검사 방식과 기존의 **전장 유전체 시퀀싱(WGS) 기반 NIPT**의 차이점과 장단점을 살펴보도록 하겠습니다.

### WGS 기반 비침습적 산전 검사(NIPT)란?

먼저, WGS 기반 NIPT란 임산부의 혈액에서 태아의 DNA를 분석해 태아의 염색체 이상을 조기에 발견하는 검사입니다. 기존 WGS 기반 NIPT는 **21번, 18번, 13번 염색체**와 같은 특정 염색체 이상을 주로 검사합니다. 대표적인 예로 다운증후군(21번 삼염색체), 에드워즈증후군(18번 삼염색체), 파타우증후군(13번 삼염색체) 등이 있습니다. 

이 WGS 기반 NIPT는 태아의 DNA 정보를 전반적으로 분석해 중요한 염색체 이상 여부를 알려줍니다. 그러나 VeriSeq는 기존 WGS와 비교해 더 높은 성능과 신뢰성을 제공하는 것이 특징입니다.

### VeriSeq의 장점과 차별점

VeriSeq는 **Illumina**에서 개발한 고성능 WGS 기반 NIPT 솔루션으로, 기존 NIPT보다 개선된 성능을 자랑합니다. 아래는 VeriSeq의 주요 장점입니다.

1. **높은 정확도**  

   VeriSeq는 태아의 염색체 이상을 매우 정확하게 검출할 수 있는 기술입니다. 연구 결과에 따르면 다운증후군, 에드워즈증후군, 파타우증후군에 대한 민감도가 **100%**에 달하는 등 높은 신뢰성을 보여줍니다. 또한 VeriSeq는 성염색체 이상(SCA) 검출에서도 우수한 성능을 보입니다.

2. **다태 임신에서의 적용성**  

   기존 WGS 기반 NIPT는 단태 임신에 최적화되어 있어 다태 임신(쌍둥이, 삼태아 등)에서는 정확도가 떨어질 수 있습니다. 반면 VeriSeq는 다태 임신에서도 높은 신뢰도를 유지해 여러 태아의 염색체 이상 여부를 각각 분석하고 결과를 제공할 수 있습니다. 

3. **조기 발견 가능**  

   VeriSeq는 임신 9주차부터 사용할 수 있어, 태아의 상태를 조기에 확인하는 데 유용합니다. 특히 초기 단계에 태아의 건강 상태를 알 수 있어 임산부에게 큰 안도감을 줄 수 있습니다.

4. **낮은 재검사 비율**  

   VeriSeq는 검사의 신뢰성과 표준화된 품질 관리 절차를 통해 첫 검사 실패율이 낮습니다. 따라서 불필요한 재검사를 줄일 수 있어 검사의 효율성을 높입니다.

### VeriSeq의 한계

VeriSeq가 가진 장점에도 불구하고 일부 한계도 존재합니다.

- **비용**: WGS 기반의 검사는 데이터 분석이 복잡하고 기술적 요구사항이 높아 비용이 상대적으로 비쌉니다.

- **특정 유전자 변이 탐지의 제한**: VeriSeq는 주로 큰 염색체 이상에 대한 검출이 강점이므로, 세밀한 유전자 변이까지는 탐지하기 어렵습니다.

### 결론: VeriSeq는 안전하고 신뢰성 높은 선택

VeriSeq는 기존 WGS 기반 NIPT보다 더 높은 정확도와 안정성을 자랑하며, 특히 다태 임신에서도 신뢰할 수 있는 결과를 제공합니다. 임신 초기부터 태아의 건강 상태를 안전하게 확인할 수 있어, 임산부가 불필요한 침습적 검사 없이도 태아의 염색체 이상 여부를 안심하고 확인할 수 있습니다. 

이와 같은 이유로 VeriSeq는 비침습적 산전 검사(NIPT)를 고려하는 모든 임산부에게 효과적이고 신뢰성 있는 선택지가 될 수 있습니다.



NotebookLM

## 일반인도 이해하는 비침습적 산전 검사(NIPT): WGS 기반 VeriSeq NIPT

**비침습적 산전 검사(NIPT)**는 임산부 혈액에서 태아의 DNA를 분석하여 태아의 염색체 이상 여부를 확인하는 검사입니다. 과거에는 염색체 이상을 확인하기 위해 양수검사나 융모막 검사와 같은 침습적 검사를 시행했는데, 이러한 검사들은 유산의 위험을 동반했습니다. 하지만 NIPT는 임산부 혈액만을 채취하기 때문에 침습적 검사에 비해 안전하며 높은 정확도를 가지고 있어 최근 산전 검사 분야에서 혁신적인 기술로 주목받고 있습니다. 

본 논문에서는 WGS 기반의 NIPT 기술 중 하나인 VeriSeq NIPT Solution v1을 이용하여 태아의 21번, 18번, 13번 삼염색체증과 성염색체 이상을 검사한 결과를 보고하고 있습니다.

### 1. WGS 기반 NIPT란 무엇인가요?

**WGS(Whole Genome Sequencing)**는 유전체 전체의 DNA 염기서열을 분석하는 기술입니다. WGS 기반 NIPT는 임산부 혈액에서 추출한 cfDNA를 WGS 기술로 분석하여 태아의 염색체 이상을 검출합니다. 

기존의 NIPT 검사는 특정 염색체만을 분석하는 표적 염기서열 분석 (Targeted Sequencing) 방식을 사용했습니다. 반면, WGS 기반 NIPT는 전체 유전체를 분석하기 때문에 더 많은 정보를 얻을 수 있다는 장점이 있습니다.

### 2. VeriSeq NIPT의 장단점

#### 장점

* **높은 정확도:** VeriSeq NIPT는 21번, 18번, 13번 삼염색체증과 성염색체 이상을 검사하는 데 높은 정확도를 보여줍니다.

* **낮은 위양성률:** VeriSeq NIPT는 위양성률이 매우 낮아 불필요한 침습적 검사를 줄일 수 있습니다.

* **다태아 임신에도 적용 가능:** VeriSeq NIPT는 단태아뿐만 아니라 쌍둥이와 같은 다태아 임신에도 적용할 수 있습니다.

* **태아 DNA 비율 측정:** VeriSeq NIPT는 태아 DNA 비율을 정확하게 측정할 수 있어 검사의 정확도를 높입니다.

* **광범위한 염색체 이상 검출 가능성:** WGS 기반 NIPT는 표적 염기서열 분석 방식보다 더 많은 유전 정보를 분석하기 때문에 염색체 미세결실/중복 증후군과 같은 다른 염색체 이상을 검출할 수 있는 가능성을 제공합니다.

#### 단점

* **검사 비용:** WGS 기반 NIPT는 기존의 표적 염기서열 분석 방식보다 검사 비용이 높을 수 있습니다. (출처에서 언급되지 않음)

* **검사 결과 해석의 복잡성:** WGS 기반 NIPT는 방대한 유전 정보를 분석하기 때문에 결과 해석이 복잡할 수 있으며, 전문적인 지식을 요구합니다. (출처에서 언급되지 않음)

### 3. 기존 WGS 기반 NIPT와 VeriSeq의 차이점 및 성능 비교

기존 WGS 기반 NIPT와 VeriSeq의 차이점은 본 논문에서 명확하게 제시되지 않았습니다. 하지만 VeriSeq NIPT는 다음과 같은 특징을 가지고 있어 기존 WGS 기반 NIPT보다 향상된 성능을 보여줄 수 있습니다.

* **읽기 길이 및 적용 범위 프로필 기반 태아 DNA 비율 추정 기능:** VeriSeq NIPT는 읽기 길이와 적용 범위 프로필을 기반으로 태아 DNA 비율을 정확하게 추정할 수 있습니다.

* **비표적 염색체의 이수성 영향 고려:** VeriSeq NIPT는 비표적 염색체의 이수성이 이수성 점수에 미치는 영향을 고려하여 분석합니다.

* **이수성 점수와 태아 DNA 비율 추정치 비교 기능:** VeriSeq NIPT는 이수성 점수와 태아 DNA 비율 추정치를 비교하여 분석의 정확도를 높입니다.

### 4. VeriSeq NIPT 연구 결과

* **높은 검출률:** 본 연구에서 VeriSeq NIPT는 36,456명의 임산부를 대상으로 검사를 시행한 결과 21번, 18번, 13번 삼염색체증과 성염색체 이상에 대해 높은 검출률을 보였습니다.

* **낮은 위양성률:** VeriSeq NIPT는 위양성률이 매우 낮아 불필요한 침습적 검사를 최소화할 수 있었습니다.

* **다태아 임신에서도 우수한 성능:** VeriSeq NIPT는 쌍둥이 임신에서도 높은 정확도를 보였으며, 검사 실패율 또한 낮았습니다.

### 5. 결론

VeriSeq NIPT는 높은 정확도와 낮은 위양성률을 가진 WGS 기반 NIPT 기술로, 단태아 및 다태아 임신에서 태아의 염색체 이상을 효과적으로 검사할 수 있습니다. 이는 임산부들이 안전하고 정확하게 태아의 건강 상태를 확인할 수 있도록 돕는 중요한 기술입니다. 


음.. 전반적으로 LLM 엄지척 이긴한데, 어차피 VeriSeq이나 WGS(Shallow/Low-Pass)이랑 동일한것인데 이걸 비교해서 설명해달라고 하니 어거지로 비교를 하다보니 이상한 내용들이 좀 들어가 있는 듯합니다.

VeriSeq이 쌍태아에서도 확인한걸로 알고 있는데 검증 건수가 몇건인지는 잘 모르겠지만, 단태아 기준으로는 다국적으로 기존까지 있었던 검증 데이터 중에는 아마 King王짱일겁니다. 우리가 VreiSeq보다 더 오래 서비스했다라고 해도 지금까지 테스트한 데이터지 검증 데이터 개수로는.... "공식"적으로 표시할 수 있는 샘플 개수로는 아마 지금까지 없었고, 이후에는 할 필요가..... VeriSeq이 가격만 아름답게 매겨준다면...  (당연히 그러지 않겠지만 말입니다.)


여튼 NIPT/NIPS 검사를 키트화하여 판매하고 있는 VeriSeq를 이탈리아에서 수행한 검사 결과 논문 소개 였습니다. :)


출처: @ye._.vely618


월요일, 11월 18, 2024

유전자와 질병, 그 관계를 밝히는 연구 이야기; OR, IRR의 개념과 중요성

오늘은 제가 잘 다루지는 않지만 DTC 등 질병과 밀접한 관련이 있지 않은 조금은 캐주얼한 유전자 검사에 유용한 내용을 다루는 논문을 한번 가져와봤습니다. 제목은 The importance of distinguishing between the odds ratio and the incidence rate ratio in GWAS 입니다.

DOI: 10.1186/s12881-015-0210-1


이번엔 기존 LLM에 더해서 perplexity에게도 물어보았습니다. :)


gemini

## 유전자와 질병, 그 관계를 밝히는 연구 이야기: 승산비와 발생률 비의 중요성

's12881-015-0210-1.pdf' 파일은 전장 유전체 연관 분석(GWAS)에서 **승산비(Odds Ratio, OR)** 와 **발생률 비(Incidence Rate Ratio, IRR)** 를 구분하는 것의 중요성에 대한 논문입니다. 쉽게 말해, 유전자와 질병 사이의 관계를 파악하는 연구에서 흔히 사용되는 두 가지 지표인 승산비와 발생률 비가 어떤 차이가 있는지, 그리고 왜 그 차이가 중요한지를 다룬 논문입니다.

**전장 유전체 연관 분석(GWAS)** 이란, 우리 몸의 유전 정보 전체를 분석하여 특정 질병과 관련된 유전자 변이를 찾아내는 연구 방법입니다. 

**유전자 변이** 란, 사람마다 유전 정보가 조금씩 다른 것을 의미합니다. 예를 들어 눈동자 색깔이나 머리카락 색깔이 다른 것처럼, 질병에 대한 감수성도 유전자 변이에 따라 다를 수 있습니다.

GWAS에서는 **승산비** 라는 지표를 주로 사용합니다. 승산비는 특정 유전자 변이를 가진 사람이 그 변이가 없는 사람에 비해 질병에 걸릴 확률이 얼마나 높은지를 나타냅니다. 예를 들어, A라는 유전자 변이를 가진 사람이 B라는 질병에 걸릴 승산비가 2라면, A 변이를 가진 사람은 그 변이가 없는 사람에 비해 B 질병에 걸릴 확률이 2배 높다는 것을 의미합니다.

하지만 승산비는 **특정 시점에** 질병에 걸려 있을 확률만을 보여주기 때문에, 시간에 따른 질병 발생률을 제대로 반영하지 못할 수 있습니다. 즉, A 변이를 가진 사람이 B 질병에 걸릴 확률이 2배 높더라도, B 질병에 걸리기 전에 다른 원인으로 사망할 확률 또한 높다면 실제 B 질병 발생률은 2배보다 낮을 수 있습니다.

이러한 문제를 해결하기 위해 **발생률 비** 라는 지표를 사용할 수 있습니다. 발생률 비는 **시간이 지남에 따라** 질병에 걸릴 확률을 나타냅니다. 즉, A 변이를 가진 사람이 B 질병에 걸릴 발생률 비가 2라면, A 변이를 가진 사람은 그 변이가 없는 사람에 비해 B 질병에 걸릴 위험이 2배 높다는 것을 의미합니다.

논문에서는 유전자 변이가 수명과 관련된 경우, 승산비가 실제 발생률 비보다 높게 추정될 수 있다는 것을 보여줍니다. 예를 들어, C라는 유전자 변이를 가진 사람이 D라는 질병에 걸릴 확률은 높지만, 동시에 더 오래 살 수 있다면, D 질병에 걸릴 승산비는 높게 나타나지만 실제 발생률 비는 그보다 낮을 수 있습니다.

**False positive** 란, 실제로는 관련이 없는데 관련이 있는 것처럼 잘못 판단하는 것을 의미합니다. **False negative** 란, 실제로는 관련이 있는데 관련이 없는 것처럼 잘못 판단하는 것을 의미합니다. 유전자 변이와 질병 발생률 사이의 연관성을 연구할 때, false positive 또는 false negative 결과가 나올 수 있습니다. 특히 승산비만을 사용하는 경우, 유전자 변이가 수명과 관련된 경우 false positive 결과가 나올 수 있고, 반대로 유전자 변이가 다른 질병의 위험을 높이는 경우 false negative 결과가 나올 수 있습니다.

따라서 질병의 원인을 정확하게 파악하기 위해서는 발생률 비를 사용하는 것이 더 적절합니다. 발생률 비는 시간에 따른 질병 발생률을 고려하기 때문에, 유전자 변이가 수명이나 다른 질병에 미치는 영향을 배제하고 질병 발생에 대한 유전자 변이의 순수한 영향을 파악할 수 있습니다.

결론적으로, 유전자와 질병 사이의 관계를 연구할 때 승산비와 발생률 비의 차이를 이해하고, 연구 목적에 맞는 지표를 선택하는 것이 중요합니다. 특히 질병의 원인을 파악하는 것이 목적이라면, 발생률 비를 사용하는 것이 더 정확한 결과를 얻을 수 있습니다.



clova-x

전장 유전체 연관 분석(GWAS)은 유전자 변이와 특정 질병 사이의 연관성을 조사하는 연구 방법입니다. 이 분석을 통해 특정 유전자 변이가 특정 질병의 발생 위험을 증가시키는지 여부를 파악할 수 있습니다.

GWAS에서 주로 사용되는 두 가지 지표는 승산비(Odds Ratio, OR)와 발생률 비(Incidence Rate Ratio, IRR)입니다. 이 두 지표는 질병의 발생률과 유병률을 각각 측정하지만, 서로 다른 방식으로 계산되며, 연구 설계와 분석 방법도 다릅니다.

- **승산비(Odds Ratio, OR)**: 이는 질병에 걸린 그룹과 질병에 걸리지 않은 그룹 사이의 유전자 변이 빈도를 비교하여 계산됩니다. OR이 1보다 크면, 해당 유전자 변이가 질병의 발생 위험을 증가시키는 것으로 해석됩니다. 그러나, OR은 질병의 발생률이 아닌 유병률을 측정한다는 점에 유의해야 합니다. 즉, OR은 이미 질병에 걸린 사람들 사이의 유전자 변이 빈도를 나타내는 것입니다.

- **발생률 비(Incidence Rate Ratio, IRR)**: 이는 특정 기간 동안 새로 질병에 걸린 사람들 사이의 유전자 변이 빈도를 측정합니다. IRR은 질병의 발생률을 직접적으로 나타내며, OR과는 달리 질병에 걸리기 전의 유전자 변이 빈도를 고려합니다. 따라서, IRR은 질병의 원인을 파악하는 데 더 유용한 지표일 수 있습니다.

연구 설계와 분석 시, false positive와 false negative 문제를 주의해야 합니다. False positive는 유전자 변이와 질병 사이에 실제로는 연관성이 없는데도 불구하고, 통계적 오류로 인해 연관성이 있는 것으로 잘못 판단하는 것을 말합니다. 반대로, false negative는 실제로는 연관성이 있는데도 불구하고, 이를 발견하지 못하는 것을 의미합니다. 이러한 오류를 최소화하기 위해서는 충분한 샘플 크기와 적절한 통계적 방법을 사용해야 합니다.

또한, 질병의 원인을 파악할 때는 경쟁 이벤트를 고려해야 합니다. 예를 들어, 어떤 유전자 변이가 조기 사망과 동시에 특정 질병의 발생 위험을 증가시킨다면, 단순히 해당 유전자 변이와 질병 사이의 연관성만을 분석하는 것으로는 질병의 원인을 제대로 파악할 수 없습니다. 이 경우, 경쟁 이벤트를 고려한 연구 설계와 분석 방법이 필요합니다.

요약하면, GWAS에서 유전자 변이와 질병 사이의 연관성을 분석할 때는 OR과 IRR을 구분하여 사용해야 하며, 연구 설계와 분석 시 false positive와 false negative 문제, 그리고 경쟁 이벤트를 고려해야 합니다. 이를 통해 보다 정확한 질병의 원인 파악과 예방, 치료 방법 개발에 기여할 수 있습니다.



chatGPT

이 논문은 GWAS(유전체 연관 연구)에서 **오즈 비율(OR)**과 **발생률 비율(IRR)**을 구분하는 것이 중요한 이유를 설명하고 있습니다. 일반인이 이해하기 쉽게 차근차근 설명해 보겠습니다.

### 1. 유전체 연관 연구(GWAS)란?

유전체 연관 연구는 사람의 유전자 변이가 특정 질병과 어떻게 관련되어 있는지 알아보는 연구입니다. 예를 들어, 어떤 유전자가 특정 암에 걸릴 가능성을 높이는지 확인하는 것입니다. 이 연구를 통해 밝혀진 유전자 변이는 질병을 예방하거나 치료할 수 있는 방법을 찾는 데에 도움을 줍니다.

### 2. 오즈 비율(OR)과 발생률 비율(IRR)란?

OR과 IRR은 유전자와 질병의 연관성을 평가할 때 사용하는 통계 지표입니다. 그러나 두 지표는 중요한 차이점을 가지고 있습니다.

- **오즈 비율(OR)**: 특정 유전자가 질병에 걸릴 확률을 상대적으로 보여줍니다. 예를 들어, 특정 유전자를 가진 사람이 질병에 걸린 비율을 가지고 있지 않은 사람과 비교하는 방식입니다. 전통적인 사례-대조 연구(case-control study)에서 많이 쓰입니다.

 - **발생률 비율(IRR)**: 시간에 따른 질병 발생률을 평가합니다. 즉, 유전자가 병에 걸릴 가능성을 시간 경과에 따라 평가하며, 질병의 발생과 관련된 실제 위험을 더 잘 나타내는 경우가 많습니다. IRR은 사건이 시간에 따라 발생하는 비율을 측정하는 데 유용합니다.

이 논문에서는 두 지표를 각각 사용할 때 어떤 차이가 발생하는지 설명합니다. 특히, 유전자 변이가 질병뿐 아니라 다른 사건(예: 사망)과 관련이 있는 경우, OR과 IRR의 값이 달라질 수 있음을 발견했습니다.

### 3. 거짓 양성(False Positive)과 거짓 음성(False Negative) 발생 시 주의점

- **거짓 양성**: 유전자 변이가 실제로 질병과 관련이 없지만 통계적으로 연관이 있는 것처럼 보이는 경우입니다. 예를 들어, 특정 유전자가 심장병과 관계가 없는데도 연구 설계나 데이터 해석 오류로 인해 관계가 있는 것처럼 나타날 수 있습니다. 이런 경우 잘못된 정보를 바탕으로 치료법을 개발하면 효과가 없거나 오히려 부작용이 생길 수 있습니다.

- **거짓 음성**: 반대로, 유전자 변이가 실제로 질병과 관련이 있지만, 통계적으로 관계가 없는 것처럼 보이는 경우입니다. 중요한 유전자 변이를 놓치게 되어 효과적인 치료법을 놓칠 수 있습니다.

OR을 사용할 때는 특히 질병의 유병률(얼마나 많은 사람들이 현재 그 질병을 가지고 있는지)에 민감할 수 있습니다. 따라서 OR만을 사용할 경우, 질병의 원인을 잘못 해석할 위험이 있으며, 이는 거짓 양성 및 거짓 음성을 일으킬 가능성을 높입니다.

### 4. 질병 원인을 찾을 때 주의할 점

질병의 정확한 원인을 찾기 위해서는 OR보다는 IRR을 사용하는 것이 좋습니다. IRR은 유전자가 특정 시점에 병에 걸리는 위험도를 더 정확하게 보여주기 때문입니다. 논문에서는 OR을 사용한 경우와 IRR을 사용한 경우 결과가 상당히 달라질 수 있음을 시뮬레이션을 통해 보여줬습니다. 특히 OR을 사용하면 질병의 빈도가 높은 상황에서 잘못된 결론을 내릴 수 있다고 설명하고 있습니다.

### 결론

이 논문은 유전자 변이와 질병 간의 관계를 연구할 때 OR과 IRR의 차이를 이해하고, 적절한 상황에서 적합한 지표를 선택하는 것이 중요하다고 강조합니다.



NotebookLM

## GWAS, OR, IRR의 개념과 중요성

선택하신 논문은 **전장 유전체 연관 분석(GWAS)**에서 **승산비(Odds Ratio, OR)**와 **발생률 비(Incidence Rate Ratio, IRR)**를 구분하는 것의 중요성을 설명하고 있습니다. 생명공학이나 GWAS에 대한 배경지식이 없는 일반인도 이해할 수 있도록, 논문의 내용을 바탕으로 자세히 설명해 드리겠습니다.

### 1. GWAS란?

GWAS는 **Genome-Wide Association Study**의 약자로, **유전체 전체 연관 분석**이라고 합니다. 쉽게 말해, **우리 몸의 DNA를 구성하는 모든 유전자를 분석하여 특정 질병과 관련된 유전적 변이를 찾는 연구 방법**입니다. GWAS는 많은 질병의 유전적 원인을 밝혀내는 데 큰 역할을 하고 있습니다.

### 2. OR과 IRR이란?

* **OR(Odds Ratio, 승산비)**은 **특정 유전자 변이를 가진 사람들이 질병에 걸릴 확률**을 **그 변이를 가지고 있지 않은 사람들이 질병에 걸릴 확률**과 비교한 값입니다. 

* **IRR(Incidence Rate Ratio, 발생률 비)**은 **특정 유전자 변이를 가진 사람들이 질병에 걸리는 속도**를 **그 변이를 가지고 있지 않은 사람들이 질병에 걸리는 속도**와 비교한 값입니다. 

**OR은 특정 시점에서 질병의 유병률을 기반으로 계산되는 반면, IRR은 특정 기간 동안 질병 발생률을 기반으로 계산됩니다.** 

### 3. OR과 IRR을 구분해야 하는 이유

논문에서는 **OR과 IRR을 구분하는 것이 중요하다고 강조합니다.** 특히 **'경쟁 이벤트'** 라는 개념을 통해 그 중요성을 설명하고 있습니다. 경쟁 이벤트는 **관심 질병 이외에 개인이 겪을 수 있는 다른 사건**, 예를 들어 사망, 이민 등을 의미합니다. 

* **특정 유전자 변이가 질병뿐만 아니라 경쟁 이벤트에도 영향을 미치는 경우,**  **OR은 실제 질병 발생 위험을 정확하게 반영하지 못할 수 있습니다.** 예를 들어, 어떤 유전자 변이가 암 발생 위험을 높이지만 동시에 수명을 단축시키는 경우, OR은 실제 암 발생 위험보다 과대평가될 수 있습니다. 이는 수명이 단축되어 암에 걸릴 시간이 줄어들기 때문입니다.

* **반면 IRR은 경쟁 이벤트의 영향을 배제하고 질병 발생 속도만을 고려하기 때문에,** **OR보다 유전자 변이와 질병 발생 간의 연관성을 더 정확하게 측정할 수 있습니다.** 

### 4. False Positive, False Negative 문제

* **False Positive (위양성):** 실제로는 유전자 변이와 질병 사이에 연관성이 없는데, 연관성이 있는 것으로 잘못 판단하는 경우입니다. 

* **False Negative (위음성):** 실제로는 유전자 변이와 질병 사이에 연관성이 있는데, 연관성이 없는 것으로 잘못 판단하는 경우입니다.

논문에서는 **OR을 사용하는 경우, 경쟁 이벤트의 영향으로 인해 False Positive 또는 False Negative 결과가 발생할 수 있다고 지적**합니다. 

* **특정 유전자 변이가 수명을 연장시키는 경쟁 이벤트와 관련된 경우,** OR은 실제보다 높게 추정되어 False Positive 결과를 낳을 수 있습니다.

* **반대로 유전자 변이가 수명을 단축시키는 경쟁 이벤트와 관련된 경우,** OR은 실제보다 낮게 추정되어 False Negative 결과를 낳을 수 있습니다.

**따라서 질병의 원인을 정확하게 파악하기 위해서는,** **IRR을 사용하여 유전자 변이와 질병 발생 간의 연관성을 분석하는 것이 중요합니다.**

### 5. 질병 원인 파악 시 주의 사항

* **경쟁 이벤트**: 질병 발생에 영향을 미칠 수 있는 다른 요인들을 고려해야 합니다.

* **연구 설계**: 발생 밀도 표본 추출과 같이 경쟁 이벤트의 영향을 최소화할 수 있는 연구 설계를 선택해야 합니다.

* **OR과 IRR의 차이**: OR과 IRR의 차이를 이해하고, 연구 목적에 맞는 적절한 지표를 사용해야 합니다.

**결론적으로, GWAS를 통해 질병과 관련된 유전자 변이를 찾고 그 영향을 정확하게 분석하기 위해서는,** **OR과 IRR의 차이점을 이해하고, 경쟁 이벤트와 같은 다른 요인들을 고려하는 것이 중요합니다.**

**참고:** 본 답변은 제공된 논문의 내용을 바탕으로 작성되었습니다. 논문에서 다루지 않은 내용에 대한 추가적인 정보는 다른 자료를 참고하거나 전문가에게 문의하시기 바랍니다.



perplexity

전장 유전체 연관 분석(GWAS)과 관련된 중요한 개념들을 일반인들이 이해하기 쉽게 설명해드리겠습니다.

## GWAS란 무엇인가?

전장 유전체 연관 분석(GWAS)은 우리 몸의 유전적 변이와 질병 사이의 관계를 찾는 연구 방법입니다. 쉽게 말해, 특정 유전자 변이를 가진 사람들이 어떤 질병에 더 잘 걸리는지 또는 덜 걸리는지를 대규모로 조사하는 것입니다.

## 승산비(OR)와 발생률 비(IRR)의 차이

GWAS에서는 주로 두 가지 통계적 지표를 사용합니다:

1. **승산비(Odds Ratio, OR)**: 질병에 걸린 사람들과 걸리지 않은 사람들 사이에 특정 유전자 변이의 빈도 차이를 나타냅니다.

2. **발생률 비(Incidence Rate Ratio, IRR)**: 시간이 지남에 따라 특정 유전자 변이를 가진 사람들이 질병에 걸리는 속도의 차이를 나타냅니다.

## 나뭇잎 비유를 통한 이해

이 개념을 이해하기 위해 논문에서는 나무와 나뭇잎의 비유를 사용했습니다:

- 나무에는 무거운 잎과 가벼운 잎이 있습니다 (유전자 변이를 나타냄).

- 잎이 떨어져 땅에 닿으면 분해됩니다 (사망을 의미).

- 잎이 콘크리트 위에 떨어지면 병에 걸린 것을 의미합니다.

이 비유에서:

- 콘크리트 위의 잎의 수는 질병의 유병률을 나타냅니다 (OR과 관련).

- 나무에서 콘크리트로 떨어지는 잎의 속도는 질병의 발생률을 나타냅니다 (IRR과 관련).

## 연구 설계의 중요성

논문은 두 가지 연구 설계 방법을 비교합니다:

1. **고전적 환자-대조군 연구**: 특정 시점에 질병에 걸린 사람들과 걸리지 않은 사람들을 비교합니다 (OR 계산).

2. **발생밀도 표본추출**: 질병에 걸린 시점을 기준으로 그 때 아직 질병에 걸리지 않은 사람들과 비교합니다 (IRR 계산).

## 주의해야 할 점

1. **경쟁 사건의 영향**: 어떤 유전자 변이가 특정 질병뿐만 아니라 다른 사건(예: 조기 사망)과도 연관될 수 있습니다. 이를 고려하지 않으면 잘못된 결론을 내릴 수 있습니다.

2. **거짓 양성과 거짓 음성**: 

   - 거짓 양성: 실제로는 연관이 없는데 있다고 잘못 결론 내리는 경우

   - 거짓 음성: 실제로는 연관이 있는데 없다고 잘못 결론 내리는 경우

   연구 설계에 따라 이러한 오류의 가능성이 달라질 수 있습니다.

3. **질병의 원인 파악**: 질병의 원인을 정확히 이해하려면 발생밀도 표본추출 방법이 더 적합할 수 있습니다. 이 방법은 질병에 걸리는 과정을 더 잘 반영하기 때문입니다.

## 결론

GWAS에서 OR과 IRR의 차이를 이해하는 것은 매우 중요합니다. 연구 목적에 따라 적절한 방법을 선택해야 하며, 경쟁 사건의 존재를 고려해야 합니다. 이를 통해 유전자와 질병 간의 관계를 더 정확하게 이해할 수 있으며, 잘못된 결론을 내릴 위험을 줄일 수 있습니다.


결론은 여차하면 잘못된 결론을 내릴 수 있기 때문에, 항상 주의해야 할 듯 합니다.

처음으로 perplexity를 활용했는데, 음... 프롬프트가 검색으로 사용하는데 설정된 perplexity에게는 적절하지 않았나봅니다. 제가 사용하는 프롬프트가 대부분 이거 요약해줘 뿌잉 뿌잉이라서 생각보다 결과물이 좋지는 않은듯 하네요

다음에 또 유익한 논문을 들고 오도록 하겠습니다.


출처: @ye._.vely618


일요일, 11월 17, 2024

개인프로젝트 -기간 수익률을 계산해보자-

오늘은 기간 수익률을 계산해보는 스크립트를 작성해보았습니다.

오늘 스크립트는 특정 기간 동안의 수익률을 계산하는 데 시작 시점을 하루씩 이동시키면서 어떻게 변화화는지 보고자하는 스크립트입니다.


코드  investment_returns.py


오늘은 지난번 처럼 boxplot 같은 figure를 그려주지는 않습니다.

특정 주식의 1개월, 3개월 등등 기간의 수익률을 주가 첫 날을 기준으로 하루씩 이동하면서 계산 해주는 스크립트 되겠습니다.

음.. 보통은 1년동안 5년동안 10년동안 분할매수해서 투자하시면 잃지 않는 투자 할 수 있습니다. 라는 설명할때 보여지는 그래프를 만들려고 했는데, 아직 설명이 미천한지라 못했고, 간단히 투자 시작 날짜 종가와 투자 마지막날 종가 기준으로 투자 시작 날짜를 하루씩 이동 시키면서 수익률이 어떻게 변하는지 확인하는 스크립트를 제작해보았습니다.

예제에는 AAPL을 넣어놨는데 이런건 보통 SPY나 SCHD를 사용합니다.  :)



출처: @ye._.vely618


토요일, 11월 16, 2024

희귀 질환 진단의 새로운 희망; HiFi

오늘은 최근에 medrxiv에 올라온 논문을 가져와봤습니다. 미래 진단은 결국 Long-read로 해야지 정확도든 찾고싶은거든 다 할 수 있을 것 이라는 믿음이 있는바 가져와봤습니다. :) 제목은 HiFi long-read genomes for difficult-to-detect clinically relevant variants 입니다.

DOI: 10.1101/2024.09.17.24313798

조만간 좋은 저널지로 둥지를 옮기기전에 잽싸게 LLM에 물어보았습니다. 


gemini

## 희귀 질환 진단의 혁신: Long-Read 시퀀싱 기술

안녕하세요, 저는 Long-Read 시퀀싱 분석 전문가입니다. 오늘은 희귀 질환 진단에 혁신을 가져올 수 있는 Long-Read 시퀀싱 기술에 대한 최신 연구 논문을 소개하고자 합니다. 특히, 이 논문에서는 "HiFi"라는 Long-Read 시퀀싱 방법을 사용하여 기존의 Short-Read 방식으로는 찾기 어려웠던 희귀 질환 관련 유전자 변이를 찾아내는 가능성을 평가했습니다.

### 희귀 질환 진단, 왜 어려울까요?

우리 몸의 유전 정보는 DNA라는 아주 긴 사슬에 담겨 있습니다. 희귀 질환은 이 DNA 사슬에서 아주 작은 부분이 변형되어 발생하는 경우가 많습니다. 이러한 변형을 '변이'라고 부르는데, 마치 방대한 책 속에서 오타를 찾는 것처럼 희귀 질환의 원인이 되는 변이를 찾아내는 것은 매우 어려운 일입니다.

기존에는 Short-Read라는 기술을 사용하여 DNA를 짧게 잘라서 읽어냈습니다. 이는 마치 책을 몇 글자 단위로 잘라서 읽는 것과 같아서, 문맥 파악이 어렵고 오타를 놓칠 가능성이 높았습니다. 특히, DNA의 복잡한 구조나 반복적인 부분에서는 더욱 그렇습니다.

### Long-Read 시퀀싱, 희귀 질환 진단의 새로운 희망

Long-Read 시퀀싱은 DNA를 훨씬 길게 읽어내는 기술입니다. 책을 문장이나 문단 단위로 읽는 것처럼 더 긴 맥락에서 유전 정보를 파악할 수 있기 때문에 Short-Read 방식보다 정확하게 변이를 찾아낼 수 있습니다.

이번 연구에서는 HiFi라는 Long-Read 시퀀싱 방법을 사용하여 희귀 질환 환자 100명의 유전 정보를 분석했습니다. 그 결과, 기존 Short-Read 방식으로는 찾기 어려웠던 145개의 변이 중 83%에 해당하는 120개를 HiFi 기술로 찾아내는 데 성공했습니다! 

### HiFi 기술, 얼마나 정확하고 실용적일까요?

HiFi 기술은 높은 정확도를 보여주었지만, 아직 몇 가지 해결해야 할 과제도 남아있습니다. 145개의 변이 중 7%는 여전히 HiFi 기술로도 찾아내기 어려웠습니다. 특히, DNA의 특정 반복 구조에서는 기술적인 어려움이 있었습니다.

하지만 희망적인 것은 HiFi 기술의 정확도가 매우 높다는 것입니다. 분석 결과, HiFi 기술로 찾아낸 변이 중 89%는 적은 양의 DNA 데이터만으로도 식별이 가능했습니다. 이는 검사 비용을 절감하고 더 많은 환자에게 검사 기회를 제공할 수 있다는 것을 의미합니다.

### Long-Read 시퀀싱, 희귀 질환 진단의 미래를 밝히다

Long-Read 시퀀싱 기술은 희귀 질환 진단에 혁신적인 변화를 가져올 잠재력이 있습니다. HiFi 기술은 아직 완벽하지는 않지만, 희귀 질환의 원인을 밝히고 환자들에게 더 나은 치료법을 제공하는 데 중요한 역할을 할 것으로 기대됩니다. 

앞으로 더 많은 연구와 기술 개발을 통해 Long-Read 시퀀싱 기술이 희귀 질환으로 고통받는 환자들에게 희망을 줄 수 있기를 바랍니다.



clova-x

안녕하세요, 여러분. 오늘은 희귀질환 진단에 있어서 새로운 분석 방법인 Long-read 기반의 HiFi 분석 방법에 대해 이야기해 보려고 합니다.

희귀질환은 매우 드물고 특별한 질병으로, 대부분의 경우 유전적인 요인에 의해 발생합니다. 이러한 질환을 진단하고 치료하기 위해서는 정확한 유전 정보가 필요한데, 지금까지는 이를 얻기 위해 복잡하고 비용이 많이 드는 검사가 필요했습니다. 하지만 최근에는 차세대 시퀀싱 기술인 NGS, 즉 게놈 시퀀싱이 등장하면서 보다 빠르고 정확한 진단이 가능해졌습니다.

그러나 NGS에도 한계가 있습니다. 짧은 리드 길이를 가진 시퀀싱 방법으로는 일부 변이를 검출하기 어렵다는 것입니다. 특히, 반복 서열이나 구조적 변이, 그리고 유사한 서열을 가진 유전자에서의 변이 등을 찾아내기가 쉽지 않았습니다.

이에 반해, Long-read 기반의 HiFi 분석 방법은 훨씬 더 긴 리드 길이를 사용하여 유전 정보를 읽어냅니다. 이 방법은 기존의 방법으로는 검출하기 어려웠던 변이들을 탐지하는 데 매우 효과적입니다. 실제로, 이번에 발표된 논문에 따르면, HiFi 분석 방법을 사용하여 83%의 변이를 자동으로 탐지할 수 있었고, 추가적인 시각적 검사를 통해 나머지 변이도 탐지할 수 있었다고 합니다.

특히, 이 방법은 구조적 변이와 짧은 반복 서열 확장을 포함한 복잡한 변이를 정확하게 탐지할 수 있다는 장점이 있습니다. 이러한 변이는 희귀질환의 진단에 있어서 매우 중요한 역할을 하는데, 기존의 방법으로는 이러한 변이를 정확하게 찾아내기 어려웠습니다. 하지만 HiFi 분석 방법을 사용하면 이러한 변이를 놓치지 않고 찾아낼 수 있습니다.

물론, 이 방법에도 몇 가지 어려움이 있습니다. 우선, Long-read 시퀀싱은 상대적으로 새로운 기술이기 때문에 아직은 실험실에서 널리 사용되고 있지 않습니다. 또한, 데이터를 분석하는 데 있어서도 전문적인 지식과 기술이 필요합니다.

하지만 이러한 어려움에도 불구하고, HiFi 분석 방법은 희귀질환의 진단에 있어서 매우 유용한 도구가 될 것으로 기대됩니다. 이미 많은 연구에서 그 가능성을 보여주고 있으며, 앞으로 기술이 더욱 발전하고 실험실에서의 사용이 보편화되면 더욱 정확하고 빠른 진단이 가능해질 것입니다.

또한, 이 방법은 단순히 진단에만 사용되는 것이 아니라, 치료에도 큰 도움을 줄 수 있습니다. 유전 정보를 더욱 정확하게 파악함으로써, 환자에게 맞는 맞춤형 치료를 제공할 수 있기 때문입니다.

마지막으로, 이 기술이 보편화되기 위해서는 여전히 많은 연구와 개발이 필요합니다. 우리 모두가 이 분야의 발전에 관심을 가지고 지원함으로써, 희귀질환으로 고통받는 환자들에게 희망을 줄 수 있을 것입니다. 감사합니다.



chatGPT

### 장기 시퀀싱을 통한 희귀 질환 진단: 왜 필요한가요?

최근 연구에서 장기 시퀀싱을 활용한 희귀 질환 진단의 가능성을 평가했습니다. 기존에 주로 사용되던 단일 염기서열 분석(short-read sequencing, SRS)은 DNA 조각을 짧게 잘라서 분석하는 방식입니다. 하지만 이 방식은 유전체 내 복잡한 변이(예: 구조적 변이, 반복적 서열)에 대한 탐지가 어려울 수 있습니다. 반면, HiFi라는 새로운 장기 시퀀싱(long-read sequencing, LRS) 방식은 DNA 조각을 길게 읽어 더 복잡한 변이까지 파악할 수 있습니다. 이번 연구는 이 HiFi 기술이 희귀 질환 진단에 얼마나 유용할지를 확인하기 위해 진행되었습니다.

### 왜 희귀 질환에 장기 시퀀싱이 필요한가요?

희귀 질환의 대부분은 유전적 변이에 의해 발생하며, 환자와 가족의 정확한 진단은 치료와 예후 관리에 중요합니다. 하지만 희귀 질환의 원인을 규명하려면 다양한 유전 변이를 탐지해야 하는데, SRS는 짧은 조각들만 제공하기 때문에 긴 구조적 변이, 특정 반복 서열 등의 검출이 제한됩니다. 이러한 구조적 변이나 특수한 유전자 영역에서 발생하는 변이는 SRS로는 식별하기 어려운 경우가 많으며, 그로 인해 일부 환자는 정확한 진단을 받지 못할 수 있습니다. HiFi와 같은 장기 시퀀싱 기술은 이러한 문제를 해결할 수 있는 대안으로 주목받고 있습니다.

### HiFi 장기 시퀀싱의 정확도는 얼마나 높은가요?

이번 연구는 100개의 샘플에서 임상적으로 중요한 145개의 변이를 대상으로 HiFi 장기 시퀀싱을 수행했으며, 그 결과 약 83%의 변이를 자동으로 탐지하는 데 성공했습니다. 또 다른 10%는 전문가가 데이터를 수동으로 확인함으로써 발견할 수 있었습니다. 이는 약 93%의 변이를 확인할 수 있었음을 의미하며, 기존의 단일 염기서열 분석 방식에 비해 높은 검출률을 보여줍니다. 특히, 장기 시퀀싱은 구조적 변이나 특정 반복 서열처럼 복잡한 변이를 더 잘 탐지하는 데 유리했습니다.

### 어려운 점은 무엇인가요?

장기 시퀀싱이 유망한 기술임에도 불구하고 몇 가지 도전 과제가 있습니다. 예를 들어, HiFi 장기 시퀀싱은 일부 반복 서열(예: GA 반복 서열)을 정확히 탐지하는 데 어려움을 겪었으며, 이러한 경우 변이 검출률이 떨어졌습니다. 또한, 일부 특정한 복잡한 구조적 변이는 여전히 검출이 어렵거나 오류가 발생할 수 있었습니다. 따라서 기술적 개선이 필요하며, 특히 반복 서열의 품질 문제를 해결하는 것이 장기 시퀀싱 기술 발전에 중요한 과제로 남아 있습니다.

### 실제로 사용 가능할까요?

이 연구는 장기 시퀀싱이 실제 임상에서 희귀 질환 진단을 위한 주요 도구로 활용될 가능성을 시사합니다. 자동화된 소프트웨어가 약 93%의 주요 변이를 탐지할 수 있었기 때문에, 높은 정확도를 유지하면서도 진단의 신뢰성을 확보할 수 있습니다. 또한, 시퀀싱 비용이 더 낮아지거나 더 많은 샘플을 분석할 수 있다면, 실제 진단 환경에서도 비용 대비 효과적인 선택지가 될 수 있습니다. 다만, 특정 변이에 대한 검출의 한계는 여전히 남아 있으므로, 장기 시퀀싱을 보완할 추가적인 분석 방식도 필요할 수 있습니다.

### 다른 문제점은 없을까요?

장기 시퀀싱은 비교적 새로운 기술이기 때문에 데이터 분석 소프트웨어와 기술적 지원이 아직 발전 중에 있습니다. 또한, 이 기술을 임상에서 본격적으로 활용하기 위해서는 추가 연구와 데이터가 필요하며, 다양한 환자 그룹에 대해 검증이 이루어져야 합니다. 예를 들어, 분석을 위해 필요한 데이터 양이 많기 때문에 장기 시퀀싱의 효율성을 높이기 위해서는 더 높은 처리 속도와 비용 절감이 필요합니다.

### 결론

이번 연구는 HiFi 장기 시퀀싱이 희귀 질환 진단의 새로운 표준이 될 가능성을 제시합니다. 기존의 진단 방법이 가지는 한계를 넘어 다양한 유전적 변이를 탐지할 수 있어 많은 희귀 질환 환자들에게 새로운 진단 기회를 제공할 수 있습니다. 물론 기술 발전과 추가 연구가 필요하지만, 장기 시퀀싱은 유전 질환 진단에서 큰 도약을 가져올 중요한 도구임이 확실해 보입니다.



NotebookLM

## 희귀 질환 진단의 새로운 희망, 롱리드 시퀀싱: HiFi 기술을 중심으로

  희귀 질환은 그 이름처럼 환자 수가 적어 진단이 어렵고, 진단까지 오랜 시간이 걸리는 경우가 많습니다. 하지만 유전자 분석 기술의 발전은 희귀 질환 진단에 새로운 가능성을 열어주고 있습니다. 특히 롱리드 시퀀싱이라는 기술은 기존의 숏리드 방식보다 더욱 정확하고 효율적인 진단을 가능하게 합니다.

### 숏리드 방식의 한계와 롱리드 시퀀싱의 등장

  우리의 유전 정보를 담고 있는 DNA는 아데닌(A), 구아닌(G), 사이토신(C), 티민(T)이라는 네 가지 염기의 조합으로 이루어져 있습니다. 유전자 분석은 이 염기 서열을 읽어내는 과정입니다. 기존에 널리 사용되던 숏리드 방식은 DNA를 짧게 잘라 분석하는 방식이었기 때문에 염기 서열이 복잡하게 반복되거나  길이가 긴 변이를 정확히 탐지하기 어려웠습니다. 

  반면에 **롱리드 시퀀싱은 DNA를 훨씬 길게 읽어낼 수 있어 숏리드 방식으로는 놓치기 쉬웠던 변이까지도 정확하게 파악할 수 있습니다.**  특히 HiFi라는 롱리드 시퀀싱 기술은 높은 정확도를 자랑하며 희귀 질환 진단에 획기적인 발전을 가져올 수 있습니다.

### HiFi 롱리드 시퀀싱, 희귀 질환 진단의 정확성을 높이다

  HiFi 기술을 이용한 롱리드 시퀀싱은 숏리드 방식으로는 탐지하기 어려웠던 다양한 유형의 변이를 식별할 수 있습니다.  연구 결과에 따르면 HiFi 롱리드 시퀀싱은 숏리드 방식으로 탐지하기 어려웠던 145개의 변이 중 83%에 해당하는 120개를 자동으로 찾아냈습니다. 여기에는 구조적 변이, 짧은 염기 서열의 반복적인 확장, 상동 서열의 변이 등이 포함됩니다.

  **HiFi 롱리드 시퀀싱은 희귀 질환 진단에 필요한 여러 검사들을 하나의 검사로 대체할 수 있는 가능성을 제시합니다.**  기존에는 염색체 분석, FISH, 마이크로어레이, 서던 블롯, MLPA, Sanger 시퀀싱 등 다양한 검사를 순차적으로 진행해야 했습니다.  하지만 HiFi 롱리드 시퀀싱은 **단 한 번의 검사로 다양한 유형의 변이를 정확하게 분석할 수 있어 진단 과정을 단축하고 비용을 절감할 수 있습니다.**

### HiFi 롱리드 시퀀싱, 극복해야 할 과제들

  HiFi 롱리드 시퀀싱은 희귀 질환 진단에 혁신적인 기술이지만, 아직 몇 가지 과제가 남아있습니다.  

*   첫째, HiFi 시퀀싱은 GA 염기 반복이 많은 특정 유전자 영역에서는 정확도가 떨어지는 문제가 있습니다.  GA 염기 반복이 많은 영역에서는 DNA 구조가 변형되어 시퀀싱 과정에 어려움을 겪기 때문입니다.  

*   둘째, 염기 서열이 복잡하게 반복되는 영역이나 매우 유사한 유전자들이 모여 있는 영역에서는 변이를 정확히 식별하기 어려울 수 있습니다.

### HiFi 롱리드 시퀀싱, 희귀 질환 진단의 미래를 밝히다

 HiFi 롱리드 시퀀싱은 희귀 질환 진단의 정확성과 효율성을 획기적으로 높일 수 있는 잠재력을 가진 기술입니다. 

*  HiFi 롱리드 시퀀싱은 기존의 숏리드 방식으로는 탐지하기 어려웠던 다양한 유형의 유전적 변이를 정확하게 식별할 수 있습니다.  

*  HiFi 롱리드 시퀀싱은 희귀 질환 진단에 필요한 여러 검사를 하나의 검사로 대체할 수 있어 진단 과정을 단축하고 비용을 절감할 수 있습니다.  

  물론 아직 극복해야 할 과제들이 남아있지만, **HiFi 롱리드 시퀀싱은 희귀 질환 환자들에게 더 빠르고 정확한 진단을 제공하여 희망을 줄 수 있을 것으로 기대됩니다.** 


HiFi Long-read라고 해도 PacBio라는 플랫폼 한계로 긴 길이(수십Kb 이상이 되는)의 구조 변이는 탐지하기 쉽지 않다고 얘기하네요. 그래도 기존에 short-read 방식으로 탐지하기 어려운 구조 변이는 더 확인 할 수 있다고 하고 있습니다. 최근에 일루미나에서 DRAGEN과 Pangenome Reference로 우리도 기다란 SV 탐지할 수 있다고 하고 있는데, 아직 갸우뚱... 

여튼 기존에 잘 알려진 혹은 잘 정의된 변이들 이외에도 rare하게 나오는 변이나 구조적 변이들은 Long-read로 잘 잡을 수 있다고 하니 미래는 밝은데.. 이게 상용화, 상품화가 되는 영역은 또 다른 문제이다보니, 많은 생각이 듭니다. :)


출처: @ye._.vely618


목요일, 11월 14, 2024

RNA-Seq 데이터로 SNP를 찾아내보자 -2-

오늘 논문은 2019년에 출판된 RNA-seq데이터로 SNP를 발굴하는 방법에 대한 논문입니다. 제목은 A high-throughput SNP discovery strategy for RNA-seq data 으로 이전에 포스팅은 새로운 tool을 만들어서 자랑을 했다면 이번 논문은 기존에 사용하던 tool들을 조합해서 식물에서 생산한 RNA-seq 데이터에서 SNP를 발굴하는 방법을 테스트 한 논문되겠습니다.

DOI: 10.1186/s12864-019-5533-4



gemini
## RNA-seq 데이터로 유전자의 차이를 찾는 방법
이 파일은 RNA-seq 데이터에서 SNP를 찾는 효율적인 방법을 제시하는 논문입니다. 좀 더 쉽게 말하면, 유전자 활동 정보를 이용해 사람들 간의 유전적 차이를 정확하게 찾아내는 방법을 연구한 것이죠. 마치 돋보기로 숨은 그림을 찾는 것처럼, RNA-seq 데이터를 활용하면 DNA 염기서열의 미세한 차이까지 찾아낼 수 있습니다.
### SNP가 뭐길래? 🤔
사람마다 얼굴 생김새가 다르듯, 유전 정보도 조금씩 다릅니다. 이러한 차이를 만드는 요인 중 하나가 바로 **SNP(단일 염기 다형성)**입니다. SNP는 DNA 염기서열에서 단 하나의 염기가 다른 것을 말하는데, 이 작은 차이가 키, 눈 색깔, 질병 발생 가능성 등 다양한 특징을 만듭니다.
### RNA-seq 데이터로 SNP를 찾는 방법 🧐
* **RNA-seq**: 세포 내에서 활동하는 유전자 정보를 담고 있는 RNA를 분석하는 기술입니다.
* **어셈블러**: RNA-seq 데이터를 조각조각 모아서 전체 유전 정보를 재구성하는 프로그램입니다. 마치 퍼즐 조각을 맞추는 것과 같습니다.
* **SNP 콜러**: 재구성된 유전 정보에서 SNP를 찾아내는 프로그램입니다. 숨은 그림 찾기 전문가라고 할 수 있죠.
### 이 논문에서 무엇을 했나요? 🤔
* **다양한 조합을 테스트**: 연구진들은 여러 종류의 어셈블러와 SNP 콜러를 조합하여 어떤 조합이 SNP를 가장 정확하게 찾아내는지 실험했습니다.
* **최적의 조합 발견**: 실험 결과, **Trinity 어셈블러**와 **GATK SNP 콜러**를 함께 사용하는 것이 가장 정확했습니다. 특히, 150bp 길이의 paired-end read를 사용했을 때 복숭아와 귤에서 100% 정확도로 SNP를 찾아냈습니다.
* **새로운 가능성 제시**: 이 연구는 RNA-seq 데이터를 이용하여 SNP를 정확하게 찾아내는 효율적인 방법을 제시했습니다. 이는 다양한 생물의 유전 정보를 분석하고, 질병 예측 및 개인 맞춤형 치료 등에 활용될 수 있습니다.
### 왜 이 연구가 중요한가요? 🤔
* **질병 예측 및 맞춤형 치료**: SNP는 질병 발생 가능성이나 약물 반응성과 관련이 있습니다. SNP 정보를 활용하면 개인별 질병 위험도를 예측하고, 가장 효과적인 치료법을 선택할 수 있습니다.
* **유전자 연구 발전**: RNA-seq 데이터를 이용한 SNP 분석은 유전자 연구의 새로운 도구가 될 수 있습니다. 이를 통해 유전자의 기능과 질병과의 관계를 밝혀내고, 새로운 치료법 개발에 기여할 수 있습니다.
### 결론
이 논문은 RNA-seq 데이터를 이용하여 SNP를 효율적으로 찾아내는 방법을 제시하는 중요한 연구입니다. 이 연구는 유전자 연구의 발전과 개인 맞춤형 의료 시대를 앞당기는 데 크게 기여할 것으로 기대됩니다.



clova-x
생명체의 유전 정보는 DNA에 저장되어 있으며, 이 DNA는 A, T, C, G라는 네 가지 염기로 구성되어 있습니다. 이 중에서 하나의 염기가 다른 염기로 바뀌는 것을 SNP(단일 염기 변이)라고 하며, 이는 유전적 다양성을 만들어내는 원인 중 하나입니다.
SNP는 유전 질환, 암, 당뇨병 등 다양한 질병과 관련이 있으며, 작물의 생산량, 품질, 병 저항성 등에도 영향을 미칩니다. 따라서, SNP를 탐지하고 분석하는 것은 생명공학 분야에서 매우 중요한 과제 중 하나입니다.
최근에는 NGS(차세대 시퀀싱) 기술이 발전하면서, 빠르고 대규모로 SNP를 탐지할 수 있게 되었습니다. 대표적인 NGS 기술로는 Illumina Genome Analyzer, Roche/454 FLX, ABI SOLiD 등이 있으며, 각각의 플랫폼은 민감도, 정확도, 재현성, 처리량 등에서 차이가 있습니다.
RNA-seq(RNA 시퀀싱)는 유전자의 발현을 분석하는 데 사용되는 기술로, 이를 통해 SNP를 탐지할 수도 있습니다. RNA-seq 데이터를 분석하여 얻은 서열 정보를 바탕으로 SNP를 찾아내고, 이를 통해 유전자의 기능과 발현 패턴을 이해할 수 있습니다.
하지만, RNA-seq 데이터에서 SNP를 탐지하는 것은 여러 가지 어려움이 있습니다. 데이터의 양이 많고 복잡하며, 누락되거나 오류가 있는 데이터가 있을 수 있습니다. 또한, SNP를 탐지하는 데 사용되는 알고리즘과 도구도 다양하며, 각각의 장단점이 있습니다.
따라서, RNA-seq 데이터에서 SNP를 탐지할 때는 적절한 알고리즘과 도구를 선택하고, 데이터를 정제하고 검증하는 과정이 필요합니다. 이를 위해 다양한 어셈블러와 SNP 콜러를 비교하고, 최적의 조합을 찾아내야 합니다.
예를 들어, Trinity와 GATK는 RNA-seq 데이터에서 SNP를 탐지하는 데 널리 사용되는 어셈블러와 SNP 콜러입니다. 이들은 높은 정확도와 재현성을 제공하며, 다양한 생물종에서 성공적으로 사용되었습니다.
또한, read 길이도 SNP 탐지의 정확도에 영향을 미치는 중요한 요소입니다. 긴 read 길이는 더 많은 정보를 제공하여 SNP 탐지의 정확도를 높일 수 있습니다.
이러한 기술과 전략을 활용하여 RNA-seq 데이터에서 SNP를 탐지하고 분석함으로써, 유전자의 기능과 생물학적 과정을 이해하고, 질병의 진단과 치료, 작물의 육종 등에 활용할 수 있습니다.



chatGPT
**고빈도 RNA-seq 데이터에서 SNP 탐지 방법**
### 1. SNP란 무엇인가요?
SNP(단일 염기 다형성)는 DNA 서열에서 하나의 염기가 다른 염기로 바뀐 유전자 변이를 뜻합니다. 예를 들어, DNA 서열 중 특정 위치에서 원래 ‘A’(아데닌)였던 염기가 ‘G’(구아닌)로 변한 경우가 있습니다. 이러한 변이들이 여러 곳에서 쌓이면, 개체들 간의 유전자 차이를 형성하고, 생물의 특징이나 질병 발생과 연관될 수 있습니다.
SNP는 유전적 다양성을 나타내는 중요한 지표로, 유전자 연구와 질병 진단 및 예측, 품종 개량 등의 연구에서 널리 사용됩니다.
### 2. RNA-seq 데이터로 SNP를 탐지하는 이유는 무엇인가요?
RNA-seq는 RNA(전사체)를 시퀀싱하여 유전자 발현 수준을 파악하는 기술입니다. 이 데이터는 많은 양의 변이를 포함하고 있어 SNP를 찾는 데 적합합니다. RNA-seq 데이터로 SNP를 분석하면 단백질 생성에 영향을 미치는 유전자 변이를 발견할 수 있어, 농업, 질병 연구, 신약 개발 등에서 활용도가 큽니다.
### 3. RNA-seq 데이터에서 SNP를 찾는 과정
SNP를 발견하는 과정은 RNA-seq 데이터에서 원시 데이터를 수집하고 이를 분석해 유의미한 변이를 찾는 절차로 이루어집니다. 이번 연구에서는 다음과 같은 조합으로 RNA-seq 데이터를 분석하여 가장 높은 정확도의 SNP 탐지 방법을 찾았습니다:
- **리드 길이:** 125 bp 또는 150 bp
- **조립 프로그램(Assembler):** Trinity, IDBA, oases, SOAPdenovo, Trans-abyss
- **SNP 탐지 프로그램(SNP Caller):** GATK, GBS
### 4. 연구에서 발견한 최적의 방법
이 연구는 복숭아와 귤의 유전자를 대상으로 실험하여 가장 높은 정확도를 보이는 방법을 찾아냈습니다. 특히, **150 bp의 리드 길이, Trinity 조립 프로그램, GATK 탐지 프로그램**을 사용할 때 SNP 탐지 정확도가 100%에 이르렀습니다. 이 조합이 다른 조합들에 비해 훨씬 높은 정확도를 나타내어, 다양한 식물과 생물의 SNP 연구에 사용할 수 있는 이상적인 방법으로 제시되었습니다.
### 5. 연구 결과와 의미
이 연구의 결과는 특정 조합을 사용했을 때 SNP를 빠르고 정확하게 찾을 수 있음을 보여주었으며, 특히 RNA-seq 데이터를 이용해 유전자 변이를 분석하는 과정에서 큰 도움을 줄 수 있습니다. 이는 향후 품종 개량, 질병 유전자 연구 등에서 효과적인 방법으로 활용될 수 있을 것입니다.



NotebookLM
## RNA 염기서열 데이터에서 SNP를 찾는 방법: 복숭아와 귤을 이용한 연구
안녕하세요, 저는 RNA 염기서열 데이터에서 SNP를 찾는 방법을 연구하는 전문가입니다. 오늘은 생명공학을 전공하지 않은 일반인 분들을 위해 "s12864-019-5533-4.pdf" 파일의 내용을 쉽게 설명해 드리려고 합니다. 복숭아와 귤의 RNA 염기서열 데이터를 이용한 이 연구는 어떻게 하면 **SNP를 정확하게 찾아낼 수 있는지**에 대한 흥미로운 결과를 보여줍니다.
### 1. SNP란 무엇인가요?
**SNP는 '단일 염기 다형성'의 약자로, DNA 염기서열에서 단 하나의 염기가 다른 것을 의미합니다.** 마치 길고 복잡한 문장에서 한 글자만 다른 것과 같죠. 사람마다 DNA 염기서열이 조금씩 다른데, 이러한 차이를 만들어내는 주요 요인 중 하나가 바로 SNP입니다. SNP는 유전형질, 질병 발생 가능성, 약물 반응 등에 영향을 줄 수 있습니다.
### 2. RNA 염기서열 데이터를 이용하면 왜 SNP를 찾기 쉬울까요?
**RNA 염기서열 분석(RNA-seq) 기술**은 DNA 염기서열 분석보다 저렴하면서도 유전자의 기능과 발현에 대한 정보를 풍부하게 제공합니다. RNA-seq를 통해 **수천 개의 SNP를 한 번에 발견**할 수 있으며, **특정 유전자의 발현량**까지 알 수 있다는 장점이 있습니다.
### 3. 연구는 어떻게 진행되었나요?
* **복숭아** 품종 'Hujingmilu'와 'Yulu', **귤** 품종 'Ponkan'과 'Yellowish-peeled Ponkan'의 껍질 조직에서 RNA를 추출하여 RNA-seq 데이터를 얻었습니다.
* **두 가지 길이의 염기서열 데이터(125 bp, 150 bp)**, **다섯 가지 조합기(Trinity, IDBA, Oases, SOAPdenovo, Trans-ABySS)**, **두 가지 SNP 호출기(GATK, GBS)**를 다양하게 조합하여 SNP를 예측했습니다.
* 예측된 SNP를 **PCR 증폭, 유전자 클로닝 및 염기서열 분석**을 통해 얻은 실제 SNP와 비교하여 정확도를 평가했습니다.
### 4. 연구 결과는 무엇인가요?
* **150 bp 길이의 염기서열 데이터를 사용했을 때 125 bp에 비해 잘못된 SNP(false positive SNP)를 찾는 비율이 훨씬 낮았습니다**.
* **조합기 중에서는 Trinity**가 가장 우수한 성능을 보였고, **SNP 호출기 중에서는 GATK**가 GBS보다 실제 SNP를 놓치는 비율이 낮아 훨씬 우수했습니다.
* **150 bp 길이의 염기서열 데이터, Trinity 조합기, GATK SNP 호출기**를 함께 사용했을 때 복숭아와 귤에서 모두 **100%의 정확도**로 SNP를 찾아낼 수 있었습니다.
### 5. 이 연구가 왜 중요한가요?
이 연구는 **RNA-seq 데이터에서 SNP를 정확하고 효율적으로 찾아내는 최적의 방법을 제시**했다는 점에서 큰 의미가 있습니다. 150 bp 길이의 염기서열 데이터, Trinity 조합기, GATK SNP 호출기 조합은 복숭아와 귤뿐만 아니라 다른 생물에도 적용 가능할 것으로 기대됩니다.
### 6. 이 연구 결과는 어떻게 활용될 수 있을까요?
**SNP는 유전적 다양성 분석, 품종 개량, 유전체 연관 분석 등 다양한 분야에서 활용될 수 있습니다.** 예를 들어, 특정 질병에 대한 저항성을 가진 품종을 개발하거나 개인별 맞춤형 의료 서비스를 제공하는 데 유용하게 활용될 수 있습니다.

식물 중에 복숭아와 귤(만다린)을 가지고 테스트 했을 때 Trinity와 GATK로 SNP를 탐지하면 가장 좋은 결과 (확인된 280개 SNP 모두 탐지!!)를 보여줬고, 그 외 조합으로는 정확도가 100%에 도달하지 못했다고 하니, Reference Genome가 없는 경우 Paired-end RNA-seq 데이터만 있다면 Trinity와 GATK로 SNP를 탐지하면 쓸만한 결과를 얻을 수 있지 않을까 합니다. ;)

요즘엔 걍 이런 논문 찾지 말고 perplexity, chatGPT, gemini 한테 분석 전략을 문의하는게 더 정확하고 빠를지도.. 물론 팩트체크는 필수입니다만 ㅎㅎ


출처: @ye._.vely618


화요일, 11월 12, 2024

DRAGEN: 더 빠르고 정확한 유전체 분석 방법

오늘은 최근에 공개된 일루미나의 DRAGEN에 대한 논문이 있어서 가져와봤습니다. Comprehensive genome analysis and variant detection at scale using DRAGEN 입니다.

DOI: 10.1038/s41587-024-02382-1


gemini

## 유전체 분석의 혁신, DRAGEN: 더 빠르고 정확하게!

DRAGEN이 어떻게 기존 유전체 분석 방법보다 더 빠르고 정확하게 변이를 검출하는지, 그리고 최근 도입된 pangenome을 이용한 mapping 방법이 어떻게 더 정확한 변이 검출을 가능하게 하는지 알려드리겠습니다.

### 왜 유전체 분석이 중요할까요?

우리 몸의 설계도라고 할 수 있는 DNA에는 수많은 유전 정보가 담겨 있습니다. 이 정보는 '염기'라는 부품들이 특정 순서로 배열되어 만들어지는데, 이 배열 순서에 변화가 생기는 것을 '변이'라고 합니다. 변이는 질병 발생, 개인의 특징, 약물 반응 등에 영향을 미칠 수 있습니다. 유전체 분석은 이러한 변이를 찾아내고 분석하여 질병 예측, 진단, 치료 등에 활용하는 기술입니다.

### DRAGEN은 무엇일까요?

DRAGEN은 일루미나에서 개발한 최첨단 유전체 분석 플랫폼입니다. 기존 분석 방법보다 훨씬 빠르고 정확하게 유전체 데이터를 분석할 수 있는 혁신적인 기술이죠. 

**DRAGEN의 장점:**

* **압도적인 속도:** FPGA라는 특수 하드웨어를 사용하여 기존 방법보다 최대 50배 빠르게 분석합니다. 

* **뛰어난 정확도:**  다중 유전체 매핑과 pangenome 참조를 통해 반복적인 유전체 영역에서도 정확하게 변이를 식별합니다.

* **포괄적인 분석:** 단일 염기 변이(SNV), 삽입/결실(indel), 구조 변이(SV), 복제수 변이(CNV) 등 다양한 유형의 변이를 분석할 수 있습니다.

* **의학 유전체 분석에 특화:**  질병 관련 유전자 분석에 특화된 방법을 통합하여 질병 연구에 유용합니다.

* **확장성:**  대규모 데이터 및 코호트 분석에 적합합니다.

**DRAGEN의 단점:**

* **높은 초기 비용:** FPGA 하드웨어 구축 비용이 상대적으로 높습니다.

* **전문 지식 필요:** DRAGEN 플랫폼 운영 및 결과 해석에 전문 지식이 필요할 수 있습니다.

### Pangenome을 이용한 Mapping이란 무엇일까요?

Pangenome은 다양한 사람들의 유전체 정보를 종합하여 만든 '유전체 지도'입니다. 기존에는 한 사람의 유전체 정보만을 참조로 사용했기 때문에, 사람들 간의 유전적 차이를 제대로 반영하지 못했습니다. Pangenome을 이용하면 더욱 정확하게 변이를 검출하고, 질병과의 연관성을 밝힐 수 있습니다.

**DRAGEN은 pangenome을 이용하여 변이 검출의 정확성을 더욱 높였습니다.** 마치 여러 사람의 지도를 참고하여 더 정확한 길을 찾는 것과 같은 원리입니다.

## Pangenome을 이용한 Mapping에 대한 심층 설명

**Pangenome**은 한 종 내 개체들의 유전체 정보를 종합하여 만든 거대한 참조 유전체입니다. 기존의 단일 참조 유전체를 사용하는 방식과 달리, pangenome은 다양한 개체들의 유전적 변이를 모두 포함하고 있어 더욱 정확한 변이 분석이 가능합니다.

### 왜 Pangenome이 필요할까요?

* **유전적 다양성 반영:** 인간은 유전적으로 매우 다양합니다. 기존의 단일 참조 유전체는 주로 특정 인종이나 집단의 유전체 정보를 기반으로 만들어졌기 때문에, 다른 집단의 개체에 대한 분석에서는 정확도가 떨어질 수 있습니다.

* **복잡한 유전체 구조 반영:** 인간 유전체는 매우 복잡하고 개인 간에 차이가 큽니다. 특히, 구조 변이(SV)와 같은 복잡한 변이를 정확하게 분석하기 위해서는 pangenome이 필요합니다.

* **희귀 변이 발견:** 희귀 변이는 질병과의 연관성을 밝히는 데 중요한 역할을 합니다. pangenome을 이용하면 기존 방법으로는 찾기 어려웠던 희귀 변이를 더 많이 발견할 수 있습니다.

### Pangenome을 이용한 Mapping의 장점

* **정확도 향상:** pangenome은 다양한 개체의 유전적 변이를 포함하고 있기 때문에, 개인의 유전체를 더욱 정확하게 비교하고 변이를 찾아낼 수 있습니다.

* **새로운 변이 발견:** 기존 참조 유전체에는 없는 새로운 변이를 발견할 가능성이 높습니다.

* **복잡한 유전체 구조 분석:** 구조 변이와 같은 복잡한 유전체 구조를 더욱 정확하게 분석할 수 있습니다.

* **다양한 인종 및 집단에 대한 분석:** 다양한 인종과 집단의 유전체 데이터를 분석하는 데 유용합니다. 

### DRAGEN은 어떻게 활용될까요?

DRAGEN은 멘델 질환, 희귀 질환, 암 등 다양한 질병 연구에 활용될 수 있습니다. 또한, 개인 맞춤형 의료, 약물 유전체학, 집단 유전체학 등 다양한 분야에서 유용하게 사용될 수 있습니다.

### DRAGEN과 Pangenome의 시너지 효과

DRAGEN은 pangenome을 이용한 mapping을 효율적으로 수행할 수 있도록 설계되었습니다. DRAGEN의 빠른 처리 속도와 정확도는 pangenome의 장점을 극대화하여 더욱 정확하고 포괄적인 유전체 분석을 가능하게 합니다.

* **빠른 분석:** DRAGEN의 FPGA 하드웨어는 대규모 pangenome 데이터를 빠르게 처리하여 분석 시간을 단축합니다.

* **정확한 변이 호출:** pangenome을 기반으로 더욱 정확한 변이 호출을 수행합니다.

* **복잡한 변이 분석:** 구조 변이와 같은 복잡한 변이를 효율적으로 분석합니다. 

### 결론

DRAGEN은 유전체 분석의 속도와 정확성을 획기적으로 향상시킨 혁신적인 플랫폼입니다. Pangenome을 이용한 mapping 방법 도입으로 더욱 정확한 변이 검출이 가능해졌으며, 이는 질병 연구 및 의료 분야 발전에 크게 기여할 것으로 기대됩니다.



clova-x

DRAGEN은 Illumina에서 개발한 유전체 분석 플랫폼으로, 기존의 유전체 분석 방법보다 빠르고 정확하게 다양한 변이를 검출할 수 있는 몇 가지 혁신적인 기술을 사용합니다.

1. 다중 게놈 매핑과 팬게놈 참조:

   - DRAGEN은 다중 게놈 매핑과 팬게놈 참조를 사용하여 변이를 검출합니다. 이는 여러 게놈의 정보를 종합하여 참조 게놈을 구성하는 방법으로, 기존의 단일 참조 게놈을 사용하는 방법보다 더 많은 유전적 다양성을 고려할 수 있습니다.

   - 이를 통해 더욱 정확한 변이 검출이 가능하며, 특히 희귀한 변이를 발견하는 데 유용합니다.

2. 하드웨어 가속화와 머신 러닝:

   - DRAGEN은 하드웨어 가속화와 머신 러닝을 이용하여 빠르고 정확한 분석을 제공합니다. 이는 복잡한 계산을 빠르게 처리할 수 있도록 도와주며, 머신 러닝을 통해 변이 검출의 정확도를 향상시킵니다.

   - 기존의 분석 방법보다 훨씬 빠른 속도로 변이를 검출할 수 있으며, 대규모 데이터셋에 대해서도 효율적으로 분석할 수 있습니다.

3. 다양한 변이 유형 지원:

   - DRAGEN은 단일 염기 변이(SNV), 삽입/삭제(indel), 짧은 반복 서열(STR), 구조적 변이(SV), 복제 수 변이(CNV) 등 모든 주요한 변이 유형을 지원합니다.

   - 다양한 변이 유형을 하나의 명령어 라인에서 검출할 수 있어 사용이 간편하며, 의료적으로 관련된 유전자에 대한 특별한 방법도 포함하고 있습니다.

4. 신속한 워크플로우:

   - DRAGEN은 완전하고 자동화된 엔드 투 엔드 솔루션을 제공하여, 원시 시퀀싱 리드를 매핑하고 정렬하며, 변이를 VCF 파일로 출력합니다.

   - 이를 통해 사용자는 변이를 쉽게 해석하고 연구에 활용할 수 있습니다.

이러한 혁신적인 기술을 통해 DRAGEN은 기존의 유전체 분석 방법보다 빠르고 정확하게 변이를 검출할 수 있습니다. 그러나 여전히 일부 복잡한 구조적 변이의 검출이나 긴 STR 확장의 정확한 크기 결정에는 한계가 있을 수 있습니다. 그럼에도 불구하고, DRAGEN은 유전체 연구 분야에서 큰 발전을 이루고 있으며, 개인 맞춤형 의학 및 생물학 연구에 새로운 인사이트를 제공하고 있습니다.



chatGPT

**DRAGEN이란 무엇인가?**

DRAGEN은 Illumina에서 개발한 유전체 분석 플랫폼으로, 다양한 종류의 유전자 변이를 빠르고 정확하게 탐지할 수 있도록 설계된 도구입니다. 유전적 변이는 각 개인의 유전적 차이를 만들어내며, 이 중에는 질병과 관련된 유전적 변이가 포함될 수 있어 이를 정확하게 검출하는 것이 중요한데요. DRAGEN은 기존의 유전자 분석 방법보다 높은 정확도와 빠른 분석 속도를 제공합니다.

### DRAGEN의 주요 장점

1. **빠른 분석 속도**  

   DRAGEN은 하드웨어 가속을 통해 분석 시간을 대폭 단축합니다. 예를 들어, 전체 유전체 서열을 분석하는 데 약 30분이 걸리며, 이는 기존 방법에 비해 매우 빠른 속도입니다. 이러한 속도는 대량의 데이터를 다뤄야 하는 연구자나 의료 기관에 매우 유리하게 작용합니다.

2. **다양한 변이 검출 가능**  

   DRAGEN은 단일염기 변이(SNV)와 소규모 삽입/결실(indel)뿐만 아니라 구조 변이(SV), 복제 수 변이(CNV)와 같은 대규모 변이도 감지할 수 있습니다. 또한, 최근에는 짧은 반복 서열 변이(STR)와 같이 질병과 관련된 특정 유전자 영역의 변이를 검출할 수 있는 특화 도구도 추가되었습니다.

3. **높은 정확도**  

   DRAGEN은 다중 유전체 참조(pangenome reference)를 사용하여 다양한 유전자 변이를 보다 정확하게 감지합니다. 기존 분석 방법은 주로 한 가지 표준 유전체 참조를 사용해 유전체를 분석하지만, DRAGEN은 여러 개의 유전체 참조를 활용하여 개별의 유전적 다양성을 더 잘 반영합니다. 이를 통해 변이 감지의 정확성을 높일 수 있으며, 특히 구조 변이와 복제 수 변이 감지에 큰 강점을 가지고 있습니다.

4. **의료적으로 중요한 유전자 영역에 대한 특화 분석**  

   DRAGEN은 의료적으로 중요한 유전자(CYP2D6, HLA, SMN 등)에 대한 맞춤형 분석 도구를 제공합니다. 이를 통해 약물 대사나 면역 반응과 관련된 유전자 변이를 더욱 신뢰성 있게 검출할 수 있습니다.

### DRAGEN의 단점

1. **고가의 하드웨어 요구 사항**  

   DRAGEN은 하드웨어 가속을 사용하여 성능을 높이는 만큼 고가의 하드웨어 설치가 필요합니다. 이는 소규모 연구 기관이나 자금이 충분하지 않은 연구자에게는 큰 부담이 될 수 있습니다.

2. **복잡한 데이터 해석 필요**  

   DRAGEN은 다양한 유형의 변이를 동시에 검출하기 때문에 데이터 해석이 복잡할 수 있습니다. 예를 들어, 단일염기 변이와 구조 변이가 동시에 존재할 수 있으며, 이러한 변이 데이터를 효율적으로 해석하려면 추가적인 분석 툴과 전문 지식이 필요할 수 있습니다.

### 다중 유전체 참조(pangenome reference) 기반의 새로운 매핑 방식의 장점

최근 DRAGEN에 도입된 다중 유전체 참조 기반 매핑 방식은 다양한 인종 및 유전적 배경을 가진 사람들의 유전적 다양성을 더 잘 반영합니다. 기존의 단일 참조 유전체는 모든 사람을 대표하기 어려워 일부 변이가 누락되거나 잘못 분석될 가능성이 있었습니다. 반면, 다중 유전체 참조는 다양한 유전적 변이를 포함하고 있어 유전자 변이의 정확한 검출과 해석이 가능합니다. 이를 통해 의료적으로 중요한 질병과 관련된 새로운 변이 발견 가능성이 높아집니다.

### 결론

DRAGEN은 빠른 속도와 높은 정확성을 바탕으로, 기존 유전자 분석 방법의 한계를 뛰어넘는 유전체 분석 플랫폼입니다. 다중 유전체 참조 기반 매핑 방식과 의료 특화 유전자 분석 도구는 DRAGEN이 유전자 변이 감지에 있어 강력한 도구임을 입증합니다. 고가의 장비와 복잡한 해석이 필요하다는 단점이 있지만, 이 플랫폼은 의료 및 유전 연구에 있어 중요한 역할을 할 것으로 기대됩니다.



NotebookLM

## DRAGEN: 더 빠르고 정확한 유전체 분석 방법

안녕하세요. 저는 Illumina의 DRAGEN 전문가입니다. DRAGEN은 기존 유전체 분석 방법보다 효율적이면서 정확하게 다양한 변이를 검출하는 혁신적인 기술입니다. DRAGEN을 잘 모르는 일반인분들을 위해, 이 글에서는 DRAGEN이 어떻게 다른 유전체 분석 방법보다 빠르고 정확하게 변이를 검출할 수 있는지, 그리고 최근 개발된 pangenome을 이용한 mapping 방법이 어떻게 변이 검출의 정확성을 향상시키는지 자세히 설명해 드리겠습니다.

### DRAGEN의 작동 원리

DRAGEN은 크게 세 가지 핵심 기술을 통해 빠르고 정확한 변이 검출을 수행합니다.

1. **하드웨어 가속:** DRAGEN은 FPGA(Field-Programmable Gate Array) 기술을 사용하여 컴퓨팅 속도를 획기적으로 향상시킵니다. FPGA는 특정 작업에 맞게 하드웨어 회로를 구성할 수 있는 칩으로, 유전체 분석과 같이 복잡하고 반복적인 계산에 매우 효율적입니다. 덕분에 DRAGEN은 기존 소프트웨어 기반 분석 방법보다 훨씬 빠르게 분석을 완료할 수 있습니다.

2. **머신 러닝 기반 변이 탐지:** DRAGEN은 머신 러닝 알고리즘을 사용하여 변이 탐지의 정확성을 높입니다.  방대한 양의 유전체 데이터를 학습한 머신 러닝 모델은  데이터에서 노이즈와 오류를 효과적으로 구분하여 진짜 변이를 정확하게 식별합니다.

3. **Pangenome을 이용한 Multi-genome Mapping:** DRAGEN은  다양한 인구 집단의 유전체 정보를 포함하는 pangenome을 참조 유전체로 사용합니다. Pangenome은 단일 참조 유전체보다 인간 유전체의 다양성을 더 잘 반영하기 때문에,  DRAGEN은 개인 간의 유전적 차이를 더 정확하게 파악하고 분석할 수 있습니다. 

    * **기존의 single reference genome 기반 분석:**  단일 참조 유전체에 존재하지 않는 변이는 검출하기 어려웠습니다.

    * **DRAGEN의 pangenome 기반 분석:**  다양한 haplotype을 포함하는 pangenome을 사용하여 기존 방법에서 놓칠 수 있었던 변이까지 정확하게 검출합니다. 

### DRAGEN의 장점

DRAGEN은 기존 유전체 분석 방법과 비교하여 다음과 같은 다양한 장점을 제공합니다.

* **빠른 분석 속도:**  FPGA 하드웨어 가속과  효율적인 알고리즘 설계를 통해 전체 유전체 분석 시간을 **약 30분**으로 단축했습니다.

* **뛰어난 정확성:**  머신 러닝 기반 변이 탐지와 pangenome mapping 기술을 통해 **SNV에서 99.86%, indel에서 99.80%**에 이르는 높은 정확도를 달성했습니다.

* **포괄적인 변이 검출:** 단일 염기 변이(SNV), 삽입/삭제(indel), 구조적 변이(SV), 복제 수 변이(CNV), 짧은 탠덤 반복(STR) 등 **다양한 유형의 변이를  한 번에 분석**할 수 있습니다.

* **확장성:**  대규모 코호트 연구에 적합하도록 설계되어 **수천 개 이상의 샘플을 효율적으로 처리**할 수 있습니다.

* **사용자 편의성:**  **단순하고 직관적인 인터페이스**를 제공하여  전문 지식 없이도 쉽게 사용할 수 있습니다.

### DRAGEN의 단점

* **Pangenome reference의 지속적인 업데이트 필요:**  Pangenome reference는  새로운 유전체 정보가 발견됨에 따라 지속적으로 업데이트되어야 합니다.  

* **일부 복잡한 유전자 영역 분석의 어려움:**  HLA 유전자와 같이 매우 복잡한 유전자 영역의 경우, 아직까지는  long-read sequencing 방법이 더 정확한 분석 결과를 제공할 수 있습니다.

### 결론

DRAGEN은 빠른 분석 속도, 높은 정확성, 포괄적인 변이 검출 능력, 확장성 및 사용자 편의성을 모두 갖춘 차세대 유전체 분석 도구입니다. DRAGEN은  유전체 연구, 질병 진단, 신약 개발, 맞춤형 의료 등 다양한 분야에서 핵심적인 역할을 수행할 것으로 기대됩니다. 


DRAGEN이야 WGS 데이터를 다루기 위해서는 필수적인 요소임에는 불변할 듯 한데 거기다가 pangenome reference라는 방법론을 추가했네요. 지금 사용하는 Human Reference가 미국주도로 진행되고 있었고 여러 사람의 DNA를 pooling을 해서 reference를 제작했는데 소수의 사람(RP11)의 DNA가 reference로 사용하고 있었다라고 해서 pangenome reference가 나온거 같아 보이네요. pangenome reference를 사용하게 되면서 SNP와 small InDel에 대해서는 성능이 올라갈것 같아 보이는데 SV나 CNV와 같은 구조변이에 대해서도 성능이 좋아졌다라는... 100bp, 150bp Paired-end는 동일한데 reference가 변경되었다고 이게 좋아질 수 있는지는... 좀 더 공부를 해봐야 할 듯 하네요. 

여튼 DRAGEN이 일루미나로 넘어가면서 일루미나에서 활용 할 수 있는 도구가 하나 더 추가되었는데 그 도구가 현존하는 tool중에서 가장 막강한 녀석이라서 활용도가 무궁무진 할 듯 합니다.  :)



출처: @ye._.vely618


월요일, 11월 11, 2024

개인프로젝트 -월간 변동폭을 계산해보자-

오늘은 기존의 자산분배전략 대신에 통계치를 계산해보는 코드를 작성해보았습니다.

각 월마다 주가의 변동폭이 심한 달이 있는지 확인해보고자 함입니다.

사실 이 도표는 개별 주가보다는 지수나 특정 상품에 더 어울릴 듯 한데, 일단 AAPL 전체 주가 정보를 가지고 각 월마다 어떻게 변동폭이 있었는지 확인해보았습니다.


코드: monthly_average_boxplot.py



8,9,10월에 outliere들이 존재하는 것 봐서는 8,9,10월에 변동성이 좀 있어보이지 않나 예상할수 있는데, 보통 애플의 아이폰 출시가 9월에 많이 몰려있어서 그러는것 같기도 합니다.


코스피 지수를 가지고 해봤을 때, 3월과 10월에 outliere들이 있었는데, 아마 3월은 코로나, 10월은 리만 사태이지 않았나 합니다.




출처: @ye._.vely618


일요일, 11월 10, 2024

엑솜 시퀀싱 완벽 가이드!

엑솜 시퀀싱관련하여 정리한 논문을 한번 가져와봤습니다. 이름하여 Exome sequencing explained: a practical guide to its clinical application 입니다.

DOI: 10.1093/bfgp/elv054

엑솜 시퀀싱 관련하여 이런 저런 모든 것들에 대해서 한번 짚어본 논문 되겠습니다.

gemini
## 엑솜 시퀀싱 (WES) 완벽 가이드: 유전 질환 진단의 혁신
**엑솜 시퀀싱(WES)**은 차세대 염기서열 분석 기술로, 유전 질환의 진단에 혁신을 가져왔습니다. 이 기술은 게놈의 단백질 코딩 영역인 엑솜만을 선택적으로 분석하여 질병의 원인이 되는 유전자 변이를 찾아냅니다. 희귀 질환 진단 성공률이 25%에 달하며, 그 중요성이 점점 더 커지고 있습니다.
### WES란 무엇인가요?
우리 몸의 유전 정보는 DNA에 담겨 있으며, DNA는 약 30억 개의 염기쌍으로 이루어져 있습니다. 이 중 단백질을 만드는 정보를 담고 있는 부분을 **엑솜**이라고 하며, 전체 DNA의 약 1-2%를 차지합니다. 엑솜 시퀀싱은 이 엑솜 영역만을 집중적으로 분석하여 유전 질환의 원인이 되는 변이를 찾아내는 기술입니다.
### WES는 어떻게 진행되나요?
1. **DNA 추출**: 혈액, 침, 조직 등에서 DNA를 추출합니다.
2. **엑솜 캡쳐**: 엑솜 영역의 DNA를 선택적으로 분리합니다.
3. **시퀀싱**: 차세대 염기서열 분석 기술을 이용하여 엑솜 DNA의 염기서열을 분석합니다.
4. **데이터 분석**: 분석된 염기서열 데이터를 생물정보학 도구를 이용하여 분석하고, 유전자 변이를 찾아냅니다.
5. **변이 해석**: 발견된 변이가 질병과 관련이 있는지 판단합니다.
### WES의 품질 관리는 어떻게 이루어지나요?
WES 분석 과정에서 **품질 관리**는 매우 중요합니다. 분석의 정확도를 높이기 위해 다음과 같은 품질 관리 기준을 적용합니다.
* **시퀀싱 깊이**: 충분한 시퀀싱 깊이를 확보하여 변이를 정확하게 검출합니다.
* **정렬**: 염기서열을 정확하게 정렬하여 오류를 최소화합니다.
* **변이 검출**: 정확한 변이 검출 알고리즘을 사용합니다.
* **변이 해석**: 변이의 질병 관련성을 정확하게 해석합니다.
### 데이터 필터링 방법은 무엇인가요?
WES 분석으로 얻은 데이터는 방대하기 때문에 질병과 관련된 변이를 찾기 위해 **데이터 필터링** 과정이 필수적입니다.
* **1차 필터링**: 질병을 유발할 가능성이 낮은 변이를 제거합니다.
    * 흔한 변이 제거
    * 단백질 서열에 변화를 일으키지 않는 변이 제거
* **2차 필터링**: 질병을 유발할 가능성이 높은 변이를 선별합니다.
    * 유전자 기능에 영향을 미치는 변이
    * 질병 관련 유전자의 변이
    * 가족력과 일치하는 변이
### WES는 어떻게 임상에 적용되나요?
WES는 다양한 유전 질환의 진단에 활용됩니다. 특히, 원인을 알 수 없는 희귀 질환, 유전성 암, 심장 질환 등의 진단에 효과적입니다. WES를 통해 질병의 원인 유전자를 찾아냄으로써 정확한 진단과 맞춤형 치료를 가능하게 합니다.
### WES의 윤리적 고려 사항은 무엇인가요?
WES는 개인의 유전 정보를 분석하는 기술이기 때문에 윤리적인 문제도 고려해야 합니다.
* **개인 정보 보호**: 유전 정보는 민감한 개인 정보이므로 유출되지 않도록 주의해야 합니다.
* **유전 정보 차별**: 유전 정보를 기반으로 한 차별을 금지해야 합니다.
* **심리적 영향**: 유전 질환 진단 결과가 환자와 가족에게 미칠 심리적 영향을 고려해야 합니다.
### 결론
WES는 유전 질환 진단에 혁신을 가져온 기술입니다. 정확한 진단과 맞춤형 치료를 가능하게 하며, 의학 발전에 크게 기여할 것으로 기대됩니다. 


clova-x
Whole-exome sequencing(WES)은 유전자 연구와 의료 진단에 혁명을 일으키고 있는 최신 기술 중 하나입니다. 이 기술은 인간 게놈의 약 1~2%를 차지하는 단백질 코딩 영역(exome)을 정밀하게 분석하여 유전적 변이를 찾아내는 방법입니다.
WES의 방법론은 크게 세 단계로 나눌 수 있습니다. 첫 번째 단계는 DNA 샘플을 추출하고 정제하는 과정입니다. 이 과정에서는 세포에서 DNA를 분리하고, 불순물을 제거하여 고품질의 DNA를 얻습니다. 두 번째 단계는 exome을 선택적으로 캡처하는 과정입니다. 이 과정에서는 DNA를 작은 조각으로 자른 후, 특정 프로브를 사용하여 exome 영역만을 선택적으로 결합시킵니다. 마지막 단계는 시퀀싱 과정으로, 결합된 exome 조각들을 서열화하여 유전 정보를 해독합니다.
품질 관리는 WES의 정확성과 신뢰성을 보장하는 데 매우 중요합니다. DNA 추출 과정에서는 오염을 방지하고, DNA의 순도와 농도를 측정하여 최적의 조건에서 시퀀싱을 수행할 수 있도록 합니다. 라이브러리 준비 과정에서는 DNA 조각의 크기와 분포를 조절하고, 표지를 부착하여 시퀀싱 장비에서 인식할 수 있도록 합니다. 시퀀싱 과정에서는 장비의 성능을 모니터링하고, 데이터의 품질을 평가하여 오류를 최소화합니다.
데이터 필터링은 WES 데이터에서 유용한 정보를 추출하는 데 필수적인 과정입니다. 먼저, 시퀀싱 데이터에서 오류와 중복을 제거하고, 정렬하여 게놈 상의 위치를 파악합니다. 그런 다음, 변이를 검출하고, 특성을 분석하여 유전적 변이의 종류와 영향을 평가합니다. 이 과정에서는 다양한 생물정보학 도구와 알고리즘을 사용하여 데이터를 처리하고 분석합니다.
WES는 다양한 임상 분야에서 활용되고 있습니다. 희귀 질환의 진단과 치료에 큰 도움을 주고 있으며, 암, 심혈관 질환, 신경계 질환 등 다양한 질병의 원인을 규명하는 데에도 활용되고 있습니다. 또한, 개인 맞춤형 치료를 위한 약물 반응 예측에도 활용될 수 있습니다.
윤리적 고려 사항도 중요합니다. 개인의 유전 정보는 민감한 정보이므로, 수집, 저장, 분석 및 공개에 있어서 엄격한 규제와 보호 조치가 필요합니다. 또한, 유전 정보를 이용한 차별이나 오용을 방지하기 위한 제도적 장치도 마련되어야 합니다.
WES는 아직 초기 단계의 기술이지만, 그 잠재력은 매우 큽니다. 앞으로 기술의 발전과 함께 더욱 정확하고 효율적인 방법으로 유전적 변이를 찾아내고, 이를 활용하여 의료 발전에 기여할 것으로 기대됩니다.


chatGPT
### 1. 전장 엑솜 시퀀싱(WES)란?
전장 엑솜 시퀀싱(WES)은 유전자 전체 중에서 단백질을 만드는 데 중요한 역할을 하는 "엑솜"이라는 부분을 집중적으로 분석하는 유전자 검사 방법입니다. 엑솜은 유전자 전체의 약 1-2%에 불과하지만, 대부분의 질병 유발 변이가 엑솜에서 발생하므로, WES는 질병 원인을 밝히는 데 매우 효과적입니다.
### 2. WES의 방법론
WES 과정은 크게 세 단계로 나뉩니다:
   - **DNA 추출**: 혈액이나 타액과 같은 샘플에서 DNA를 추출하여 분석에 적합한 상태로 준비합니다. 혈액은 높은 품질의 DNA를 제공하지만, 타액은 비침습적인 방법으로 얻을 수 있는 장점이 있습니다.
   - **라이브러리 준비**: 추출한 DNA를 잘게 자른 후 엑솜에 해당하는 특정 부위만 선택적으로 모아서 DNA 라이브러리를 만듭니다. 이 과정에는 다양한 회사의 키트가 사용되며, 각각의 장단점이 있습니다.
   - **시퀀싱**: 준비된 DNA 라이브러리를 첨단 시퀀싱 장비로 분석하여 엑솜의 염기서열을 읽어냅니다. 이 데이터를 통해 각 개인의 엑솜을 분석할 수 있습니다.
### 3. 품질 관리(Quality Control)
WES는 매우 방대한 양의 데이터를 다루므로, 분석 과정에서 철저한 품질 관리가 필수적입니다. 데이터의 품질을 높이기 위해 각 단계에서 다음과 같은 절차를 거칩니다:
   - **데이터 정제**: 낮은 품질의 데이터를 걸러내고, 잘못된 변이 신호를 최소화하여 실제 질병 관련 변이만 남기도록 합니다.
   - **데이터 일치**: 샘플이 잘못되지 않았는지, 외부 DNA로부터 오염이 없는지를 확인하여 신뢰할 수 있는 분석 결과를 얻습니다.
### 4. 데이터 필터링 방법
WES 데이터는 수십만 개의 변이를 포함하고 있어, 이를 필터링하여 질병과 관련된 변이를 추려내야 합니다.
   - **1차 필터링**: 흔하고 무해한 변이를 제거하는 과정으로, 일반 인구에서 자주 나타나는 변이와 불확실한 품질의 변이를 걸러냅니다.
   - **2차 필터링**: 남은 변이들 중에서 임상적으로 의미가 있을 가능성이 높은 변이를 우선순위로 두고 분석합니다. 생물학적 기능에 미치는 영향이나 유전적으로 중요한 부위에서 발생한 변이인지 등을 고려해 변이를 선정합니다.
### 5. 임상적 적용
WES는 특히 드문 유전병의 진단에 유용하게 활용되고 있습니다. 예를 들어, 기존 유전자 검사로 원인을 알 수 없던 희귀 유전 질환의 원인을 규명하고, 환자에게 맞는 치료 계획을 세우는 데 도움을 줍니다. WES는 암, 면역 질환과 같은 복잡한 질병에도 적용이 가능하며, 이를 통해 다양한 유전적 원인을 밝히고 환자의 예후를 예측하는 데 중요한 역할을 합니다.
### 6. 윤리적 고려사항
WES 분석은 예상치 못한 추가 정보를 얻을 수 있는 가능성을 가지고 있어, 윤리적인 문제가 발생할 수 있습니다. 예를 들어, 환자가 원하지 않는 질병 유전자 변이가 발견되었을 때, 이를 환자에게 알릴 것인지 여부가 문제가 됩니다. 미국 유전의학회는 환자의 건강에 영향을 줄 수 있는 특정 유전자 변이는 진단과 상관없이 제공할 것을 권고하고 있지만, 이는 환자의 동의와 개인정보 보호 등의 문제가 포함되어 있어 의료진의 신중한 판단이 필요합니다.
### 7. WES의 한계점
WES는 엑솜에 해당하는 1-2%의 유전자 영역만 분석하므로, 비암호화 부위에 존재하는 중요한 유전적 변이를 놓칠 수 있습니다. 또한, 분석 과정에서 다양한 해석 방법에 따라 결과가 달라질 수 있어 신뢰성을 유지하기 위한 표준화된 절차가 필요합니다.
---
WES는 빠르게 발전하고 있는 유전자 분석 기술로, 비용과 기술의 발전으로 인해 점차 의료 현장에서 널리 사용될 전망입니다. 이를 통해 개인의 유전자 정보를 바탕으로 맞춤형 진료를 받을 수 있는 시대가 열리고 있지만, 이 과정에서 발생할 수 있는 윤리적 문제와 데이터 해석의 한계는 지속적인 연구와 개선이 필요한 부분입니다.


NotebookLM
## 엑솜 시퀀싱 (WES) 완벽 가이드
엑솜 시퀀싱 (WES)은 유전 질환의 진단과 치료에 혁명을 일으킨 강력한 유전체 분석 기술입니다. 이 글에서는 WES에 익숙하지 않은 일반인을 위해 WES의 방법론, 품질 관리, 데이터 필터링, 임상 적용 및 윤리적 고려 사항에 대해 자세히 설명합니다.
### 1. WES란 무엇인가요?
**WES는 전체 게놈 시퀀싱과 달리 단백질을 코딩하는 DNA 영역인 엑솜만을 집중적으로 분석하는 기술입니다.** 인간 게놈의 약 1~2%를 차지하는 엑솜은 질병을 유발하는 변이의 대부분이 존재하는 중요한 영역입니다. WES는 전체 게놈 시퀀싱보다 비용 효율적이며 데이터 분석 및 해석이 용이하다는 장점이 있습니다.
### 2. WES는 어떻게 수행되나요?
WES는 여러 단계를 거쳐 수행됩니다.
* **DNA 추출**: WES의 첫 번째 단계는 혈액, 타액 또는 조직 샘플에서 DNA를 추출하는 것입니다. 가장 일반적으로 사용되는 샘플은 말초 혈액 백혈구입니다. 타액 샘플은 채취가 용이하지만, DNA의 품질과 양이 떨어질 수 있습니다. 
* **라이브러리 준비**: 추출된 DNA는 시퀀싱을 위해 조각화하고 특정 어댑터를 연결하여 라이브러리를 준비합니다.
* **엑솜 캡처**: 엑솜 캡처는 라이브러리에서 엑솜 영역만 선택적으로 농축하는 과정입니다. 이는 엑솜 영역에 특이적으로 결합하는 프로브를 사용하여 수행됩니다.
* **시퀀싱**: 농축된 엑솜 라이브러리는 차세대 시퀀싱 (NGS) 기술을 사용하여 시퀀싱됩니다. NGS는 대량 병렬 시퀀싱을 통해 수백만 개의 DNA 조각을 동시에 읽을 수 있습니다.
* **데이터 분석**: 시퀀싱된 데이터는 인간 참조 게놈에 정렬되고 변이를 식별하기 위해 분석됩니다.
### 3. WES 데이터의 품질 관리는 어떻게 이루어지나요?
WES 데이터의 정확성과 신뢰성을 보장하기 위해 품질 관리가 중요합니다. 품질 관리는 다음과 같은 요소를 고려합니다.
* **시퀀싱 깊이**: 시퀀싱 깊이는 각 DNA 염기가 시퀀싱된 횟수를 나타냅니다. 충분한 시퀀싱 깊이는 변이를 정확하게 감지하기 위해 중요합니다.
* **정렬 품질**: 시퀀싱된 DNA 조각은 인간 참조 게놈에 정확하게 정렬되어야 합니다. 잘못된 정렬은 거짓 양성 변이를 생성할 수 있습니다.
* **변이 호출의 정확성**: 변이 호출 알고리즘은 시퀀싱 데이터에서 변이를 정확하게 식별해야 합니다.
* **샘플 오염**: 샘플 오염은 WES 결과에 영향을 미칠 수 있습니다. 오염을 확인하고 제거하기 위한 절차가 필요합니다.
### 4. WES 데이터는 어떻게 필터링되나요?
WES는 개인당 약 25,000개의 변이를 생성합니다. 이러한 방대한 양의 데이터에서 질병과 관련된 변이를 찾기 위해 데이터 필터링이 필수적입니다. 데이터 필터링은 다음과 같은 단계로 이루어집니다.
* **1차 필터링**: 1차 필터링은 양성 변이를 제거하는 데 중점을 둡니다.
    * **품질 관리**: 낮은 품질의 변이를 제거합니다.
    * **후보 유전자 분석**: 임상 표현형과 관련된 유전자의 변이만 선택합니다.
    * **동의어 변이 제거**: 단백질 서열에 변화를 일으키지 않는 동의어 변이를 제거합니다. 하지만 동의어 변이도 드물게 질병을 유발할 수 있으므로 주의가 필요합니다.
    * **낮은 대립유전자 빈도 (MAF) 필터링**: MAF는 집단에서 특정 변이의 빈도를 나타냅니다. 희귀 질환과 관련된 변이는 일반적으로 MAF가 낮습니다. 따라서 특정 MAF 이하의 변이만 선택합니다.
    * **가계 내 변이 분리**: 가족 구성원의 변이 분리 패턴을 분석하여 질병과 관련된 변이를 식별합니다.
* **2차 필터링**: 2차 필터링은 남아 있는 후보 변이를 우선 순위를 매기는 데 사용됩니다.
    * **In silico 예측**: 단백질 기능에 미치는 영향을 예측하는 컴퓨터 알고리즘을 사용합니다.
    * **복제수 변이 (CNV) 분석**: CNV는 DNA의 특정 영역이 삭제되거나 중복된 것을 말합니다. WES는 CNV를 감지하는 데 제한적이지만, 최근 기술 발전으로 CNV 분석 능력이 향상되고 있습니다.
    * **다중 대립 유전자**: 동일한 유전자에서 여러 개의 변이가 발생하는 경우 질병을 유발할 가능성이 더 높습니다.
* **우선 순위가 지정된 변이 보고**: 필터링 과정을 거친 후 남은 변이는 임상적 중요성을 평가하기 위해 검토됩니다. 이 과정에는 변이의 이전 보고, 단백질 기능에 미치는 영향, 유전자 발현 연구 등이 포함됩니다.
### 5. WES는 임상에서 어떻게 활용되나요?
WES는 다양한 임상 분야에서 희귀 질환의 진단에 성공적으로 적용되어 왔습니다. 
* **진단율**: WES는 희귀 질환 진단에 있어 약 25%의 성공률을 보입니다. 이는 기존의 유전 검사 방법보다 훨씬 높은 수치입니다.
* **새로운 질병 유전자 발견**: WES는 이전에 알려지지 않았던 질병 유전자를 발견하는 데 기여했습니다.
* **개인 맞춤형 치료**: WES는 환자의 유전적 특징에 따라 맞춤형 치료법을 개발하는 데 도움이 될 수 있습니다.
### 6. WES의 윤리적 고려 사항은 무엇인가요?
WES의 임상 적용에는 다음과 같은 윤리적 고려 사항이 존재합니다.
* **사전 동의**: WES는 광범위한 유전 정보를 생성하므로, 환자는 WES의 잠재적 결과와 위험성에 대해 충분히 이해하고 동의해야 합니다. 특히 우발적 소견 (incidental findings)의 가능성에 대한 설명이 중요합니다. 우발적 소견은 원래 검사 목적과 관련 없는 유전적 변이를 말합니다.
* **데이터 공유**: WES 데이터는 연구 목적으로 공유될 수 있습니다. 데이터 공유는 과학적 발전에 기여하지만, 개인 정보 보호에 대한 우려도 제기됩니다.
* **우발적 소견 보고**: 우발적 소견을 환자에게 보고할지 여부는 윤리적으로 논란이 되는 문제입니다. 현재 미국 의학 유전체학회 (ACMG)는 56개 유전자의 병원성 변이를 우발적으로 발견할 경우 환자에게 보고할 것을 권고하고 있습니다 . 하지만 우발적 소견의 보고는 환자에게 불필요한 불안감을 유발하거나 과도한 의료 행위를 초래할 수 있다는 비판도 있습니다.
### 7. WES의 한계는 무엇인가요?
WES는 강력한 유전체 분석 기술이지만, 몇 가지 한계점이 있습니다.
* **제한된 범위**: WES는 엑솜 영역만 분석하기 때문에 엑솜 외부의 변이는 감지할 수 없습니다. 
* **CNV 및 작은 indel의 검출**: WES는 CNV와 작은 indel을 검출하는 데 어려움이 있습니다.
* **데이터 해석의 복잡성**: WES 데이터 해석은 복잡하고 전문 지식이 필요합니다.
* **비용**: WES는 여전히 상당한 비용이 소요될 수 있습니다.
### 8. WES의 미래는 어떻게 될까요?
WES는 지속적으로 발전하고 있으며, 미래에는 더욱 광범위하게 활용될 것으로 예상됩니다. 
* **비용 감소**: 시퀀싱 기술의 발전으로 WES 비용은 계속 감소하고 있습니다.
* **데이터 분석 기술 향상**: WES 데이터 분석 기술의 발전으로 더 정확하고 효율적인 변이 식별이 가능해질 것입니다.
* **임상 적용 확대**: WES는 희귀 질환뿐만 아니라 암, 심혈관 질환, 신경 질환 등 다양한 질환의 진단과 치료에 활용될 것으로 예상됩니다.
**결론적으로 WES는 유전 질환 연구 및 진단에 혁명을 일으킨 강력한 기술입니다. WES는 희귀 질환 환자에게 진단의 기회를 제공하고 개인 맞춤형 치료법 개발에 기여할 수 있습니다.** 하지만 WES의 한계와 윤리적 고려 사항을 인식하는 것이 중요합니다. WES 기술의 지속적인 발전과 함께 유전체 의학의 미래는 밝을 것으로 예상됩니다.


지금은 WGS을 언급하고 있지만 최근 몇년 전까지만 해도 엑솜 시퀀싱을 꽤 많이 하고 있었기에 지금 WES에 대해서 한번 돌아보는것도 크게 문제되어 보이지는 않아보이긴 합니다. :)
예전에는 아니 왜 굳이 불필요하게 WES, WGS 처럼 시퀀싱을 많이하냐! Targeted Panel 잘 디자인하면 되지 않냐!! 했지만 시퀀싱 가격이 급속도로 내려가면서 Targeted Panel과 비슷한 가격에 WES를 하게되면서 WES 만능자들이 나왔고 시퀀싱 가격이 더 내려가면서 이제 WGS가 고개를 들고 있죠 ㅎㅎ 
좀 오래된 논문 들춰가면서 기술에 대해서 한번 돌아보면서 내가 놓치고 있는 것은 무엇인지 생각해보는 시간을 가져보는것도 좋을듯 합니다. :)


출처: @ye._.vely618


금요일, 11월 08, 2024

NHIS와 HIRA 데이터베이스, 어떤 자료일까요?

오늘은 국내 건겅보험과 건강보험심사평가원에서 공개하고 있는 자료에 대해서 설명해준 논문이 있어서 한번 가져와봤습니다. Understanding and Utilizing Claim Data from the Korean National Health Insurance Service (NHIS) and Health Insurance Review & Assessment (HIRA) Database for Research 으로 국민건강보험과 건강보험심사혗가원에서는 다양한 처방 내역을 공개하고 있으니 연구에 사용 할 수 있지만 자료의 구조와 특성을 잘 이해하길 바란다고 하네요 :)

DOI: 10.12997/jla.2022.11.2.103



gemini
## NHIS와 HIRA 데이터베이스, 뭐하는 곳일까요? 🧐
**🤔 혹시... '공공 의료 빅데이터' 라는 말 들어보셨나요?**
우리가 병원에 갈 때마다, 우리의 진료 기록은 데이터베이스에 저장됩니다. 이렇게 모인 정보들을 '의료 빅데이터' 라고 하는데, **국민건강보험공단(NHIS)**과 **건강보험심사평가원(HIRA)**은 이러한 정보들을 모아서 관리하는 기관입니다. 마치 거대한 도서관처럼, 우리나라 국민들의 건강 정보를 담고 있는 곳이죠. 📚
**1. NHIS와 HIRA는 어떤 일을 할까요?**
* **NHIS**: 국민들의 건강보험 가입 및 관리, 건강 검진, 그리고 **HIRA에서 받은 진료 정보를 바탕으로 보험금을 지급**하는 일을 합니다. 💰
* **HIRA**: 병원에서 청구된 진료비가 적절한지 심사하고, 의료 서비스의 질을 평가하는 일을 합니다. 🏥
**2. NHIS와 HIRA가 모은 정보는 어떻게 활용될까요?**
NHIS와 HIRA가 모은 정보는 단순히 보험금 지급이나 진료비 심사에만 이용되는 것이 아닙니다. 이 정보들은 **'공공 의료 빅데이터'** 라고 불리며, 다양한 연구에 활용될 수 있습니다. 📊
* **질병 예방 및 치료법 개발**: 어떤 질병이 왜 발생하는지, 어떻게 치료해야 효과적인지 연구하는 데 도움을 줍니다. 💉
* **의료 정책 수립**: 국민 건강 증진을 위한 정책을 만드는 데 필요한 정보를 제공합니다. 
* **의료 서비스 질 향상**: 병원들이 더 나은 의료 서비스를 제공하도록 유도합니다. 👍
**3. NHIS와 HIRA 데이터베이스의 장점은 무엇일까요?**
* **전 국민 의료 데이터**: 거의 모든 국민의 의료 정보를 담고 있어, **대표성이 높고 신뢰할 수 있는 연구 결과**를 얻을 수 있습니다. 🇰🇷
* **다양한 변수**: 나이, 성별, 질병, 치료, 사망 원인 등 다양한 정보를 포함하고 있어, **폭넓은 연구**가 가능합니다. 
* **저렴한 비용**: 연구자들은 **비교적 적은 비용으로 데이터를 이용**할 수 있습니다. 💸
**4. NHIS와 HIRA 데이터베이스, 어떻게 이용할 수 있을까요?**
연구자들은 IRB(생명윤리위원회) 승인을 받은 후, NHIS 또는 HIRA에 연구 계획을 제출하여 데이터를 신청할 수 있습니다. 📝
**5. NHIS와 HIRA 데이터베이스 이용 시 주의할 점은 무엇일까요?**
* **데이터 특성 이해**: 데이터가 보험 청구를 위해 만들어졌다는 점을 고려하여, 연구 목적에 맞게 적절히 활용해야 합니다.
* **개인 정보 보호**: 데이터에는 개인 정보가 포함되어 있으므로, 연구자들은 개인 정보 보호에 유의해야 합니다. 🔒
**📌 요약하자면...**
NHIS와 HIRA는 우리나라 국민들의 건강 정보를 모아서 관리하는 기관입니다. 이들이 모은 정보는 다양한 연구에 활용되어 질병 예방, 치료법 개발, 의료 정책 수립 등에 기여할 수 있습니다. 
이처럼 NHIS와 HIRA는 국민 건강 증진을 위해 중요한 역할을 수행하는 기관입니다. 😊


clova-x
국민건강보험공단(NHIS)과 건강보험심사평가원(HIRA)은 한국의 건강보험제도를 운영하는 두 기관으로, 각각의 데이터베이스는 연구자들에게 유용한 정보를 제공합니다.
- NHIS 데이터베이스:
NHIS는 국민건강보험공단이 운영하는 데이터베이스로, 거의 모든 한국 인구의 건강 정보를 포함하고 있습니다. 이 데이터베이스는 크게 다섯 가지 항목으로 구성되어 있습니다.
1. 일반 사양 세부사항: 환자의 나이, 성별, 진료과, 방문 날짜, 상태(부상 또는 질병 여부) 등의 정보를 포함합니다.
2. 입원 치료 세부사항: 의료비, 처방료, 검사료, 시술/수술 코드 등의 기록을 포함합니다.
3. 질병 세부사항: 환자가 진단받은 질병의 종류와 심각도 등의 정보를 제공합니다.
4. 외래 처방 세부사항: 병원 밖에서 처방된 약의 종류, 처방 일수, 수량 등의 정보를 담고 있습니다.
5. 요양기관 정보: 요양기관의 유형(의원, 병원, 상급종합병원, 보건소 등), 소재지, CT/MRI 등의 장비 보유 여부 등을 기록합니다.
NHIS 데이터베이스는 샘플 데이터와 맞춤형 데이터 모두 제공되며, 샘플 데이터는 전체 인구의 약 2%를 대상으로 하고, 맞춤형 데이터는 연구자가 원하는 조건에 맞는 모든 데이터를 제공합니다.
- HIRA 데이터베이스:
HIRA는 건강보험심사평가원이 운영하는 데이터베이스로, NHIS와 유사한 정보를 제공하지만, 개인이 소유할 수 있는 청구 데이터를 포함한다는 점에서 차별화됩니다. HIRA 데이터베이스는 다음과 같은 특징을 가지고 있습니다.
1. 연구자들이 일정 금액을 지불하면 데이터를 USB 드라이브로 제공받을 수 있습니다.
2. 최대 250GB의 데이터가 제공되며, 요청한 데이터의 양이 250GB를 초과하지 않는 경우 5년 이상의 데이터를 확보할 수 있습니다.
3. 데이터 접근 방식, 변수 특성, 분석 센터 방문 분석, 원격 분석, 데이터 가용성 등에서 NHIS와 다른 방식을 사용합니다.
HIRA 데이터베이스 역시 샘플 데이터와 맞춤형 데이터를 제공하며, 샘플 데이터는 전체 인구의 약 3%를 대상으로 하고, 맞춤형 데이터는 연구자가 원하는 조건에 맞는 모든 데이터를 제공합니다.
두 기관의 데이터베이스는 연구자들에게 다양한 연구 목적에 활용될 수 있는 정보를 제공하며, 이를 통해 한국의 보건의료체계와 의료이용 현황을 파악하고, 보건의료정책 수립에 필요한 근거를 마련하는 데에도 큰 도움이 될 것입니다.


chatGPT
이 연구는 국민건강보험공단(NHIS)과 건강보험심사평가원(HIRA)의 데이터를 연구 목적으로 어떻게 활용할 수 있는지를 설명하고 있습니다. 이 두 기관의 데이터는 거의 모든 국민을 포함하고 있기 때문에 연구자들에게 매우 유용한 자료를 제공합니다. 이제 이 내용을 쉽게 이해할 수 있도록 구조화하여 설명하겠습니다.
### 1. 국민건강보험공단(NHIS)과 건강보험심사평가원(HIRA)이란 무엇인가요?
NHIS는 국민의 건강보험을 관리하는 기관으로, 국민들이 병원에서 받은 치료나 건강검진 결과와 같은 정보를 모아둡니다. HIRA는 국민들이 병원에서 받은 치료나 약물 처방이 제대로 이루어졌는지를 평가하는 기관입니다. 이 두 기관은 각각 건강과 관련된 방대한 데이터를 가지고 있으며, 이러한 데이터는 연구자들이 질병이나 치료 방법을 분석하는 데 중요한 자료로 사용됩니다.
### 2. NHIS와 HIRA 데이터의 차이점은 무엇인가요?
두 기관의 데이터는 비슷하지만, NHIS 데이터는 더 다양한 정보를 포함합니다. 예를 들어, NHIS는 사망 기록, 건강검진 결과, 소득과 같은 사회경제적 정보까지 포함하고 있습니다. 반면 HIRA 데이터는 병원 치료 내역, 처방 약물 정보, 간호 기관 정보에 집중되어 있습니다.
### 3. 이 데이터는 왜 중요한가요?
NHIS와 HIRA 데이터는 거의 모든 국민을 대상으로 하기 때문에 "빅데이터"로서 매우 가치가 있습니다. 이 데이터를 통해 연구자들은 질병의 발생 원인이나 치료 효과 등을 분석할 수 있습니다. 예를 들어, 특정 약물이 얼마나 효과적인지, 혹은 어떤 질병이 어떤 요인과 관련이 있는지를 연구할 수 있습니다.
### 4. NHIS와 HIRA 데이터의 한계는 무엇인가요?
이 데이터는 청구 목적으로 수집된 것이기 때문에 임상적 결과, 즉 실제 치료 효과나 병이 얼마나 나았는지에 대한 정보는 포함되지 않습니다. 예를 들어, 환자가 고혈압 약을 복용했다고 기록은 되어도, 그 약을 먹고 혈압이 얼마나 떨어졌는지는 기록되지 않습니다. 또한, 비보험 항목에 대한 데이터는 포함되지 않기 때문에 연구에 제한이 있을 수 있습니다.
### 5. 연구자는 이 데이터를 어떻게 사용할 수 있나요?
연구자는 연구 계획을 세우고, NHIS나 HIRA에 데이터를 요청해 사용할 수 있습니다. 하지만 이 데이터를 이용하기 위해서는 연구의 목적에 맞는 변수를 신중하게 선택해야 하며, 필요한 경우 데이터 분석 전문가와 협력해야 합니다. 데이터의 양이 방대하기 때문에 연구 시작 전, 연구에 필요한 자료를 정확히 파악하는 것이 중요합니다.
### 6. 연구를 위한 준비 과정은 어떻게 이루어지나요?
먼저 연구자는 연구윤리심의위원회(IRB)의 승인을 받아야 하고, NHIS나 HIRA에 연구 목적에 맞는 데이터를 요청해야 합니다. 데이터를 받은 후에는 통계 프로그램을 이용해 분석을 진행하게 됩니다. 연구 과정에서 발생할 수 있는 오류나 편향을 최소화하기 위해 철저한 계획이 필요합니다.
### 7. 결론
NHIS와 HIRA의 데이터는 거의 모든 국민을 대상으로 하여 연구자들에게 매우 유용한 도구가 될 수 있습니다. 하지만 이 데이터를 올바르게 사용하려면 데이터의 특성과 구조를 충분히 이해하고, 연구 설계를 신중하게 해야 합니다.


NotebookLM
## NHIS, HIRA 데이터베이스: 시민들을 위한 설명
선택하신 출처는 건강보험심사평가원(HIRA)과 국민건강보험공단(NHIS)의 데이터베이스가 연구자들에게 유용한 정보를 제공한다는 내용입니다.  이 데이터베이스들은 **전 국민의 의료 이용 정보를 담고 있어 의료 분야 연구에 큰 도움**을 주고 있습니다.  
### 1. 건강보험심사평가원(HIRA)과 국민건강보험공단(NHIS)은 무슨 일을 하나요?
* HIRA는 병원이나 약국에서 건강보험으로 처리된 진료비와 약제비를 심사하고 평가하는 기관입니다.  **쉽게 말해, 병원에서 부당하게 진료비를 청구하지 않았는지 확인하는 역할**을 합니다.
* NHIS는 국민들의 건강보험료를 걷고, 병원이나 약국에 진료비와 약제비를 지불하는 기관입니다. **우리가 아플 때 건강보험 혜택을 받을 수 있도록 관리하는 역할**을 합니다.
### 2. HIRA와 NHIS 데이터베이스는 어떻게 연구에 활용되나요?
* **HIRA 데이터베이스**는 환자의 **진료 내역, 질병 정보, 처방된 약 정보, 병원 정보 등**을 담고 있습니다.
* **NHIS 데이터베이스**는 HIRA 데이터베이스의 모든 정보를 포함하며, 추가로 **사망 기록, 건강검진 기록, 소득 정보 등**을 포함합니다.
* 이러한 데이터베이스들은 **특정 질병에 대한 치료 경향, 의료 서비스 이용 현황, 의료비 지출 분석 등 다양한 연구**에 활용될 수 있습니다.
### 3. HIRA와 NHIS 데이터베이스는 어떤 장점이 있나요?
* **전 국민의 의료 정보를 담고 있어 대표성이 높고, 통계적으로 신뢰할 수 있는 결과**를 얻을 수 있습니다.
* **데이터베이스가 잘 구축되어 있어 비교적 쉽게 연구에 활용**할 수 있습니다.
### 4. HIRA와 NHIS 데이터베이스는 어떤 한계점이 있나요?
* **청구 목적으로 만들어진 데이터이기 때문에, 환자의 실제 건강 상태나 치료 결과 등 세부적인 정보는 부족**할 수 있습니다.
* **환자의 개인정보 보호를 위해 데이터가 익명화되어 제공되므로, 개별 환자에 대한 추적 연구는 어려울 수 있습니다.**
### 5. HIRA와 NHIS 데이터베이스를 이용한 연구는 어떻게 진행되나요?
* 연구자들은 **연구 계획서를 제출하고 HIRA 또는 NHIS의 승인**을 받아야 합니다.
* 데이터베이스에서 필요한 정보를 추출하여 **통계 분석**을 수행합니다.
* 연구 결과는 **학술 논문이나 보고서** 등의 형태로 발표됩니다.
### 결론
HIRA와 NHIS 데이터베이스는 전 국민 건강 증진을 위한 **의료 정책 수립, 질병 예방 및 관리, 의료 서비스 질 향상** 등에 기여할 수 있는 중요한 자원입니다. 
**시민 여러분의 건강 정보가 소중하게 활용되어 더 나은 의료 환경을 만드는 데 도움이 되고 있다는 사실을 기억해주세요.** 

국민건강보험 자료는 통계청에서 자료를 확인 할 수 있을지는 잘 모르겠지만 건강보험심사평가원 같은 경우 HIRA빅데이터개방포털로 이미 다년간 유용하게 잘 활용하고 있지요. 정확한 용어가 뜻하는 의미나 몇몇 이해가 안되는 자료들이 있으나 생각보다 많은 자료를 공개하고 있습니다. 시장조사를 목적으로 사용하면 생각보다 들여다 볼게 많은 자료이긴하죠. 대신 한정적인 자료이다보니 데이터를 해석 할 때 오류나 편향을 최소화 할 수 있도록 하는 자세도 필요할 듯 합니다. 



출처: @ye._.vely618


수요일, 11월 06, 2024

InterVar, 유전자 변이 해석을 위한 도우미

지난번에는 변이 판독을 어떻게 하는지 설명하는 ACMG/AMP 가이드라인 논문을 올렸었는데요, 이걸 사람이 매번 할 수 있지만, 굳이... 이걸?

그래서 ACMG/AMP 가이드라인을 로직화하여서 변이를 입력하면 어떤 근거로 변이가 병원성인지 아닌지를 판별해주는 프로그램에 대한 논문을 가져와봤습니다. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines

이후 다양한 상업적인 tool들도 많이 나온 상황인데, 초창기에 나왔던 tool인데 꽤나 잘 만들었습니다.

DOI: 10.1016/j.ajhg.2017.01.004


gemini

## InterVar: 유전자 변이 해석을 위한 도우미

**유전자 변이**는 개인의 DNA 서열에서 발생하는 차이를 말하며, 질병 발생과 연관될 수 있습니다. 이러한 변이를 해석하는 것은 복잡하고 전문적인 지식을 요구하는 작업입니다. InterVar는 이러한 유전자 변이 해석을 돕기 위해 개발된 도구입니다.

**InterVar가 하는 일**

InterVar는 2015년 미국 의학 유전체학회(ACMG)와 미국 분자 병리학회(AMP)에서 발표한 유전자 변이 해석 가이드라인을 기반으로 개발되었습니다. 이 가이드라인은 28가지 기준을 사용하여 변이의 질병 유발 가능성을 평가합니다. InterVar는 이 중 18가지 기준에 대해 자동으로 점수를 매겨 변이를 해석합니다.

**InterVar의 장점**

* **전문 지식 없이도 사용 가능**: InterVar는 복잡한 유전자 변이 해석 과정을 자동화하여 일반인도 쉽게 사용할 수 있도록 설계되었습니다.

* **객관적인 결과 제공**: InterVar는 정해진 기준에 따라 객관적인 결과를 제공하여 변이 해석의 정확성을 높입니다.

* **시간 절약**: InterVar는 자동으로 변이를 해석하여 시간을 절약하고, 전문가의 추가 분석 시간을 줄여줍니다.

**InterVar의 활용**

InterVar는 다양한 유전 질환의 진단 및 예측에 활용될 수 있습니다. 예를 들어, 특정 질환과 관련된 유전자 변이가 발견된 경우, InterVar를 통해 해당 변이의 질병 유발 가능성을 평가하고, 질병 발생 위험을 예측할 수 있습니다.

**InterVar의 미래**

InterVar는 지속적으로 업데이트되고 있으며, 더 많은 유전자 변이에 대한 정보를 포함하도록 개선될 예정입니다. 또한, 더욱 정확하고 효율적인 변이 해석을 위해 인공지능 기술을 활용하는 방안도 연구 중입니다.

**결론**

InterVar는 유전자 변이 해석을 위한 강력한 도구입니다. 일반인들도 InterVar를 통해 자신의 유전 정보를 더 잘 이해하고, 건강 관리에 활용할 수 있습니다.



clova-x

InterVar는 유전자 변이를 해석하는 데 도움을 주는 컴퓨터 프로그램입니다. 이 프로그램은 2015년에 미국 의학 유전체 학회(ACMG)와 미국 분자병리학회(AMP)에서 발표한 유전자 변이 해석에 관련된 가이드라인을 기반으로 만들어졌습니다.

InterVar는 사용자가 유전자 변이 데이터를 입력하면, 해당 변이가 어떤 질병과 관련이 있는지, 그리고 그 변이가 건강에 어떤 영향을 미칠 수 있는지를 분석해 줍니다. 이 프로그램은 18개의 기준을 사용하여 유전자 변이를 자동으로 해석하고, 그 결과를 사용자에게 제공합니다.

변이의 해석 결과는 '병원성', '가능성 있는 병원성', '불확실한 의미', '가능성 있는 양성', '양성'의 다섯 단계로 분류됩니다. 이 분류는 변이가 얼마나 위험한지를 나타내며, 사용자는 이 결과를 바탕으로 적절한 조치를 취할 수 있습니다.

InterVar는 유전자 변이와 생명공학에 익숙하지 않은 일반인들도 쉽게 사용할 수 있도록 설계되었습니다. 사용자는 프로그램을 다운로드하여 컴퓨터에 설치하고, 유전자 변이 데이터를 입력하기만 하면 됩니다. 프로그램은 자동으로 변이를 분석하고, 그 결과를 시각적으로 보여주기 때문에, 사용자는 쉽게 이해할 수 있습니다.

또한, InterVar는 웹 기반 버전인 wInterVar도 제공합니다. wInterVar는 인터넷 브라우저를 통해 접속할 수 있으며, 사용자는 웹사이트에서 직접 유전자 변이를 입력하고, 그 결과를 확인할 수 있습니다.

InterVar는 유전자 변이 해석에 있어서 정확성과 신속성을 제공하며, 의료 분야에서 매우 유용한 도구로 활용되고 있습니다.



chatGTP

InterVar는 유전자 변이에 대한 해석을 도와주는 도구로, 2015년 미국 의학 유전학회(ACMG)와 분자병리학회(AMP)에서 발표한 유전 변이 해석 가이드라인을 바탕으로 만들어졌습니다. 이 도구는 사람들이 유전자의 변화가 특정 질병과 관련이 있는지 여부를 빠르고 정확하게 판단할 수 있도록 지원합니다. 

### 1. InterVar는 어떤 도구인가요?

우리 몸의 유전자에는 다양한 변이가 존재하며, 이 변이 중 일부는 질병을 유발하거나 특정한 건강 상태와 관련될 수 있습니다. InterVar는 이런 유전자 변이의 임상적 중요성을 자동으로 분석하여 결과를 제공합니다. 즉, InterVar를 사용하면 유전자 변이가 질병과 관련이 있는지, 얼마나 위험한지를 체계적으로 평가할 수 있습니다.

### 2. InterVar는 어떻게 작동하나요?

InterVar는 유전자 변이에 대해 자동으로 점수를 매기고, 이를 바탕으로 변이의 위험 수준을 해석합니다. 이 과정은 크게 두 가지 단계로 나뉩니다.

   - **자동화 단계**: 먼저 InterVar는 18개의 기준을 바탕으로 유전자 변이를 평가합니다. 여기에는 유전자 변이가 얼마나 자주 발생하는지, 유전자 변이가 단백질 구조에 어떤 영향을 미치는지 등의 정보가 포함됩니다.

   - **수동 조정 단계**: 자동 해석 결과를 바탕으로 전문가가 추가 정보를 고려하여 변이의 위험도를 재평가할 수 있습니다. 이 수동 조정 단계는 변이 해석의 정확도를 높이는 데 기여합니다.

### 3. InterVar를 사용하면 어떤 점이 좋을까요?

InterVar는 유전자 변이 해석을 위한 복잡한 과정을 단순화하여 빠르고 효율적인 해석을 가능하게 합니다. 특히 선천성 질환이나 조기 발병 질환과 같이, 높은 위험성을 가진 변이를 찾아내는 데 매우 유용합니다. 예를 들어, InterVar는 변이가 특정 질병을 일으킬 가능성이 높은지 여부를 판단하여, 의사들이 신속하게 진단과 치료 계획을 세울 수 있도록 돕습니다.

### 4. InterVar가 일반인에게 중요한 이유는 무엇일까요?

유전자 검사는 이제 의료 서비스의 중요한 부분이 되었으며, 많은 사람들이 자신의 유전자 정보를 알고 싶어 합니다. 하지만 복잡한 유전자 변이 정보를 이해하고 해석하는 것은 쉬운 일이 아닙니다. InterVar와 같은 도구는 유전자 변이의 임상적 중요성을 명확하게 알려주어, 유전자 검사를 받은 사람들이 자신의 건강 상태나 유전적 위험에 대해 이해하는 데 큰 도움을 줍니다. 

### 요약

InterVar는 유전자 변이가 질병과 어떤 관련이 있는지를 판단하는 데 유용한 도구로, 의료 전문가와 연구자들이 유전자 정보를 보다 쉽게 해석할 수 있도록 돕습니다. 이로 인해 유전자 검사의 활용이 더욱 활발해질 것으로 기대됩니다.



NotebookLM

## InterVar: 유전자 변이 해석 도구, 일반인을 위한 설명

InterVar는 유전자 검사 결과에서 발견되는 유전자 변이가 질병을 유발하는 가능성을 판단하는 데 도움을 주는 컴퓨터 프로그램입니다. 생명공학 분야의 전문 지식이 없는 일반인도 이해하기 쉽도록 InterVar에 대해 설명해 드리겠습니다.

### 유전자 검사와 유전자 변이

우리 몸의 설계도는 DNA라는 유전 물질에 담겨 있습니다. 유전자 검사는 이 DNA를 분석하여 질병과 관련된 변이를 찾아내는 검사입니다. 유전자 변이는 DNA 염기서열의 변화를 말하며, 이 변화가 단백질의 기능에 영향을 미쳐 질병을 유발할 수 있습니다.

### 유전자 변이 해석의 중요성과 어려움

유전자 검사를 통해 많은 유전자 변이가 발견되지만, 모든 변이가 질병을 유발하는 것은 아닙니다. 어떤 변이는 아무런 영향을 미치지 않거나, 심지어 유익한 경우도 있습니다. 따라서 **유전자 변이가 질병을 유발할 가능성이 얼마나 되는지 정확하게 판단하는 것이 매우 중요**합니다.

하지만 유전자 변이 해석은 복잡하고 쉽지 않은 작업입니다. 유전자 변이의 종류, 위치, 변화의 정도, 관련된 질병 정보 등 다양한 요소를 종합적으로 고려해야 하기 때문입니다.

### InterVar: 2015 ACMG-AMP 가이드라인 기반 자동화된 유전자 변이 해석 도구

InterVar는 미국 의학 유전체학회(ACMG)와 미국분자병리학회(AMP)에서 발표한 유전자 변이 해석 가이드라인을 기반으로 개발되었습니다. 이 가이드라인은 **유전자 변이를 병원성, 가능성 높은 병원성, 불확실한 유의성, 가능성 높은 양성, 양성의 5단계로 분류**합니다. InterVar는 이 가이드라인에 명시된 28가지 기준 중 18가지 기준에 대한 정보를 자동으로 분석하여 변이의 병원성을 판단합니다.

### InterVar의 작동 원리

InterVar는 다음과 같은 두 단계를 거쳐 유전자 변이를 해석합니다.

1. **자동 분석 단계**: InterVar는 입력된 유전자 변이 정보를 바탕으로 18가지 기준에 대한 점수를 자동으로 계산합니다. 예를 들어, 변이가 단백질의 중요한 부분에 위치하는지, 변이가 유전자 발현에 영향을 미치는지, 변이가 이미 질병과 관련된 것으로 알려져 있는지 등을 분석합니다.

2. **수동 조정 단계**: InterVar는 자동 분석 결과를 제시하고, 전문가가 자신의 지식을 활용하여 결과를 검토하고 수정할 수 있도록 합니다. 예를 들어, 환자의 가족력, 증상, 다른 유전자 검사 결과 등을 고려하여 InterVar의 판단을 조정할 수 있습니다.

### InterVar의 장점

* **객관적이고 일관된 해석**: InterVar는 ACMG-AMP 가이드라인이라는 표준화된 기준을 사용하므로 객관적이고 일관된 해석을 제공합니다.

* **시간 절약**: InterVar는 자동으로 많은 정보를 분석하여 전문가의 시간을 절약해 줍니다.

* **전문 지식 보완**: InterVar는 전문가가 자신의 지식을 활용하여 해석 결과를 조정할 수 있도록 하여, 보다 정확하고 신뢰할 수 있는 해석을 가능하게 합니다.

### InterVar의 한계

* **모든 유전자 변이 해석 가능한 것은 아님**: InterVar는 멘델리안 질환이나 침투율이 높은 유전 질환에 적합하며, 복잡한 질병과 관련된 변이를 해석하는 데는 제한적입니다.

* **데이터베이스 의존성**: InterVar는 유전자 변이 정보, 질병 정보 등을 담고 있는 데이터베이스를 기반으로 작동합니다. 따라서 데이터베이스의 품질이 InterVar의 해석 정확도에 영향을 미칠 수 있습니다.

### InterVar의 활용 및 기대 효과

InterVar는 유전자 검사 결과를 해석하는 데 유용한 도구이며, 의료진이 환자에게 보다 정확한 진단과 치료를 제공하는 데 도움을 줄 수 있습니다. 또한 InterVar는 유전자 변이 연구를 촉진하여 새로운 질병 유전자를 발견하고, 질병의 발생 메커니즘을 이해하는 데 기여할 수 있습니다.

### 결론

InterVar는 복잡한 유전자 변이 해석 과정을 자동화하고 표준화하여 의료진의 유전자 검사 결과 해석을 지원하는 유용한 도구입니다. InterVar를 통해 유전 질환 진단의 정확성을 높이고 개인 맞춤형 의료 시대에 더 나은 의료 서비스를 제공할 수 있을 것으로 기대됩니다.


varsome, franklin 이나 VarSeq같은 상용 tool들이 있어서 크게 와닿지는 않지만, 생각보다 지금도 잘 작동하고, 내부에서 사용하는 DB나 로직을 계속 업데이트 해주면 어느 tool과도 비교해도 떨어지지 않을듯합니다.

물론 유행하는 머신러닝이나 딥러닝을 활용하여 구축한 변이예측모델까지 접목한다면 금상첨화가 되지 않을까 하네요. 물론 이런 시도나 연구는 현재 계속 이뤄지고 있으니 조만간 더 좋은 tool을 쏟아져 나오지 않을까 합니다 :)


출처: @ye._.vely618