레이블이 next generation sequencing인 게시물을 표시합니다. 모든 게시물 표시
레이블이 next generation sequencing인 게시물을 표시합니다. 모든 게시물 표시

금요일, 3월 07, 2025

변이 분석 파이프라인의 성능을 평가하는 방법, 어떤것이 있을까?

오늘은 간만에 변이 분석 파이프라인에 대해서 알아보겠습니다. 변이 분석은 유전체 연구를 하게되면 기본값으로 따라오는 방법론이죠. 근데 이게 변이분석 파이프라인이 변이를 제대로 분석했는지 못했는지 손쉽게 알 방법이... 있습니다.

처음 사용할 당시에도 biorxiv에 논문이 나왔었는데 아직 정규 학술지로는 못옮겨 같듯합니다. 제목은 Comparing Variant Call Files for Performance Benchmarking of Next-Generation Sequencing Variant Calling Pipelines 입니다.

DOI: 10.1101/023754


gemini

## 차세대 염기 서열 분석(NGS)을 이용한 변이 분석

차세대 염기 서열 분석(NGS) 기술은 DNA 염기 서열을 빠르고 정확하게 분석할 수 있는 획기적인 기술입니다. NGS 기술을 이용하여 DNA 염기 서열을 분석하면 유전자 변이를 찾아내고, 이를 통해 질병의 원인을 밝히거나 개인 맞춤형 치료법을 개발하는 데 도움이 됩니다.

## 변이 호출

NGS 기술을 통해 얻은 DNA 염기 서열을 분석하여 정상적인 염기 서열과 다른 부분을 찾아내는 것을 '변이 호출'이라고 합니다. 변이 호출은 질병과 관련된 유전자 변이를 찾아내는 데 중요한 역할을 합니다.

## VCF 파일

변이 호출 결과는 'VCF 파일'이라는 특별한 파일에 저장됩니다. VCF 파일은 변이의 위치, 종류, 그리고 관련된 정보들을 담고 있습니다.

## VCF 파일 비교

때로는 두 개 이상의 VCF 파일을 비교해야 할 때가 있습니다. 예를 들어, 서로 다른 방법으로 분석한 결과를 비교하거나, 같은 사람의 DNA를 여러 번 분석하여 결과를 비교할 수 있습니다. 이때 'VCF 파일 비교'라는 과정을 거치는데, 이는 두 개의 지도를 겹쳐서 비교하는 것과 같습니다.

## 논문에 제시된 방법

VCF 파일을 더 정확하게 비교할 수 있는 새로운 방법을 제시합니다. 이 방법은 기존의 방법보다 더 정확하고 효율적이며, 차세대 염기 서열 분석에 유용하게 활용될 수 있습니다.

## 결론

NGS 기술과 VCF 파일 비교 방법을 통해 우리는 DNA에 대한 더 많은 정보를 얻을 수 있게 되었습니다. 이는 질병의 원인을 밝히고, 개인 맞춤형 치료법을 개발하는 데 큰 도움이 될 것입니다.

### 추가 설명

* NGS 기술은 DNA 염기 서열을 분석하는 데 사용되는 기술로, 기존의 Sanger 시퀀싱보다 훨씬 빠르고 정확합니다.

* 변이는 DNA 염기 서열의 변화로, 이러한 변이가 질병과 관련될 수 있습니다.

* VCF 파일은 변이 정보를 저장하는 파일로, 변이의 위치, 종류, 그리고 관련된 정보들을 담고 있습니다.

* VCF 파일 비교는 두 개 이상의 VCF 파일을 비교하여 차이점을 찾아내는 과정입니다.

* 논문에 제시된 방법은 VCF 파일을 더 정확하게 비교할 수 있는 새로운 방법으로, 기존의 방법보다 더 정확하고 효율적입니다.



clova-x

제목: NGS 데이터를 통한 변이 분석 파이프라인의 성능 평가 및 비교 방법

최근 차세대 시퀀싱(NGS) 기술의 발전으로 인간 게놈의 변이를 대규모로 분석할 수 있게 되었습니다. 이러한 변이 분석은 질병의 진단, 치료 및 예방에 큰 도움을 줄 수 있어 많은 연구가 진행되고 있습니다. 그러나, NGS 데이터를 분석하는 과정에서 다양한 알고리즘과 도구가 사용되기 때문에, 그 성능을 평가하고 비교하는 것이 중요합니다.

오늘은 이러한 변이 분석 파이프라인의 성능을 평가하고 비교하는 방법에 대해 설명한 논문을 소개하고자 합니다. 이 논문에서는 Real Time Genomics에서 개발한 vcfeval이라는 알고리즘을 사용하여 변이 분석 파이프라인의 성능을 평가하고 비교하는 방법을 제시하고 있습니다.

vcfeval은 VCF 파일을 비교하는 알고리즘으로, 변이의 표현 방식 차이로 인한 혼동을 올바르게 처리하고, 테스트 집합과 기준선(골드 표준) 간의 불일치를 최소화하기 위해 전역 최적화를 수행합니다. 이를 통해 다양한 변이 분석 도구의 성능을 정확하게 평가할 수 있습니다.

또한, 이 알고리즘은 ROC 곡선 분석, 변이 호출 필터링 및 주석 기능도 제공합니다. ROC 곡선은 테스트 집합과 기준선 간의 True Positive(참 양성)와 False Positive(거짓 양성)를 다양한 임곗값에 대해 그래프로 나타낸 것으로, 이를 통해 변이 분석 도구의 성능을 시각적으로 파악할 수 있습니다.

이러한 방법을 통해 NGS 데이터를 통한 변이 분석 파이프라인의 성능을 효과적으로 평가하고 비교할 수 있습니다. 이를 통해 보다 정확하고 효율적인 변이 분석 도구를 개발할 수 있을 것으로 기대됩니다.

더 자세한 내용은 해당 논문을 참고하시기 바랍니다.



chatGPT

### NGS 변이 분석 파이프라인의 성능 평가와 비교 방법

#### 1. 배경: 변이 분석이란?

유전자에는 사람마다 조금씩 다른 "변이"가 존재합니다. 이러한 변이를 분석하는 과정은 질병 원인을 찾거나 유전자와 관련된 특징을 연구하는 데 매우 중요합니다. NGS(Next-Generation Sequencing) 기술은 이런 유전적 변이를 빠르게 찾아내는 강력한 도구로, 연구와 임상 분야에서 널리 활용되고 있습니다.

#### 2. 문제점: 변이 비교의 어려움

NGS 데이터 분석에서 중요한 부분 중 하나는 "Variant Call File(VCF)"라는 파일을 만드는 것입니다. VCF 파일은 유전자 변이를 정리해 놓은 파일로, 이를 통해 발견된 변이를 비교하거나 평가할 수 있습니다.

하지만 변이를 비교하는 과정에서 여러 문제가 생깁니다. 예를 들어:

- **복잡한 변이 표현 방식**: 동일한 변이라도 다른 도구나 방법에 따라 다르게 기록될 수 있습니다.

- **오류 가능성**: 잘못된 변이를 탐지하거나, 탐지하지 못하는 경우가 발생할 수 있습니다.

#### 3. 해결책: 성능 평가 도구와 알고리즘

이 문서에서는 `vcfeval`이라는 도구를 사용해 변이 분석 성능을 평가하는 방법을 설명하고 있습니다. 이 도구는 변이 비교 시 발생하는 복잡한 문제를 해결하는 데 초점을 맞추고 있습니다.

`vcfeval`의 주요 기능은 다음과 같습니다:

1. **정확한 비교**: 변이 데이터 간의 차이를 최소화하여 실제로 일치하는 변이를 정확히 탐지합니다.

2. **성능 지표 제공**: ROC(Receiver Operating Characteristic) 곡선을 이용해 분석 결과의 성능을 시각적으로 표현합니다. 이를 통해 도구의 민감도(정확히 탐지한 비율)와 특이도(잘못 탐지한 비율)를 평가할 수 있습니다.

3. **복잡한 변이 처리**: 반복적이거나 복잡한 구조의 변이를 보다 효율적으로 다룹니다.

#### 4. vcfeval의 작동 방식

- **비교 기준**: 분석 대상 데이터(테스트 세트)를 "골드 스탠다드"라 불리는 신뢰할 수 있는 기준 데이터와 비교합니다.

- **최적화 알고리즘**: 변이 데이터를 비교할 때 오류(오탐/미탐)를 최소화하는 최적의 방법을 적용합니다.

- **결과 가시화**: 평가 결과를 숫자와 그래프로 제공하여 사용자가 쉽게 이해할 수 있도록 돕습니다.

#### 5. 일상에서의 활용

이 기술은 유전적 질환 진단, 암 연구, 개인 맞춤형 의료 등 다양한 분야에서 활용됩니다. 예를 들어, 특정 암 환자의 유전자 변이를 정확히 분석해 적합한 치료법을 찾는 데 도움을 줄 수 있습니다. 또한, 유전병을 예방하거나 예측하는 데도 사용될 수 있습니다.

---

NGS 데이터를 이용한 변이 분석은 매우 복잡하지만, 위와 같은 도구와 기술을 통해 점점 더 신뢰도 높은 결과를 얻을 수 있게 되었습니다. 이를 통해 생명과학 및 의료 분야에서 혁신적인 발전이 이루어지고 있습니다.



NotebookLM

**유전체 분석, 어렵지 않아요! NGS 데이터 변이 분석, 쉽게 알아보기**

안녕하세요, 오늘은 **NGS(Next-Generation Sequencing)** 데이터를 이용한 유전체 분석에 대해 이야기해보려 합니다. 유전체 분석은 우리 몸의 설계도인 유전자를 읽어내는 기술로, 질병 진단, 치료법 개발 등 다양한 분야에서 활용되고 있어요. 하지만 이 과정은 복잡하고 어려운 기술적인 부분을 많이 포함하고 있어 일반인들이 이해하기 어려울 수 있습니다. 그래서 오늘은 **NGS 데이터에서 변이를 분석하는 파이프라인의 성능을 평가하고 비교하는 방법**을 쉽게 풀어 설명해 드리겠습니다.

**1. 유전체 변이란 무엇일까요?**

우리 모두는 유전 정보를 가지고 태어나는데, 이 유전 정보는 DNA라는 물질에 담겨 있습니다. DNA는 A, T, G, C라는 4가지 염기로 구성되어 있으며, 이 염기들의 순서에 따라 우리 몸의 특징이 결정됩니다. 그런데 간혹 이 염기 서열에 변화가 생기는 경우가 있는데, 이를 **유전체 변이**라고 합니다. 유전체 변이는 개인마다 조금씩 다를 수 있으며, 질병 발생과도 관련이 있을 수 있습니다.

**2. NGS 데이터, 어떻게 분석할까요?**

**NGS 기술**은 DNA 염기 서열을 빠르고 정확하게 읽어내는 기술입니다. NGS 데이터를 분석하는 과정은 크게 다음과 같습니다.

*   **데이터 생성**: NGS 장비를 사용하여 DNA 염기 서열을 읽어냅니다.

*   **변이 호출**: 읽어낸 염기 서열을 **참조 유전체**와 비교하여 차이가 나는 부분을 찾습니다. 이러한 차이점을 변이라고 부르며, **VCF(Variant Call File)**라는 파일 형식으로 저장합니다.

*   **변이 비교**: 여러 분석 방법이나 파이프라인을 사용하여 변이를 호출했을 때, 결과가 얼마나 일치하는지 확인합니다.

**3. 변이 비교, 왜 중요할까요?**

변이 비교는 변이 분석의 정확도를 높이는 데 아주 중요합니다. 다양한 변이 호출 알고리즘이 개발되어 있지만, **각 알고리즘마다 결과가 다를 수** 있기 때문입니다. 또한, **인델(indel)**이나 **다중 뉴클레오티드 변이(MNP)**와 같은 복잡한 형태의 변이는 표현 방식에 따라 비교가 더 어려워질 수 있습니다. 따라서 **어떤 방법이 더 정확하고 신뢰할 수 있는 결과를 제공하는지 평가하는 과정이 필요**합니다.

**4. 기존 방법의 문제점**

*   **복잡한 변이 표현**: 인델이나 MNP와 같은 복잡한 변이들은 표현 방식이 다양해서 비교가 어렵습니다.

*   **위치 차이**: 변이가 발생하는 위치가 약간 다를 수 있으며, 이로 인해 정확한 비교가 어려워질 수 있습니다.

*   **오류**: 기존의 비교 방법들은 여러 개의 변이가 동시에 존재할 경우 정확하게 비교하지 못하거나, **거짓 양성(False Positive, FP)**이나 **거짓 음성(False Negative, FN)**을 만들 수 있습니다.

**5. 새로운 알고리즘: vcfeval**

이러한 문제점을 해결하기 위해 **vcfeval**이라는 새로운 알고리즘이 개발되었습니다. vcfeval은 다음과 같은 특징을 가지고 있습니다.

*   **변이 재구성**: **참조 유전체**에 변이를 다시 적용하여 복잡한 변이를 균일하게 표현합니다.

*   **글로벌 최적화**: **거짓 양성과 거짓 음성을 최소화**하기 위해 모든 변이를 고려하여 최적의 비교를 수행합니다.

*   **동적 프로그래밍**: 가능한 모든 비교 경로를 고려하여 정확한 결과를 도출합니다.

*   **가중치 부여**: 변이 표현 방식의 차이와 반복 서열로 인한 오류를 방지하기 위해 각 변이에 가중치를 부여합니다.

**6. vcfeval의 장점**

*   **정확성 향상**: 기존 방법보다 더 정확하게 변이를 비교할 수 있습니다.

*   **복잡한 변이 처리**: 인델, MNP와 같은 복잡한 변이들을 효과적으로 처리할 수 있습니다.

*   **ROC 곡선**: **수신자 조작 특성(ROC) 곡선**을 통해 변이 호출 알고리즘의 성능을 평가할 수 있습니다. **ROC 곡선 아래 면적(AUC)**이 클수록 알고리즘 성능이 좋은 것입니다.

*   **다양한 분석 도구 제공**: VCF 파일 조작, 통계 분석, 필터링, 주석 추가 등 다양한 기능을 제공합니다.

*   **TP, FP, FN 별도 파일 제공**: 분석 결과를 **참 양성(True Positive, TP)**, 거짓 양성(FP), 거짓 음성(FN) 별도로 파일로 제공하여 추가 분석이 용이합니다.

**7. 유전체 분석의 미래**

유전체 분석은 우리의 건강과 질병에 대한 이해를 높이는 데 중요한 역할을 합니다. vcfeval과 같은 새로운 기술 개발은 유전체 분석의 정확도를 높여 더욱 효과적인 개인 맞춤 의료를 가능하게 할 것입니다. **표준화된 성능 측정 정의**를 개발하여 벤치마킹 도구 간의 비교 가능성을 확보하기 위한 노력이 이루어지고 있습니다.

**결론**

오늘은 NGS 데이터 변이 분석에 대해 쉽게 알아보았습니다. 유전체 분석은 복잡하지만, 우리의 건강과 미래를 위한 중요한 기술입니다. vcfeval과 같은 기술을 통해 더욱 정확하고 효율적인 분석이 가능해졌으며, 앞으로 더 많은 발전이 있을 것으로 기대됩니다.



deepseek

# NGS 데이터에서 변이 분석 파이프라인의 성능을 평가하는 방법: 일반인을 위한 설명

최근 유전체 분석 기술의 발전으로 인해 인간의 전체 유전체나 특정 유전자 영역(엑솜)을 빠르고 저렴하게 분석할 수 있게 되었습니다. 이러한 기술을 통해 우리는 유전적 변이를 발견하고, 이를 통해 질병의 원인을 이해하거나 개인 맞춤형 치료를 설계할 수 있게 되었습니다. 하지만, 이러한 유전적 변이를 정확하게 찾아내는 것은 쉽지 않은 작업입니다. 이번 글에서는 유전적 변이를 분석하는 파이프라인의 성능을 평가하고 비교하는 방법에 대해 쉽게 설명드리겠습니다.

## 유전적 변이와 VCF 파일

유전적 변이란 DNA 서열에서 발생한 변화를 의미합니다. 예를 들어, 특정 위치의 DNA 염기가 다른 염기로 바뀌거나, 일부 염기가 삽입되거나 삭제되는 경우가 있습니다. 이러한 변이를 분석하기 위해 NGS(Next-Generation Sequencing) 기술을 사용합니다. NGS 기술은 대량의 DNA 서열을 빠르게 읽어내고, 이를 통해 유전적 변이를 찾아냅니다.

이렇게 찾아낸 변이 정보는 VCF(Variant Call Format) 파일에 저장됩니다. VCF 파일은 유전적 변이의 위치, 종류, 그리고 그 변이에 대한 신뢰도 점수 등을 포함하고 있습니다. 하지만, 이 파일을 단순히 비교하는 것은 쉽지 않습니다. 특히, 삽입/삭제(indel)나 복잡한 변이의 경우, 서로 다른 방식으로 표현될 수 있어서 비교가 어렵습니다.

## 변이 분석 파이프라인의 성능 평가

변이 분석 파이프라인의 성능을 평가하기 위해서는 "골드 스탠다드"라고 불리는 기준 데이터와 비교해야 합니다. 골드 스탠다드는 정확한 변이 정보를 포함하고 있는 데이터셋으로, 이를 통해 테스트 데이터의 정확성을 평가할 수 있습니다. 하지만, 앞서 말한 것처럼 VCF 파일의 복잡성 때문에 단순 비교는 오류를 일으킬 수 있습니다.

이 문제를 해결하기 위해, 연구자들은 **vcfeval**이라는 알고리즘을 개발했습니다. 이 알고리즘은 복잡한 변이 표현을 처리하고, 전체 데이터셋을 최적화하여 정확한 비교를 가능하게 합니다. vcfeval은 동적 프로그래밍(dynamic programming) 기법을 사용하여, 가능한 모든 변이 조합을 고려하면서도 계산 효율성을 유지합니다.

## vcfeval의 작동 원리

vcfeval은 기본적으로 두 가지 데이터셋을 비교합니다: 하나는 골드 스탠다드(기준 데이터), 다른 하나는 테스트 데이터(분석 결과)입니다. 이 알고리즘은 두 데이터셋의 변이를 "재생"하여 동일한 방식으로 표현한 후, 이를 비교합니다. 이 과정에서 변이의 위치나 표현 방식이 달라도 정확하게 비교할 수 있습니다.

예를 들어, 어떤 변이가 골드 스탠다드에서는 두 개의 작은 변이로 표현되었지만, 테스트 데이터에서는 하나의 복잡한 변이로 표현되었다고 가정해봅시다. vcfeval은 이러한 차이를 인식하고, 두 표현이 동일한 변이를 나타낸다는 것을 이해합니다. 이를 통해, 정확한 비교가 가능해집니다.

## ROC 곡선과 성능 평가

vcfeval은 변이 분석 파이프라인의 성능을 평가하기 위해 ROC(Receiver Operating Characteristic) 곡선을 사용합니다. ROC 곡선은 변이 분석의 정확성을 시각적으로 보여주는 그래프입니다. 이 곡선은 참 양성(True Positive, TP)과 거짓 양성(False Positive, FP)의 비율을 보여주며, 곡선이 오른쪽 상단에 가까울수록 분석의 정확도가 높다는 것을 의미합니다.

예를 들어, 어떤 변이 분석 파이프라인이 높은 TP 비율과 낮은 FP 비율을 보인다면, 이는 매우 정확한 분석을 수행했다고 볼 수 있습니다. 반면, TP 비율이 낮고 FP 비율이 높다면, 분석의 정확도가 낮다는 것을 의미합니다. ROC 곡선을 통해 연구자들은 다양한 변이 분석 파이프라인의 성능을 비교하고, 최적의 분석 방법을 선택할 수 있습니다.

## 결론

NGS 기술을 통해 유전적 변이를 분석하는 것은 현대 유전학 연구에서 매우 중요한 부분입니다. 하지만, 이러한 변이를 정확하게 분석하고 비교하는 것은 쉽지 않은 작업입니다. vcfeval과 같은 도구는 복잡한 변이 표현을 처리하고, 정확한 비교를 통해 변이 분석 파이프라인의 성능을 평가할 수 있게 해줍니다. 이를 통해, 연구자들은 더 정확하고 신뢰할 수 있는 유전적 변이 데이터를 얻을 수 있으며, 궁극적으로는 개인 맞춤형 의학과 같은 분야에 기여할 수 있습니다.

이번 글을 통해 NGS 데이터와 변이 분석 파이프라인의 성능 평가에 대해 조금 더 이해하셨기를 바랍니다. 유전체 분석 기술은 앞으로도 계속 발전할 것이며, 이를 통해 우리는 더 나은 건강과 삶의 질을 얻을 수 있을 것입니다.


vcfeval 사용해보시면 나쁘지 않습니다.



출처: @ye._.vely618


월요일, 12월 09, 2024

FDA가 말하는 유전체 기술 이야기

오늘은 2016년 논문을 한번 가져와봤습니다. 제목은 The FDA’s Experience with Emerging Genomics Technologies—Past, Present, and Future 으로 미국 식품의약국인 FDA가 빠르게 발전하고 있는 유전체 기술에 대해서 어떻게 생각하고 있는지, 빠르게 발전하는 기술을 어떻게 다뤄야 하는지, 규제 당국이 어떻게 바라볼지, 어떻게 관리해야 하는 것에 대한 내용을 담고 있다고 보시면 되겠습니다. 

DOI: 10.1208/s12248-016-9917-y



gemini

## 유전자 검사, 안전하고 정확하게! FDA가 말하는 유전체 기술 이야기

안녕하세요. 오늘은 우리 몸속 유전 정보를 분석하는 유전자 검사에 대해 좀 더 깊이 알아보는 시간을 갖도록 하겠습니다. 최근 유전자 검사는 질병 예측, 맞춤형 치료 등 다양한 분야에서 활용되면서 우리 삶에 더욱 가까워지고 있습니다. 하지만 아직 생소한 분야인 만큼, 유전자 검사가 어떻게 이루어지고, 어떤 과정을 거쳐 안전하게 이용될 수 있는지 궁금해하시는 분들이 많을 거예요.

오늘은 미국 식품의약국(FDA)에서 발표한 연구 보고서를 바탕으로, 유전자 검사에 사용되는 다양한 기술과 FDA의 규제 과정에 대해 쉽고 자세하게 설명해 드리겠습니다.

### 유전자 검사, 무엇을 알 수 있을까요?

유전자 검사는 우리 몸속 DNA를 분석하여 질병에 대한 감수성, 약물 반응, 개인 특성 등 다양한 정보를 얻는 과정입니다. 마치 레고 블록을 조립하여 건물을 만드는 것처럼, 우리 몸은 수많은 유전자라는 블록으로 구성되어 있습니다. 유전자 검사는 이러한 블록 하나하나를 분석하여 우리 몸의 설계도를 읽는 것과 같습니다.

### 유전자 검사에 사용되는 기술들

유전자 검사에는 다양한 기술이 사용됩니다. 대표적인 기술로는 **마이크로어레이**와 **차세대 염기서열 분석(NGS)**이 있습니다.

* **마이크로어레이:** 마이크로어레이는 미세한 칩 위에 수천 개에서 수만 개의 유전자 조각을 배열하여 특정 유전자의 변이를 한꺼번에 검사하는 기술입니다. 마치 슬라이드에 여러 가지 색깔의 점을 찍어놓고 현미경으로 관찰하는 것과 비슷합니다.

* **차세대 염기서열 분석(NGS):** NGS는 DNA 염기서열을 빠르고 정확하게 읽어내는 기술입니다. 마치 책의 모든 글자를 하나하나 읽어내는 것과 같습니다. NGS는 마이크로어레이보다 더 많은 양의 유전 정보를 얻을 수 있어 더욱 정확한 분석이 가능합니다.

### FDA의 규제, 왜 필요할까요?

유전자 검사는 질병 진단과 치료에 매우 유용한 도구이지만, 그만큼 정확성과 안전성이 중요합니다. 잘못된 정보로 인해 불필요한 불안감을 느끼거나, 잘못된 치료를 받을 수 있기 때문입니다. FDA는 이러한 문제를 방지하기 위해 유전자 검사 기술의 안전성과 효능을 평가하고, 관련 제품을 규제합니다.

### MAQC, 유전자 검사의 신뢰성을 높이다

FDA는 유전자 검사의 정확성을 높이기 위해 **마이크로어레이 품질 관리 컨소시엄(MAQC)**을 운영하고 있습니다. MAQC는 전 세계 연구자들이 참여하여 마이크로어레이 기술의 표준을 정하고, 다양한 실험실에서 얻은 결과를 비교 분석하여 신뢰성을 높이는 작업을 수행합니다.

### 게놈 시퀀싱과 표적 시퀀싱, 무엇이 다를까요?

* **게놈 시퀀싱:** 개인의 전체 유전체를 해독하는 기술입니다. 

* **표적 시퀀싱:** 특정 질병과 관련된 유전자 부분만을 집중적으로 분석하는 기술입니다.

게놈 시퀀싱은 많은 양의 정보를 얻을 수 있지만, 비용이 비싸고 분석 시간이 오래 걸립니다. 반면 표적 시퀀싱은 특정 질병에 대한 정보를 빠르고 정확하게 얻을 수 있어 경제적입니다.

### 앞으로의 전망

유전체 기술은 빠르게 발전하고 있으며, 우리 삶에 더욱 깊숙이 들어올 것입니다. FDA는 앞으로도 유전체 기술의 발전을 지켜보면서, 안전하고 정확한 유전자 검사가 이루어질 수 있도록 노력할 것입니다.

**결론적으로, 유전자 검사는 질병 예방과 치료에 매우 유용한 도구입니다. 하지만 유전자 검사 결과를 해석하고 판단하는 것은 전문가의 도움이 필요합니다. 유전자 검사를 받기 전에 반드시 의료진과 충분히 상담하여 자신에게 맞는 검사를 선택하는 것이 중요합니다.**



clova-x

제목: FDA와 유전체 기술의 발전, 그리고 그 적용

안녕하세요, 여러분! 오늘은 미국 식품의약국(FDA)과 유전체 기술에 대한 이야기를 해보려고 합니다. 최근 유전체 기술의 발전으로 인해 의료 및 제약 분야에서 많은 혁신이 일어나고 있는데요, 이러한 혁신을 안전하게 활용하기 위해서는 규제 기관의 역할이 매우 중요합니다.

미국 식품의약국(FDA)은 유전체 기술의 발전에 발맞춰서 이 기술을 규제 과정에 적용하기 위해 많은 노력을 기울이고 있습니다. 그 중 하나가 바로 마이크로어레이 품질 제어 컨소시엄(MAQC)입니다.

MAQC는 FDA가 주도하는 국제적인 컨소시엄으로, 유전체 기술의 정확성과 재현성을 검증하는 프로젝트를 진행해왔습니다. 이 프로젝트를 통해 FDA는 유전체 기술을 규제 결정에 활용할 수 있는 신뢰성과 견고성을 높일 수 있었습니다. 또한, MAQC는 유전체 데이터 제출 프로그램인 VGDS를 도입하여, 업계와 학계가 자발적으로 유전체 데이터를 제출하고 FDA와 함께 과학적 논의를 진행할 수 있도록 했습니다.

이러한 노력의 일환으로, MAQC는 세 가지 프로젝트를 통해 유전체 기술을 평가했습니다. 첫 번째는 유전자 발현 마이크로어레이, 두 번째는 전체 게놈 genotyping 어레이, 그리고 세 번째는 전체 전사체 시퀀싱(RNA-seq)입니다. 특히, RNA-seq에 초점을 맞춘 SEQC 프로젝트는 차세대 시퀀싱 기술의 성능과 품질을 평가했습니다. 이 프로젝트는 RNA 시퀀싱이 임상 환경에서의 예측 성능과 안전성 평가에서 마이크로어레이와 유사하거나 더 나은 민감도를 가지고 있으며, 새로운 전사체 특성을 밝혀낼 수 있다는 것을 보여주었습니다.

FDA는 앞으로도 MAQC의 노력을 계속해서 이어나갈 계획입니다. 특히, 전체 게놈 시퀀싱과 표적 시퀀싱의 품질 관리에 집중할 예정이라고 합니다. 유전체 기술의 발전은 우리에게 많은 혁신을 가져다 줄 것이지만, 이러한 혁신이 안전하게 활용되기 위해서는 규제 기관과 산업계, 학계의 협력이 필수적입니다. FDA와 MAQC의 노력이 이러한 협력을 이끌어내는 데 큰 역할을 하고 있습니다.

블로그 글이 여러분께 유전체 기술과 FDA의 역할에 대한 이해를 높이는 데 도움이 되었기를 바랍니다. 더 궁금한 점이 있으시면 언제든지 댓글로 남겨주세요!



chatGPT

### 미국 식품의약국(FDA)과 유전체 기술: 우리의 건강을 지키는 첨단 과학의 이야기

우리는 병원에서 처방받는 약이나 질병 진단을 위한 검사들이 안전하고 신뢰할 수 있다는 믿음을 가지고 있습니다. 이러한 믿음 뒤에는 미국 식품의약국(FDA)의 철저한 연구와 검토 과정이 있습니다. 특히, 최근 몇 년 동안 유전체(genome) 기술이 의료와 약물 개발에 중요한 역할을 하면서 FDA는 이를 평가하고 규제하는 데 큰 노력을 기울이고 있습니다. 오늘은 FDA와 유전체 기술, 그리고 그 중심에 있는 **Microarray Quality Control(MAQC) 컨소시엄**에 대해 살펴보겠습니다.

---

### **미국 식품의약국(FDA)이란 무엇인가요?**

FDA는 미국 정부 기관으로, 우리의 건강과 안전을 보장하기 위해 의약품, 의료기기, 식품, 화장품 등을 관리합니다. 특히, 신약 개발 과정에서는 약물이 안전하고 효과적인지 검토하고 승인하는 역할을 합니다. 요즘처럼 유전체 기술이 발달하면서, FDA는 최신 기술을 규제 과정에 통합해 약물의 안전성과 효과를 더 정확히 평가하려는 노력을 기울이고 있습니다.

---

### **MAQC: 유전체 기술의 신뢰성을 높이는 프로젝트**

유전체 기술은 생물학의 새로운 문을 열었지만, 기술적 한계와 데이터의 재현성 문제로 신뢰성 있는 결과를 얻기가 쉽지 않았습니다. 이를 해결하기 위해 FDA는 **MAQC(MicroArray Quality Control) 컨소시엄**을 설립했습니다. 이 컨소시엄은 국제적인 연구자, 산업 관계자, 그리고 규제 기관들이 함께 참여하여 유전체 데이터를 분석하고 기술의 표준을 만드는 역할을 합니다.

1. **첫 번째 프로젝트(MAQC 1)**에서는 마이크로어레이 기술이 다양한 실험실과 플랫폼에서 일관성 있는 결과를 제공하는지 확인했습니다.

2. **두 번째 프로젝트(MAQC 2)**는 마이크로어레이 데이터를 사용한 예측 모델의 신뢰성을 평가했습니다.

3. **세 번째 프로젝트(SEQC)**는 차세대 시퀀싱(NGS)을 평가하고, 특히 RNA-seq 기술의 장단점을 분석했습니다.

---

### **유전체 시퀀싱이란 무엇인가요?**

유전체 시퀀싱은 생물의 DNA를 해독하는 기술입니다. 특히, **차세대 시퀀싱(NGS)** 기술은 방대한 양의 유전체 데이터를 빠르고 정확하게 해독할 수 있게 해주었습니다. 이를 통해 의약품 개발, 질병 진단, 개인 맞춤형 의료 등이 가능해졌습니다. 예를 들어, 특정 암 환자의 유전적 특성을 분석해 그에 맞는 치료제를 개발하거나, 병의 진행 상태를 예측하는 데 활용됩니다.

---

### **타겟 시퀀싱(Targeted Sequencing): 필요한 부분만 정밀하게**

전체 유전체 시퀀싱이 모든 DNA를 분석하는 것이라면, **타겟 시퀀싱**은 특정 관심 영역만 집중적으로 분석하는 방법입니다. 예를 들어, 유방암 환자의 경우 암 발생과 관련된 특정 유전자를 분석해 병의 원인을 찾을 수 있습니다. 이 기술은 비용 효율적이며, 특정 유전자를 정밀하게 분석할 수 있어 유전체 기반 맞춤 의료의 중요한 도구로 사용되고 있습니다.

---

### **FDA와 유전체 기술: 우리의 미래를 바꾸다**

FDA는 유전체 기술을 약물 개발 및 질병 진단에 적용하기 위해 데이터의 품질과 분석 방법의 표준을 정하고 있습니다. 예를 들어, RNA-seq 데이터를 분석할 때 다양한 분석 파이프라인 중 가장 적합한 방법을 찾기 위해 노력하며, 기술의 재현성과 정확성을 높이는 데 집중하고 있습니다.

---

### **우리의 삶에 미치는 영향**

FDA의 이러한 노력은 결국 우리의 건강과 직결됩니다. 신약이 더 빠르고 안전하게 개발되고, 질병을 더 정확히 진단하며, 개인 맞춤형 의료가 가능해지는 세상이 열리고 있습니다. 유전체 기술은 과학적 도전과제이지만, 동시에 우리의 삶을 더 나은 방향으로 이끌 중요한 도구입니다.

---

### **마무리하며**

유전체 기술은 복잡하지만, FDA와 같은 기관이 이를 규제하고 활용하는 방식 덕분에 우리의 삶은 점점 더 안전하고 건강한 방향으로 나아가고 있습니다. 앞으로도 FDA의 노력이 어떤 혁신을 이끌어낼지 기대해 봅시다!



NotebookLM

## 미국 식품의약국(FDA)과 유전체 기술: 마이크로어레이 품질 관리, 게놈 시퀀싱, 그리고 표적 시퀀싱

**미국 식품의약국(FDA)은 국민 건강을 보호하기 위해 의약품, 식품, 화장품 등의 안전성과 효능을 엄격하게 규제하는 기관입니다.** 과학 기술이 발전함에 따라 FDA는 새로운 기술을 규제 프로세스에 통합하는 데 끊임없이 노력하고 있습니다. 특히 유전체 기술의 발전은 의약품 개발과 질병 진단에 혁명을 일으키고 있으며, FDA는 이러한 혁신을 따라잡고 적절하게 규제하기 위해 노력하고 있습니다.

**FDA는 새로운 유전체 기술의 품질을 평가하고 신뢰성을 확보하기 위해 다양한 노력을 기울이고 있습니다. 그 중 하나가 바로 마이크로어레이 품질 제어 컨소시엄(MAQC)입니다.** MAQC는 FDA가 주도하는 국제 컨소시엄으로, 규제 기관, 학계, 제약 회사, 유전체 플랫폼 제공업체 등 다양한 이해 관계자가 참여하고 있습니다. MAQC의 목표는 유전자 발현 마이크로어레이, 전체 유전체 유전형 분석 어레이, 전체 전사체 시퀀싱(RNA-seq)과 같은 유전체 기술의 재현성, 정밀도, 특이성/민감도 및 데이터 해석과 같은 문제를 해결하는 것입니다.

**MAQC는 지금까지 세 가지 주요 프로젝트를 완료했습니다.** 첫 번째 프로젝트는 마이크로어레이 기술의 플랫폼 간 및 플랫폼 내 재현성을 입증했습니다. 두 번째 프로젝트는 마이크로어레이 기반 예측 모델의 개발 및 신뢰성을 연구했습니다. 세 번째 프로젝트인 SEQC(SEquencing Quality Control)는 RNA-seq 기술을 평가했습니다. SEQC 연구에서는 RNA-seq가 실험실 및 플랫폼 간에 정확하고 신뢰할 수 있는 상대적 유전자 발현 측정을 제공하며, 낮은 발현에 대한 민감도가 더 뛰어나고 새로운 전사체 특징을 밝혀낼 수 있음을 보여주었습니다.

**MAQC 프로젝트의 결과는 동료 심사를 거친 출판물을 통해 공개되었으며, FDA가 유전체 데이터를 규제 의사 결정에 활용하는 데 중요한 역할을 했습니다.** 예를 들어, MAQC 1 프로젝트의 결과는 FDA가 "산업 지침: 약물유전체 데이터 제출 – 동반 지침"을 개발하는 데 기여했습니다.

**유전체 기술은 크게 게놈 시퀀싱과 표적 시퀀싱으로 나눌 수 있습니다.** 게놈 시퀀싱은 유기체의 전체 DNA 서열을 분석하는 기술입니다. 표적 시퀀싱은 특정 유전자 또는 유전자 영역에 초점을 맞춰 시퀀싱하는 기술입니다.  

**FDA는 차세대 시퀀싱(NGS) 기술의 발전에 발맞춰 SEQC2 프로젝트를 진행하고 있습니다.** SEQC2는 전체 게놈 시퀀싱 및 표적 유전자 시퀀싱 데이터 분석을 위한 품질 관리 지표 및 벤치마크 생물 정보학적 접근 방식을 개발하는 것을 목표로 합니다. 이 프로젝트는 궁극적으로 FDA가 규제 환경에서 NGS 데이터를 사용하기 위한 표준을 개발하고 정밀 의학을 위한 정보를 제공하는 데 도움을 줄 것입니다.

**결론적으로 FDA는 유전체 기술의 혁신을 적극적으로 수용하고 이를 규제 프로세스에 통합하기 위해 노력하고 있습니다.** MAQC와 같은 컨소시엄을 통해 유전체 기술의 품질을 평가하고, 새로운 기술에 대한 표준을 개발하며, 궁극적으로는 국민 건강을 보호하는 데 기여하고 있습니다. 


당시에는 NGS는 연구에는 많이 사용하고 있었지만 실제 field에서는 Microarray가 많이 사용되고 있었던터라 MAQC라는 Microarray의 품질 관리 작업을 진행하고 있었고, 이 후에 NGS가 Microarray보다 더 빠르게 폭 넓게 사용되어서 SEQC2라는 품질관리 작업을 진행하고 있습니다. 

chatGPT가 좀더 많은 내용들을 얘기해줬지만, 그래도 NotebookLM이 좀 더 중요한 내용들을 잘 담은듯 해보입니다. 같은 구글인 gemini와 NotebookLM이 성능차이가 좀 나네요. 아마 target user가 달라서 그런것 같습니다.

그리고 FDA는 규제 당국임에도 단순히 근거자료를 요청하는 것이 아니라 어떤 근거자료가 더 효율적이면서 합리적이고 안전한 근거자료인지 끊임없이 함께 고민하고 연구하는 것 처럼 보이네요. 

아무래도 인력과 자금으로부터 오는 차이라고 생각되기는 합니다만... 

여튼 많은 분들의 노력으로 우리가 안전하고 정확한 진단을 받고 있고, 더 나은 진료 환경으로 나아간다는 것에는 의심이 없을 듯 합니다. :)



출처: @ye._.vely618


목요일, 10월 31, 2024

NGS에서 통계적 검정력과 표본 크기 계산의 중요성

오늘은 간만에 좀 지난 논문을 하나 가져와봤슴다. Power and sample size calculations for high-throughput sequencing-based experiments으로 high-throughput seq 실험을 할 떄 검정력과 샘플 개수를 어떻게 사용해야 하는지에 대한 내용되겠습니다. 


DOI: 10.1093/bib/bbx061


gemini

**NGS 기반의 실험의 통계적 Power와 표본 크기 계산**

NGS 기반의 실험은 빠르게 발전하는 기술로, 생명과학 분야에서 광범위하게 사용되고 있습니다. 이 기술은 DNA, RNA, 단백질 등의 고분자를 대상으로 하는 다양한 실험에 활용되며, 대량의 데이터를 생성합니다. 이러한 대량의 데이터를 분석하고 해석하기 위해서는 통계적 방법이 필수적입니다. 통계적 power와 표본 크기 계산은 NGS 기반의 실험을 설계하고 분석하는 데 있어서 매우 중요한 요소입니다.

Power는 통계적 검정에서 유의한 결과를 얻을 수 있는 확률을 나타냅니다. 즉, 1-β로 나타내며, β는 제1종 오류의 확률입니다. 제1종 오류는 귀무가설이 참인데도 거짓으로 기각하는 오류입니다. 표본 크기는 통계적 검정에서 유의한 결과를 얻기 위해 필요한 표본의 크기를 나타냅니다.

NGS 기반의 실험에서 통계적 power와 표본 크기 계산은 여러 가지 요인에 영향을 받습니다. 예를 들어, 실험 대상의 특성, 실험의 목적, 실험 방법, 분석 방법 등이 있습니다. 이러한 요인들을 고려하여 적절한 통계적 power와 표본 크기를 계산하는 것이 중요합니다.

이러한 요인들을 고려하여 적절한 통계적 power와 표본 크기를 계산하는 것이 중요합니다. 이를 위해서는 통계학 전문가의 도움을 받는 것이 좋습니다. 또한, 다양한 통계적 power와 표본 크기 계산 방법이 개발되어 있으므로, 자신의 연구에 가장 적합한 방법을 선택하는 것이 중요합니다.

**NGS 기반의 실험의 통계적 Power와 표본 크기 계산의 중요성**

NGS 기반의 실험에서 통계적 power와 표본 크기 계산을 올바르게 수행하지 않으면, 다음과 같은 문제가 발생할 수 있습니다.

* 유의한 결과를 얻지 못할 수 있습니다.

* 실험에 필요한 비용이 과도하게 발생할 수 있습니다.

* 실험 결과의 신뢰성이 떨어질 수 있습니다.

따라서, NGS 기반의 실험을 설계하고 분석할 때에는 통계적 power와 표본 크기 계산을 반드시 고려해야 합니다.



clova-x

최근 생명공학 분야에서는 차세대 염기서열 분석(NGS) 기술이 빠르게 발전하면서, 대규모의 유전 정보를 빠르고 정확하게 분석할 수 있게 되었습니다. 이에 따라 NGS 기술을 활용한 다양한 연구가 활발하게 이루어지고 있습니다.

NGS 기반의 실험에서는 많은 양의 데이터가 생성되기 때문에, 이를 효과적으로 분석하기 위해서는 적절한 통계적 방법이 필요합니다. 특히, 실험의 목적에 따라 적절한 표본 크기를 결정하고, 통계적 파워를 계산하는 것이 중요합니다.

통계적 파워란, 연구에서 설정한 가설을 검증할 수 있는 능력을 나타내는 지표입니다. 즉, 실험에서 얻은 결과가 우연에 의한 것이 아니라, 실제로 가설을 지지하는 것인지를 판단하는 데 도움을 줍니다.

표본 크기란, 연구에서 사용하는 데이터의 양을 말합니다. 표본 크기가 클수록 통계적 파워가 높아지기 때문에, 보다 정확한 결과를 얻을 수 있습니다. 하지만, 표본 크기가 너무 커지면 비용이 많이 들기 때문에, 적절한 균형을 유지하는 것이 중요합니다.

이번 연구에서는 NGS 기반의 실험에서 통계적 파워와 표본 크기를 계산하는 방법에 대해 다루었습니다. 이를 위해 다양한 통계적 모델과 알고리즘을 사용하였으며, 실제 데이터를 활용하여 검증하였습니다.

연구 결과, NGS 기반의 실험에서는 리드 깊이, 분산 등의 고유한 매개변수를 고려하여 통계적 파워와 표본 크기를 계산해야 한다는 것을 확인하였습니다. 또한, 여러 가지 통계적 모델 중에서 Negative Binomial 모델이 NGS 데이터의 특성을 잘 반영하는 것으로 나타났습니다.

이번 연구는 NGS 기반의 실험을 계획하는 연구자들에게 유용한 정보를 제공합니다. 실험의 목적에 따라 적절한 표본 크기를 결정하고, 통계적 파워를 계산함으로써 보다 정확한 결과를 얻을 수 있으며, 이를 통해 생명공학 분야의 발전에 기여할 수 있을 것으로 기대됩니다.

NGS 기술과 통계적 방법은 계속해서 발전하고 있기 때문에, 이에 대한 지속적인 연구와 업데이트가 필요합니다. 연구자들은 최신 기술과 방법을 적극적으로 활용하여, 보다 정확하고 효율적인 연구를 수행해야 합니다.



chatGPT

이 연구는 고처리량 시퀀싱(HTS) 기반 실험에서 통계적 파워와 샘플 크기 계산의 중요성을 설명하는 데 중점을 두고 있습니다. **통계적 파워**란, 실험에서 의미 있는 차이나 효과를 발견할 수 있는 능력을 의미하며, 실험의 성공 여부에 중요한 역할을 합니다. 샘플 크기 역시 실험 결과의 신뢰성을 결정하는 핵심 요소입니다. 따라서 실험을 설계할 때, 통계적 파워와 적절한 샘플 크기를 계산하는 것은 필수적입니다.

**연구 배경**  

고처리량 시퀀싱(HTS)은 DNA, RNA, 마이크로바이옴(미생물군집), 단백질-유전체 상호작용 연구 등에서 활용되는 최신 기술로, 한 번에 수백만 개의 데이터를 분석할 수 있습니다. HTS 기술은 생물학적 연구를 한 단계 더 발전시키는 데 기여했지만, 이러한 복잡한 데이터 분석에 맞는 통계적 방법을 적용하는 것이 매우 어렵습니다. 특히, HTS 실험에서는 데이터의 다양성과 복잡성으로 인해 **파워 분석**이 필수적입니다. 기존의 유전자 분석 방식과는 달리, HTS 데이터는 더 많은 변동성과 오류 가능성을 포함하고 있어 더욱 세밀한 분석이 요구됩니다.

**연구에서 사용된 방법**  

이 연구에서는 HTS 기반 실험에 필요한 파워와 샘플 크기 계산 방법을 다루고 있습니다. 연구진은 다양한 시퀀싱 방법에 따른 통계적 분석 도구를 사용했습니다. 예를 들어, DNA 시퀀싱에서는 변이(유전자 돌연변이)를 발견하고 이를 표현형(겉으로 드러나는 특성)과 연관 짓기 위한 파워 분석을 진행했습니다. RNA 시퀀싱에서는 유전자 발현 수준의 차이를 분석하기 위해 **Poisson 분포**와 **음이항 분포** 등의 통계 모델을 적용하여 샘플 크기를 계산했습니다. 또한, 마이크로바이옴 연구에서는 미생물 종의 다양성을 분석하기 위해 **다항 분포**를 사용한 파워 분석을 수행했습니다. 이 연구에서 사용된 통계적 방법들은 모두 HTS 실험의 목표와 데이터 유형에 맞게 조정되었습니다.

**연구 결과**  

연구진은 HTS 실험에서 실험 설계의 성공 여부를 판단하는 데 있어 파워 분석이 필수적이라는 결론을 내렸습니다. HTS 데이터는 기존의 유전자 분석 데이터보다 더 많은 변수를 포함하고 있어, 정확한 분석을 위해서는 실험의 목표에 맞춘 정교한 통계적 방법이 필요합니다. 연구는 각 시퀀싱 방법에 맞는 다양한 파워 분석 도구와 계산 방법을 제안했으며, 이를 통해 연구자들이 실험 설계 시 적절한 샘플 크기를 선택하고 신뢰성 있는 결과를 얻을 수 있도록 안내했습니다.

**연구의 의의**  

이 연구는 HTS 기반 실험의 성공을 위한 통계적 파워와 샘플 크기 계산의 중요성을 재조명했습니다. HTS 기술을 사용하는 연구자들에게는 실험 설계 시 데이터의 복잡성을 고려하여 적절한 통계적 방법을 적용하는 것이 필수적입니다. 이를 통해 과학적 연구의 신뢰성을 높이고, 더 나아가 생물학적 발견을 이루는 데 기여할 수 있습니다. 일반 대중에게는 HTS 기술이 얼마나 중요한 역할을 하는지, 그리고 이러한 실험에서 신뢰성 있는 결과를 얻기 위해서는 철저한 통계적 분석이 필요하다는 점을 알리는 중요한 계기가 될 것입니다.



NotebookLM

## 차세대 염기서열 분석(NGS) 기반 실험에서 통계적 검정력과 표본 크기 계산의 중요성

최근 생명 공학 분야에서는 차세대 염기서열 분석(NGS) 기술이 등장하면서 생명 현상을 분자 수준에서 이해하는 데 혁명적인 발전을 이루었습니다. NGS는 DNA나 RNA와 같은 유전 물질을 빠르게 해독하여 방대한 양의 유전 정보를 생성할 수 있는 기술입니다. 이러한 대규모 데이터를 기반으로 질병의 원인을 규명하고 개인 맞춤형 치료법을 개발하는 등 다양한 연구가 진행되고 있습니다. 하지만 NGS 기반 실험은 높은 비용과 복잡한 데이터 분석 과정 때문에 연구 설계 단계에서부터 신중한 고려가 필요합니다. 

특히, **통계적 검정력(Power)**과 **표본 크기**는 NGS 연구의 성공 여부를 결정하는 중요한 요소입니다. 통계적 검정력이란 실제로 효과가 존재할 때, 실험을 통해 해당 효과를 검출할 수 있는 확률을 의미합니다. 즉, 검정력이 높을수록 실험 결과의 신뢰성을 확보할 수 있습니다. 표본 크기는 연구 대상으로 삼는 개체 수를 의미하며, 통계적 검정력과 밀접한 관련이 있습니다. 일반적으로 표본 크기가 클수록 통계적 검정력이 높아지지만, NGS 실험의 경우 비용적인 제약으로 인해 무작정 표본 크기를 늘릴 수는 없습니다. 

제공해주신 자료 에 따르면, NGS 기반 실험의 전력 분석은 기존의 마이크로어레이 기반 실험보다 훨씬 복잡하다고 합니다. 그 이유는 NGS 데이터가 가지는 고유한 특징 때문입니다. 첫째, NGS 데이터는 **읽기 깊이(Read Depth)**와 **읽기 분산(Read Dispersion)**과 같은 요소들을 고려해야 합니다. 읽기 깊이는 특정 유전자 영역이 시퀀싱된 횟수를 의미하며, 읽기 분산은 각 유전자 영역에 대한 읽기 횟수의 변동을 나타냅니다. 둘째, NGS는 DNA 시퀀싱, RNA 시퀀싱, 메타게놈 시퀀싱 등 다양한 분야에 활용될 수 있으며, 각각의 적용 분야에 따라 데이터의 특성과 분석 목표가 달라지기 때문에 전력 분석 방법 또한 다르게 적용되어야 합니다.

NGS 기반 실험에서 통계적 검정력과 표본 크기를 정확하게 계산하기 위해서는 다양한 요소들을 종합적으로 고려해야 합니다. 예를 들어, 연구 목표, 데이터 유형, 분석 방법, 효과 크기, 유의 수준, 예산 등을 고려하여 최적의 표본 크기를 결정해야 합니다.  

**결론적으로, NGS 기반 실험의 성공을 위해서는 연구 설계 단계에서부터 통계적 검정력과 표본 크기에 대한 심층적인 고려가 필수적입니다.** NGS 데이터의 복잡성과 다양한 연구 목표를 고려하여 적절한 전력 분석 방법을 적용하고 최적의 표본 크기를 결정함으로써, 연구 결과의 신뢰성을 확보하고 효율적인 연구를 수행할 수 있습니다. 


결론적으로, NGS 기반 실험의 성공을 위해서는 연구 설계 단계에서부터 통계적 검정력과 표본 크기에 대한 심층적인 고려가 필수적입니다. 결국 잘 해야한다는 얘기 되겠습니다. 

샘플 개수가 작으면 유의미한 결과를 도출 할 수 없고, 샘플 개수가 너무 많이 필요하면 비용이 어마무시하게 많이 소요될 수 있으니깐요. 적절한 점을 잘 찾아야 할 듯 합니다.

우리들의 clova-x 曰 논문을 읽어보니 Negative Binomial 모델이 괜찮아 보인다고하네요.

모두들 10월의 마지막날을 잘 보내시기 바랍니다. :)


출처: @candyz_hyojung


일요일, 10월 06, 2024

HIV 약물 내성 검사에서도 두각을 나타내는 NGS!!

2020년도에 나온 HIV-1 약제 저항성을 확인하는 NGS 분석 파이프라인 비교 논문이 있어 한번 가져와봤습니다. 제목은 Performance comparison of next generation sequencing analysis pipelines for HIV-1 drug resistance testing 입니다. 

DOI: 10.1038/s41598-020-58544-z



clova-x

제목: HIV-1 약물 내성 테스트와 차세대 시퀀싱 분석 파이프라인의 성능 비교

인간면역결핍 바이러스(HIV)는 인체의 면역체계를 손상시켜 감염이나 암과 같은 질병에 취약하게 만드는 바이러스입니다. HIV에 감염된 사람들은 항레트로바이러스 약물을 복용하여 바이러스의 복제를 억제하고 건강을 유지합니다. 그러나 시간이 지남에 따라 바이러스는 약물에 대한 내성을 발전시킬 수 있으며, 이는 약물의 효과를 감소시켜 치료에 어려움을 초래할 수 있습니다.

이러한 내성 문제를 해결하기 위해 과학자들은 HIV-1 약물 내성 테스트를 개발하였습니다. 이 테스트는 바이러스가 약물에 대해 얼마나 내성을 가지고 있는지를 측정하여 의사들이 적절한 치료 계획을 수립할 수 있도록 돕습니다. 초기에는 Sanger 시퀀싱 기술을 사용하여 내성 테스트를 수행하였으나, 이 기술은 20% 미만의 변이를 감지하는 데 한계가 있었습니다.

최근에는 차세대 시퀀싱(NGS) 기술이 발전하여 HIV-1 약물 내성 테스트에 NGS 분석을 사용하게 되었습니다. NGS 기술은 훨씬 더 높은 해상도와 민감도를 제공하여 소수의 내성 변이를 감지할 수 있습니다. 이를 통해 의사들은 더욱 정확한 치료 계획을 수립할 수 있게 되었습니다.

다양한 NGS 분석 파이프라인이 개발되어 HIV-1 약물 내성 테스트에 사용되고 있습니다. 이러한 파이프라인들은 각각의 특성과 성능을 가지고 있으며, 이를 비교하여 최적의 분석 방법을 선택하는 것이 중요합니다. 한 연구에서는 다섯 가지 NGS 분석 파이프라인(HyDRA, MiCall, PASeq, Hivmmer, DEEPGEN)을 비교하였습니다.

특히, 이 연구에서는 낮은 빈도의 아미노산 변이(AAV)에 대한 각 파이프라인의 성능을 중점적으로 확인하였습니다. AAV는 바이러스의 유전자 서열에서 드물게 발생하는 변이로, 약물 내성과의 연관성이 있을 수 있습니다. 이를 정확하게 감지하는 것은 치료 계획 수립에 매우 중요합니다.

연구 결과, 모든 파이프라인은 1~100%의 빈도 범위에서 AAV를 검출하였으며, 1~20%의 빈도를 가진 AAV를 검출하는 민감도는 문제가 되지 않았습니다. 그러나 AAV 빈도가 2% 미만일 때 특이도가 크게 감소하는 것으로 나타났습니다. 이는 AAV 호출 및 보고의 확실한 특이성을 위해 2% 임곗값이 더 신뢰할 수 있는 보고 임곗값일 수 있다는 것을 시사합니다.

결론적으로, HIV-1 약물 내성 테스트는 바이러스의 약물 내성을 정확하게 측정하여 효과적인 치료를 가능하게 하는 중요한 도구입니다. NGS 분석 기술의 발전으로 인해 소수의 내성 변이를 감지할 수 있게 되었으며, 이를 통해 보다 정확한 치료 계획을 수립할 수 있게 되었습니다. 앞으로도 NGS 분석 파이프라인의 성능을 지속적으로 개선하고 표준화하여 보다 신뢰성 높은 약물 내성 테스트를 제공하는 것이 필요합니다.



chatGPT

HIV-1 약물 저항성 검사는 왜 중요할까요? HIV-1은 에이즈(AIDS)를 일으키는 바이러스로, 적절한 항레트로바이러스 치료(ART)를 통해 억제할 수 있습니다. 그러나 HIV-1은 매우 빠르게 변이를 일으킬 수 있는 특성을 가지고 있어, 시간이 지나면 일부 바이러스가 약물에 저항성을 가지게 될 수 있습니다. 이렇게 변이된 바이러스는 약물 치료가 실패하도록 만들고, 환자의 건강 상태를 악화시킬 수 있습니다. 이 때문에 HIV-1 감염 환자들의 약물 저항성 여부를 지속적으로 확인하는 것이 매우 중요합니다.

### NGS 기술을 이용한 약물 저항성 검사

전통적으로 HIV-1 약물 저항성 검사는 상거 염기서열 분석법(Sanger sequencing)을 사용했습니다. 하지만 이 방법은 바이러스 변이를 20% 이상 포함한 경우에만 탐지할 수 있어, 저빈도의 변이는 감지되지 않는 한계가 있습니다. 이 문제를 해결하기 위해 차세대 시퀀싱(NGS) 기술이 도입되었습니다.

NGS는 매우 높은 해상도로 바이러스의 유전 정보를 분석할 수 있어, 1% 미만의 변이까지도 감지할 수 있습니다. 이러한 저빈도의 변이, 특히 약물 저항성과 관련된 아미노산 변이(AAV)를 감지하는 것은 매우 중요한데, 이 변이들이 축적되면 시간이 지나 약물 저항성을 유발할 수 있기 때문입니다. NGS를 통해 이러한 저빈도 변이를 더 정확하게 감지할 수 있기 때문에, HIV-1 치료 과정에서 더욱 정밀한 약물 저항성 모니터링이 가능해졌습니다.

### 다양한 NGS 분석 파이프라인 비교의 필요성

NGS 분석 결과를 해석하기 위해서는 여러 단계의 분석 과정이 필요합니다. 이때, 데이터 처리를 위한 소프트웨어인 ‘분석 파이프라인’을 사용하게 되는데, HIV-1 약물 저항성 검사를 위한 여러 종류의 파이프라인이 개발되었습니다. 이 파이프라인들은 저마다 다른 방식으로 데이터를 처리하고 변이를 감지하며, 일부는 특정 저빈도 변이를 잘 감지하지 못하는 경우도 있습니다.

이번 연구에서는 HyDRA, MiCall, PASeq, Hivmmer, DEEPGEN이라는 5개의 주요 NGS 분석 파이프라인을 비교하여, 저빈도 아미노산 변이를 얼마나 정확하게 감지하는지를 평가했습니다. 연구 결과, 각 파이프라인들은 1~100% 빈도의 변이를 잘 감지했지만, 2% 미만의 변이를 탐지할 때는 성능에 차이가 있었습니다. 특히, 1% 이하의 변이를 탐지하는 데 있어 일부 파이프라인의 특이도가 크게 떨어졌습니다. 따라서 연구팀은 2% 이상 빈도의 변이만을 보고하는 것이 보다 신뢰할 수 있는 결과를 제공할 수 있다고 제안했습니다.

### 결론

HIV-1 약물 저항성 검사는 환자의 치료 성공 여부를 결정하는 중요한 검사입니다. NGS 기술은 저빈도 변이까지 감지할 수 있는 강력한 도구이며, 이를 통해 더 정밀한 치료가 가능합니다. 그러나 NGS 데이터 분석에서 사용하는 파이프라인에 따라 결과가 달라질 수 있기 때문에, 이번 연구와 같이 다양한 파이프라인의 성능을 비교하고 표준화된 방법을 찾는 것이 중요합니다. 이를 통해 환자들에게 더 정확한 진단과 맞춤형 치료를 제공할 수 있을 것입니다.



gemini

**HIV-1 약물 내성 테스트를 위한 차세대 염기서열 분석 파이프라인의 성능 비교**

**소개**

HIV-1 약물 내성 테스트는 HIV 감염자를 치료하는 데 중요한 도구입니다. 이 테스트는 HIV 바이러스가 약물에 내성을 가지고 있는지 여부를 판단하여 적절한 치료를 결정할 수 있도록 도와줍니다.

**HIV-1 약물 내성 테스트**

HIV-1 약물 내성 테스트는 HIV 바이러스의 유전자를 분석하여 약물 내성을 판단하는 기술입니다. 기존에는 Sanger 염기서열 분석이 주로 사용되었지만, 최근에는 차세대 염기서열 분석 (NGS) 기술이 도입되고 있습니다.

**NGS 분석**

NGS 분석은 고속 염기서열 분석을 통해 HIV 바이러스의 유전자를 분석하여 약물 내성을 판단할 수 있습니다. NGS 분석은 Sanger 염기서열 분석보다 더 정확하고 민감하게 약물 내성을 검출할 수 있습니다.

**NGS 분석 파이프라인 비교**

현재 다양한 NGS 분석 파이프라인이 개발되어 있습니다. 이 파이프라인들은 HIV 바이러스의 유전자를 분석하는 방법과 약물 내성을 판단하는 알고리즘 등에서 차이가 있습니다.

**이 연구의 목적**

이 연구에서는 HIV-1 약물 내성 테스트에 대한 다섯 가지 NGS 파이프라인의 성능을 비교하였습니다. 이를 통해 낮은 빈도의 아미노산 변이를 검출하는 능력과 특이성을 평가하였습니다.

**연구 결과**

연구 결과, 모든 파이프라인은 모든 범위의 빈도(1~100%)에서 아미노산 변이를 감지할 수 있으며 참조 빈도 값과 비교하여 선형성이 좋았습니다. 낮은 빈도의 아미노산 변이(1~20% 빈도)를 검출하는 감도는 모든 파이프라인에서 덜 우려되는 반면, 아미노산 변이 빈도가 2% 미만인 경우 특이성이 급격히 감소했습니다. 이는 2% 임계값이 아미노산 변이 호출 및 보고의 보장된 특이성을 위한 더 신뢰할 수 있는 보고 임계값일 수 있음을 시사합니다. 낮은 빈도의 아미노산 변이에 대해서는 파이프라인 간에 더 많은 변이가 관찰되었는데, 이는 NGS 판독 품질 관리 전략의 차이 때문일 수 있습니다.

**결론**

이 연구의 결과는 NGS 기반 HIVDR 데이터 분석을 위한 표준화된 전략, 특히 소수 HIVDR 변이 검출을 위한 표준화된 전략의 필요성을 강조합니다.



NotebookLM

## HIV 약물 내성 검사: NGS 분석의 역할과 중요성

HIV-1 감염 치료에 있어 바이러스가 특정 약물에 내성을 갖는지 판별하는 약물 내성 검사는 매우 중요합니다. 환자에게 가장 효과적인 치료법을 결정하고, 바이러스의 확산을 막기 위해서는 정확한 내성 검사가 필수적입니다.

과거에는 Sanger 시퀀싱이라는 방법을 통해 HIV-1 약물 내성 검사를 시행했습니다. 하지만 이 방법은 20% 미만의 낮은 빈도로 존재하는 소수 내성 변이(MRV)를 검출하는 데 한계가 있었습니다. **MRV는 바이러스가 약물의 효과를  약화시키고, 치료에 실패할 가능성을 높이기 때문에, 더욱 정확한 검출 방법이 요구되었습니다.**

최근에는 차세대 염기서열 분석(NGS) 기술이 발전하면서, HIV-1 약물 내성 검사에 활용되고 있습니다. **NGS는 Sanger 시퀀싱보다 MRV를  식별하는 데 훨씬 뛰어난 해상도와 감도를 제공할 뿐만 아니라, 검사 시간을 단축하고, 대량 검사를 가능하게 하여 비용 절감 효과까지 제공합니다.** 

그러나 **NGS 기반 HIV-1 약물 내성 검사 방법이 다양하게 개발되면서 분석 결과의 정확성과 신뢰성을 확보하기 위해 표준화된 분석 방법 및  결과 비교 연구의 필요성이 제기되었습니다.** 이에 따라 본 연구에서는 **5가지 NGS 분석 파이프라인(HyDRA, MiCall, PASeq, Hivmmer, DEEPGEN)을 사용하여 낮은 빈도의 아미노산 변이(AAV) 검출 성능을 비교 분석했습니다.**

연구 결과, 모든 NGS 분석 파이프라인은 1~100%의 다양한 빈도에서 AAV를 검출했으며, 높은 정확도를 보였습니다. 하지만 2% 미만의 매우 낮은 빈도의 AAV를 분석했을 때, 일부 파이프라인에서는 AAV 검출의 정확성이 떨어지는 것을 확인했습니다. **특히, 1% 미만의 AAV를 분석했을 때 정확성이 크게 감소하는 경향을 보였습니다.** 

**이러한 결과는 NGS 기반 HIV-1 약물 내성 검사에서 2% 미만의 매우 낮은 빈도의 AAV 검출 결과는 신뢰도에  주의가 필요하며,  2%를  기준으로  결과를  해석하는  것이  바람직할  수  있음을  시사합니다.**

본 연구는 NGS 분석 파이프라인의 성능을 비교 분석함으로써, NGS 기반 HIV-1 약물 내성 검사의 정확성 및 신뢰성을 향상시키고 표준화된 분석 방법을  확립하는 데 기여할 것으로 기대됩니다.


오늘 LLM들 중에서는 gemini가 조금 부족하게 대답해준 듯 합니다. 생각보다 clova-x가 잘 대답해 줬고, NotebookLM이 꾸준하게 좋은 답변을 해주는듯 하네요

여튼 논문 내용은 결과적으로 다섯개의 NGS 분석 파이프라인을 비교했는데, 고만고만하고 결과적으로 2% frequency 미만의 빈도 해석 시 신뢰도에 문제가 있어 보이니 약물 내성 검사 시에는 2% frequency만 확인하면 될 것 같다고 너무 말만 두루뭉실하게 하고 있다는 느낌이 드네요.

LLM이 요약한 내용이 중에 coverage내용이 누락되었는지 해서 본문을 봤는데... frequency의 coverage에 대한 내용은 아예 언급이 없네요. 2% frequency에 대한 통계적 자료가 있었으면 좋았을 것 같은데 그런 내용은 없이 NGS라서 1% frequency도 잘 잡았는데 2% 미만의 frequency에서 신뢰도에 문제가 있으니 2% frequency 이상의 변이만 결과로 사용해라 라고 하고 있어서 살짝 아쉽네요.

아마 논문에서 사용한 5개 파이프라인에서 frequency 계산 시 coverage를 고려해서 결과를 내주지 않나 합니다.

주말 잘 마무리하시기 바랍니다. :)





출처: @ye._.vely618

일요일, 11월 19, 2023

NGS을 임상에 사용하기 위한, 5년의 시간

최근에 임상실험실에서 NGS 서비스를 시작한다고 하는 내용들의 뉴스..
를 신기하게 보시는 분들도 물론 있으실겁니다.

그러나 전공자나 업계에 몸 담고 있는 분들에게는 그리 신기하지 않은.. "아.. 어디 임상실험실에서 NGS 서비스를 하는구나" 정도로.. 어느 실험실에서 NGS로 검사를 해준다라고.. 정도의 수준일겁니다.


하지만 10년전만해도 NGS가 무슨 임상실험실에서 검사 서비스로 가당키나 한 분석 방법이냐고 하시는 분들이 대다수였을 때에 5여년동안 데이터를 쌓아서 NGS 플랫폼의 타당성을 입증한 논문이 있어 한번 가져와봤습니다.

Next generation sequencing for clinical diagnostics: Five year experience of an academic laboratory

DOI: 10.1016/j.ymgmr.2019.100464

태평양 건너 있는 미국 미네소타 대학교의 임상 실험실에서 2012년부터 2017년 동안, 자그마치 5년동안 NGS로 임상 진단 검사를 실시했던 데이터를 차곡 차곡 잘 수집/축적하여 공개한 내용으로 

2012년 8월부터 2014년 3월 까지는 568 유전자 영역의 SureSelect 패널을,

2014년 4월 부터 2017년 9월 까지는 일루미나의 TruSightOne 패널을,

2017년 10월부터 2017년 12월 까지는 TruSightOne 확장 패널을 사용하여

각각 349개, 2058개, 102개 검체, 모두 2059건의 검사를 실시했다고 하네요

전반적으로 25% 진단율을 유지하였다고 하고, 불확실한 의미 변이인 VUS 수가 2012년도에는 75%정도였는데 2017년도에서는 50%정도로 감소되었다고 합니다. 사실 지금 다시 하면 25%정도로 더 감소되어있지 않을까 하는 생각도 드네요. 

그리고 다양한 질병들에 대해서 진단을 하였는데 질병마다 진단율의 차이를 보였고, 피부병이나 청력손실, 안과질환 같은 경우에는 진단율이 40% 이상의 높은 진단율이, 소화기나 호흡기 질환의 진단율은 10%로 낮았다고 하는데 사실 이건 유전적 원인과 관계가 있냐없냐가 더 중요한 요인으로 보이네요.

결과적으로 이 연구 결과, 5년동안 2천개 넘는 검체를 검사해봤는데 NGS가 임상진단에 사용할 수 있는 유용성을 입증하였다고 생각되고, NGS가 임상 진단 부문에서 사용 할 수 있는 가시적은 근거자료로 활용되어 병원관리자들이 NGS 인프라에 투가하도록 설득 할 수 있는 자료로 사용 할 수 있다고... ??

그거까지는 난 모르겠고, 이전의 많은 연구진들의 연구 결과로 말미암아 이제는 NGS 검사가 우리 생활에 생각보다 많이 사용되고 있다는 것은 맞는 얘기인것 같습니다.

이전에 연구진들의 노고가 아니었다면 아직도 연구수준에서 벗어나지 못했을것 같습니다.

가끔 이런 논문들을  한번 들춰보는것도 나쁘지는 않아서 한번씩 꺼내볼 생각입니다.




출처: @ye._.vely618


토요일, 10월 14, 2023

FFPE 처리된 암조직의 NGS 결과를신뢰할 수 있을까?

몇년전에도 NGS 분석 결과를 그냥 불신하는 분들은 당연히 계셨고 지금도 의심의 눈초리로 바라보는 분들이 없지는 않을겁니다. 물론 저도 NGS를 믿으십시요! 라고는 하지 않습니다. NGS가 모든 문제를 해결 해 주지는 않으니깐요. 그래도 진단에서 NGS는 꽤 나 중요한 위치를 차지하고 있고 효용성을 증명하고 있는데 일방적인 불신은 좋지 않겠죠.

2015년, 아직 NGS으로 진단하기에는 아직 무리이지 라는 의견이 지배적이었고, 그런 편견을 벗어나기 위해 부단히도 애를 쓰고 있었던 때인지는 잘 모르겠으나 그래도 아직 시기상조라는 분위기가 지배적이었던 시절 끊임없이 가능성을 보여주고자 노력했던 연구팀의 논문이 있어 한번 들고 와봤습니다.

그냥 일반 조직에서 시퀀싱한 결과도 믿을 수 없다고 하던 시절, FFPE처리된 샘플에서 BRCA1/2의 somatic 변이 검출을 신뢰 할 수 있다는 것을 보여주는 논문 되겠습니다.

"A reliable method for the detection of BRCA1 and BRCA2 mutations in fixed tumour tissue utilising multiplex PCR-based targeted next generation sequencing" 이라는 제목의 논문입니다.

DOI: 10.1186/s12907-015-0004-6


FFPE, 병리검사를 위해 띠어낸 조직을 장기 보관하기 위해서 처리하는 방법인데, 여기에 사용되는 praffin과 formaldehyde가 DNA 한테는 쥐약이죠..

그래서 FFPE 전용 DNA추출 키트도 나오고 있는데 이미 fragment되어 있고, damage받은 DNA 뽑아서 NGS 돌려봤자 그거 믿을 수 있겠냐? 라는게 FFPE 샘플을 가지고 NGS 수행후 분석 결과를 잘 못믿겠다고 하니 그래서 그거 우리가 확인 했어. 되겠습니다.

그래서 일단 제일 접근하기 쉬운 BRCA1/2를 타겟으로 하였고, 어차피 FFPE 샘플이니 서열들이 조각들 나 있을 테니 증폭시켜서 우선 DNA양을 늘리고 NGS해서 분석 해보자가 가장 좋은 선택지 아니었나 싶습니다.

그래서 다양한 변이 샘플 확보하고 NGS 키트 중에 여러 키트 (GeneRead V1, V2의 BRCA1/2와 Ion AmpliSeq BRCA1/2)로 상호 비교 실험도 했고, Sanger 실험으로 확인도 하였다고 합니다.

그래서 결과적으로 FFPE 샘플에서 추출한 DNA로 NGS 분석으로 돌연벼이를 확인 할 수 있었고, 일부 rare한 frequency를 가지고 있는 변이의 경우 Sanger로는 찾기 힘들었으나 NGS로는 찾을 수 있었다.

그러나 그래도 아직 germline을 분석(이 연구에서는 somatic BRCA1/2 변이를 탐지 했습니다.)을 대체하는 용도로는 안되고, 환자에게 득이 될 수 있는 PARP 억제요법을 사용할지 여부를 확인하는 용도로는 사용할 수 있을 것 같다라고 마무리하고 있습니다.

이처럼 그전까지는 카더라로마 떠돌었떤 근거없는 소문을 여러 다양한 케이스와 방법을 통해 벤치마킹을 하여 충분히 사용할 수 있는데? 라는 근거를 제시함으로써, 좋은 기술을 적재적소에서 사용 할 수 있게 해주는 것도 굉장히 중요한 일 인듯 합니다.

그럼 15년도에 FFPE로 somatic 변이를 NGS로 수행해서 변이를 찾을 수 있지만 제한적이라고 했는데, 지금은 기술이 더 발달 했는데, 그 제한적인 사용처가 극복이 되었는지? 아니면 그대로 별 차이가 없는지를 조만간 확인해보는 시간을 가지면 좋겠네요.

그럴 수 있기를 제발~  :)


출처: @ye._.vely618