레이블이 somatic인 게시물을 표시합니다. 모든 게시물 표시
레이블이 somatic인 게시물을 표시합니다. 모든 게시물 표시

토요일, 6월 08, 2024

통계방법을 활용한 조금 더 똘똘한 변이 검출 방법

오늘은 변이 호출 검증 방법에 대한 논문을 가져와봤습니다. deep seq을하다보면 오류로 인해서 변이가 탐지되기도하고, 아니기도한 경우가 종종 발생합니다. 그래도 germline, 생식세포 변이를 탐지할 때는 이런 오류를 판별은 가능한데 이 tumor 변이인 somatic, 체세포 변이는 이만 저만 까다로운게 아닙니다. 

그래서 나온 것이 통계를 바탕으로 탐지된 변이의 진위 여부를 가려보겠습니다 라는 내용의 "A Retrospective Statistical Validation Approach for Panel of Normal–Based Single-Nucleotide Variant Detection in Tumor Sequencing" 논문 되겠습니다.

DOI: 10.1016/j.jmoldx.2021.09.010


오늘도 변함없이 AI들에게 요약을 해달라고 해보았습니다.


clova-x

이 논문에서는 SNV calling을 위해 local realignment, context error rate calculation, and binomial error testing을 사용했다고 합니다. 또한, CleanDeepSeq Validation 방법과 CleanDeepSeq의 ROC 곡선을 보여주고 있으며, statistical criterion을 제안하여 모델의 실제 적합성을 평가했다고 합니다. 이를 통해 정확한 변이 검출을 수행할 수 있었습니다.

추가적으로, 이 논문에서는 다음과 같은 방법과 알고리즘을 사용했습니다.

1. **회귀분석 타당성 접근법**: 이 논문에서는 단일 뉴클레오타이드 변이 검출을 위해 회귀분석 타당성 접근법을 사용했습니다. 이 방법은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 합니다.

2. **밀도 추정**: 변이 검출을 위해 밀도 추정 방법을 사용했습니다. 이 방법은 변이 데이터의 분포를 파악하고, 이를 바탕으로 변이를 검출하는 데 사용됩니다.

3. **통계적 기준**: 변이 검출을 위한 통계적 기준을 제안했습니다. 이 기준은 모델의 적합성을 평가하고, 이를 바탕으로 변이를 검출하는 데 사용됩니다.

4. **데이터 클린징**: 변이 검출을 위해 데이터 클린징 단계를 수행했습니다. 이 단계에서는 softclips와 품질 제어 플래그를 제거하여 데이터의 품질을 향상시켰습니다.

이러한 방법과 알고리즘을 통해 정확한 변이 검출을 수행할 수 있었습니다. 하지만, 이 논문에서는 다양한 방법과 알고리즘을 사용했기 때문에, 상황에 따라 적절한 방법과 알고리즘을 선택해야 합니다. 또한, 새로운 기술과 알고리즘이 계속해서 개발되고 있기 때문에, 최신 기술과 알고리즘을 적극적으로 활용하는 것이 중요합니다.

이 논문에서는 다양한 데이터셋을 사용하여 실험을 진행했습니다. 이 데이터셋은 다양한 종류의 암 세포주와 환자 데이터를 포함하고 있으며, 이를 통해 변이 검출의 정확도와 성능을 평가했습니다. 이러한 실험 결과를 바탕으로, 이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다.

이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다. 이 방법과 알고리즘은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 하며, 이를 통해 암 진단과 치료에 대한 연구에 큰 도움이 될 것입니다. 하지만, 이 논문에서는 다양한 방법과 알고리즘을 사용했기 때문에, 상황에 따라 적절한 방법과 알고리즘을 선택해야 합니다. 또한, 새로운 기술과 알고리즘이 계속해서 개발되고 있기 때문에, 최신 기술과 알고리즘을 적극적으로 활용하는 것이 중요합니다.

이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다. 이 방법과 알고리즘은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 하며, 이를 통해 암 진단과 치료에 대한 연구에 큰 도움이 될 것입니다. 하지만, 이 논문에서는 다양한 방법과 알고리즘을 사용했기 때문에, 상황에 따라 적절한 방법과 알고리즘을 선택해야 합니다. 또한, 새로운 기술과 알고리즘이 계속해서 개발되고 있기 때문에, 최신 기술과 알고리즘을 적극적으로 활용하는 것이 중요합니다.

이 논문에서는 변이 검출을 위한 다양한 방법과 알고리즘을 제안하고 있습니다. 이 방법과 알고리즘은 기존의 방법보다 더 정확하고 효율적인 변이 검출을 가능하게 하며, 이를 통해 암 진단과 치료에 대한 연구에 큰 도움이 될 것입니다. 하지만, 


chatGPT

### 암 진단의 혁신: 새로운 통계적 검증 방법을 통한 변이 검출

암 진단과 치료는 지난 몇 년 동안 엄청난 발전을 이뤘습니다. 특히 차세대 시퀀싱(NGS) 기술의 도입으로 암의 유전적 변이를 분석하는 것이 가능해지면서 맞춤형 치료의 시대가 열렸습니다. 그러나 이러한 기술에도 불구하고 낮은 빈도의 단일 뉴클레오타이드 변이(SNV)를 정확하게 검출하는 것은 여전히 도전 과제로 남아있습니다. 최근 연구에서는 이러한 문제를 해결하기 위해 새로운 통계적 검증 방법을 제안했습니다. 이번 블로그에서는 이 새로운 방법과 그 의미에 대해 살펴보겠습니다.

#### 기존 방법의 한계

기존의 SNV 검출 방법은 정상 샘플 패널(PON)을 사용하여 각 변이 위치의 오류율을 추정합니다. 그러나 이러한 방법은 몇 가지 한계를 가지고 있습니다. 먼저, PON 기반 방법은 충분한 양의 정상 샘플을 확보하기 어렵고, 샘플링 편향 및 변동이 발생할 수 있습니다. 이는 정확한 오류 프로파일을 얻기 어렵게 만듭니다. 또한, 특정 위치에서 오류 데이터가 부족할 경우 다른 위치의 데이터를 빌려야 하는 문제가 있습니다.

#### 새로운 통계적 검증 방법의 등장

이러한 한계를 극복하기 위해 연구자들은 다양한 암 샘플에서 수집된 데이터를 기반으로 SNV의 위치별 오류 분포를 경험적으로 모델링하는 새로운 통계적 검증 방법을 개발했습니다. 이 방법은 다음과 같은 주요 단계를 포함합니다.

1. **데이터 수집 및 정제**:

   다양한 암 샘플에서 시퀀싱된 데이터를 수집하고, DNA 준비 및 시퀀싱 과정을 통해 데이터를 정제합니다.

2. **오류 분포 추정**:

   수집된 데이터에서 각 변이 위치의 필터링된 리드 수를 추출하고, 이를 바탕으로 변이 위치별 오류 분포를 경험적으로 모델링합니다.

3. **통계적 검증 모델 구축**:

   각 변이 위치에서의 필터링된 리드 수를 기반으로 통계적 모델을 구축하여 예상 오류 분포를 추정하고, 변이 검출을 위한 임계값을 설정합니다.

4. **이상치 검출 및 변이 식별**:

   예상 오류 분포와 비교하여 각 변이 위치의 리드 수를 분석하고, 리드 수가 예상 분포에서 벗어날 경우 이를 변이로 식별합니다.

5. **실험적 검증**:

   검출된 변이를 디지털 PCR과 같은 실험적 방법을 통해 검증하여 모델의 성능을 평가하고, 필요한 경우 모델을 수정 및 보완합니다.

#### 연구 결과와 의의

연구자들은 2019년 10월부터 2020년 7월까지 시퀀싱된 6,580개의 암 샘플 데이터를 사용하여 새로운 모델을 훈련했습니다. 그 결과, 38개의 암 관련 변이 위치에서 새로운 낮은 빈도의 변이를 발견하였고, 이러한 변이들은 디지털 PCR을 통해 실험적으로 검증되었습니다. 또한 시뮬레이션 연구에서도 새로운 방법의 장점을 확인할 수 있었습니다.

이 연구는 암 진단에서 변이 검출의 정확성을 크게 향상시키는 방법을 제안함으로써, 환자 치료에 중요한 기여를 할 수 있습니다. 특히, 낮은 빈도의 변이를 더 잘 검출할 수 있어 맞춤형 치료의 정확성을 높일 수 있습니다.

#### 결론

암 진단에서 변이 검출의 정확성을 높이는 것은 환자의 치료 결과에 직접적인 영향을 미칩니다. 이번 연구에서 제안된 새로운 통계적 검증 방법은 기존의 한계를 극복하고, 더 정확한 변이 검출을 가능하게 합니다. 이를 통해 암 진단의 신뢰성을 높이고, 맞춤형 치료의 효율성을 극대화할 수 있을 것으로 기대됩니다. 앞으로도 이러한 혁신적인 연구가 지속되어 암 치료의 새로운 지평을 열어가기를 바랍니다.


claude.ai

제목: 암 유전체 분석을 위한 새로운 단일염기변이(SNV) 검출 기법

안녕하세요? 오늘은 암 유전체 시퀀싱 데이터 분석에 있어서 단일염기변이(SNV) 검출의 중요성과 새로운 통계적 접근법에 대해 소개하겠습니다. 

암 치료에 있어 환자 개인의 유전체 정보는 매우 중요합니다. 차세대 시퀀싱(NGS) 기술을 통해 암 조직의 SNV를 검출하면 표적 치료제 선택 등 정밀 의료에 큰 도움이 됩니다. 하지만 기존의 SNV 검출 방식은 낮은 변이 빈도의 SNV를 제대로 찾아내지 못하는 한계가 있었습니다.

이를 해결하기 위해 새로운 통계적 검증 방법이 제안되었는데요. 기존에는 제한된 수의 정상 샘플 패널을 사용하여 위치별 오류율을 추정했지만, 이번 방식은 대량의 암 환자 시퀀싱 데이터를 활용합니다. 구체적인 과정은 다음과 같습니다.

1) 베타-이항분포 모델을 사용하여 위치별 오류 분포를 모델링합니다.

2) 변이 알렐 빈도(VAF) 임계값 미만의 데이터만 사용하여 truncated 베타-이항분포를 추정합니다. 

3) 최대가능도 추정법으로 모수를 계산합니다.

4) 추정된 분포를 바탕으로 VAF 임계값을 넘으면 SNV로 검출합니다.

5) 카이제곱 검정으로 모델의 적합도를 평가합니다.

이 방식으로 낮은 변이 빈도(VAF < 5%)의 SNV도 높은 민감도로 검출할 수 있었습니다. 디지털 PCR 검증 결과 99% 특이도에서 85%의 민감도를 보였습니다.

대규모 암 환자 데이터를 활용하여 경험적으로 오류율을 프로파일링한 것이 주요 특징인데요. 이를 통해 기존 방식보다 SNV 검출 정확도를 크게 높일 수 있었습니다. 앞으로 이 새로운 통계 기법이 암 유전체 분석 파이프라인 개선에 기여할 것으로 기대됩니다.


gemini

## 딥 시퀀싱 데이터에서 정확한 변이 검출: 새로운 통계적 회귀 접근 방식 소개

암 진단 및 치료에서 유전자 변이는 중요한 역할을 합니다. 딥 시퀀싱은 다양한 유형의 암을 진단하는 데 사용되는 강력한 도구이며, 이를 통해 정확하게 변이를 검출하는 것이 중요합니다.

기존의 변이 검출 방법에는 몇 가지 제한 사항이 있습니다. 예를 들어, 저빈도 변이를 누락하거나 오류를 발생시킬 수 있습니다. 이러한 문제를 해결하기 위해 연구원들은 새로운 방법을 개발하고 있습니다.

최근 연구에서는 딥 시퀀싱 데이터에서 정상 패널 기반 단일 뉴클레오티드 변이(SNV) 검출을 위한 통계적 회귀 검증 접근 방식을 제안했습니다. 이 방법은 통계적 모델을 사용하여 SNV를 검출하여 기존 방법보다 정확하고 민감하며 효율적입니다.

**새로운 방법의 장점:**

* **정확성 향상:** 통계적 회귀 모델은 오류를 줄이고 정확성을 향상시킵니다.

* **민감도 향상:** 저빈도 변이를 더 효과적으로 감지합니다.

* **효율성 향상:** 병렬 검증 파이프라인을 제공하여 프로세스를 더 효율적으로 만듭니다.

**이 연구는 딥 시퀀싱 데이터에서 SNV를 검출하는 데 사용할 수 있는 정확하고 효율적인 방법을 제공합니다. 이 방법은 암 진단 및 치료를 개선하는 데 사용될 수 있습니다.**


clova-x가 내용 늘리기 신공을 또 사용하였습니다. 이 정도면 상습범인것 같은데.. 

그리고 gemini는 요점을 정확하게 얘기하면서 가장 짧게 풀어냈습니다. 그냥 앞뒤 얘기 안하고 개선된 방법을 알아냈습니다라고 던져주네요 ㅎㅎ 

역시 gpt와 claude가 가장 양질의 문장을 뱉어주셨습니다.

유료 버전 쓰면 더 쓸만한 내용의 결과물을 하사해 주시리라 생각됩니다.

이제 AI한테 물어보고 작성해달라고 하니깐 격일로 블로그에 논문 요약 게시하는 것이 가능할 줄 알았는데 사용자의 수준이 낮다보니 이마저도 쉽지 않은듯합니다.

그냥 되는대로 해보도록 하겠습니다. :)


출처: @ye._.vely618


수요일, 6월 05, 2024

single-cell과 bulk DNA sequencing의 체세포 변이탐지 얼마나 다를까?

오늘은 single-cell 데이터에서 체세포 변이를 탐지하는 방법에 대한 미니 리뷰를 가져와봤습니다. 이유는 제가 한번도 안 해본 내용이라서 어떤 것이 다른지 한번 AI들에게 물어보았습니다.

제목은 Somatic variant calling from single-cell DNA sequencing data 로 single-cell DNA 시퀀싱데이터를 사용해서 체세포 변이를 찾는 tool들에 대한 소개를 하고 있습니다.

DOI: 10.1016/j.csbj.2022.06.013



gemini

## 일반 체세포 변이 분석 연구원을 위한 Single-Cell DNA 시퀀싱 데이터 소개

**1. 서론**

최근 몇 년 동안 Single-Cell DNA 시퀀싱 (scDNA-seq)은 다양한 생물학적 질문을 연구하는 강력한 도구로 등장했습니다. scDNA-seq는 개별 세포의 DNA를 시퀀싱하여 개체 내 세포 군집의 유전적 다양성과 진화를 연구하는 데 사용할 수 있습니다. 

하지만 scDNA-seq는 일반적인 체세포 변이 분석 연구원에게 낯설 수 있는 기술입니다. 이 블로그 글에서는 scDNA-seq의 기본 원리, 일반적인 체세포 변이 분석과의 차이점, scDNA-seq 데이터 분석에 사용되는 도구에 대해 소개합니다.

**2. scDNA-seq 작동 방식**

scDNA-seq는 다음과 같은 단계로 진행됩니다.

1. **단일 세포 분리**: 조직 또는 배양물로부터 개별 세포를 분리합니다.

2. **DNA 증폭**: scDNA-seq는 매우 적은 양의 DNA를 사용하기 때문에 전체 게놈 증폭 (WGA) 단계가 필요합니다. WGA는 DNA 손상 및 증폭 오류를 유발할 수 있습니다.

3. **라이브러리 준비**: 증폭된 DNA는 라이브러리 준비 과정을 거쳐 시퀀싱에 적합한 형태로 변환됩니다.

4. **시퀀싱**: 라이브러리는 차세대 시퀀싱 (NGS) 플랫폼을 사용하여 시퀀싱됩니다.

**3. 일반 체세포 변이 분석과의 차이점**

scDNA-seq는 일반적인 체세포 변이 분석과 다음과 같은 몇 가지 주요 차이점이 있습니다.

* **데이터 양**: scDNA-seq는 일반적인 체세포 변이 분석보다 훨씬 적은 양의 데이터를 생성합니다. 이는 scDNA-seq 데이터 분석에서 변이 탐지를 더 어렵게 만듭니다.

* **데이터 품질**: scDNA-seq 데이터는 WGA 과정으로 인해 일반적인 체세포 변이 분석 데이터보다 품질이 낮습니다. 낮은 품질의 데이터는 변이 호출의 정확도를 감소시킬 수 있습니다.

* **변이 유형**: scDNA-seq는 작은 인델과 복잡한 구조 변이와 같은 일반적인 체세포 변이 분석에서 감지하기 어려운 변이 유형을 감지하는 데 더 효과적일 수 있습니다.

**4. scDNA-seq 데이터 분석 도구**

scDNA-seq 데이터 분석에는 다음과 같은 다양한 도구가 사용됩니다.

* **변이 호출자**: scDNA-seq 데이터에서 변이를 호출하는 데 사용됩니다. 일반적인 변이 호출자로는 Platypus, FreeBayes, Mutect2 및 SCcaller가 있습니다.

* **통계 분석 도구**: scDNA-seq 데이터의 유전적 다양성과 진화를 분석하는 데 사용됩니다. 일반적인 통계 분석 도구로는 R과 SNPeff가 있습니다.

* **시각화 도구**: scDNA-seq 데이터를 시각화하는 데 사용됩니다. 일반적인 시각화 도구로는 IGV와 Circos가 있습니다.

**5. 결론**

scDNA-seq는 다양한 생물학적 질문을 연구하는 강력한 도구입니다. 하지만 scDNA-seq는 일반적인 체세포 변이 분석 연구원에게 낯설 수 있는 기술입니다. 이 블로그 글에서는 scDNA-seq의 기본 원리, 일반적인 체세포 변이 분석과의 차이점, scDNA-seq 데이터 분석에 사용되는 도구에 대해 소개했습니다.


clova-x

 최근 몇 년 동안 단일 세포 시퀀싱 연구는 분명히 동일한 조직에서 생물학적 차이를 식별할 수 있는 능력 때문에 가속도가 붙고 있습니다. 단일 세포 분야는 기능적 변이를 직접적으로 밝혀낼 수 있는 능력 때문에 논리적으로 단일 세포 RNA 시퀀싱(scRNA-seq)에 초점을 맞추고 있지만, 단일 세포 DNA 시퀀싱(scDNA-seq)도 마찬가지로 중요합니다.

이 논문에서는 scDNA-seq 데이터에서 SNV를 호출하기 위해 특별히 설계된 10개의 도구를 식별했습니다. 이 도구들은 서로 다른 방법론적 전략을 채택하고 있으며, 고유한 기능을 가지고 있으며, 특정 기술적 특성을 가지고 있으며, 공개 저장소에서 무료로 액세스할 수 있습니다. 이러한 도구들은 데이터와 오류가 다른 loci에서 독립적이며 SNV가 이배체 영역에 위치한 이배체라는 가정을 기반으로 합니다.

입력 데이터는 그런 다음 시퀀싱 리드(BAM 형식) 또는 리드 수와 염기 품질 점수(mpileup 형식)로 매핑됩니다. 다른 도구에는 기본값으로 사이트당 최소 리드 수가 지정되어 있지만 엄격한 요구 사항은 아니며 변경할 수 있습니다.

이 도구들은 또한 scDNA-seq 데이터에서 SV, CNV 및 Indel을 검출하는 데 사용할 수 있습니다. 이들은 scRNA-seq 데이터와 함께 사용하여 세포 유형을 분류하고 세포 기능을 이해하는 데 도움이 될 수 있습니다. 그러나 이러한 호출 도구는 각각의 알고리즘과 가정에 따라 결과가 다를 수 있으므로 여러 도구를 비교하고 검증하는 것이 중요합니다.

또한, 단일 세포 시퀀싱 기술은 여전히 발전하고 있으며, 새로운 라이브러리 구축 방법과 호출 도구가 개발되고 있습니다. 따라서 연구자는 최신 기술과 도구를 적극적으로 활용하고, 데이터 품질과 분석 결과를 신중하게 검토해야 합니다.


chatGPT

### 단일 세포 DNA 시퀀싱을 통한 체세포 변이 탐지: 일반 시퀀싱과의 차이점

체세포 변이 분석에 익숙한 연구원이라면, 단일 세포 DNA 시퀀싱을 통한 체세포 변이 탐지가 기존의 벌크 시퀀싱과 어떻게 다른지 궁금할 것입니다. 이 블로그 글에서는 두 접근법의 주요 차이점과 단일 세포 시퀀싱이 제공하는 새로운 가능성에 대해 설명하고자 합니다.

#### 1. 데이터의 해상도

**일반 시퀀싱**:

일반 시퀀싱에서는 여러 세포의 DNA를 혼합하여 분석합니다. 이는 주로 다수의 세포에서 공통적으로 나타나는 변이를 탐지하는 데 효과적이지만, 희귀한 변이나 세포 아형을 식별하는 데는 한계가 있습니다.

**단일 세포 시퀀싱**:

단일 세포 시퀀싱은 개별 세포 수준에서 변이를 탐지할 수 있습니다. 이는 특히 소수의 희귀 변이 또는 특정 세포 아형을 식별하는 데 매우 유용합니다. 예를 들어, 종양 내에서 존재하는 다양한 세포 아형을 개별적으로 분석하여 종양의 이질성을 더욱 정확하게 파악할 수 있습니다.

#### 2. 기술적 도전 과제

**일반 시퀀싱**:

일반 시퀀싱은 충분한 양의 DNA를 사용하므로 증폭 오류가 적고, 시퀀싱 커버리지도 비교적 균일하게 유지됩니다. 따라서 분석 과정에서 기술적 문제를 덜 겪습니다.

**단일 세포 시퀀싱**:

단일 세포 시퀀싱은 매우 적은 양의 DNA를 다루기 때문에 증폭 과정에서 오류가 발생할 수 있고, 불균일한 시퀀싱 커버리지 및 알렐 드롭아웃(allele dropout) 문제가 발생할 수 있습니다. 이러한 기술적 편향을 극복하기 위한 다양한 방법론적 접근이 필요합니다.

#### 3. 변이 탐지의 민감도와 특이도

**일반 시퀀싱**:

일반 시퀀싱은 다수의 세포에서 공통적으로 나타나는 변이를 신뢰성 있게 탐지할 수 있습니다. 그러나 희귀 변이를 탐지하는 데는 민감도가 낮을 수 있습니다.

**단일 세포 시퀀싱**:

단일 세포 시퀀싱은 민감도가 높아 개별 세포에서의 변이를 탐지할 수 있지만, 기술적 편향으로 인해 거짓 양성(false positive)이 발생할 가능성이 큽니다. 따라서 변이 호출의 특이도를 높이기 위한 추가적인 분석과 검증이 필요합니다.

#### 4. 데이터 처리 및 분석

**일반 시퀀싱**:

일반 시퀀싱에서는 비교적 단순한 분석 파이프라인을 사용하여 다수의 세포에서 발생한 변이를 탐지할 수 있습니다. 분석 과정이 비교적 단순하고 일관적입니다.

**단일 세포 시퀀싱**:

단일 세포 시퀀싱은 개별 세포마다 별도의 분석이 필요하며, 이는 데이터 처리 및 분석의 복잡성을 증가시킵니다. 다양한 단일 세포 변이 호출 도구를 사용하여 분석해야 하며, 각 도구의 성능을 비교하고 최적의 도구를 선택하는 것이 중요합니다.

#### 5. 연구 목적 및 적용 분야

**일반 시퀀싱**:

유전 질환 연구, 대규모 인구 집단의 유전체 분석 등에서 주로 사용됩니다. 대규모 데이터에서 공통된 변이를 탐지하고자 할 때 매우 유용합니다.

**단일 세포 시퀀싱**:

암 연구, 발달 생물학, 신경학 등 세포 이질성이 중요한 연구 분야에서 많이 사용됩니다. 개별 세포 수준에서의 상세한 분석이 가능하여, 다양한 세포 아형과 이들의 상호작용을 이해하는 데 중요한 역할을 합니다.

### 결론

단일 세포 DNA 시퀀싱은 기존의 일반 시퀀싱이 제공하지 못하는 고해상도의 유전적 변이 분석을 가능하게 합니다. 물론, 기술적 도전 과제가 있지만, 이를 극복하는 방법론적 발전이 이루어지고 있으며, 연구자들에게 새로운 가능성을 열어주고 있습니다. 일반 시퀀싱에 익숙한 연구원이라면, 단일 세포 시퀀싱을 통해 연구의 깊이와 폭을 넓혀보는 것도 좋은 선택이 될 것입니다.


claude.ai

제목: 단일 세포 DNA 시퀀싱 데이터 분석의 어려움

안녕하세요 연구원 여러분, 

오늘은 단일 세포 DNA 시퀀싱 데이터를 가지고 체세포 변이를 탐지할 때의 어려움에 대해 말씀드리고자 합니다. 여러분 대부분은 지금까지 전통적인 벌크 시퀀싱 데이터를 사용하여 체세포 변이 분석을 해오셨을 것입니다. 하지만 최근 단일 세포 시퀀싱 기술의 발전으로 세포 수준의 게놈 이질성 연구가 활발해지면서, 단일 세포 DNA 시퀀싱 데이터 분석 수요도 높아지고 있습니다.

그런데 단일 세포 데이터에서 변이를 정확히 호출하는 것이 결코 쉽지 않습니다. 왜냐하면 단일 세포 시퀀싱은 전체 게놈 증폭(WGA) 과정을 거치는데, 이 과정에서 다양한 기술적 노이즈와 편향이 발생하기 때문입니다.

1) 극심한 커버리지 불균형

벌크 시퀀싱과 달리 단일 세포 데이터에는 커버리지가 아주 불균등할 수 있습니다. 어떤 부위는 매우 높은 커버리지를, 어떤 부위는 0에 가까운 낮은 커버리지를 보이죠. 이렇게 되면 변이 호출에 어려움이 있을 수밖에 없습니다.

2) 대량의 Missing Data  

전체 게놈 증폭 과정에서 어떤 부위는 아예 증폭되지 않아 Missing Data가 많이 발생합니다. 이 부분에 대해서는 변이 여부를 판단할 수 없게 되죠.

3) Amplification Bias

증폭 과정의 바이어스로 인해 두 대립유전자가 균등하게 증폭되지 않는 대립유전자 불균형이나 대립유전자 탈락 현상이 빈번합니다. 또한 증폭 오류로 인한 인위적인 변이도 존재합니다.

이런 기술적 노이즈 때문에 단일 세포 데이터에서 정확한 변이 호출은 어려울 수밖에 없습니다. 실제로 현재 개발된 단일 세포 변이 호출 도구들 대부분이 정밀도는 높지만 재현율이 낮다는 한계가 있습니다.

따라서 연구 목적에 맞는 적절한 도구를 신중히 선택하는 것이 매우 중요합니다. 높은 정밀도가 필요하다면 hSNP 정보를 활용하는 도구를, 넓은 영역에 걸친 변이를 탐색하고자 한다면 계통 정보를 활용하는 도구를 사용하는 것이 좋겠죠.

아직 단일 세포 변이 호출 분야에는 많은 과제가 남아있지만, 계속해서 새로운 도구와 알고리즘이 개발되고 있으니 앞으로 더 나은 성능을 기대해볼 수 있을 것 같습니다. 여러분도 단일 세포 분석 연구에 관심이 생긴다면 도전해보시기 바랍니다.


음... 이번에는 논문 내용이 바탕이되기는 하지만... 논문의 내용보다는... single-cell DNA 시퀀싱의 어려움에 대해서 토로하는듯한... 아니면 single-cell과 일반적인 bulk dna sequencing간의 누가누가 더 까다로운가에 대해서 설명하는 듯한 느낌이 살짝 있어보입니다.

아마 그건 제가 AI들에게 블로그에 게시할 글을 작성해줘 라는 주문 전에 질문한 내용들이 single-cell의 변이탐지가 일반적인 DNA 시퀀싱의 변이탐지와 어떤 차이가 있는지에 대해서 집중적으로 물어봐서 그런 것 같기도 합니다.

지금까지의 DNAseq과 Single-Cell DNAseq은 시퀀싱데이터를 생산하는것에서부터 차이가 나다보니깐 분석방법도 다소 차이가 있는것은 어찌보면 당연할듯 합니다. 대신 기존의 DNAseq에서 얻을 수 있는 정보의 양과 깊이는 비교할 수 없지 않을까 합니다. 시퀀싱 비용이 혁신적으로 저렴해졌다 하더라도 그건 그것이고, 의미있는 데이터를 뽑기 위해서는 그 돈으로 못하는게 현실이죠. 누구나 Single-Cell DNAseq을 할 수 있을 때가 되면 의료 혜택이 좀더 많은 사람들에게 제공될 수 있지 않을까 합니다. 


출처 : @ye._.vely618


월요일, 6월 03, 2024

과연 종양 이질성을 극복한 변이 탐지가 가능할까?

오늘은 프로토콜 자료 하나 가져와봤습니다.

제목은 Somatic variant detection from multi-sampled genomic sequencing data of tumor specimens using the ith.Variant pipeline 으로 종양내 genome 이질성으로 인해 변이 탐지가 수월하지 않는데, 이 변이 탐지를 가능하게 해주는 파이프라인에 대한 내용 같습니다.

DOI: 10.1016/j.xpro.2022.101927


오늘도 역시 gemini, clova-x와 chatGPT에게 블로그에 올릴 글을 하나 작성해달라고 하였습니다.


gemini

## 우리 몸의 신비: 생명 과학 입문

생명 과학은 우리 주변의 살아있는 존재와 그 작동 방식을 연구하는 과학 분야입니다. 우리가 태어나고, 성장하고, 번식하며, 결국 죽는까지 일어나는 모든 과정은 생명 과학의 영역에 속합니다. 

고등학교 이후 생명 과학을 공부하지 않은 일반인이라도 생명 과학은 우리 삶과 밀접하게 관련되어 있다는 것을 알 수 있습니다. 예를 들어, 우리가 먹는 음식, 우리가 사용하는 약, 우리가 걸리는 질병 등은 모두 생명 과학과 관련이 있습니다.

이 블로그 게시글에서는 생명 과학의 기본 개념을 소개하고, 우리 몸의 신비로운 작동 방식에 대해 알아보도록 하겠습니다. 생명 과학은 복잡하고 방대한 분야이지만, 기본적인 개념을 이해하면 우리 주변 세상을 보는 새로운 시각을 얻을 수 있습


clova-x

 해당 파이프라인은 종양의 샘플링된 유전체 시퀀싱 데이터를 이용하여 변이를 탐지하고 분석하는 데 사용되는 것으로 알려져 있습니다. 이는 종양의 유전적 다양성과 진화를 이해하고, 종양의 특성과 치료 방법을 결정하는 데 중요한 역할을 합니다.

이 파이프라인은 다양한 데이터 형식을 지원하며, 고성능 컴퓨팅 환경에서 실행될 수 있습니다. 또한, 사용자 정의 가능한 단계로 구성되어 있어 사용자가 필요한 단계를 선택하고, 각 단계의 설정을 조정할 수 있습니다.

이 파이프라인은 민감도와 특이도의 균형을 제공하여 변이를 정확하게 탐지하면서도 불필요한 변이를 제거할 수 있습니다. 또한, clonal or major subclonal SCNAs를 탐지할 수 있어 종양의 유전적 다양성과 진화를 더욱 정확하게 이해할 수 있습니다.

이 파이프라인을 사용하면 종양의 유전적 변이를 빠르고 정확하게 탐지할 수 있으며, 이를 바탕으로 종양의 특성과 치료 방법을 결정할 수 있습니다. 또한, 이 파이프라인은 오픈 소스 소프트웨어로 제공되어 있어 누구나 자유롭게 사용할 수 있으며, 커뮤니티를 통해 지속적인 업데이트와 개선이 이루어지고 있습니다.

이 파이프라인을 사용하기 위해서는 컴퓨터 시스템과 프로그래밍 지식이 필요합니다. 하지만, 최근에는 다양한 클라우드 서비스와 GUI 기반의 도구들이 제공되어 있어, 비전문적인 사용자도 쉽게 이 파이프라인을 사용할 수 있습니다.

이 파이프라인을 사용하여 얻은 결과는 의료 전문가와 함께 분석하고 해석해야 합니다. 이를 통해, 종양의 치료와 예방에 대한 더욱 정확한 정보를 얻을 수 있습니다.

이 글을 통해, 이 파이프라인이 종양 연구와 치료에 있어서 매우 유용한 도구 중 하나라는 것을 알 수 있습니다. 하지만, 이 파이프라인을 사용하기 위해서는 컴퓨터 시스템과 프로그래밍 지식이 필요하며, 결과를 의료 전문가와 함께 분석하고 해석해야 합니다. 따라서, 이 파이프라인을 사용하고자 하는 경우에는 충분한 준비와 전문가의 도움을 받는 것이 중요합니다.


chatGPT

### 유전체 분석을 통한 종양 연구 혁신: ith.Variant 파이프라인 소개

최근 몇 년간 의학과 생명과학 분야에서 엄청난 발전이 이루어졌습니다. 그 중 하나가 유전체 분석 기술의 발전입니다. 오늘은 종양 연구를 혁신적으로 변화시키고 있는 ith.Variant라는 파이프라인에 대해 소개해드리고자 합니다. 생명 과목을 고등학교 이후로 공부하지 않으셨더라도 이해하기 쉽게 설명해드리겠습니다.

#### 유전체 분석이란?

우선, 유전체 분석에 대해 간단히 설명하겠습니다. 유전체란 우리 몸의 모든 유전 정보를 담고 있는 DNA의 총합을 말합니다. 유전체 분석은 이러한 DNA를 분석하여 유전적 변이를 찾고, 이를 통해 질병의 원인이나 치료법을 찾는 연구 방법입니다.

#### 종양과 유전적 변이

종양(암)은 우리 몸의 세포가 비정상적으로 빠르게 자라면서 덩어리를 형성하는 것입니다. 종양이 발생하는 이유 중 하나는 유전자 변이 때문입니다. 이러한 변이를 찾아내는 것이 종양 연구와 치료에 매우 중요합니다. 그러나 종양 내의 세포들은 각기 다른 유전적 변이를 가지고 있을 수 있습니다. 이를 "종양 이질성"이라고 부릅니다. 이질성을 정확히 분석하는 것은 종양의 진화와 치료 반응을 이해하는 데 중요한 역할을 합니다.

#### ith.Variant 파이프라인이란?

ith.Variant는 이러한 유전적 변이를 정확히 찾아내고 분석하기 위해 개발된 파이프라인(연속적인 처리 절차)입니다. 기존의 분석 방법들은 한 번에 하나의 샘플만 분석하는 경우가 많았습니다. 그러나 ith.Variant는 여러 샘플을 동시에 분석하여 더 정밀하고 신뢰할 수 있는 결과를 제공합니다.

#### ith.Variant의 장점

1. **높은 민감도와 특이성**: 저빈도 변이(적은 비율로 나타나는 변이)를 민감하게 탐지하면서도 인공적인 오류를 줄이는 데 뛰어납니다. 이는 변이 탐지의 정확성을 높여줍니다.

2. **종양 이질성 분석**: 여러 종양 샘플과 정상 샘플을 통합적으로 분석하여 종양 내 다양한 유전적 변이를 정확히 특성화할 수 있습니다. 이를 통해 종양의 진화 과정을 더 잘 이해할 수 있습니다.

3. **고성능 컴퓨팅 활용**: 대규모 유전체 데이터를 효율적으로 처리할 수 있도록 설계되어 있어, 방대한 데이터를 신속하게 분석할 수 있습니다.

4. **오픈 소스 접근성**: 이 파이프라인은 오픈 소스로 제공되어, 연구자들이 자유롭게 사용하고 수정할 수 있습니다. 이는 연구의 투명성과 협력성을 높여줍니다.

#### 종양 연구의 미래

ith.Variant와 같은 첨단 유전체 분석 도구는 종양 연구와 치료를 혁신적으로 변화시키고 있습니다. 정확한 유전적 변이 분석을 통해 더 효과적인 개인 맞춤형 치료법을 개발할 수 있으며, 종양의 진화 과정을 이해함으로써 재발을 예방하는 데도 기여할 수 있습니다.

이처럼 ith.Variant 파이프라인은 종양 연구자들에게 강력한 도구가 되어주고 있습니다. 앞으로도 유전체 분석 기술의 발전이 우리 삶에 가져올 긍정적인 변화를 기대해봅니다.

여러분도 이제 유전체 분석과 ith.Variant에 대해 조금 더 이해하게 되셨기를 바랍니다. 앞으로도 유전체 연구와 관련된 흥미로운 소식을 전해드리겠습니다. 감사합니다!


아.. 우리의 gemini는 또 무슨 말인지 모를... 얘기를 뱉어냈습니다. 물론 제가 사용한 프롬프트가 유발한 문제이기도 합니다. 

"독자는 생물 과목을 고등학교때 이후에 공부하지 않은 일반인입니다" 라는 프롬프트를 사용하는 바람에...  이전에는 잘 파악했는데, 이번에는 헛소리를 내뱉은것 같습니다. 음... 한편으로는 gemini의 문제가 아니라 무료 버전의 문제일지도.. ㅎㅎ :)

clova-x와 chatGPT 같은 경우는 그래도 좀 더 이해할 수 있도록 잘 작성한 듯 합니다.

종양 검체를 분석 한다고 하더라도 그 검체 안에 정상 조직들이 0%는 아니라서 변이를 탐지할 때 정상조직에 있는 변이와 종양의 변이를 구분하는 것은 중요하게 됩니다. 그래서 해당 검체에서 종양이 차지하는 비율을 바탕으로 탐지된 somatic 변이의 depth를 사용하여 진위여부를 구별하게 됩니다. 위의 ith.Variant라는 파이프라인도 아마 이런 방법들을 사용해서 하지 않나 싶습니다. 


다음에 또 흥미로운 내용의 논문이 있으면 AI들에게 물어보도록 해보겠습니다. :)



출처: @ye._.vely618

금요일, 4월 22, 2022

A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data

오랜만에 먼지 뒤집어 쓰고 있던 논문하나... 슬쩍...
somatic mutation call관련해서 누가누가 잘하나 훑어본...
다들 알고 있으신 논문 되겠습니다.



여기서 가장 훌륭한 내용을꼽으라면...
variant caller를 아주 일목요연하게 정리한 Table 1. 되겠습니다. 
(물론 Table 2.도 있습니다.)
이거 보시고 ensemble한 걸 생각하신다면 이전에 소개했었던 appreci8 잊지 않으셨겠죠?

결론적으로 DeepVariant 딥러닝 기반의 성능좋은 caller가 계속해서 나올꺼니 님들 연구 계속 열씸히들 하시고 somatic variant를 검증할 수 있는 데이터셋이 아직 없으니 이거 좀 만들어봐 되지 않을까합니다.

물론 논문에서 언급한 GIAB 프로젝트가 잘 되고 있으니 곧 somatic variant를 검증할 수 있는 set들도 잘 구비되지 않을까 합니다. MAQC/SEQC 프로젝트도 잘 운영되고 있으니..


그리고 뒤적뒤적 거리다 논문 하나를 봤는데.. 

여기 나온 데이터를 가지고 somatic variant pipeline 검증 할 수 있을지는 모르겠지만 그래도 활용은 할 수 있지 않을까 하네요... 한번 뒤적여봐야하겠네요.








출처 : @ye._.vely618