레이블이 QC인 게시물을 표시합니다. 모든 게시물 표시
레이블이 QC인 게시물을 표시합니다. 모든 게시물 표시

월요일, 12월 16, 2024

정밀의학을 위한 NGS 기술의 표준을 만들어가는 MAQC/SEQC2 프로젝트

오늘은 NGS의 정확도와 신뢰성 확보에 방점을 두고 있는 프로젝트에 대한 논문의 내용을 가져와봤습니다. The Sequencing Quality Control 2 study: establishing community standards for sequencing in precision medicine 라는 제목으로 NGS 데이터의 QC 기준에 대한 내용을 담고 있는 논문되겠습니다.

DOI: 10.1186/s13059-021-02528-3



gemini

## 정밀의학을 위한 유전체 분석의 정확성을 높이다: MAQC/SEQC2 프로젝트 이야기

안녕하세요. 오늘은 정밀의학의 핵심 기술인 차세대 염기서열 분석 (NGS)의 정확성을 높이기 위한 국제적인 노력인 MAQC/SEQC2 프로젝트에 대해 이야기해 보려고 합니다. NGS는 인간 게놈 전체의 염기서열을 빠르고 정확하게 읽어내는 기술로, 질병 진단, 신약 개발 등 다양한 분야에서 활용되고 있습니다. 하지만 NGS 데이터의 정확성과 신뢰성을 확보하는 것은 여전히 중요한 과제입니다.

### 왜 MAQC/SEQC2 프로젝트가 필요했을까요?

NGS 기술이 빠르게 발전하면서 전 세계적으로 다양한 연구 기관에서 NGS를 활용한 연구를 진행하고 있습니다. 하지만 각 연구 기관마다 사용하는 장비, 시약, 분석 방법이 달라 연구 결과의 비교가 어려웠고, 이는 정밀의학 발전의 큰 걸림돌이었습니다.

MAQC/SEQC2 프로젝트는 이러한 문제를 해결하기 위해 시작되었습니다. 다양한 연구 기관에서 동일한 샘플을 가지고 NGS 분석을 수행하고, 그 결과를 비교 분석하여 NGS 분석 과정에서 발생할 수 있는 오류를 찾아내고, 표준화된 분석 방법을 제시하는 것이 목표였습니다. 

### MAQC/SEQC2 프로젝트에서 다룬 NGS 분석 방법

MAQC/SEQC2 프로젝트에서는 다양한 NGS 분석 방법을 다루었습니다. 대표적인 분석 방법으로는 다음과 같은 것들이 있습니다.

* **생식세포 변이 분석:** 유전 질환과 관련된 유전체 변이를 찾는 분석

* **암 유전체 분석:** 암세포의 유전체 변이를 분석하여 암 진단 및 치료에 활용하는 분석

* **순환 종양 DNA 분석:** 혈액 속에 떠다니는 암세포 유래 DNA를 분석하여 암 진단 및 추적 관찰에 활용하는 분석

* **표적 RNA 시퀀싱:** 특정 유전자의 발현량을 정량적으로 분석하는 방법

* **DNA 메틸화 분석:** 유전자 발현을 조절하는 DNA 메틸화 현상을 분석하는 방법

* **단일 세포 시퀀싱:** 개별 세포 수준에서 유전체 정보를 분석하는 방법

### MAQC/SEQC2 프로젝트를 통해 얻은 결과와 장점

MAQC/SEQC2 프로젝트를 통해 우리는 NGS 분석의 정확성을 높이고, 표준화된 분석 방법을 확립할 수 있었습니다. 이를 통해 얻을 수 있는 장점은 다음과 같습니다.

* **NGS 분석 결과의 신뢰성 향상:** 다양한 연구 기관에서 얻은 NGS 데이터를 비교하고 분석하여, 분석 결과의 신뢰성을 높일 수 있습니다.

* **정밀의학 발전 가속화:** 정확하고 신뢰할 수 있는 NGS 분석 결과를 바탕으로 질병 진단, 신약 개발 등 정밀의학 분야의 발전을 가속화할 수 있습니다.

* **NGS 기술의 표준화:** NGS 분석 과정에서 발생할 수 있는 오류를 줄이고, 표준화된 분석 방법을 확립하여 다른 연구 기관에서도 동일한 결과를 얻을 수 있도록 합니다.

* **개인 맞춤형 치료의 실현:** 정확한 유전체 정보를 바탕으로 개인의 유전적 특성에 맞는 맞춤형 치료를 제공할 수 있습니다.

### 결론

MAQC/SEQC2 프로젝트는 NGS 기술의 정확성을 높이고, 정밀의학 발전에 기여한 중요한 연구입니다. 이 프로젝트를 통해 얻은 결과는 앞으로 NGS 기술이 더욱 발전하고, 정밀의학 시대가 더욱 가까워지는 데 큰 역할을 할 것입니다.



clova-x

안녕하세요, 정밀 의학에서 NGS와 Microarray에 대한 표준을 수립하는 전문가이자, 이들을 활용하여 연구하는 연구자입니다. 오늘은 MAQC/SEQC2 프로젝트에 대한 리뷰 논문을 바탕으로, NGS 기술의 정확성과 재현성에 대한 모범 사례 가이드라인에 대해 설명해 드리고자 합니다.

MAQC/SEQC2 프로젝트는 미국 식품의약국(FDA)이 주도하는 국제 컨소시엄인 MAQC가 진행한 프로젝트로, 차세대 염기서열 분석(NGS) 기술의 정확도와 재현성을 평가하고, 이를 바탕으로 임상 응용을 위한 최적의 방법을 제시하는 것을 목표로 삼았습니다. 이 프로젝트는 2005년에 시작되어 네 차례의 프로젝트를 진행했으며, SEQC2 프로젝트는 2016년부터 2021년까지 진행되었습니다.

SEQC2 프로젝트는 NGS 기술의 성능을 평가하고, 실험실 간 재현성을 검증하며, 바이오인포매틱스 도구의 개발을 촉진하는 것을 목표로 했으며, 150개 이상의 산업, 학계, 정부 기관에서 300명 이상의 과학자가 참여했습니다. 다양한 분야의 전문가들이 모여 NGS 기술의 표준화와 최적화를 위해 노력했습니다.

게놈 시퀀싱, 암 유전체학, 단일 세포 시퀀싱, 순환 종양 DNA, 후성 유전학(DNA 메틸화), 표적 RNA 시퀀싱 등 다양한 분야에서 연구를 진행했으며, 여러 NGS 기술의 성능을 비교하고, 표준화된 참조 물질을 개발하여 실험실 간의 재현성을 향상 시켰습니다.

이러한 성과는 임상 진단, 약물 개발, 질병 연구 등 다양한 분야에서 활용될 수 있으며, NGS 기술의 발전과 함께 의료 분야에서의 적용이 더욱 확대될 것으로 기대됩니다.



chatGPT

### 정밀의학을 위한 NGS 기술의 표준을 만들어가는 MAQC/SEQC2 프로젝트

유전체(Genome)라는 말은 어렵게 들릴 수 있지만, 쉽게 말하면 우리의 생물학적 설계도입니다. 모든 생물은 유전체라는 정보를 가지고 있고, 이 정보를 해독하여 생명활동을 유지합니다. 오늘날에는 유전체 정보를 활용하여 질병을 진단하고 치료법을 결정하는 **정밀의학**이 주목받고 있습니다. 이러한 정밀의학을 가능하게 만드는 중요한 기술 중 하나가 바로 **차세대 염기서열 분석(Next-Generation Sequencing, NGS)**입니다.

그러나 NGS 기술이 효과적으로 활용되기 위해서는 실험 결과가 정확하고 일관적이어야 합니다. 이를 위해 **MAQC/SEQC 프로젝트**가 시작되었습니다. 이번 글에서는 **MAQC/SEQC2** 프로젝트가 무엇인지, 그리고 이를 통해 얻어진 결과가 정밀의학에 어떤 영향을 미칠 수 있는지 살펴보겠습니다.

---

### MAQC/SEQC2 프로젝트의 배경과 목적

NGS 기술은 유전체 정보를 빠르게 해독할 수 있어 연구와 임상에서 널리 사용됩니다. 하지만 실험실마다 사용하는 방법이 다르거나 결과 해석 도구가 다르다면, 같은 샘플로 실험하더라도 다른 결과가 나올 수 있습니다. 이는 질병 진단과 치료 결정에 심각한 문제를 초래할 수 있습니다.

이 문제를 해결하기 위해 미국 식품의약국(FDA)이 주도한 **MAQC(MicroArray Quality Control)** 프로젝트가 시작되었습니다. MAQC의 첫 번째 단계는 유전체 분석의 초기 기술인 마이크로어레이(Microarray)를 표준화하는 것이었습니다. 이후 NGS 기술의 발전에 따라 MAQC의 세 번째 단계부터는 **SEQC(Sequencing Quality Control)** 프로젝트로 확장되었습니다. 최근 완료된 **SEQC2**는 NGS 기술의 정확성과 재현성을 높이기 위해 대규모 국제 연구 네트워크가 참여한 프로젝트입니다.

---

### NGS 분석 방법과 MAQC/SEQC2에서 다룬 내용

SEQC2는 다양한 NGS 분석 방법을 평가하여 각 기술의 강점과 약점을 파악하고, 이를 개선하기 위한 가이드라인을 제시했습니다. 주요 분석 방법은 다음과 같습니다.

#### 1. **전체 유전체 분석(Whole Genome Sequencing, WGS)**  

WGS는 유전체 전체를 분석하는 방법으로, 질병을 유발하는 돌연변이를 탐지하는 데 사용됩니다. 그러나 반복적이거나 복잡한 유전체 영역에서는 변이를 정확히 찾기 어렵습니다. SEQC2는 여러 실험실과 도구를 비교하여 WGS의 정확성을 평가하고, 분석 성능을 높이기 위한 표준을 마련했습니다.

#### 2. **암 유전체 분석(Cancer Genomics)**  

NGS는 암의 유전체 변이를 분석하여 암의 종류와 진행 상태를 판단하는 데 중요한 역할을 합니다. 특히 **표적 유전자 패널**과 **WGS**를 활용해 암과 관련된 변이를 분석하는 방법이 비교되었습니다. SEQC2는 이 과정에서 암 돌연변이 부담(Tumor Mutational Burden)을 평가하는 기준을 제시했습니다.

#### 3. **순환 종양 DNA(circulating tumor DNA, ctDNA)**  

혈액에서 발견되는 ctDNA는 암의 유래를 파악하고, 치료 효과를 모니터링하며 암 재발 여부를 예측할 수 있는 중요한 바이오마커입니다. 그러나 낮은 농도의 ctDNA에서 변이를 검출하는 것은 어렵습니다. SEQC2는 여러 실험실에서 ctDNA 분석 성능을 비교하고, 이를 개선하기 위한 기술적 제안을 했습니다.

#### 4. **표적 RNA 분석(Targeted RNA Sequencing)**  

RNA는 유전자 발현을 분석하는 데 중요한 역할을 합니다. SEQC2는 특정 유전자를 선별적으로 분석하는 **표적 RNA 분석**의 정확성과 민감도를 평가하여 복잡한 유전자 융합(fusion genes) 검출의 한계를 파악했습니다.

#### 5. **DNA 메틸화(DNA Methylation)**  

DNA 메틸화는 유전자의 발현을 조절하는 중요한 에피유전체 변형입니다. SEQC2는 다양한 메틸화 분석 기술을 비교해 임상 연구에서 사용할 표준화된 방법을 제시했습니다.

#### 6. **단일세포 분석(Single-cell Sequencing)**  

단일세포 분석은 개별 세포의 유전자 발현을 측정할 수 있어 세포 간 이질성을 이해하는 데 유용합니다. SEQC2는 다양한 단일세포 분석 방법을 평가하여 임상에서 신뢰할 수 있는 기술을 제안했습니다.

---

### MAQC/SEQC2가 가져올 결과와 이점

1. **정확하고 재현성 높은 NGS 데이터**  

   - SEQC2는 NGS 실험의 변동성을 최소화하고, 전 세계 연구소가 동일한 기준으로 분석할 수 있도록 표준화 자료와 가이드라인을 제공합니다.

2. **정밀의학의 발전**  

   - 정확한 유전체 분석은 암, 희귀질환 등 다양한 질병의 진단과 치료에 중요한 정보를 제공합니다. SEQC2는 이를 가능하게 하는 기반을 마련했습니다.

3. **연구와 임상의 연결**  

   - SEQC2는 연구실 수준의 실험이 임상 현장에서 활용되도록 실질적인 검증 절차를 제안했습니다.

---

### 마무리하며

MAQC/SEQC2 프로젝트는 NGS 기술의 신뢰성을 높여 정밀의학을 가능하게 하는 중요한 역할을 하고 있습니다. 이러한 표준화 노력은 더 많은 사람들이 자신의 유전체 정보를 기반으로 맞춤형 치료를 받을 수 있는 미래를 만들어갈 것입니다. NGS 기술이 우리 삶에 어떤 변화를 가져올지, 그 무궁무진한 가능성을 함께 기대해봅시다.



NotebookLM

## NGS 기술의 정확성과 재현성: MAQC/SEQC2 프로젝트

**정밀 의학 시대**에 접어들면서, 개인 맞춤형 질병 예측, 진단 및 치료가 점점 더 중요해지고 있습니다. 이러한 정밀 의학의 핵심 기술 중 하나가 바로 **차세대 염기서열 분석(NGS)**입니다. NGS는 DNA 또는 RNA 염기서열을 빠르고 저렴하게 분석하여 유전체 정보를 얻을 수 있는 혁신적인 기술입니다. 

하지만 NGS 기술의 정확성과 재현성은 **임상 적용**에 있어 매우 중요한 문제입니다. NGS 분석 과정에는 샘플 준비부터 데이터 분석까지 다양한 단계가 존재하며, 각 단계마다 결과에 영향을 미칠 수 있는 변수들이 존재하기 때문입니다. 따라서 NGS 기술을 임상적으로 안전하고 효과적으로 활용하기 위해서는 **표준화된 지침과 검증된 프로토콜**이 필수적입니다.

### MAQC/SEQC2 프로젝트: NGS 표준 확립을 위한 노력

MAQC/SEQC2 프로젝트는 NGS 기술의 정확성과 재현성을 평가하고, 임상 적용을 위한 **모범 사례 가이드라인**을 수립하기 위해 시작되었습니다. 이 프로젝트는 FDA 주도로 전 세계 150개 이상의 기관, 300명 이상의 과학자가 참여한 대규모 국제 협력 연구입니다. 

MAQC/SEQC2 프로젝트는 **NGS 기술의 다양한 임상 응용 분야**를 다루고 있으며, 각 분야별로 특화된 분석 방법과 평가 지표를 사용하여 NGS 기술의 성능을 엄격하게 검증했습니다.

### MAQC/SEQC2 프로젝트에서 다루는 NGS 분석 방법

**1. 생식세포 변이 분석 (Germline variant analysis):** 

* **목표:** 개인의 유전체 정보를 분석하여 질병 발생 위험을 예측하거나 유전 질환을 진단합니다.

* **방법:** 전체 유전체 염기서열 분석 (WGS) 또는 엑솜 염기서열 분석 (WES)을 통해 유전체 변이를 검출하고 분석합니다.

* **SEQC2 프로젝트의 성과:**  다양한 NGS 플랫폼과 생물정보학 도구를 사용하여 생식세포 변이 분석의 정확성과 재현성을 평가했습니다. 특히, 반복적인 유전체 영역이나 복잡한 구조 변이를 정확하게 검출하는 데 어려움이 있음을 밝혀내고, 이러한 문제를 해결하기 위한 개선된 생물정보학 워크플로우의 필요성을 강조했습니다.

**2. 암 유전체학 (Cancer genomics):**

* **목표:** 암 조직의 유전체 변이를 분석하여 암 발생 원인을 규명하고, 환자에게 최적화된 치료법을 제시합니다.

* **방법:** 암 조직과 정상 조직의 유전체 염기서열을 비교 분석하여 체세포 돌연변이, 유전자 발현 변화, DNA 메틸화 변화 등을 분석합니다.

* **SEQC2 프로젝트의 성과:**  암 유전체 분석에 사용되는 다양한 NGS 기반 패널 검사의 성능을 평가하고, 표준화된 지침을 제시했습니다. 또한, FFPE 샘플과 같은 다양한 샘플 유형에 대한 NGS 분석의 정확성과 재현성을 평가하고, 샘플 준비 과정의 중요성을 강조했습니다.

**3. 순환 종양 DNA 분석 (Circulating tumor DNA analysis):**

* **목표:** 혈액에 존재하는 암세포 유래 DNA 조각 (ctDNA)을 분석하여 암을 진단하고, 치료 효과를 모니터링합니다.

* **방법:** 혈액 샘플에서 ctDNA를 추출하고, NGS 기술을 이용하여 ctDNA의 유전체 변이를 분석합니다.

* **SEQC2 프로젝트의 성과:** 다양한 ctDNA 분석 방법의 민감도, 특이도, 재현성을 평가하고, ctDNA 분석의 한계점과 개선 방향을 제시했습니다.

**4. 표적 RNA 시퀀싱 (Targeted RNA sequencing):**

* **목표:** 특정 유전자들의 발현량을 정확하게 측정하고, 유전자 발현 변화를 분석하여 질병 진단 및 치료에 활용합니다.

* **방법:** 특정 유전자들을 선택적으로 증폭하여 염기서열 분석을 수행합니다.

* **SEQC2 프로젝트의 성과:**  다양한 표적 RNA 시퀀싱 패널의 성능을 평가하고, 융합 유전자와 같이 복잡한 유전자 변이를 검출하는 데 있어 기술적인 어려움과 개선 방향을 제시했습니다.

**5. DNA 메틸화 분석 (DNA methylation analysis):**

* **목표:** DNA 메틸화 패턴을 분석하여 유전자 발현 조절 기전을 밝히고, 질병 발생과의 연관성을 연구합니다.

* **방법:** DNA 메틸화를 검출하는 다양한 NGS 기반 방법을 사용하여 유전체 전체의 메틸화 패턴을 분석합니다.

* **SEQC2 프로젝트의 성과:**  다양한 DNA 메틸화 분석 방법의 성능을 비교 평가하고, 표준화된 프로토콜을 제시했습니다.

**6. 단일 세포 시퀀싱 (Single-cell sequencing):**

* **목표:** 개별 세포 수준에서 유전자 발현 및 유전체 변이를 분석하여 세포 다양성을 연구하고, 질병 발생 기전을 밝힙니다.

* **방법:** 개별 세포를 분리하고, 각 세포의 유전체 정보를 분석합니다.

* **SEQC2 프로젝트의 성과:**  다양한 단일 세포 시퀀싱 플랫폼과 생물정보학 도구의 성능을 평가하고, 단일 세포 시퀀싱 데이터 분석의 어려움과 개선 방향을 제시했습니다.

### MAQC/SEQC2 프로젝트의 결과와 장점

MAQC/SEQC2 프로젝트는 NGS 기술의 임상 적용을 위한 중요한 기반을 마련했습니다. 

* **표준화된 프로토콜 및 분석 방법 제시**:  프로젝트를 통해 개발된 표준화된 프로토콜과 분석 방법은 NGS 데이터의 정확성과 재현성을 향상시켜 임상 연구 및 진단에 대한 신뢰도를 높입니다. 

* **NGS 기술 검증 및 개선**: 다양한 NGS 플랫폼 및 생물정보학 도구의 성능을 객관적으로 평가하고, 기술적인 한계점과 개선 방향을 제시하여 NGS 기술 발전에 기여합니다. 

* **공개 데이터베이스 구축**:  프로젝트를 통해 생성된 대규모 NGS 데이터와 분석 결과는 공개 데이터베이스로 구축되어, 다른 연구자들이 활용할 수 있도록 제공됩니다. 

### 결론

MAQC/SEQC2 프로젝트는 NGS 기술의 정확성과 재현성을 향상시키고, 임상 적용을 위한 표준을 확립하는 데 크게 기여했습니다. 이러한 노력을 통해 NGS 기술은 정밀 의학 시대를 이끌어갈 핵심 기술로 자리매김하고 있으며, 앞으로 질병 예측, 진단, 치료 분야에서 더욱 중요한 역할을 수행할 것으로 기대됩니다.



초장기는 지난번 블로그에서 소개한 마이크로어레이의 QC/표준화에서 시작했던 프로젝트인데 이제 마이크로어레이보다 NGS 데이터를 임상에서 더 자주, 많이 사용하게되서 이제는 NGS 데이터에 대한 내용으로 진화하고 있다고 보면되겠습니다.

나중에 시간되면 NGS QC관련한 프로젝트에 대해서 정리하는 시간을 가지는 것도 꽤 괜찮을 듯 해보이네요. 조만간 NGS QC 관련 프로젝트를 통해서 나온 논문들을 수집해서 지난번 알파폴드 처럼 시리즈물을 한번 만들어서 올려보도록 하겠습니다. :)



출처: @ye._.vely618


일요일, 5월 12, 2024

이번에는 누가누가 어답타 제거를 잘할까?

오늘도 Tool 벤치마킹하는 자료를 한번 가져와봤습니다.

제목은 Benchmarking software tools for trimming adapters and merging next-generation sequencing data for ancient DNA 이고,

DOI는 10.3389/fbinf.2023.1260486 입니다.

음... 비교하는 툴이긴 한데 그 목적이 고대의 DNA, 음... 쥬라기공원과 같은 공룡의 DNA를 복원하려는 분들도 있겠지만... 아마 여기서 얘기하는 고대의 DNA는 유적지들에서 발견되는 DNA들을 얘기하지 않을까 합니다.

여튼 어렵게 얻은 샘플로 시퀀싱을 했는데 분석의 전처리 격인 adpater와 같은 불필요한 데이터 처리를 잘못해서 잘못된 결과나 정작 우리가 필요로 했던 데이터가 유실되면 안되기 떄문에 기존에 알려져 있는 trimming이나 QC하는 tool 중에서 적합한 것을 찾아보려고 했던 것 같습니다.

그래서 7개 tool을 사용해서 정확하게 adpater를 제거하는지, 시퀀싱 오류도 잘 수정하는지 성능을 상호비교 해봤다고 합니다.

gemini

제목: 고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술

**역사 속 비밀을 밝히는 고대 DNA**

고대 유물에서 추출된 DNA, 즉 고대 DNA(aDNA)는 과거 생명체의 유전 정보를 담고 있어 진화, 역사, 그리고 인류의 기원을 이해하는 데 매우 중요한 역할을 합니다. 그러나 수천 년, 수만 년 전의 유물에서 추출된 aDNA는 짧고 손상된 상태로 인해 분석하기가 매우 어렵습니다.

**NGS 기술의 등장: 새로운 가능성**

NGS(Next-Generation Sequencing) 기술의 등장은 aDNA 분석에 새로운 가능성을 열었습니다. NGS는 이전 기술보다 빠르고 저렴하게 대량의 DNA 데이터를 분석할 수 있기 때문에, 과거에는 불가능했던 방대한 양의 aDNA 데이터를 분석하는 것이 가능해졌습니다.

**하지만 여전히 남아있는 과제: 데이터 정제의 중요성**

NGS 기술은 aDNA 분석에 획기적인 발전을 가져왔지만, 여전히 해결해야 할 과제가 있습니다. 바로 aDNA 데이터의 정제 문제입니다. aDNA는 짧고 손상된 상태로 인해 시퀀싱 오류가 많이 발생하며, 어댑터(NGS 분석 과정에서 사용되는 인공 DNA) 잔여물도 존재합니다. 이러한 오류와 잔여물은 분석 결과의 정확성을 크게 떨어뜨릴 수 있기 때문에 제거해야 합니다.

**NGS 데이터 트리밍 기술: 정확한 분석을 위한 필수 도구**

NGS 데이터 트리밍 기술은 시퀀싱 오류와 어댑터 잔여물을 제거하여 aDNA 데이터의 정확성을 높이는 데 사용됩니다. 다양한 NGS 데이터 트리밍 도구들이 개발되었으며, 각 도구마다 장단점이 존재합니다.

**최근 연구: NGS 데이터 트리밍 도구의 성능 비교**

최근 연구에서는 7가지 일반적으로 사용되는 NGS 데이터 트리밍 도구의 성능을 비교 분석했습니다. 연구 결과, 모든 도구가 템플릿 길이가 10bp보다 큰 경우 높은 정확도로 시퀀싱 오류를 수정했습니다. 하지만 일부 도구가 특정 조건에서 더 나은 성능을 보였습니다. 예를 들어, AdapterRemoval, fastp, leeHom은 다른 도구들보다 강력한 성능을 보였고, 다양한 품질 점수 계산 방법에서 가장 정확한 품질 점수를 계산했습니다.

**NGS 데이터 트리밍 기술의 중요성: 더욱 정확하고 신뢰할 수 있는 분석 결과**

NGS 데이터 트리밍 기술은 고대 DNA 분석의 정확성을 높이는 데 필수적인 역할을 합니다. 이 기술을 통해 과거 생명체에 대한 더욱 정확하고 신뢰할 수 있는 정보를 얻을 수 있게 됩니다. 앞으로 NGS 데이터 트리밍 기술의 발전은 고대 DNA 분석의 가능성을 더욱 확대하고, 과거의 비밀을 밝히는 데 더욱 큰 도움이 될 것으로 기대됩니다.

**참고:**

* 이 글은 NGS 데이터 트리밍 기술에 대한 기본적인 정보를 제공하는 데 목적이 있습니다. 더 자세한 내용은 관련 전문가나 연구 자료를 참조하시기 바랍니다.



제목도 "고대 DNA 분석의 미래를 여는 NGS 데이터 트리밍 기술" 라고 잘 뽑고.. 좋은듯 합니다. 알잘딱깔센으로 결론은 AdapterRemoval, fastp, leeHom 이 것 들중에서 알아서 잘 쓰세요. 라고 합니다. 논문에는 leeHom이 좋다고 한 거 같은데, 스스로 판단 했을 때 3가지 크게 차이가 없었다고 판단해서 그렇게 설명한것이지 않을까 하네요.

clova-x를 사용하지 않은 이유는 pdf를 업로드하는데 10M 미만의 파일만 업로드 할 수 있다고 안내문을 내놔서 이번에는 clova-x는 사용하지 않았습니다. 
물론 pdf파일은... 9.5M 였었는데... 계산하는 식을 1M가 1024K가 아닌 1M는 1000K라고 잘못 생각한게 아닐까 싶네요.


또 이런저런 내용으로 글을 올려보도록 하겠습니다.


출처: @ye._.vely618


화요일, 1월 29, 2013

NGSQCToolkit 사용기

아.... 이제서야
지난번에 언급했던
NGS QC Toolkit을 사용해 봤습니다. :)

라이브러리와 perl 모듈을 잘 설치해주면
큰 문제없이 잘 돌아가는것을 확인했고
multi-thread로 실행하는 경우 음.. 빠르더라구요 ㅎㅎ
시간 체크는 못해봤는데...
지금 시간체크 하면서 돌리는게 있으니
정리해서 올리도록 하겠습니다. :)

1. 들어가기전
일단 시스템에 gd관련 라이브러리가 있는지 확인하시고
gd와 libgd-graph 등등 관련 라이브러리를 설치해주시기 바랍니다.
그리고 perl 모듈들이 모두 설치되어 있는지 확인해서 안되어 있다면
설치해주시면 되겠습니다.
gd라이브러리가 없으면 펄의 GD::Graph 설치할때 설치가 안되더군요;;
에러가 나서 몬가 하고 있었는데.. ㅎㅎ 여하튼...
모 이런저런 라이브러리와 모듈을 확인하시고 잘 설치하면
사용하는데 문제 없습니다. :)

2. 사용하기
NGQQCToolkit에는 크게 4가지의 서브 카테고리로 구분되어져 있더군요
1) 포맷 변경
2) QC
3) 자료 통계
4) Trimming

2.1 Format Convert
Fastq -> {454 | Fasta}: Fastq를 454(Fastq,Qual), Fasta 포맷으로 변환

{SangerFastq | SolexaFastq} -> IlluFastq: Sanger와 Solexa의 qual를 Illumina의 통일된 qual score range로 변환 (다만, 1.5+ 로 하는지 1.8+ 로 하는지는 확인 못했습니다.)


2.2 QC
454{QC|QC_PE|QC_PRLL}: 454 데이터를 input으로 하는 QC tools
Illumina와 다르게 QC_PE가 있는건 454의 경우 paired-end로 sequencing 하는 경우는 좀 특별해서 구분해둔듯.. :) (단, input은 SFF 포맷이 아닌 서열 파일과 Quality score파일로 구분해서 입력해야 사용가능하다.)

Ill{QC|QC_PRLL}: 일루미나 read를 처리하는 tools, 454와는 다르게 single-end와 paired-end를 따로 구분하지 않고 -se, -pe 옵션으로 처리하도록 만들어놨다는 점~ :)

PRLL 접미사는 병렬처리를 지원하는 스크립트입니다.
PRLL tools에서는 -c를 사용해서 multi-core를 사용하는데에 반해
일반 tools는 -p 옵션을  사용해도 multi-core를 사용하지 않는 점이 있었습니다.


2.3 Statistics
AvgQuality.pl: quality score 파일을 입력받아 점수를 계산하는 tool
N50Stat.pl: fasta파일을 input으로 받아 N50을 계산하는 tool

2.4 Trimming
AmbiguityFiltering.pl:
HomopolymerTrimming.pl:
TrimmingReads.pl:

결과로 제공되는 figure도 나름 괜찮습니다. :)
속도도 multi-core를 사용하던 안하던 만족할만한 수준이었습니다.
(제가 in-House로 제작한 script가 느린것도 있겠지만요.. ㅎㅎ )


자세한 사용법은 저보다 영어 못하시는 분은 없을테니 메뉴얼 보세요~ ㅎㅎ

>>메뉴얼보러가기<<


추가정보
paired-end fastq raw파일로 3-4g정도의 파일을 single cpu로 처리하는데
2시간에서 2시간 반내외정도로 확인되었습니다. :)