레이블이 NGS인 게시물을 표시합니다. 모든 게시물 표시
레이블이 NGS인 게시물을 표시합니다. 모든 게시물 표시

목요일, 4월 04, 2024

병원 내 감염을 NGS로 검사하겠다는데 과연 저렴할까?

 오늘은 지난 3월 말에 genomeweb에 소개된 논문을 가져와 봤습니다.

기사링크: Sequencing Surveillance Improves Outbreak Detection in Hospital at 'Affordable' Costs

논문은 Methods for cost-efficient, whole genome sequencing surveillance for enhanced detection of outbreaks in a hospital setting으로 아직 정식 출판되지는 않았으나 medRxiv에 올라와 있으나 어디 좋은 출판사가 발굴해서 곧 제자리 찾아가겠죠

오늘은 gemini대신 clover-x에게만 물어봤습니다. gemini에게 써달라고 해봤자 개조식으로밖에 안써주기 때문에... 


병원 내 감염은 병원에서 발생하는 감염으로, 환자의 건강과 생명에 큰 영향을 미칩니다. 이를 예방하기 위해서는 감염을 조기에 탐지하고 신속하게 대응하는 것이 중요합니다. 최근에는 유전체 분석 기술을 이용하여 병원 내 감염을 예방하는 연구가 진행되고 있습니다.

유전체 분석 기술은 유전체 전체를 해독하는 기술로, 미생물의 유전체 정보를 분석하여 병원체의 종류, 유전적 변이, 역학적 정보 등을 파악할 수 있습니다. 이를 통해 병원 내 감염을 예방하는 방법은 다음과 같습니다.

병원체 종류 확인: 유전체 분석 기술을 통해 병원체의 유전체 정보를 분석하여 병원체의 종류를 확인할 수 있습니다. 이를 통해 어떤 종류의 병원체가 감염을 일으켰는지 파악할 수 있습니다.

유전적 변이 확인: 유전체 분석 기술을 통해 병원체의 유전적 변이를 확인할 수 있습니다. 유전적 변이는 병원체의 감염력, 독성, 내성 등에 영향을 미치기 때문에, 유전적 변이를 파악하면 병원체의 특성을 이해하고, 적절한 치료 방법을 선택할 수 있습니다.

역학적 정보 확인: 유전체 분석 기술을 통해 병원체의 역학적 정보를 확인할 수 있습니다. 역학적 정보는 병원체의 전파 경로, 감염원, 감염 시기 등을 파악하는 데 중요한 역할을 합니다. 이를 통해 병원 내 감염의 원인을 파악하고, 감염 확산을 방지할 수 있습니다.

감염 클러스터 확인: 유전체 분석 기술을 통해 감염 클러스터를 확인할 수 있습니다. 감염 클러스터는 동일한 병원체에 감염된 환자들이 모여 있는 그룹을 말합니다. 감염 클러스터를 확인하면, 해당 그룹의 환자들에게 적절한 치료와 예방 조치를 취할 수 있습니다.

전염 경로 추적: 유전체 분석 기술을 통해 전염 경로를 추적할 수 있습니다. 이를 통해 감염이 어떻게 전파되었는지 파악하고, 감염 확산을 방지할 수 있습니다.

유전체 분석 기술을 이용한 병원 내 감염 예방 연구는 아직 초기 단계이지만, 이 기술을 이용하여 주기적으로 검사를 진행하여 병원 내 감염을 예방하고, 적시에 필요한 내용을 제공하여 환자의 안전을 보호할 수 있을 것으로 기대됩니다.


제목에는 "저렴한"이 강조되어 있으나 요약 내용에는 숫자 부분이 빠져있는 것이 조금 아쉬울 따름입니다. 그래서 잠깐 언급하자면

MiSeq(32개샘플 기준)은 샘플당 $84.27, NextSeq의 경우는 48개 검채 기준으로는 샘플 당 $71.46, 96검체 기준으로는 샘당 $51.88로 예상되고 일반 외부 랩실에 맡긴다면 샘플당 $84.21 비용을 계산하고 있는데.. 이게 인건비들은 포함된것인지 살짝 갸우뚱하네요 

검사하는 주기나 얼마나 많은 샘플을 대상으로 분석 할 것인지 가이드라인을 잘 세우면 저렴하면서 효율적인 의료기관내 감염(HAI) 모니터링이 요원하지는 않을 것 같다는 생각입니다.

개인적으로 이 모델이 미래 NGS의 한 축이 되지 않을까 하는 생각도 있어서 한번 공유해보았습니다.

다음에 또 도움이 될만한 내용으로 찾아뵙도록 하겠습니다.




출처: @ye._.vely618

화요일, 4월 02, 2024

누가 누가 BRCA를 잘 검사할까?

근데.. 그걸 논하기에는 2018년 논문이라서.. 의미가 있을지는 모르겠지만..

NGS를 이용한 BRCA1/2 Kit을 가지고 상호 벤치마킹 한 결과 되겠습니다.

논문 제목은 Benchmarking of Amplicon-Based Next-Generation Sequencing Panels Combined with Bioinformatics Solutions for Germline BRCA1 and BRCA2 Alteration Detection 이고,

doi는 10.1016/j.jmoldx.2018.06.003 입니다.


우선 gemini에게 논문 내용을 바탕으로 블로그에 올릴 글을 작성해달라고 했습니다.


## BRCA 검사란 무엇일까요?

BRCA 검사는 유방암과 난소암 발병 위험을 높일 수 있는 BRCA1 및 BRCA2 유전자의 돌연변이를 확인하는 검사입니다. BRCA 유전자는 DNA 손상을 복구하는 데 중요한 역할을 하는데, 이 유전자에 돌연변이가 발생하면 암 발생 위험이 크게 증가할 수 있습니다.


## BRCA 검사 방법에는 어떤 것들이 있을까요?

**1. 혈액 검사:**

가장 일반적인 BRCA 검사 방법입니다. 혈액 검사를 통해 BRCA1 및 BRCA2 유전자의 전체 또는 일부를 분석하여 돌연변이를 확인합니다.

**2. 조직 검사:**

암 진단 후 조직 검사를 통해 BRCA 유전자 돌연변이를 확인할 수 있습니다. 

**3. 가족력 기반 검사:**

가족 중에 유방암이나 난소암 환자가 있는 경우, 가족력 기반 검사를 통해 BRCA 유전자 돌연변이 위험을 평가할 수 있습니다.


## BRCA 검사는 누가 받아야 할까요?

다음과 같은 경우 BRCA 검사를 고려해 볼 수 있습니다.

* 유방암이나 난소암 진단을 받은 경우

* 가족 중에 유방암이나 난소암 환자가 있는 경우

* 유방암 또는 난소암 발병 위험이 높다고 판단되는 경우


## BRCA 검사를 받기 전에 주의해야 할 것들

* BRCA 검사 결과는 암 발병 여부를 확실하게 알려주는 것이 아닙니다.

* BRCA 검사 결과에 따라 심리적인 부담을 느낄 수 있습니다.

* BRCA 검사 결과는 유전 상담을 통해 해석하는 것이 중요합니다.


## BRCA 검사 후 주의해야 할 것들

* BRCA 유전자 돌연변이가 확인된 경우, 정기적인 검진 및 예방 조치를 취해야 합니다.

* BRCA 검사 결과는 가족들에게 공유하는 것이 중요합니다.


## BRCA 검사는 암 예방 및 조기 발견에 중요한 역할을 할 수 있습니다. 그러나 검사를 받기 전에 충분한 정보를 얻고, 유전 상담을 통해 검사 결과를 해석하는 것이 중요합니다.



다음은 clova-x에게 블로그에 올릴 글 하나 작성해달라고 하였습니다.


제목: BRCA 검사, 어떤 방법이 가장 정확할까?

유방암과 난소암은 여성들에게 매우 치명적인 질환입니다. 이러한 질환의 발생 위험을 미리 예측하고 예방하기 위해서는 유전자 검사가 필요합니다. 그 중에서도 BRCA1과 BRCA2 유전자 검사는 유방암과 난소암의 발생 위험을 예측하는 데 매우 중요한 역할을 합니다.

BRCA 검사는 BRCA1과 BRCA2 유전자의 변이를 확인하는 검사입니다. 이 유전자는 유방암과 난소암의 발생에 중요한 역할을 합니다. 만약 이 유전자에 변이가 있다면, 유방암과 난소암의 발생 위험이 높아집니다. 따라서, BRCA 검사를 통해 자신의 유전자 변이 여부를 확인하고, 이에 따라 적절한 예방과 치료를 받을 수 있습니다.

BRCA 검사에는 다양한 방법이 있습니다. 대표적인 방법으로는 다음과 같은 것들이 있습니다.

1.**PCR 기반 검사**: 가장 일반적인 방법으로, 유전자의 특정 부위를 증폭하여 변이 여부를 확인합니다. 검사 비용이 저렴하고, 검사 결과를 빠르게 얻을 수 있습니다. 하지만, 검사 정확도가 다소 떨어질 수 있습니다.

2.**NGS 기반 검사**: 유전자 전체를 시퀀싱하여 변이 여부를 확인합니다. 검사 정확도가 매우 높고, 다양한 종류의 변이를 검출할 수 있습니다. 하지만, 검사 비용이 비싸고, 검사 결과를 얻기까지 시간이 오래 걸립니다.

3.**액세스 배열 기반 검사**: 마이크로어레이 기술을 이용하여 유전자의 변이를 검출합니다. 검사 정확도가 높고, 검사 결과를 빠르게 얻을 수 있습니다. 하지만, 검사 비용이 비싸고, 검사 대상 유전자가 제한적입니다.

BRCA 검사는 유방암과 난소암의 예방과 치료에 매우 중요한 역할을 합니다. 하지만, 검사 결과를 해석하고, 이에 따라 적절한 예방과 치료를 받는 것은 쉽지 않습니다. 따라서, 검사를 받기 전에 전문가의 조언을 듣는 것이 중요합니다.

BRCA 검사는 개인의 유전 정보를 다루는 검사이기 때문에, 검사 결과가 유출될 경우 개인의 사생활 침해 문제가 발생할 수 있습니다. 따라서, 검사를 받을 때는 검사 기관의 보안 시스템을 확인하고, 검사 결과를 안전하게 보관하는 것이 중요합니다.

유방암과 난소암은 여성들에게 매우 치명적인 질병입니다. 하지만, BRCA 검사를 통해 자신의 유전자 변이 여부를 확인하고, 이에 따라 적절한 예방과 치료를 받으면, 이들 질병의 발생 위험을 줄일 수 있습니다. 따라서, 여성들은 BRCA 검사에 대해 적극적으로 관심을 가지고, 전문가의 조언을 듣는 것이 중요합니다.


gemini를 쓰면서 느끼는 것은 답변의 대부분을 개조식으로 요약만 하는 듯 한 느낌을 많이 받았습니다. 난 문장으로 작성해달라고 했는데.. 결국 개조식으로 답변을... 

그리고 이번 같은 경우 구글 드라이브에 논문 파일을 업로드해서 정리하라고 했는데... 논문 내용이 아닌 일반적인 내용을 냅다 읊조리는 듯한 건 저만 느끼는건 아니죠?

반면에 클로바X는 그럭저럭 사용자가 요구한것을 잘 맞추려고 노력한 모습이 역력합니다. 

다만 논문 내용과는 전혀 상관없는 PCR 검사 방법을 언급했는데.. 이건 아마 Ion AmpliSeq BRCA1/2의 AmpliSeq 떄문에 그런것 같아 보입니다. 그리고 추가적인 질문으로 벤치마킹한 패널들에 대해서 자세히 설명하라고 했었는데 이때 다른 BRCA HC와 함께 BRCA Tumor을 설명 할때 BRCA Tumor를 BRCA 조직에서 변이를 분석하는 방법이라고 적어놓는 해프닝도 있었습니다. 아직 도메인 지식이 부족하여 생긴 혼선이지 않았을까하네여, 

그래도 이번 프롬프트에서는 다국적 gemini보다는 사용자가 의도한 대로 결과물을 준 것은 클로바 X 같아 보였습니다. 프롬프터의 실력 향상이 더 필요해 보이긴 합니다. 



출처: @ye._.vely618

토요일, 3월 30, 2024

NGS를 사용할 때 필요한 그 가이드라인

오늘은 AMP(미국분자병리학회)와 CAP(미국병리학회)에서 공동으로 합의한 지침인 "Guidelines for Validation of Next-Generation Sequencing–Based Oncology Panels: A Joint Consensus Recommendation of the Association for Molecular Pathology and College of American Pathologists"을 네이버의 클로바와 gemini에게 각각 물어보았습니다.

doi는 10.1016/j.jmoldx.2017.01.011 입니다.


먼저 gemini입니다.

안녕하세요, 생명공학 전공자가 아닌 분들을 위한 블로그 글을 작성하고자 하시는군요.

제가 찾은 논문은 다음과 같은 내용을 다루고 있습니다.

* **연구 목적과 배경**

이 연구는 다음세대 염기서열 분석(NGS) 기반 종양 패널 검사의 분석적 검증을 위한 최선의 실천 지침을 확립하는 것이 목적이었습니다. 이 연구는 분자 병리학 협회(Association for Molecular Pathology)가 주관하고 미국 병리학회(College of American Pathologists)가 연계 대표를 맡은 작업 그룹이 수행했습니다.

* **연구 방법**

이 연구에서는 NGS 기반 종양 패널 검사의 분석적 검증을 위한 단계별 지침을 제시했습니다. 이러한 단계에는 패널 설계, 라이브러리 준비, 염기서열 분석 및 데이터 분석이 포함됩니다. 또한 참조 자료와 세포주를 사용하여 검사 성능을 평가하는 중요성을 강조했습니다.

* **결과**

이 연구에서는 NGS 기반 종양 패널 검사의 분석적 검증을 위한 다음과 같은 권장 사항을 제시했습니다.

* 오류 기반 접근 방식을 사용하여 잠재적인 오류의 원인을 식별합니다.

* 분석 프로세스 전반에 걸쳐 품질 관리를 사용하여 고품질 염기서열 분석 결과를 보장합니다.

* 참조 세포주와 참조 자료로 검사 성능을 평가합니다.

* 커버리지 깊이와 테스트 성능을 확립하기 위해 사용해야 하는 샘플의 최소 요구 사항을 설정합니다.

* **논의**

이 연구는 NGS 기반 종양 패널 검사의 분석적 검증을 위한 중요한 지침을 제공합니다. 이러한 지침은 검사의 정확성과 신뢰성을 보장하는 데 도움이 됩니다.



다음은 CLOVA X입니다.

NGS 기반 암 패널 테스트의 분석적 유효성 검증을 위한 지침

NGS(Next Generation Sequencing)는 차세대 염기서열 분석 기술로, 유전체 분석에 혁명을 일으키고 있습니다. NGS는 기존의 염기서열 분석 기술보다 빠르고 정확하며, 비용이 저렴하다는 장점이 있습니다. 이러한 이유로 NGS는 암 진단에 빠르게 적용되고 있습니다.

암 진단을 위해서는 암 세포에서 발견되는 유전자 변이를 파악해야 합니다. 이를 위해 NGS 패널을 사용합니다. NGS 패널은 암 세포에서 발견되는 유전자 변이를 탐지할 수 있는 유전자 패널입니다.

NGS 패널을 사용할 때는 분석적 유효성 검증을 해야 합니다. 분석적 유효성 검증은 NGS 패널이 정확하게 유전자 변이를 탐지할 수 있는 지를 검증하는 과정입니다.

이번 논문에서는 NGS 기반 암 패널 테스트의 분석적 유효성 검증을 위한 지침을 제공합니다. 이 지침은 표적 유전자 패널과 고형 종양 및 혈액 악성 종양의 진단 용도에 초점을 맞춥니다.

NGS 패널은 SNVs, indels, deletions, CNAs, SVs, gene fusions 등을 탐지할 수 있습니다. CNAs와 SNVs, indels를 탐지하기 위해 패널을 사용할 수 있는지 고려해야 합니다. SVs는 염색체 재배열을 포함합니다.

NGS 방법은 샘플 준비, 라이브러리 준비, 시퀀싱, 데이터 분석을 포함합니다. NGS 데이터 분석 파이프라인은 SNV 검출, indel containing sequence reads의 정렬, CNAs 식별, SVs detection 등의 작업으로 나뉩니다.

NGS 패널 콘텐츠는 hotspot panels에서 개인 codons에 초점을 맞춘 것부터 수백 개의 유전자의 코딩 영역을 포함하는 것까지 다양합니다. NGS 플랫폼 선정 시 고려해야 할 사항은 turnaround time, 샘플 테스트, sensitivity, 예상되는 테스트 양, 유전 변이의 유형과 복잡성, 생물정보학 지원, 인프라 등입니다.

NGS assay development process에서 error를 평가하는 방법은 pre analytical and analytical factors를 고려하는 것입니다. FFPE samples을 다룰 때는 nucleic acid yield가 문제가 될 수 있으므로 uracil Nglycolase로 treatment를 하는 것이 도움이 됩니다. 라이브러리 준비 시 도서관 방법에 사용된 증폭 오류와 내용 편향의 가능성을 염두에 두고 assay design을 통해 error의 잠재적 근원을 해결해야 합니다.

assay validation을 시작하기 전 optimization and familiarization (O&F) 과정이 필요합니다. optimization and familiarization (O&F) 과정은 NGS test를 통해 design expectations를 충족하는지 평가하는 과정입니다.

NGS 패널을 사용할 때는 분석적 유효성 검증을 해야 합니다. 분석적 유효성 검증은 NGS 패널이 정확하게 유전자 변이를 탐지할 수 있는 지를 검증하는 과정입니다. 이를 통해 NGS 패널의 신뢰성을 높일 수 있습니다.

통계적인 방법을 활용하여 분석적 유효성 검증을 수행합니다. 예를 들어, sensitivity, specificity, positive predictive value, negative predictive value 등의 지표를 사용하여 분석적 유효성 검증을 수행합니다.

NGS 패널을 사용할 때는 분석적 유효성 검증을 반드시 수행해야 합니다. 이를 통해 NGS 패널의 신뢰성을 높이고, 암 진단의 정확성을 높일 수 있습니다.


음.. CLOVA가 생각보다 글을 (블로그처럼 작성한다는... 형식적인 측면에서..) 잘 작성하는 것 같아 보이네요 

gemini는 요약하라고 하면 개조식으로 많이 작성하는 것 같더라구요.

여튼 CLOVA와 gemini를 적절히 잘 섞으면 괜찮은 내용이 나올듯하네요 :)




출처: @ye._.vely618


월요일, 3월 25, 2024

NGS에서 Target Coverage 균일성의 중요성

NGS데이터 생산시 Target Coverage가 들쑥날쑥해도 분석이 잘 될것인가? 라는 것에 대해서 궁금증을 해결해줄 바로 그 논문!!! 

Evaluation of the evenness score in next-generation sequencing라는 제목의 논문이고, 

doi: 10.1038/jhg.2016.21입니다.


gemini에게 다음과 같이 찡찡거려봤습니다.


"왜 NGS에서 타겟 커버리지의 균일성이 중요한지에 대해 블로그에 작성하려고 합니다. 생명공학을 전공하지 않고, NGS에대해서 익숙하지 않은 일반인을 대상으로 블로그에 올릴 수 있는 글을 작성해주세요"

NGS(Next Generation Sequencing)는 DNA 염기 서열을 분석하는 강력한 기술입니다. 마치 책을 읽듯 우리 몸의 유전 정보를 해독하는데 비유할 수 있습니다. 하지만 책을 읽는 데 중요한 것이 모든 페이지를 꼼꼼하게 읽는 것과 마찬가지로, NGS에서도 모든 타겟 영역을 균일하게 분석하는 것이 매우 중요합니다.

왜 타겟 커버리지 균일성이 중요할까요?

정확한 분석 결과: 만약 특정 타겟 영역만 깊게 분석하고 다른 영역은 덜 분석하면, 마치 책의 특정 페이지만 읽고 다른 페이지는 건너뛸 때와 마찬가지로 잘못된 정보를 얻을 수 있습니다. 이는 질병 진단, 유전적 특징 분석 등 NGS 분석의 정확성에 큰 영향을 미칩니다.

데이터 해석의 어려움: 만약 타겟 커버리지가 불균일하다면, 분석된 데이터를 해석하는데 어려움을 겪을 수 있습니다. 마치 책의 페이지가 누락되거나 순서가 뒤바뀌었을 때와 마찬가지로, 데이터의 일관성이 떨어지고 정확한 해석이 어려워집니다.

유전 정보의 누락: 만약 특정 타겟 영역이 분석되지 않으면, 그 영역에 존재하는 중요한 유전 정보를 놓칠 수 있습니다. 마치 책의 특정 페이지가 찢어져 없어졌을 때와 마찬가지로, 유전 정보의 일부가 누락되어 질병 진단이나 유전적 특징 분석에 영향을 미칠 수 있습니다.

NGS에서 타겟 커버리지 균일성을 높이는 방법:

샘플 준비 방법 개선: DNA 샘플을 준비하는 과정에서 오류가 발생하면 타겟 커버리지 불균일성이 발생할 수 있습니다.

시퀀싱 라이브러리 제작 방법 개선: 시퀀싱 라이브러리 제작 과정에서 오류가 발생하면 특정 타겟 영역이 덜 분석될 수 있습니다.

시퀀싱 조건 최적화: 시퀀싱 조건을 최적화하여 모든 타겟 영역을 균일하게 분석하도록 설정합니다.

데이터 분석 방법 개선: 데이터 분석 방법을 개선하여 불균일한 커버리지를 보정하고 정확한 정보를 추출합니다.

결론: NGS에서 타겟 커버리지 균일성은 정확한 분석 결과, 데이터 해석의 용이성, 유전 정보의 누락 방지를 위해 매우 중요합니다. NGS 기술의 발전과 함께 타겟 커버리지 균일성을 높이는 방법들이 계속 연구되고 있으며, 이는 NGS 분석의 정확성과 신뢰성을 향상시키는 데 중요한 역할을 할 것입니다.




음.. 프롬프트를 좀더 신경써봐야 할 것 같습니다.


출처: @ye._.vely618


금요일, 1월 19, 2024

그렇다면 일루미나는 문제가 없을까?

이전 포스팅에서는 Ion torrent 데이터에 대해서 알아보았으니 이번에는 일루미나 데이터는 과연 괜찮은지 한번 알아보도록 하겠습니다.
그건 그렇고 이전 포스팅하고 꽤 오랜만에 하네요;;

Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform의 제목으로 amplicon 패널을 사용하여 일루미나 시퀀서의 편향과 에러에 대해서 한번 확인해봤다고 합니다.

DOI: https://doi.org/10.1093/nar/gku1341

이번에도 AI(Bing의 copilot입니다.)의 도움을 한번 받아보았습니다!!!


프롬프트
The following URL is a paper confirming the biases and errors of the Illumina MiSeq sequencer using the Amplicon panel, and the title is "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform."

https://doi.org/10.1093/nar/gku1341

I am planning to organize and post the contents of this paper on my blog. Please summarize the problems that may arise when using the Amplicon method using Illumina MiSeq. It is said that the data used in the paper was 16S rRNA data. If there was an error, please explain how you corrected the error and what method you used. Also, if there is an error in the data, please explain how to efficiently handle it. Please write the draft to be posted on the blog in Korean.



안녕하세요. 오늘은 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문을 소개하고자 합니다. 논문의 제목은 "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform"이고, 다음 URL에서 확인하실 수 있습니다.

https://doi.org/10.1093/nar/gku1341

이 논문에서는 16S rRNA 데이터를 사용하여 앰플리콘 방법을 이용한 시퀀싱의 문제점을 분석하였습니다. 앰플리콘 방법은 특정 DNA 영역을 증폭하여 시퀀싱하는 방법으로, 다양한 생물학적 응용에 사용됩니다. 그러나 이 방법에는 여러 가지 편향과 오류가 발생할 수 있습니다. 예를 들어, 증폭 과정에서 PCR 편향이나 증폭 돌연변이가 발생할 수 있고, 시퀀싱 과정에서는 인덱스 점프나 인덱스 오염, 품질 저하 등의 문제가 있을 수 있습니다.

이러한 편향과 오류는 시퀀싱 결과의 정확도와 신뢰도에 영향을 미칠 수 있으므로, 적절한 보정과 검증이 필요합니다. 이 논문에서는 일루미나 MiSeq 플랫폼을 사용하여 앰플리콘 시퀀싱을 수행한 데이터를 분석하고, 편향과 오류의 원인과 영향을 평가하였습니다. 또한, 편향과 오류를 줄이기 위한 몇 가지 방법을 제안하였습니다.

논문에서 사용한 데이터는 16S rRNA 데이터로, 박테리아의 다양성과 상대적 농도를 파악하기 위해 널리 사용되는 마커 유전자입니다. 16S rRNA 데이터는 앰플리콘 방법으로 쉽게 증폭할 수 있지만, 동시에 여러 가지 편향과 오류에 노출될 수 있습니다. 예를 들어, 16S rRNA 유전자는 다른 박테리아 간에 유사도가 높기 때문에, 인덱스 점프나 인덱스 오염이 발생하면 잘못된 분류가 될 수 있습니다. 또한, 16S rRNA 유전자는 GC 함량이 다양하기 때문에, PCR 편향이나 증폭 돌연변이가 발생하면 잘못된 상대적 농도가 산출될 수 있습니다.

논문에서는 이러한 편향과 오류를 검출하고 보정하기 위해 여러 가지 방법을 사용하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염을 줄이기 위해, 인덱스 디자인을 최적화하고, 인덱스 프라이머를 제거하는 단계를 추가하였습니다. 또한, PCR 편향이나 증폭 돌연변이를 줄이기 위해, PCR 사이클 수를 최소화하고, 증폭 조건을 표준화하였습니다. 그리고, 시퀀싱 품질을 향상시키기 위해, 품질 저하가 발생하는 시퀀싱 끝부분을 잘라내고, 품질 점수를 기준으로 필터링하였습니다.

이렇게 보정된 데이터를 사용하여, 박테리아의 다양성과 상대적 농도를 분석하였습니다. 그 결과, 보정 전과 후의 데이터에서는 박테리아의 종류와 비율에 차이가 있음을 확인하였습니다. 이는 앰플리콘 시퀀싱에 발생하는 편향과 오류가 데이터 해석에 영향을 미칠 수 있음을 보여줍니다. 따라서, 앰플리콘 시퀀싱을 수행할 때는 편향과 오류를 최소화하고, 보정하고, 검증하는 과정이 필수적임을 강조하고자 합니다.

이 논문에서는 편향과 오류를 줄이기 위한 방법 외에도, 발생한 편향과 오류를 해결하기 위한 방법도 제시하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염이 발생한 경우에는, 인덱스 정보를 이용하여 잘못된 분류를 수정하는 방법이 있습니다. 또한, PCR 편향이나 증폭 돌연변이가 발생한 경우에는, GC 보정이나 돌연변이 보정을 수행하는 방법이 있습니다. 이러한 방법들은 데이터의 정확도와 신뢰도를 더욱 높일 수 있습니다.

이상으로, 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문에 대해 소개하였습니다. 앰플리콘 시퀀싱은 매우 유용한 방법이지만, 동시에 주의가 필요한 방법이기도 합니다. 앰플리콘 시퀀싱을 수행하시는 분들께서는 이 논문을 참고하여, 데이터의 정확도와 신뢰도를 높이시기 바랍니다. 감사합니다.


라고 합니다.

좀 같은 말 늘려서 빙빙 돌려막는 느낌이 좀 들긴하지만....
그래도 짧지 않은 글을 작성해주니깐 좋은것 같습니다. :)








월요일, 12월 11, 2023

Application of Next Generation Sequencing in Laboratory Medicine

임상검사실? 진단검사의학?에서의 NGS 활용에 대한 논문으로 사실 작년 2022년 LMCE 발표 준비하면서 잠시 훑어본 내용인데 NGS를 임삼검사실에서 어떻게 활용할 수 있을지에 대해서 이런저런 내용들을 얘기하고 있어서 가져와봤습니다.


2021년 1월달에 출판되었고 제목은 Application of Next Generation Sequencing in Laboratory Medicine이고
DOI: 10.3343/alm.2021.41.1.25 입니다. 

NGS는 기존 1세대시퀀싱에 비해 1bp 염기서열 단위의 해상도로 대규모의 정보를 한번에 분석할 수 있는 기술이죠.  그래서 다음과 같이 암 환자, 유전질환 환자 또는 감염병 환자로 부터 얻어진 시료를 시퀀싱하여 

- 암 환자의 경우, 암의 유형과 치료 반응을 예측 할 수 있고,

- 유전 질환 환자의 경우, 염기서열 또는 유전체 구조적인 이상을 확인하여 질환의 원인 확인 할 수 있고,

- 감염병 환자의 경우, 감염균의 종류와 기존 약제에 대해서 내성을 가지고 있는지 여부 등을 알 수 있습니다.

진단이라는 분야에서는 혁신적이거나 혁명적인지는 언급하기 어렵겠지만 염기서열을 해독하는 시퀀싱이라는 분야에서는 NGS는 단연코 혁신 기술이긴 하죠. 그래서 FDA도 NGS 기반의 진단과 함께 처방하는 치료제(동반진단)에 대해서 승인하기도 하고 있죠. 많은 실험실에서 RWD를 기반으로 NGS 테스트를 더 넓게 활용 할 수 있도록 위해 노력하고 있으니 조만간 더 많은 분야에 사용되지 않을까합니다.

2세대 NGS는 단점이라고 한다면 짧은 read 였는데, 긴 길이의 read를 시퀀싱 할 수 있는 3세대 시퀀싱을 더 다양하게 활용할 수 있고, 실험 방법이나 장비가 고가이며 숙련된 연구원들만 가능한데, 이 부분이 해소되면 더 많은 분야에서 활용 할 수 있을 듯 합니다.





출처 : @ye._.vely618

수요일, 11월 22, 2023

어떤 시퀀서가 NIPT를 잘 할까

간만에 NIPT 논문을 들고 와봤습니다.

어떤 시퀀서가 NIPT에 더 적합한가 알아보자 되겠습니다.

2019년에 출판된 논문으로 "Prospective head-to-head comparison of accuracy of two sequencing platforms for screening for fetal aneuploidy by cell-free DNA: the PEGASUS study" 이고, 

doi는 https://doi.org/10.1038/s41431-019-0443-0 입니다.

위에서 언급했다 싶이 시퀀싱 기기별 NIPT의 임상적 성능을 비교한 내용으로 T13/18/21 그리고 Monosomy X 검사에 대해서 테스트를 진행했다고 합니다.

그리고 비교한 시퀀싱 기기는 시퀀싱 시장의 대장인 illumina의 HiSeq와 Thermo의 Proton이라고 하네요.

결과적으로는 둘다 정확도는 99%이상이었으나 미세하게 차이가 결과에 차이가 있었다고합니다. 

민감도와 위양성률 모두 HiSeq 성능이 우수했고, 시퀀싱 처리시간에서는 Proton이 짧은 처리 시간을 자랑한다고 합니다.


표면적으로 보면 일루미나의 HiSeq이 Thermo의 Proton보다 우수하다고 결정 내릴 수 있으나 사실 꼭 그렇지는 않을듯합니다. 실험 디자인에서 서술되어 있는 내용을 보면 cell-free DNA 추출 후 두개로 나누어 각각 기기에서 실험을 한건 같아 보이지 않아서 입니다. 

혈액 채취 후 각각의 실험실에 보내어 각 실험실에서 자체 프로토콜로 진행하지 않았나 싶습니다. 그래서 정확하게는 실험실간의 성능 비교이지 않나 싶습니다.

NIPT에서는 cell-free DNA내 태아의 cell-free DNA 양이 굉장히 중요하기 때문에 실험을 하는 사람의 숙련도나 방법에 따라 분석을 할 수 없기도 해서..

여튼 그래도 중국에서 진행했던 (대략 1만여건 정도..) 대규모 연구 이후로 꽤 큰 샘플 개수이고 보통 단일 플랫폼으로 테스트를 진행하는데 서로 다른 기술 기반의 플랫폼(광학과 수소이온)에서 테스트를 하여 플랫폼 간 우위에 대한 내용은 얘기하기 어렵지만, 어찌 됐던 cell-free DNA 기반의 선별 검사는 효과적인 방법이라는 것을 다시 한번 확인하는 연구이지 않았나 싶네요

결론은 illumina던 Thermo던 압도적 우위에 있는 플랫폼은 없으니 각자 application과 상황에 맞는 플랫폼과 방법을 선택해서 하는 것이 중요하다. 정도? 이지 않나 싶네요 :)


아.. 연구 이름인 PEGASUS는 "PErsonalized Genomics for prenatal Aneuploidy Screening USing maternal blood"의 약자라고 합니다. PEGASUS 홈페이지도 있습니다.




출처: @ye._.vely618


일요일, 11월 19, 2023

NGS을 임상에 사용하기 위한, 5년의 시간

최근에 임상실험실에서 NGS 서비스를 시작한다고 하는 내용들의 뉴스..
를 신기하게 보시는 분들도 물론 있으실겁니다.

그러나 전공자나 업계에 몸 담고 있는 분들에게는 그리 신기하지 않은.. "아.. 어디 임상실험실에서 NGS 서비스를 하는구나" 정도로.. 어느 실험실에서 NGS로 검사를 해준다라고.. 정도의 수준일겁니다.


하지만 10년전만해도 NGS가 무슨 임상실험실에서 검사 서비스로 가당키나 한 분석 방법이냐고 하시는 분들이 대다수였을 때에 5여년동안 데이터를 쌓아서 NGS 플랫폼의 타당성을 입증한 논문이 있어 한번 가져와봤습니다.

Next generation sequencing for clinical diagnostics: Five year experience of an academic laboratory

DOI: 10.1016/j.ymgmr.2019.100464

태평양 건너 있는 미국 미네소타 대학교의 임상 실험실에서 2012년부터 2017년 동안, 자그마치 5년동안 NGS로 임상 진단 검사를 실시했던 데이터를 차곡 차곡 잘 수집/축적하여 공개한 내용으로 

2012년 8월부터 2014년 3월 까지는 568 유전자 영역의 SureSelect 패널을,

2014년 4월 부터 2017년 9월 까지는 일루미나의 TruSightOne 패널을,

2017년 10월부터 2017년 12월 까지는 TruSightOne 확장 패널을 사용하여

각각 349개, 2058개, 102개 검체, 모두 2059건의 검사를 실시했다고 하네요

전반적으로 25% 진단율을 유지하였다고 하고, 불확실한 의미 변이인 VUS 수가 2012년도에는 75%정도였는데 2017년도에서는 50%정도로 감소되었다고 합니다. 사실 지금 다시 하면 25%정도로 더 감소되어있지 않을까 하는 생각도 드네요. 

그리고 다양한 질병들에 대해서 진단을 하였는데 질병마다 진단율의 차이를 보였고, 피부병이나 청력손실, 안과질환 같은 경우에는 진단율이 40% 이상의 높은 진단율이, 소화기나 호흡기 질환의 진단율은 10%로 낮았다고 하는데 사실 이건 유전적 원인과 관계가 있냐없냐가 더 중요한 요인으로 보이네요.

결과적으로 이 연구 결과, 5년동안 2천개 넘는 검체를 검사해봤는데 NGS가 임상진단에 사용할 수 있는 유용성을 입증하였다고 생각되고, NGS가 임상 진단 부문에서 사용 할 수 있는 가시적은 근거자료로 활용되어 병원관리자들이 NGS 인프라에 투가하도록 설득 할 수 있는 자료로 사용 할 수 있다고... ??

그거까지는 난 모르겠고, 이전의 많은 연구진들의 연구 결과로 말미암아 이제는 NGS 검사가 우리 생활에 생각보다 많이 사용되고 있다는 것은 맞는 얘기인것 같습니다.

이전에 연구진들의 노고가 아니었다면 아직도 연구수준에서 벗어나지 못했을것 같습니다.

가끔 이런 논문들을  한번 들춰보는것도 나쁘지는 않아서 한번씩 꺼내볼 생각입니다.




출처: @ye._.vely618


일요일, 11월 12, 2023

Long Read Sequencing을 전적으로 믿으셔야 합니다.

항상 느끼는것이지만 사람들은 익숙한것에 익숙하다는...
물론 이 글을 쓰는 본인도 별반 차이 없다는게 현실
그럼에도 불구하고 세상에는 익숙한것을 거부하고 한 걸음 나아가는 분들이 있어서 발전한다는...

오늘은 유전체분야에서 다들 익숙한 짧은길이의 시퀀싱 플랫폼 대신 Long read 시퀀싱 플랫폼을 왜 써야하는지 보여주는 논문이 있어 들고와봤습니다.

The blooming of long-read sequencing reforms biomedical research

DOI: 10.1186/s13059-022-02604-2


Long read 시퀀싱의 대표주자인 PacBio와 Nanopore가 나온지도 꽤 된것 같으나, 아직 주류 시퀀싱 플랫폼으로서는 자리매김을 하지 못한... 조명받지 못하고 있지만.. 그 진가를 하나둘씩 알게되고 안쓸수 없지 않을까 합니다.

물론 이 Long read 플랫폼을 안 쓸수 없지만 PacBio/Nanopore 플랫폼을 이용해서 진단 키트를 개발하여 돈을 벌 수 있게 된다는 것은 아닙니다. 오해 없으시기 바랍니다. Long read 플랫폼에서 기존 NGS 시스템에서 해온 것 같이 하려고 하면 개인적인 생각으로는 그냥 하지 마세요 라고 말하고 싶네요. 그런 생각이라면..


여튼 Long read 플랫폼은 genome assembly과 transcriptome 분야에서 활약을 하고 있다고 하는데 이는 기존 NGS의 짧은 read로 인한 한계를 극복하였기 때문에 가능한 당연한 결과였을 듯 합니다.

genome assembly를 설명하면서 이런 저런 설명을 하였는데 사실 T2T genome이 세상에 나왔는데 무슨 설명이 더 필요할지... 물론 다배체면서, repeat 서열이 엄청 긴 식물과 같은 다양한 생물의 유전체 연구에서는 아직 할일이 많이 남아있을듯 합니다.

그리고 더불어 transcriptome, 전사체에서도 두각을 나타내고 있다고 합니다. 이전에 PcaBio사에서 나온 Iso-Seq이라는 플랫폼이 있었는데 기존 숏리드 플랫폼으로는 할 수 없었던 full-length 유전자 서열을 확인하여, 다양한 gene의 isoform 을 확인 할 수 있었는데, 이제는 이는 당연한것이고, read count를 활용하여 정확한 발현 측정까지도.. 가능하다고 합니다. 또한 이 논문에서 처음 보았는데 exitron이라는 것도 확인하였다고 하네요.

더불어 당연히 암연구에서도 long-read 플랫폼이 중요한 역할을 하고 있는데, 시퀀싱을 위해 dna나 rna가닥을 증폭시키지 않은 특징 때문에 가능 응용법이긴하죠. 특히 nanopre 플랫폼을 사용하여 급성 골수성 백혈병 (AML) 환자의 RNA변이와 fusion gene 구조를 확인하기도 하였고, 대장암 세포주에서 5mC 위치와 양을 정량하여 각각 AML와 대장암 연구에 도움이 되고 있다고 합니다.

이렇듯 Long Read Seq 플랫폼은 이제 쓰지 않을 이유가 없는 플랫폼으로 우리 곁에 생각보다 가깝게 다가왔으나 생각에는 Long이든 Short든 정확하게 내 병의 이유를 빠르고 "싸게" 알아낼 수 있으면 모두 행복한 것 아니겠습니까?

그럴 수 있는 방법이 어딘가에 있겠죠, 없으면, 언제나 그러했듯이 우리는 또 해답을 찾아내겠죠. :)




출처: @ye._.vely618


수요일, 11월 01, 2023

NGS을 기반으로 하는 항체 선택 전략에 대한 insight에 대해서

11월의 첫 포스팅 링크드인에서 랩실 후배님께서 공유해주신 따끈한 논문 하나를 구글 바드에 한번 물어보았습니다.


항체 선택을 NGS를 사용하면 효과적/효율적으로 할 수 있다 에 대한 내용을 정리한 논문으로 제목은 "Insights into next generation sequencing guided antibody selection strategies" 입니다. 

doi: 10.1038/s41598-023-45538-w


- 논문 요약

NGS를 기반으로하는 항체 선택 전략에 대한 통찰력 제공.
NGS는 항체의 유전적 다양성을 빠르고 효율적으로 분석 할 수 있는 방법으로, 이를 활용하여 항체의 특이성과 효능을 개선 할 수 있습니다.

-논문 주요 내용

* NGS를 기반으로 하는 항체 선택 전략은 기존의 항체 선택 전략에 비해 보다 효과적이고 효율적입니다.
 ; NGS는 항체의 유전적 다양성을 빠르고 효율적으로 분석할 수 있기 때문에, 기존의 항체 선택 전략에 비해 보다 효과적이고 효율적입니다. 예를 들어, NGS를 사용하면 수백만 개의 항체를 한 번에 분석할 수 있기 때문에, 원하는 특성을 가진 항체를 보다 빠르게 찾을 수 있습니다.

* NGS를 기반으로 하는 항체 선택 전략은 항체의 특이성과 효능을 개선하는 데 도움이 됩니다.
 ; NGS를 사용하면 항체의 특이성과 효능을 개선하는 데 도움이 되는 항체를 선택할 수 있습니다. 예를 들어, NGS를 사용하면 항체가 특정 표적에만 결합하는 항체를 선택할 수 있습니다. 또한, NGS를 사용하면 항체의 결합력과 내성을 개선하는 항체를 선택할 수 있습니다.

* NGS를 기반으로 하는 항체 선택 전략은 다양한 질병에 대한 치료제 개발에 적용될 수 있습니다.
 ; 다양한 질병에 적용 가능: NGS를 사용한 항체 선택 전략은 다양한 질병에 대한 치료제 개발에 적용될 수 있습니다. 예를 들어, NGS를 사용하면 암, 감염병, 자가면역질환 등에 대한 치료제로 사용할 수 있는 항체를 개발할 수 있습니다.

논문의 저자들은 NGS를 기반으로 하는 항체 선택 전략이 항체 치료제 개발에 새로운 가능성을 제시한다고 결론짓습니다.

예로, NGS를 기반으로 하는 항체 선택 전략을 사용하여 특정 질병에 대한 치료 효과가 뛰어난 항체를 개발할 수 있습니다. 또한, NGS를 기반으로 하는 항체 선택 전략을 사용하여 항체의 독성을 줄이고 부작용을 개선할 수 있습니다.

NGS를 기반으로 하는 항체 선택 전략은 항체 치료제 개발의 새로운 장을 열 것으로 기대.


-시사점 

* NGS는 항체 치료제 개발에 필수적인 도구가 될 것입니다.

* NGS를 기반으로 하는 항체 선택 전략은 항체 치료제의 효과와 안전성을 개선하는 데 도움이 될 것입니다.

* NGS를 기반으로 하는 항체 선택 전략은 다양한 질병에 대한 새로운 치료제 개발을 가속화할 것입니다.


오... 그냥 bard에 물어보고 논문에 대해 추가 질문을 계속 물어보면 될듯하네요.


출처: @ye._.vely618

토요일, 10월 14, 2023

FFPE 처리된 암조직의 NGS 결과를신뢰할 수 있을까?

몇년전에도 NGS 분석 결과를 그냥 불신하는 분들은 당연히 계셨고 지금도 의심의 눈초리로 바라보는 분들이 없지는 않을겁니다. 물론 저도 NGS를 믿으십시요! 라고는 하지 않습니다. NGS가 모든 문제를 해결 해 주지는 않으니깐요. 그래도 진단에서 NGS는 꽤 나 중요한 위치를 차지하고 있고 효용성을 증명하고 있는데 일방적인 불신은 좋지 않겠죠.

2015년, 아직 NGS으로 진단하기에는 아직 무리이지 라는 의견이 지배적이었고, 그런 편견을 벗어나기 위해 부단히도 애를 쓰고 있었던 때인지는 잘 모르겠으나 그래도 아직 시기상조라는 분위기가 지배적이었던 시절 끊임없이 가능성을 보여주고자 노력했던 연구팀의 논문이 있어 한번 들고 와봤습니다.

그냥 일반 조직에서 시퀀싱한 결과도 믿을 수 없다고 하던 시절, FFPE처리된 샘플에서 BRCA1/2의 somatic 변이 검출을 신뢰 할 수 있다는 것을 보여주는 논문 되겠습니다.

"A reliable method for the detection of BRCA1 and BRCA2 mutations in fixed tumour tissue utilising multiplex PCR-based targeted next generation sequencing" 이라는 제목의 논문입니다.

DOI: 10.1186/s12907-015-0004-6


FFPE, 병리검사를 위해 띠어낸 조직을 장기 보관하기 위해서 처리하는 방법인데, 여기에 사용되는 praffin과 formaldehyde가 DNA 한테는 쥐약이죠..

그래서 FFPE 전용 DNA추출 키트도 나오고 있는데 이미 fragment되어 있고, damage받은 DNA 뽑아서 NGS 돌려봤자 그거 믿을 수 있겠냐? 라는게 FFPE 샘플을 가지고 NGS 수행후 분석 결과를 잘 못믿겠다고 하니 그래서 그거 우리가 확인 했어. 되겠습니다.

그래서 일단 제일 접근하기 쉬운 BRCA1/2를 타겟으로 하였고, 어차피 FFPE 샘플이니 서열들이 조각들 나 있을 테니 증폭시켜서 우선 DNA양을 늘리고 NGS해서 분석 해보자가 가장 좋은 선택지 아니었나 싶습니다.

그래서 다양한 변이 샘플 확보하고 NGS 키트 중에 여러 키트 (GeneRead V1, V2의 BRCA1/2와 Ion AmpliSeq BRCA1/2)로 상호 비교 실험도 했고, Sanger 실험으로 확인도 하였다고 합니다.

그래서 결과적으로 FFPE 샘플에서 추출한 DNA로 NGS 분석으로 돌연벼이를 확인 할 수 있었고, 일부 rare한 frequency를 가지고 있는 변이의 경우 Sanger로는 찾기 힘들었으나 NGS로는 찾을 수 있었다.

그러나 그래도 아직 germline을 분석(이 연구에서는 somatic BRCA1/2 변이를 탐지 했습니다.)을 대체하는 용도로는 안되고, 환자에게 득이 될 수 있는 PARP 억제요법을 사용할지 여부를 확인하는 용도로는 사용할 수 있을 것 같다라고 마무리하고 있습니다.

이처럼 그전까지는 카더라로마 떠돌었떤 근거없는 소문을 여러 다양한 케이스와 방법을 통해 벤치마킹을 하여 충분히 사용할 수 있는데? 라는 근거를 제시함으로써, 좋은 기술을 적재적소에서 사용 할 수 있게 해주는 것도 굉장히 중요한 일 인듯 합니다.

그럼 15년도에 FFPE로 somatic 변이를 NGS로 수행해서 변이를 찾을 수 있지만 제한적이라고 했는데, 지금은 기술이 더 발달 했는데, 그 제한적인 사용처가 극복이 되었는지? 아니면 그대로 별 차이가 없는지를 조만간 확인해보는 시간을 가지면 좋겠네요.

그럴 수 있기를 제발~  :)


출처: @ye._.vely618

토요일, 9월 09, 2023

누가누가 미생물 프로파일링을 잘할까?

NGS가 태동된지 20여년.... (너무 과했나?) 대중적으로 관심을 받아 쓰는지는 10여년이 훌쩍 지나가고 있는 시점에 예전에는 454나 Solexa 정도 만져보던 시절에서 지금은 다양한 시퀀서들이 나와서 연구자들의 다양한 궁금증을 일선에서 해결해 주고있습죠 :)

여튼 그래서 21년 기준에 보편적으로 또는 미래에 대세가될 시퀀서들을 대상으로
누구나 관심있어하는 장내 미생물 프로파일링을 어느어느 시퀀싱 플랫폼이 잘하나 비교해보는 논문이 있어서 가져와봤습니다.

제목은 Comparison of 16S rRNA Gene Based Microbial Profiling Using Five Next-Generation Sequencers and Various Primers 이고,

doi: 10.3389/fmicb.2021.715500 입니다.

(물론 저자중에 제가 아는 분이 있어서 그런것은 아니고요, 구글링 하다가 찾아진겁니다.)


그래서 비교해볼 시퀀서는

MiSeq, IonTorrent, MGIseq-2000, Sequel II 그리고 MinION 까지.. ..
짧은 read와 긴 read들을 생산하는 대표 시퀀서들을 5개를 가지고 테스트를 해봤습니다.

시퀀싱을 잘 했는지 못했는지 확인하려면 시료의 정답을 미리 알고 있어야 겠죠?

그래서 한국 식약처에 등재된 19종의 미생물 종중에 8종을 선별하여서 다양한 비율의 Mock community를 만들어서 테스트 했다고 합니다. 

그런데 Mock community내에 미생물들의 비율은 어떻게 확인했냐!!
digital PCR을 사용해서 Mock community내 미생물들을 정량해서 확인했다고 합니다. 물론 Sequins (스팽글?, aka Sequencing spike-ins)이라는 방법을 활용할 수 있다고 하는데 다양한 박테리아에 대해서 모두 Sequins를 만들기 어렵기 때문에.. 이방법을 사용했다고 합니다. 사실어떤 방법이 golden standard인지는 모르겠으나 연구 디자인에 적합하면 되지 않을까 합니다.

여튼 8개 Mock community를 제작하였고, 각각에 시료를 바탕으로 5개의 시퀀서로 시퀀싱을 진행하였습니다. 그리고 분석은 MOTHUR을 사용해서 진행하였다고 합니다.

그럼 결론은 몬데?
뭣이 중헌디?

음... 개인적으로는 16S rRNA 서열을 한번에 확인 할 수 있는 롱리드 플랫폼이 숏리드 플랫폼보다 편향이 적다라는 결과를 기대했으나.. 도리어 숏리드 플랫폼에 비해서 롱리드가 더 편향적(과대 또는 과소 표현)이었다는... 물론 이게 긴 길이의 리드를 시퀀싱하기 위해서 전처리로 PCR단계에서 비롯된거 같다는 의견이었습니다만, Sequel II같은 경우 숏리드 플랫폼과 유사한 양의 결과물을 확인하기 위해서는 더 많은 비용이 소요될텐데... 그럼 롱리드 플랫폼을 사용할 이유가 딱히 없다는게 문제가 될듯합니다.

Figure 3,4,5를 잘 뜯어보면 

Bifidobacterium breve의 경우 숏리드 플랫폼에서 상대적으로 과소 표현되고,
Limosilactobacillus fermentum의 경우 롱리드 플랫폼에서 과소표현되고, 반대로 Lactococcus lactis subsp. lactis의 경우 롱리드에서 과대표현 되고,
Lactobacillus acidophilus의 경우는 플랫폼 상관없이 과소표현 되기도하고..

함께 있는 종에 따라 영향을 받기도, 받지 않기도 하기 때문에 해석을 할 때 고려해야할게 한두가지가 아니라서 좀 어렵죠. ㅎㅎ 

그리고 숏리드의 경우 가장 큰 문제점이 한정된 영역(V3-V4)의 서열만 가지고 확인하다보니 서로 다른 균주로 분류되는 문제가 있었고 이는 보통 probiotic bacteria인 Lactobacillus casei group(LCG)에서 확인되어서 LCG, probiotic bacteria 분석에는 V3-V4는 좀 피해야할듯 합니다.

결론은 연구에 맞게 적절하게 잘 사용하고, 직접 실험하지 않는 저같은 게으름뱅이들에게는 이리저리 분석할때 표준 데이터로 사용할만한 좋은 데이터가 확보되었다는 것입니다. :)



출처: @ye._.vely618


수요일, 8월 16, 2023

누가 누가 Annotation을 잘 하나

작년에 나온 논문으로 NGS를 활용한 임상 유전체 판독 할 때 어떤 annotation tool을 쓰면 좋을지에 대한 내용입니다.

A performance evaluation study: Variant annotation tools - the enigma of clinical next generation sequencing (NGS) based genetic testing

doi: 10.1016/j.jpi.2022.100130


현재 다양한 annotation tool이 사용되고 있긴 하나 그 중에서 Alamut, ANNOVAR, VEP 3개 tool을 벤치마킹 해봤다고 합니다.

VEP는 Ensembl Variant Effect Predictor이고,
Alamut는 SOPHiA GENETICS에서 제공하고 있는 tool,
ANNOVAR은 qiagen에서 제공하고 있는 tool로 3개 tool 모두 annotation해봤다고 해봤으면 한번쯤 구경은 해봤을 tool 일겁니다.

결과를 얘기하자면 이 3개 tool을 이전에 확인되었던 298개 변이를 대상으로 벤치마킹하였고 이 중에서 VEP가 가장 성능이 좋았고, ANNOVAR이 가장 낮을 일치율을 보여주었다고 합니다. (298개 중 20개가 불일치하여 93.3%의 일치율)

그래서 Lurie Molecular Diagnostics Laboratory(저자들의 소속 기관)은 VEP를 사용하기로 하였다고 논문에 언급하긴 했는데 진짜 VEP를 사용하고 있는지 ANNOVAR나 Alamut를 몰래 사용하고 안하는지는 제가 알 방법이 없네요

여튼 NGS의 발달로 말미암아 WGS를 하면 400만개, WES를 하면 ~2만개 정도의 변이들을 탐지할 수 있게 되었죠. 그래서 이전에는 변이를 하나하나 탐지하는게 병목점이었다면 이제는 탐지된 변이를 정확하게 판독 할 수 있도록 annotation을 하는 것이 더 중요하고 병목점이 되었다는 것은 누구나 부인하지 못할 것입니다.

- 물론 최근에는 AI/머신러닝의 발달로 annotation 단계에서도 괄목할만한 신속 정확한 결과를 바라볼 수 있지 않을까 합니다. -

이런 이유로 Lurie Molecular Diagnostics Laboratory에서도 이전에는 Alamut를 사용하고 있었는데 라이센스 문제등 효율적인 문제가 부각되어 상용 tool들과 오픈 소스인 VEP간의 annotation 결과 일치도 테스트를 해보게 되었다고 합니다.


그렇다면 비교를 하기위해서는 정답이 있는 문제지가 있어야 되겠죠?
그래서 이전에 Lurie Molecular Diagnostics Laboratory에서 진행되고 큐레이션 되었던 191개 유전자에 있는 298개 변이를 테스트 세트로 했다고합니다.

3개의 annotation tools을 비교하기 위한 vcf를 준비해서 각각 분석을 진행하였다고 합니다.

그래서 확인한 결과 298개 중 278개 변이는 3개 tool에서 모두 동일하게 확인되었고, 그 중 VEP와 Alamut는 99% 일치 하였으나, ANNOVAR의 경우 20개가 불일치 하였다고 합니다. 298개 중 278개 변이가 3개 tools에서 동일하게 나온 이유가 ANNOVAR가 제대로 분석을 하지 못해서였네요.. 

VEP는 298개중 297개를, Alamut는 298개중 296개를 올바르게 annotation을 하였고, ANNOVAR은 위에서 언급한대로 278개만 올바르게 annotation을 하였다고 합니다.

조만간 누군가 고도화된 AI/머신러닝을 탑재한 annotation tool을 출시하면 새바람이 불지 않을까합니다.

그때까지 밥벌이는 해보는걸로 :)



출처: @ye._.vely618


화요일, 9월 22, 2020

8개의 variant caller 통합 도구

2018년 WGS이나 WES 혹은 Target Seq을 한 후 변이를 확인 할 때 으레 GATK를 사용하는 우리들에게 감사하게도 여러개(정확히는 8개)의 변이 caller 결과를 통합해서 확인 할 수 있는 논문이 발표되었습니다.

진짜 감사할지 이름만 appreci할지...

(구글 검색결과 글쎄요... 이유가 무엇인지는 모르겠지만 오늘이 2020년 9월 12일인데 인용 횟수가 4개네요..)

목적은 NGS를 임상에 사용하려면 유효한 variant를 call해야 하는데 분석 tool마다 어떤 variant는 call하고 어떤 variant는 call하지 못하는 경우가 발생해서 그럼 여기서 나온 결과와 저기서 나온 결과 합치자!!

근데 이 작업을 할 하는데?? 이게 그렇게 쉽다고?

그렇죠 이런저런 허들이 있고 동일한 위치에 A변이와 B변이가 있다고 나왔을 때 어떤 변이를 call했다고 인정할것인가?

모 변이를 call하고 변이들을 merge하고 필터링하는 파이프라인을 개발했다는 것이 이 논문의 결론이고 민감도는 0.93-1.0, PPV는 0.65-1.0사이, 8개의 도구를 combine하였는데 caller를 줄이면 appreci8의 성능은 떨어지니깐 그러지 마세요 라고 얘기하고 있습니다.

여기서 사용하는 8개 caller들은 다들 많이들 사용하고 있는 GATK, Platypus, VarScan, LoFreq, FreeBayes, SNVer, samtools, VarDict되겠습니다.

appreci8은 여기서 docker로 제공되고 있고 분석을 한 일루미나 데이터는 여기에 위치하고 있습니다.


출처: @ye._.vely618


일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)


오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한  BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -


3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )




Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.


Sequencing Samples Bases(Gbp) Read(x106) Clean rare >Q20 >Q30 GC Mean coverage
BGISEQ500-WES 29.41 294.3 0.41% 96.72% 89.14% 49.75%  328.49X
MGISEQ2000-WES 16.34 163.55 0.25% 98.18% 92.08% 49.71%  129.40X
HiSeq4000-WES 41.93 283.7 4.46% 97.36% 93.01% 50.63%  395.17X
NovaSeq-WES 25.88 178.87 2.25% 95.33% 92.67% 49.73%  241.52X
BGISEQ500-WGS 126.86 1270.02 1.76% 93.73% 83.33% 41.76%  41.03X
MGISEQ2000-WGS 137.36 1374.87 0.21% 96.17% 88.19% 41.76%  45.13X
HiSeq4000-WGS 191 1276.1 8.25% 95.90% 90.11% 41.69%  58.00X
NovaSeq-WGS 98.3 657.45 1.28% 95.89% 93.86% 41.61%  28.96X
HiSeq Xten-WGS 134 894.58 7.29% 94.50% 87.63% 40.71%  38.93X
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ...  :)


출처: @sana_twice.09


금요일, 4월 04, 2014

NGS는 해결사?

아닙니다.

NGS가 많은 부분에서 해결사 역할을 하는것은
맞지만  잘못쓰시면 해결사가 아니라
돈만 많이 쓴 처리못할 쓰레기가 될 수 있습니다.

항상 상담을 하시고 이용해주시고
사용에 주의하시기바랍니다.  :)


수요일, 1월 15, 2014

NGS 물량공세 플랫폼 오픈



오늘 페북에 내 스팸 메일 제외하고
가장 핫한 이슈는 일루미나가 새로운 NGS기계를 내놓았고
그걸 마크로젠이 냉큼 구매했다는 이야기...

>Illumina Sequencing System Spec<

물량으로는 일루미나는 때려잡아도 못잡을듯..
결과가 TB단위가 나올줄이야... ㅋㅋ

그리고 HiSeq X Ten 이름에 있는 것과 같이
HiSeq X를 사려면 10대라는 최소 주문 수량을 만족해야 한다는...
"우리 일루미나 고객님들은 쪼잔하지 않아요"가 2014년도 일루미나 슬로건인가? ㅎㅎ

일년에 한두번씩 휴양지에서 세미나 개최해서 초정도 해주고 그런것 같다만...
이게 무슨 청첩장도 아니고 최소 주문 수량을...;;;; ㅎㅎ

여하튼...
일루미나 덕분에
Open the real hell gate... ㅋㅋ

화요일, 1월 29, 2013

NGSQCToolkit 사용기

아.... 이제서야
지난번에 언급했던
NGS QC Toolkit을 사용해 봤습니다. :)

라이브러리와 perl 모듈을 잘 설치해주면
큰 문제없이 잘 돌아가는것을 확인했고
multi-thread로 실행하는 경우 음.. 빠르더라구요 ㅎㅎ
시간 체크는 못해봤는데...
지금 시간체크 하면서 돌리는게 있으니
정리해서 올리도록 하겠습니다. :)

1. 들어가기전
일단 시스템에 gd관련 라이브러리가 있는지 확인하시고
gd와 libgd-graph 등등 관련 라이브러리를 설치해주시기 바랍니다.
그리고 perl 모듈들이 모두 설치되어 있는지 확인해서 안되어 있다면
설치해주시면 되겠습니다.
gd라이브러리가 없으면 펄의 GD::Graph 설치할때 설치가 안되더군요;;
에러가 나서 몬가 하고 있었는데.. ㅎㅎ 여하튼...
모 이런저런 라이브러리와 모듈을 확인하시고 잘 설치하면
사용하는데 문제 없습니다. :)

2. 사용하기
NGQQCToolkit에는 크게 4가지의 서브 카테고리로 구분되어져 있더군요
1) 포맷 변경
2) QC
3) 자료 통계
4) Trimming

2.1 Format Convert
Fastq -> {454 | Fasta}: Fastq를 454(Fastq,Qual), Fasta 포맷으로 변환

{SangerFastq | SolexaFastq} -> IlluFastq: Sanger와 Solexa의 qual를 Illumina의 통일된 qual score range로 변환 (다만, 1.5+ 로 하는지 1.8+ 로 하는지는 확인 못했습니다.)


2.2 QC
454{QC|QC_PE|QC_PRLL}: 454 데이터를 input으로 하는 QC tools
Illumina와 다르게 QC_PE가 있는건 454의 경우 paired-end로 sequencing 하는 경우는 좀 특별해서 구분해둔듯.. :) (단, input은 SFF 포맷이 아닌 서열 파일과 Quality score파일로 구분해서 입력해야 사용가능하다.)

Ill{QC|QC_PRLL}: 일루미나 read를 처리하는 tools, 454와는 다르게 single-end와 paired-end를 따로 구분하지 않고 -se, -pe 옵션으로 처리하도록 만들어놨다는 점~ :)

PRLL 접미사는 병렬처리를 지원하는 스크립트입니다.
PRLL tools에서는 -c를 사용해서 multi-core를 사용하는데에 반해
일반 tools는 -p 옵션을  사용해도 multi-core를 사용하지 않는 점이 있었습니다.


2.3 Statistics
AvgQuality.pl: quality score 파일을 입력받아 점수를 계산하는 tool
N50Stat.pl: fasta파일을 input으로 받아 N50을 계산하는 tool

2.4 Trimming
AmbiguityFiltering.pl:
HomopolymerTrimming.pl:
TrimmingReads.pl:

결과로 제공되는 figure도 나름 괜찮습니다. :)
속도도 multi-core를 사용하던 안하던 만족할만한 수준이었습니다.
(제가 in-House로 제작한 script가 느린것도 있겠지만요.. ㅎㅎ )


자세한 사용법은 저보다 영어 못하시는 분은 없을테니 메뉴얼 보세요~ ㅎㅎ

>>메뉴얼보러가기<<


추가정보
paired-end fastq raw파일로 3-4g정도의 파일을 single cpu로 처리하는데
2시간에서 2시간 반내외정도로 확인되었습니다. :)

월요일, 8월 27, 2012

Tophat을 run할 때의 마음가짐

RNA-Seq 작업을 하면서 빈번하게 사용하는 Alignment tool로 TopHat을 꼽을 수 있다.
(나의 경우 그렇다. 아니면 말고.. 쳇~)

본인의 경우 대부분의 프로그램들의 default값을 사용하기 좋아라 하지만
최근 NGS관련 tool을 다루면서부터 default값은 신뢰하지 않기로 했다.
왜냐?

최근 각광받는 NGS 분석 tool들의 대부분의 default값들은 Human, Mouse같은 Model 종들에 대해서 적합한 것 들이지 내가 다루는 곰팡이나 식물은 전혀 Out of 안중이기 때문이다.

그래서 아주 죽을맛이다라는거다 ㅋㅋ
성능 짱 좋은 서버로 테스트 해보고 싶은 경우의 수를 모두 다 해보면 좋겠지만
논문내는건 시간싸움이다 보니 해보고 싶은 모든 경우에 대해서 테스트 못할 수 도 있다.

그래서 옵션 중에서 Key가 될만한 옵션들만 본인의 종에 맞게 조정해서 분석을 해야 그나마 시간 대비 분석 결과에 만족 할 수 있을 것으로 생각한다.

그 중 TopHat의 경우 intron-length를 분석하고자 하는 종에 맞춰서 값을 사용하기 바라는 바이다.
TopHat의 --max-intron-length의 경우 500,000bp인데 상식적으로 곰팡이 같은 종의 경우 한 유전자안에 500kbp짜리 intron이 있을리 만무하지 않겠는가?

그래서 이런 종 특이적인 정보를 사용하는 경우 본인이 분석하는 종을 대표할 수 있는 값을 사용하는 것이 보다 좋은 결과를 얻을 수 있을것이다.
(강릉 교육에서 들어서 요건 확인하고 한다는거.. ㅋㅋ)

사람이나 마우스 하는 분들은 걍 default 값 사용하면됩니다. (요건 좀 부럽습네다. ㅎㅎ)

아... intron길이 구하는건 스스로, 그걸 누가 매번 알려줄수는 없잖아~
구글링하면 어느정도 커버 할수 있을 자료 찾을 수 있습니다.
요즘 NGS때문에 denovo도 꽤나 하는듯 하니..
-대신 없으면 추가로 denovo하시면 될듯... 전략만 잘 짜면... 괜찮을듯한데.. ㅎㅎ


그래서 NGS 작업을 위해선..
스크립트언어라도 배우는게 좋다는 점~
간단한 코드는 짤 수 있어야 한다는 점~
텍스트 파싱은 할 줄 알아야 한다는 점~