월요일, 2월 26, 2024

NGS 검사로 먹고 살 수 있을까?

오늘은 간만에 업계 관련 얘기를 살짝 얘기해보는걸로 하겠습니다.

뉴스를 보게되면 NGS 검사에 대한 진보성과 편의성에 대해서 수시로 들을 수 있을 겁니다. 
거기다 저 같은 경우는 업으로 하고 있으니 당연히 좋다고 얘기하겠죠

근데 진짜 그만큼 사람들은 많이 사용하고 있는가?

그래서 통계를 내봤습니다.

NGS 패널 검사 진료금액과 유전체 회사 별로 NGS 패널 검사로 매출을 일으킨 금액되겠습니다.

대단한 유료 보고서를 구매해야 볼 수 있는 숫자는 아니고요
그냥 클릭질을 많이 하면 확인 할 수 있습니다. :)



이 자료는 HIRA 빅데이터개방포털과 각 회사들의 사업보고서를 뒤적여서 그려본 그래프 입니다. NGS 패널 검사관련된 자료는 HIRA 빅데이터 개방 포털 에서 확보하였고, 선그래프와 우측 축의 금액은 NGS패널의 진료금액 되겠습니다. 이 진료 금액이 환자가 납부한 금액은 아닌거 같고 HIRA 데이터니깐 건강보험청구한 금액이지 않을까 합니다. 그리고 회사들은 좌측 축의 금액을 기준으로 보시면됩니다. 약간 bias가 들어가있는데, 이는 사업보고서를 바탕으로 NGS 패널 검사와 관련된 매출액을 정확하게 구분하기 어려워서 랩지노믹스 같은 경우는 과대 포장되어 있는 경향이 있습니다. 참고해서 봐주시면 좋을것 같습니다.
(아.. 금액은 모두 천원이 단위입니다.)

20년도부터 NGS 패널 검사로 사용되는 금액이 대략 400억정도되고 23년도를 추정하면 대략 600억은 넘겠네요 
그리고 유전체로 밥벌어먹고 사는 회사들을 중심으로 정리해봤는데 랩지노믹스 때문에 다소 과대포장 되어 있기는 하지만 100억대의 매출을 보여주고 있습니다.
근데 NGS 패널 검사의 비용과 각 회사들의 매출금액과 좀 차이가 있어보입니다.
NGS 패널 검사 비용은 소비자가이고, 회사들의 매출금액은 NGS 패널 검사를 하는 곳에서는 원재료가 금액이니 아무래도 좀 차이가 있는게 당연하겠지요.

그래서 제가 조사한 6개 기업이외에도 몇몇 회사들이 더 있을 것으로 생각되나 개인적으로 지금의 그래프와 큰 차이는 없어 보일듯합니다.

이 그래프를 보면 많은 생각이 들긴합니다.

왜 유전체 회사나 검사 회사들이 해외, 특히 미국, CLIA랩 확보에 열을 올리는지 알 수 있고, 그러는 유전체를 업으로 하는 나님은 언제까지 월급 받아가면서 일을 할 수 있을지도 걱정이고..

"주린이가 가장 알고 싶은 최다질문 top 77 2 염승환" 책을 읽은 기념으로 사업보고서도 읽어보고, NGS가 미래가 장비빛인지, 장비및으로 바라보고 싶은건지 돌아보고자 한번 끄적여 봤습니다.

다시 또 이런 저런 흥미롭거나 도움이 될 만한 논문을 들고와보도록 하겠습니다. :)








출처: @ye._.vely618


목요일, 2월 15, 2024

QIIME2의 q2-feature-classifier는 과연 쓸만한가?

QIIME2가 출시된지도... 5년 밖에 안됐군요.  꽤 된줄알았는데..

여튼 오늘은 QIIME2 내부에 있는 classifier에 대한 논문이 있어 gemini에게 한번 읽혀봤습니다.

논문 제목은 "Optimizing taxonomic classification of marker-gene amplicon sequences with QIIME 2’s q2-feature-classifier plugins" 되겠습니다.

DOI: 10.1186/s40168-018-0470-z



연구 목적과 배경

미생물 군집 분석은 다양한 분야에서 사용되는 중요한 기술입니다. 미생물 군집의 구성을 이해하면 질병, 환경, 식품 등의 분야에서 중요한 정보를 얻을 수 있습니다.

마커 유전자 증폭 서열은 미생물 군집 분석에서 널리 사용되는 방법입니다. 이 방법은 미생물의 특정 유전자를 증폭하여 그 유전자의 서열을 분석하는 것입니다.

마커 유전자 증폭 서열의 계통 분류는 미생물 군집 분석의 중요한 단계입니다. 계통 분류를 통해 미생물의 종을 식별할 수 있습니다.

그러나 마커 유전자 증폭 서열의 계통 분류는 몇 가지 어려움이 있습니다. 첫째, 마커 유전자 증폭 서열은 짧기 때문에 계통 분류가 어렵습니다. 둘째, 마커 유전자 증폭 서열에는 오류가 있을 수 있습니다.


연구 방법

이 연구에서는 QIIME 2의 q2-feature-classifier 플러그인을 사용하여 마커 유전자 증폭 서열의 계통 분류를 최적화하는 방법을 연구했습니다.

q2-feature-classifier 플러그인은 다양한 계통 분류 방법을 제공합니다. 이 연구에서는 머신 러닝 기반 방법, 정렬 기반 방법, 그리고 두 가지 방법을 결합한 방법을 평가했습니다.

연구에서는 마커 유전자 증폭 서열을 사용하여 생성한 가상 미생물 군집과 실제 미생물 군집을 사용하여 계통 분류 방법의 성능을 평가했습니다.


결과와 논의

연구 결과, q2-feature-classifier 플러그인은 다른 일반적으로 사용되는 방법보다 더 정확한 계통 분류를 제공하는 것으로 나타났습니다. 특히, 종 수준의 정확도는 90% 이상으로 나타났습니다.

연구진은 계통 분류 방법의 성능을 최적화하기 위해 매개변수 조정을 중요하게 강조했습니다. 또한, 계통 분류 방법의 성능을 평가하기 위한 프레임워크인 tax-credit를 개발했습니다.


결론

이 연구는 q2-feature-classifier 플러그인이 마커 유전자 증폭 서열의 계통 분류를 위한 강력한 도구임을 보여주었습니다. 이 플러그인은 생명공학 전공자가 아닌 분들도 쉽게 사용할 수 있도록 설계되었습니다.


추가적으로 q2-feature-classifier를 사용하는 이유와 다른 classifier와 비교도 한번 요청해보았습니다.

1. 높은 정확도: q2-feature-classifier는 다양한 계통 분류 알고리즘을 제공하며, 이는 다른 일반적으로 사용되는 도구들보다 높은 정확도를 제공하는 것으로 입증되었습니다. 특히, 종 수준(species level)의 정확도는 90% 이상을 달성할 수 있습니다.

2. 사용 편의성: q2-feature-classifier는 QIIME 2 프레임워크에 완벽하게 통합되어 있어 사용하기 매우 편리합니다. 명령줄 인터페이스(command-line interface) 또는 QIIME 2 GUI를 통해 쉽게 사용할 수 있습니다.

3. 다양한 기능: q2-feature-classifier는 다양한 기능을 제공합니다. 

 - 다양한 계통 분류 알고리즘 지원:

    * 정렬 기반(alignment-based) 방법: BLAST, VSEARCH

    * 머신 러닝 기반(machine learning-based) 방법: naive Bayes classifier, support vector machine (SVM), random forest

    * 두 가지 방법을 결합한 하이브리드(hybrid) 방법

 - 분류 결과 시각화:

    * 종류-풍부도 막대 그래프(taxa bar charts)

    * 계통발생학적 나무(phylogenetic trees)

 - 분류 결과 필터링 및 워크플로 통합:

    * 신뢰도(confidence) 기반 필터링

    * 계통 분류 수준(taxonomic level) 기반 필터링

    * 다른 QIIME 2 플러그인과의 통합

4. 활발한 커뮤니티: QIIME 2는 활발한 사용자 커뮤니티를 가지고 있으며, 이는 q2-feature-classifier 사용에 대한 도움과 지원을 제공합니다. 

5. 지속적인 개발: q2-feature-classifier는 지속적으로 개발되고 있으며, 새로운 기능과 개선된 성능을 제공합니다.


- 다른 Classifier와 비교

| Classifier  |              알고리즘              |   장점    |   단점    |
|-------------|-----------------------------------|----------|----------|

|q2-feature-  다양한 알고리즘 지원 (BLAST, VSEARCH,|높은 정확도,|알고리즘   |
|classifier   | naive Bayes classifier, SVM,      |다양한 기능,|선택에 따른|
|             | random forest, 하이브리드)         | 사용 편의성|성능 차이   | 
|Kraken        | k-mer 기반                       | 빠른 속도 |낮은 정확도,|

|              |                                 |          |종 수준 분류|
|              |                                 |         |어려움      |
| Centrifuge   | FM-index 기반                    |빠른 속도 |낮은 정확도,|
|              |                                 |         |종 수준 분류|
|              |                                 |         |어려움      |
| CLARK        | BLAST 기반                      |높은 정확도 |느린 속도   |
--------------┴-------------------------------------------┴----------┘

결론적으로, q2-feature-classifier는 높은 정확도, 다양한 기능, 사용 편의성, 활발한 커뮤니티, 지속적인 개발 등의 장점을 가진 강력하고 다목적적인 플러그인입니다. 마커 유전자 증폭 서열의 계통 분류를 위한 최고의 선택입니다.


그렇다고합니다. :)


출처: @ye._.vely618


화요일, 2월 13, 2024

생명정보를 끄집어 내는 나노포어!!

음.. 21년도에 옥스포드 나노포어에 관련하여 잘 설명한 글이 있었네요

"Beyond sequencing: machine learning algorithms extract biology hidden in Nanopore signal data"

DOI: 10.1016/j.tig.2021.09.001


그래서 당연히 이것도 gemini에게 블로그에 게재할 요약 글 하나 적어달라고 해봤습니다.


제목: 나노포어 시퀀싱, 숨겨진 생명 정보를 끄집어내는 미래 기술

나노포어에 대해 잘 모르는 분들을 위한 블로그 글을 쓰고 싶다고 하셨네요. 좋은 선택이에요! 이 글에서는 나노포어 시퀀싱 기술이 어떻게 작동하고, 어떤 흥미로운 활용 방식이 있는지 알아볼 예정입니다.


나노포어 시퀀싱의 기본 원리

먼저 나노포어 시퀀싱이 무엇인지 알아볼까요? 간단히 말하면 DNA나 RNA를 작은 구멍(나노포어)을 통과시켜 염기 서열 정보를 읽는 기술입니다. DNA/RNA 가닥이 나노포어를 통과하며 발생하는 전류 변화를 분석하여 염기 서열을 추측합니다. 하지만 이 전류 변화 패턴은 복잡하고 해석하기 어렵죠.


머신러닝과 나노포어의 만남

여기서 머신러닝이 중요한 역할을 합니다! 머신러닝 알고리즘은 대量の 나노포어 전류 데이터를 분석하여 이 패턴을 알파벳 코드(A, C, T, G)로 변환하는 방법을 배우게 됩니다. 이를 베이스 콜링(base calling)이라고 합니다. 

초기에는 단순한 통계적 방법과 규칙 기반 알고리즘이 사용되었지만, 최근에는 머신러닝 기반 알고리즘이 주목받고 있습니다. 이 알고리즘은 실험 데이터를 대량 학습하여 전류 패턴과 염기 사이의 복잡한 관계를 파악합니다. 대표적인 알고리즘으로는 히든 마르코프 모델 (Hidden Markov Model, HMM)과 신경망 (Neural Network)이 있습니다.

 - HMM: 각 염기마다 고유한 상태를 가정하고, 전류 패턴의 변화를 통해 상태 이동을 예측합니다. 이를 통해 전체 염기 서열을 추측합니다.

 - 신경망: 복잡한 전류 패턴을 직접 분석하여 염기 예측 확률을 계산합니다. 최근에는 딥러닝 기반의 신경망 모델들이 우수한 성능을 보여주고 있습니다.

이러한 알고리즘은 지속적으로 발전하고 있으며, 베이스 콜링 정확도는 점점 향상되고 있습니다. 하지만 아직 완벽하지 않으며, 특히 동일한 전류 패턴을 유발하는 modified base 구분은 어려움이 있습니다. 연구는 지속적으로 진행되고 있으며, 더 정확하고 신뢰할 수 있는 베이스 콜링 알고리즘 개발이 활발히 이루어지고 있습니다.

또한 베이스 콜링을 통해 염기 서열을 얻었지만, 이것만으로는 충분하지 않습니다. 마치 흩어진 퍼즐 조각처럼 이 염기 서열을 참고 게놈 전체에 위치를 정확하게 매핑해야 합니다. 이 과정을 시퀀스 매핑(sequence mapping)이라고 합니다.

시퀀스 매핑 알고리즘은 크게 두 가지 방법이 있습니다.

 - 참조 게놈 기반 매핑: 이미 알려진 참조 게놈을 사용하여 읽은 염기 서열과 유사한 부분을 찾아 매핑합니다. 빠르고 정확하지만 돌연변이가 있는 경우 정확도가 떨어질 수 있습니다.

 - De novo 매핑: 참조 게놈 없이 읽은 염기 서열 자체를 조합하여 전체 게놈을 재구성합니다. 돌연변이가 있어도 정확하게 매핑할 수 있지만, 계산량이 많고 어렵습니다.

최근에는 이 두 방법을 결합하여 정확도와 속도를 높이는 하이브리드 방식도 사용되고 있습니다. 또한 롱 리드 시퀀싱 기술인 나노포어는 다른 시퀀싱 기술에 비해 더 긴 염기 서열을 읽을 수 있어 매핑 과정의 정확도를 높이는 데 유리합니다. 머신러닝 알고리즘은 이 과정에도 활용되어, 정확한 매핑을 위해 지속적으로 발전하고 있습니다.


나노포어 활용의 무한 가능성

이제 흥미로운 부분, 나노포어를 활용하여 무엇을 할 수 있는지 알아볼까요? 기존 시퀀싱 기술에 비해 장점이 많은 나노포어는 다양한 분야에서 혁신을 가져올 것으로 기대됩니다.

 - DNA 메틸화 분석: DNA에 달린 메틸 그룹은 유전자 발현을 조절합니다. 나노포어는 이 메틸화 정보를 전류 패턴에서 직접 읽을 수 있어 유전자 발현 연구에 유용합니다.

 - 단백질-DNA 상호 작용 분석: DNA와 상호 작용하는 단백질을 나노포어를 통해 직접 확인할 수 있습니다. 이는 질병 유발 기작 연구 등에 활용될 수 있습니다.

 - RNA 구조 분석: RNA는 독특한 구조를 가지고 있으며, 나노포어는 이 구조 정보도 전류 패턴에서 추측할 수 있습니다. 이는 RNA 기능 연구에 중요한 정보를 제공합니다.

이 외에도 나노포어는 미생물 동정, 식물 연구, 개인 맞춤 의료 등 다양한 분야에서 활용 가능성이 높습니다.


결론

나노포어 시퀀싱은 빠르게 발전하는 기술이며, 머신러닝과의 결합은 더욱 강력한 생명 과학 연구 도구로서 활약할 것입니다. 이 글을 통해 나노포어에 대한 기본적인 이해를 얻고, 앞으로의 발전 가능성에 대해 기대를 갖게 되었기를 바랍니다!


참고

* 이 글은 생명공학 분야 기초 지식을 가진 독자를 대상으로 이해하기 쉽게 설명했습니다.

* 논문 원본은 영어이지만, 주요 내용을 한국어로 요약했습니다.

* 더 자세한 정보는 제공된 논문 링크를 참조하세요.

저도 나노포어 기술의 발전을 지켜볼 예정이니, 앞으로 더 흥미로운 소식을 공유하도록 하겠습니다!


응? 왜 니가 나노포어 기술의 발전을 지켜볼 예정이니? ㄴ(°0°)ㄱ 내가 블로그에 작성하는 글이라고 하니 사람이 쓰는 것처럼 소식을 공유하겠다는 멘트도 깨알같이 놓치지 않았네요.   

그럼 다음에도 어딘가에 제가 아직 보지 못한 논문들을 찾아서 AI를 활용하여 글을 또 써보도록 하겠습니다. 물론 AI가 글을 쓰겠지요 :)



출처: @ye._.vely618


일요일, 2월 11, 2024

WGS 데이터를 활용하여 어떤 방법이 환자에게 보다 효과적인지 확인해보자

바다 건너 영국에서 진행하고 있는 WGS를 활용한 암환자들에 대한 치료 기회에 대한 내용에 대한 논문을 한번 bar..아니 gemini에게 물어봤습니다.

논문 제목은 "Insights for precision oncology from the integration of genomic and clinical data of 13,880 tumors from the 100,000 Genomes Cancer Programme"

doi: 10.1038/s41591-023-02682-0

입니다.


이번 프롬프트는 간결하게 "https://www.nature.com/articles/s41591-023-02682-0 이 연구를 하게 된 이유와 연구에 사용된 분석 방법, 그리고 결과에 대한 내용에 대해서 블로그에 게시할 수 있도록 정리해서 작성해줘" 라고 넣어봤습니다.


제목: 암 치료를 위한 개인화된 접근 방식

요약:

암은 전 세계적으로 사망 원인 1위입니다. 암 치료는 종종 화학 요법, 방사선 요법 및 수술을 포함하는 복잡한 과정입니다. 그러나 이러한 치료법은 모든 환자에게 효과적이지 않으며 종종 부작용을 유발할 수 있습니다.

연구 배경:

최근 몇 년 동안 암 치료에 대한 개인화된 접근 방식에 대한 관심이 높아졌습니다. 개인화된 치료는 환자의 특정 유전적 특성에 맞게 조정된 치료법입니다.

연구 방법:

이 연구는 100,000 게놈 프로젝트의 암 프로그램의 데이터를 사용했습니다. 이 프로젝트는 암 환자의 전체 게놈을 시퀀싱하는 것을 목표로 합니다. 연구원들은 33가지 암 유형의 13,880개 종양을 분석했습니다. 그들은 이 데이터를 실제 치료 및 결과 데이터와 연결했습니다.

연구 결과:

연구 결과는 WGS가 많은 암 유형에서 유용한 도구가 될 수 있음을 보여줍니다. WGS는 환자의 치료 반응에 영향을 미칠 수 있는 유전적 변화를 식별하는 데 사용할 수 있습니다. 이 정보는 더 개인화된 암 치료법을 개발하는 데 사용될 수 있습니다.

연구 결론:

이 연구는 WGS가 암 치료를 위한 개인화된 접근 방식을 개발하는 데 중요한 도구가 될 수 있음을 보여줍니다. WGS는 환자의 치료 반응을 예측하고 더 효과적이고 안전한 치료법을 개발하는 데 도움이 될 수 있습니다.

이 연구가 암 치료에 미치는 잠재적 영향:
- WGS는 암 치료의 성공률을 높이고 부작용을 줄이는 데 도움이 될 수 있습니다.
- WGS는 암 환자에게 더 나은 치료 옵션을 제공할 수 있습니다.
- WGS는 암 치료의 비용을 절감하는 데 도움이 될 수 있습니다.

이 연구의 한계:
이 연구는 100,000 게놈 프로젝트의 데이터를 사용했습니다. 이 데이터는 영국과 미국의 환자를 대상으로 합니다. 다른 국가의 환자에게도 WGS가 유용한 도구가 될지는 확실하지 않습니다.
이 연구는 WGS가 암 치료에 미치는 잠재적 영향을 평가했습니다. 그러나 WGS가 실제로 암 치료의 성공률을 높이고 부작용을 줄이는 데 도움이 되는지 여부는 더 많은 연구가 필요합니다.

 

개별 암종별 변이 종류에 따른 설명이 많이 생략되어 있긴하지만, 프롬프트를 잘 작성하면 필요에 맞는 내용을 잘 요약해서 정리해 줄 것으로 생각되고, 결국 깨작깨작 패널대신 걍 WGS를 하고 더불어 methylation, proteomics, RNAseq 등의 정보들도 조합하면 우리가 꿈꾸는 예후 예측이나 더 나은 환자의 치료를 제공할 수 있지 않겠냐고 잘 마무리하고 있는 논문 되겠습니다.

그리고 물론 위에 것을 하려면 아직 돈은 많이 든다. 언젠가 그렇듯이 이 또한 해결 할 수 있는 그 날이 오면 좋겠다. 라고 합니다. 


그럼 설 연휴 잘 마무리하는 걸로 :)




출처: @ye._.vely618


금요일, 1월 19, 2024

그렇다면 일루미나는 문제가 없을까?

이전 포스팅에서는 Ion torrent 데이터에 대해서 알아보았으니 이번에는 일루미나 데이터는 과연 괜찮은지 한번 알아보도록 하겠습니다.
그건 그렇고 이전 포스팅하고 꽤 오랜만에 하네요;;

Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform의 제목으로 amplicon 패널을 사용하여 일루미나 시퀀서의 편향과 에러에 대해서 한번 확인해봤다고 합니다.

DOI: https://doi.org/10.1093/nar/gku1341

이번에도 AI(Bing의 copilot입니다.)의 도움을 한번 받아보았습니다!!!


프롬프트
The following URL is a paper confirming the biases and errors of the Illumina MiSeq sequencer using the Amplicon panel, and the title is "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform."

https://doi.org/10.1093/nar/gku1341

I am planning to organize and post the contents of this paper on my blog. Please summarize the problems that may arise when using the Amplicon method using Illumina MiSeq. It is said that the data used in the paper was 16S rRNA data. If there was an error, please explain how you corrected the error and what method you used. Also, if there is an error in the data, please explain how to efficiently handle it. Please write the draft to be posted on the blog in Korean.



안녕하세요. 오늘은 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문을 소개하고자 합니다. 논문의 제목은 "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform"이고, 다음 URL에서 확인하실 수 있습니다.

https://doi.org/10.1093/nar/gku1341

이 논문에서는 16S rRNA 데이터를 사용하여 앰플리콘 방법을 이용한 시퀀싱의 문제점을 분석하였습니다. 앰플리콘 방법은 특정 DNA 영역을 증폭하여 시퀀싱하는 방법으로, 다양한 생물학적 응용에 사용됩니다. 그러나 이 방법에는 여러 가지 편향과 오류가 발생할 수 있습니다. 예를 들어, 증폭 과정에서 PCR 편향이나 증폭 돌연변이가 발생할 수 있고, 시퀀싱 과정에서는 인덱스 점프나 인덱스 오염, 품질 저하 등의 문제가 있을 수 있습니다.

이러한 편향과 오류는 시퀀싱 결과의 정확도와 신뢰도에 영향을 미칠 수 있으므로, 적절한 보정과 검증이 필요합니다. 이 논문에서는 일루미나 MiSeq 플랫폼을 사용하여 앰플리콘 시퀀싱을 수행한 데이터를 분석하고, 편향과 오류의 원인과 영향을 평가하였습니다. 또한, 편향과 오류를 줄이기 위한 몇 가지 방법을 제안하였습니다.

논문에서 사용한 데이터는 16S rRNA 데이터로, 박테리아의 다양성과 상대적 농도를 파악하기 위해 널리 사용되는 마커 유전자입니다. 16S rRNA 데이터는 앰플리콘 방법으로 쉽게 증폭할 수 있지만, 동시에 여러 가지 편향과 오류에 노출될 수 있습니다. 예를 들어, 16S rRNA 유전자는 다른 박테리아 간에 유사도가 높기 때문에, 인덱스 점프나 인덱스 오염이 발생하면 잘못된 분류가 될 수 있습니다. 또한, 16S rRNA 유전자는 GC 함량이 다양하기 때문에, PCR 편향이나 증폭 돌연변이가 발생하면 잘못된 상대적 농도가 산출될 수 있습니다.

논문에서는 이러한 편향과 오류를 검출하고 보정하기 위해 여러 가지 방법을 사용하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염을 줄이기 위해, 인덱스 디자인을 최적화하고, 인덱스 프라이머를 제거하는 단계를 추가하였습니다. 또한, PCR 편향이나 증폭 돌연변이를 줄이기 위해, PCR 사이클 수를 최소화하고, 증폭 조건을 표준화하였습니다. 그리고, 시퀀싱 품질을 향상시키기 위해, 품질 저하가 발생하는 시퀀싱 끝부분을 잘라내고, 품질 점수를 기준으로 필터링하였습니다.

이렇게 보정된 데이터를 사용하여, 박테리아의 다양성과 상대적 농도를 분석하였습니다. 그 결과, 보정 전과 후의 데이터에서는 박테리아의 종류와 비율에 차이가 있음을 확인하였습니다. 이는 앰플리콘 시퀀싱에 발생하는 편향과 오류가 데이터 해석에 영향을 미칠 수 있음을 보여줍니다. 따라서, 앰플리콘 시퀀싱을 수행할 때는 편향과 오류를 최소화하고, 보정하고, 검증하는 과정이 필수적임을 강조하고자 합니다.

이 논문에서는 편향과 오류를 줄이기 위한 방법 외에도, 발생한 편향과 오류를 해결하기 위한 방법도 제시하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염이 발생한 경우에는, 인덱스 정보를 이용하여 잘못된 분류를 수정하는 방법이 있습니다. 또한, PCR 편향이나 증폭 돌연변이가 발생한 경우에는, GC 보정이나 돌연변이 보정을 수행하는 방법이 있습니다. 이러한 방법들은 데이터의 정확도와 신뢰도를 더욱 높일 수 있습니다.

이상으로, 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문에 대해 소개하였습니다. 앰플리콘 시퀀싱은 매우 유용한 방법이지만, 동시에 주의가 필요한 방법이기도 합니다. 앰플리콘 시퀀싱을 수행하시는 분들께서는 이 논문을 참고하여, 데이터의 정확도와 신뢰도를 높이시기 바랍니다. 감사합니다.


라고 합니다.

좀 같은 말 늘려서 빙빙 돌려막는 느낌이 좀 들긴하지만....
그래도 짧지 않은 글을 작성해주니깐 좋은것 같습니다. :)








일요일, 12월 17, 2023

Ion Torrent 데이터는 어떻게 사용해야 할까?

S5 데이터를 생각보다 많이 만지고 있어서 간만에 S5의 데이터에서 주의해야하는 것들에 대한 논문한번 뒤적거려보았습니다.


2013년도에 나온 "Shining a Light on Dark Sequencing: Characterising Errors in Ion Torrent PGM Data" 으로 Ion Torrent의 PGM에서 발생 할 수 있는 문제들을 훑어본 논문으로 생각되어 읽어보았습니다.

DOI: 10.1371/journal.pcbi.1003031


음... 귀찮으니 일단 Copilot (with Bing Chat)에게 논문을 읽고 블로그용 컨텐트를 작성하는데 어떤 것들을 주의해야하는지에 대해서 작성해 달라고 하였습니다.


PGM이라는 시퀀싱 기계는 Ion Torrent의 제품으로, DNA를 분석하기 위해 반도체 칩을 사용하는 방식입니다. 이 방식은 다른 시퀀싱 기술에 비해 빠르고 저렴하게 데이터를 생성할 수 있는 장점이 있습니다. 하지만, PGM에서 발생할 수 있는 error에 대해서 주의해야 합니다.

PGM에서 생성되는 데이터는 다음과 같은 error를 포함할 수 있습니다.

- **Homopolymer error**: 연속된 동일한 염기가 있는 경우, 정확한 염기 수를 측정하기 어려운 error입니다. 예를 들어, AAAAA라는 염기가 있으면, PGM은 이것을 AAAA나 AAAAAA로 인식할 수 있습니다. 이러한 error는 PGM의 시그널 강도가 염기 수와 선형적으로 증가하지 않기 때문에 발생합니다.

- **GC bias**: GC 함량이 높거나 낮은 영역에서 시퀀싱 효율이 떨어지는 현상입니다. PGM은 GC 함량이 40% 이상인 영역에서 시퀀싱 효율이 감소하고, GC 함량이 60% 이상인 영역에서는 거의 시퀀싱되지 않습니다. 이러한 bias는 PGM의 PCR 과정에서 발생합니다.

- **Over- and under-sampling**: PGM에서는 반도체 칩에 DNA 분자를 고르게 분배하기 어렵습니다. 따라서 일부 영역은 다른 영역보다 많이 또는 적게 시퀀싱될 수 있습니다. 이러한 sampling bias는 PGM의 emulsion PCR 과정에서 발생합니다.


PGM 기계에서 생성되는 데이터를 사용할 때 주의해야 하는 것은 다음과 같습니다.

- **Error rate 확인**: PGM 데이터는 homopolymer error로 인해 다른 시퀀싱 데이터보다 error rate가 높을 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 error rate를 확인하고, 필요한 경우 error correction을 수행해야 합니다.

- **GC bias 보정**: PGM 데이터는 GC bias로 인해 특정 영역의 시퀀싱 깊이가 왜곡될 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 GC bias를 보정하거나, GC bias에 민감하지 않은 분석 방법을 사용해야 합니다.

- **Sampling depth 고려**: PGM 데이터는 over- and under-sampling으로 인해 일부 영역의 시퀀싱 깊이가 다른 영역보다 많이 또는 적게 될 수 있습니다. 따라서 PGM 데이터를 사용할 때에는 sampling depth를 고려하고, 필요한 경우 rarefaction을 수행해야 합니다.

PGM 기계는 혁신적인 시퀀싱 기술이지만, 그만큼 error와 bias에 주의해야 합니다. 이러한 문제점을 인식하고, 적절한 보정과 분석 방법을 사용한다면, PGM 데이터로부터 유용한 정보를 얻을 수 있을 것입니다.


제법... 괜찮습니다. 

Homopolymer 에러를 비롯해서 GC bias 에 대한 얘기도 해주고, 고르게 시퀀싱이 되지 않으니 read sampling에 대한 얘기도 함께 얘기해주었습니다. 제가 읽었으면 아마 Error rate 내용만 편향적으로 보고 "저거봐라 왜 Ion 쓰냐"라고 말을 줄이지 않았을까 합니다.

물론... 비정상적으로 긴 homopolymer 변이가 있는 종에 대해서는 도전정신을 가지고 Ion 시퀀서를 써봤자 너님만 손해다가 오늘의 한줄 요약 되겠습니다.



출처: ye._.vely618


월요일, 12월 11, 2023

Application of Next Generation Sequencing in Laboratory Medicine

임상검사실? 진단검사의학?에서의 NGS 활용에 대한 논문으로 사실 작년 2022년 LMCE 발표 준비하면서 잠시 훑어본 내용인데 NGS를 임삼검사실에서 어떻게 활용할 수 있을지에 대해서 이런저런 내용들을 얘기하고 있어서 가져와봤습니다.


2021년 1월달에 출판되었고 제목은 Application of Next Generation Sequencing in Laboratory Medicine이고
DOI: 10.3343/alm.2021.41.1.25 입니다. 

NGS는 기존 1세대시퀀싱에 비해 1bp 염기서열 단위의 해상도로 대규모의 정보를 한번에 분석할 수 있는 기술이죠.  그래서 다음과 같이 암 환자, 유전질환 환자 또는 감염병 환자로 부터 얻어진 시료를 시퀀싱하여 

- 암 환자의 경우, 암의 유형과 치료 반응을 예측 할 수 있고,

- 유전 질환 환자의 경우, 염기서열 또는 유전체 구조적인 이상을 확인하여 질환의 원인 확인 할 수 있고,

- 감염병 환자의 경우, 감염균의 종류와 기존 약제에 대해서 내성을 가지고 있는지 여부 등을 알 수 있습니다.

진단이라는 분야에서는 혁신적이거나 혁명적인지는 언급하기 어렵겠지만 염기서열을 해독하는 시퀀싱이라는 분야에서는 NGS는 단연코 혁신 기술이긴 하죠. 그래서 FDA도 NGS 기반의 진단과 함께 처방하는 치료제(동반진단)에 대해서 승인하기도 하고 있죠. 많은 실험실에서 RWD를 기반으로 NGS 테스트를 더 넓게 활용 할 수 있도록 위해 노력하고 있으니 조만간 더 많은 분야에 사용되지 않을까합니다.

2세대 NGS는 단점이라고 한다면 짧은 read 였는데, 긴 길이의 read를 시퀀싱 할 수 있는 3세대 시퀀싱을 더 다양하게 활용할 수 있고, 실험 방법이나 장비가 고가이며 숙련된 연구원들만 가능한데, 이 부분이 해소되면 더 많은 분야에서 활용 할 수 있을 듯 합니다.





출처 : @ye._.vely618

금요일, 12월 01, 2023

이제 우리 cfDNA를 활용해 보아요 (feat. 머신러닝)


Genome-wide cell-free DNA fragmentation in patients with cancer


"내 혈관 속 DNA가 말해줘"라는 BTS의 DNA의 가사 처럼 우리 혈관 속에는 우리 상태를 알게 해주는 마커로 사용할 수 있는 cfDNA가 있습죠

오늘은 2019년 발표된 "Genome-wide cell-free DNA fragmentation in patients with cancer"라는 논문을 가져와봤습니다.

DOI: 10.1038/s41586-019-1272-6

이 논문은 암환자의 혈액 내 cfDNA를 측정하여 암 진단은 당연하고, 어떤 암종인지, 조기 발견 및 모니터링을 위한 초석을 놓은... 물론 그전에 다른 논문에서 이미 초석을 다진 논문도 있을것 같긴하지만, 어찌됐든 모 괜찮은 논문이라고 생각합니다. :)


그래서 7종의 암환자 200여명과 건강한 (aka 암환자가 아닌) 건강한 사람의 cfDNA을 분석해서 이리저리 굴려보고 돌려보고 해서(결국 머신러닝 아니겠습니까) 암종간 cfDNA의 profile의 변화를 머신러닝을 통해 모델을 만들었고, cfDNA profile 모델과 함께 cfDNA상에 존재하는 변이를 활용하면 더 나은 결과를 보여줬다고 하네요


cfDNA는 원래 혈액속에 있는 암에 걸리면 (무조건은 아니지만) cfDNA의 양이 증가하게 됩니다. 원래 혈액속에 떠다니는 cfDNA가 만들어지는 source외에 암세포가 혈액에 추가로 cfDNA가 더 공급하는 꼴이 되기때문이죠.

cfDNA 중 암세포에서 나온 cfDNA인 ctDNA?만 따로 선별하는 방법으로 접근하기도합니다. 개인적으로는 cfDNA에서 ctDNA를 찾겠다 보다는  cfDNA를 더 잘 characterization 하는게 나을듯한데... cfDNA를 characterization하면 ctDNA를 더 잘 구별할 수 있게 되는건가? 여튼..

아.. 그래서 제가 블로그에 가끔씩 얘기했던 NIPT를 하다가 산모의 암도 찾아냈다고 하는 얘기가 있었기도 했습니다.

오늘은 cfDNA와 머신러닝 방법을 이용해서 암진단 및 암종 구분을 하는 논문에 대해서 잠깐 얘기해보았는데, 분야를 막론하고 머신러닝 모델을 개발할것 까지는 아니지만 활용을 잘 할 수 는 있어야 한다는 느낌은 항상 받는것 같습니다.


23년 12월의 첫날, 아내느님의 탄생일 기념으로 포스팅을 해보았습니다.




출처 : @candyz_hyojung


수요일, 11월 22, 2023

어떤 시퀀서가 NIPT를 잘 할까

간만에 NIPT 논문을 들고 와봤습니다.

어떤 시퀀서가 NIPT에 더 적합한가 알아보자 되겠습니다.

2019년에 출판된 논문으로 "Prospective head-to-head comparison of accuracy of two sequencing platforms for screening for fetal aneuploidy by cell-free DNA: the PEGASUS study" 이고, 

doi는 https://doi.org/10.1038/s41431-019-0443-0 입니다.

위에서 언급했다 싶이 시퀀싱 기기별 NIPT의 임상적 성능을 비교한 내용으로 T13/18/21 그리고 Monosomy X 검사에 대해서 테스트를 진행했다고 합니다.

그리고 비교한 시퀀싱 기기는 시퀀싱 시장의 대장인 illumina의 HiSeq와 Thermo의 Proton이라고 하네요.

결과적으로는 둘다 정확도는 99%이상이었으나 미세하게 차이가 결과에 차이가 있었다고합니다. 

민감도와 위양성률 모두 HiSeq 성능이 우수했고, 시퀀싱 처리시간에서는 Proton이 짧은 처리 시간을 자랑한다고 합니다.


표면적으로 보면 일루미나의 HiSeq이 Thermo의 Proton보다 우수하다고 결정 내릴 수 있으나 사실 꼭 그렇지는 않을듯합니다. 실험 디자인에서 서술되어 있는 내용을 보면 cell-free DNA 추출 후 두개로 나누어 각각 기기에서 실험을 한건 같아 보이지 않아서 입니다. 

혈액 채취 후 각각의 실험실에 보내어 각 실험실에서 자체 프로토콜로 진행하지 않았나 싶습니다. 그래서 정확하게는 실험실간의 성능 비교이지 않나 싶습니다.

NIPT에서는 cell-free DNA내 태아의 cell-free DNA 양이 굉장히 중요하기 때문에 실험을 하는 사람의 숙련도나 방법에 따라 분석을 할 수 없기도 해서..

여튼 그래도 중국에서 진행했던 (대략 1만여건 정도..) 대규모 연구 이후로 꽤 큰 샘플 개수이고 보통 단일 플랫폼으로 테스트를 진행하는데 서로 다른 기술 기반의 플랫폼(광학과 수소이온)에서 테스트를 하여 플랫폼 간 우위에 대한 내용은 얘기하기 어렵지만, 어찌 됐던 cell-free DNA 기반의 선별 검사는 효과적인 방법이라는 것을 다시 한번 확인하는 연구이지 않았나 싶네요

결론은 illumina던 Thermo던 압도적 우위에 있는 플랫폼은 없으니 각자 application과 상황에 맞는 플랫폼과 방법을 선택해서 하는 것이 중요하다. 정도? 이지 않나 싶네요 :)


아.. 연구 이름인 PEGASUS는 "PErsonalized Genomics for prenatal Aneuploidy Screening USing maternal blood"의 약자라고 합니다. PEGASUS 홈페이지도 있습니다.




출처: @ye._.vely618


일요일, 11월 19, 2023

NGS을 임상에 사용하기 위한, 5년의 시간

최근에 임상실험실에서 NGS 서비스를 시작한다고 하는 내용들의 뉴스..
를 신기하게 보시는 분들도 물론 있으실겁니다.

그러나 전공자나 업계에 몸 담고 있는 분들에게는 그리 신기하지 않은.. "아.. 어디 임상실험실에서 NGS 서비스를 하는구나" 정도로.. 어느 실험실에서 NGS로 검사를 해준다라고.. 정도의 수준일겁니다.


하지만 10년전만해도 NGS가 무슨 임상실험실에서 검사 서비스로 가당키나 한 분석 방법이냐고 하시는 분들이 대다수였을 때에 5여년동안 데이터를 쌓아서 NGS 플랫폼의 타당성을 입증한 논문이 있어 한번 가져와봤습니다.

Next generation sequencing for clinical diagnostics: Five year experience of an academic laboratory

DOI: 10.1016/j.ymgmr.2019.100464

태평양 건너 있는 미국 미네소타 대학교의 임상 실험실에서 2012년부터 2017년 동안, 자그마치 5년동안 NGS로 임상 진단 검사를 실시했던 데이터를 차곡 차곡 잘 수집/축적하여 공개한 내용으로 

2012년 8월부터 2014년 3월 까지는 568 유전자 영역의 SureSelect 패널을,

2014년 4월 부터 2017년 9월 까지는 일루미나의 TruSightOne 패널을,

2017년 10월부터 2017년 12월 까지는 TruSightOne 확장 패널을 사용하여

각각 349개, 2058개, 102개 검체, 모두 2059건의 검사를 실시했다고 하네요

전반적으로 25% 진단율을 유지하였다고 하고, 불확실한 의미 변이인 VUS 수가 2012년도에는 75%정도였는데 2017년도에서는 50%정도로 감소되었다고 합니다. 사실 지금 다시 하면 25%정도로 더 감소되어있지 않을까 하는 생각도 드네요. 

그리고 다양한 질병들에 대해서 진단을 하였는데 질병마다 진단율의 차이를 보였고, 피부병이나 청력손실, 안과질환 같은 경우에는 진단율이 40% 이상의 높은 진단율이, 소화기나 호흡기 질환의 진단율은 10%로 낮았다고 하는데 사실 이건 유전적 원인과 관계가 있냐없냐가 더 중요한 요인으로 보이네요.

결과적으로 이 연구 결과, 5년동안 2천개 넘는 검체를 검사해봤는데 NGS가 임상진단에 사용할 수 있는 유용성을 입증하였다고 생각되고, NGS가 임상 진단 부문에서 사용 할 수 있는 가시적은 근거자료로 활용되어 병원관리자들이 NGS 인프라에 투가하도록 설득 할 수 있는 자료로 사용 할 수 있다고... ??

그거까지는 난 모르겠고, 이전의 많은 연구진들의 연구 결과로 말미암아 이제는 NGS 검사가 우리 생활에 생각보다 많이 사용되고 있다는 것은 맞는 얘기인것 같습니다.

이전에 연구진들의 노고가 아니었다면 아직도 연구수준에서 벗어나지 못했을것 같습니다.

가끔 이런 논문들을  한번 들춰보는것도 나쁘지는 않아서 한번씩 꺼내볼 생각입니다.




출처: @ye._.vely618