Lee Gir Won: Illumina

레이블이 Illumina인 게시물을 표시합니다. 모든 게시물 표시

금요일, 1월 19, 2024

그렇다면 일루미나는 문제가 없을까?

이전 포스팅에서는 Ion torrent 데이터에 대해서 알아보았으니 이번에는 일루미나 데이터는 과연 괜찮은지 한번 알아보도록 하겠습니다.

그건 그렇고 이전 포스팅하고 꽤 오랜만에 하네요;;

Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform의 제목으로 amplicon 패널을 사용하여 일루미나 시퀀서의 편향과 에러에 대해서 한번 확인해봤다고 합니다.

DOI: https://doi.org/10.1093/nar/gku1341

이번에도 AI(Bing의 copilot입니다.)의 도움을 한번 받아보았습니다!!!

프롬프트

The following URL is a paper confirming the biases and errors of the Illumina MiSeq sequencer using the Amplicon panel, and the title is "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform."

https://doi.org/10.1093/nar/gku1341

I am planning to organize and post the contents of this paper on my blog. Please summarize the problems that may arise when using the Amplicon method using Illumina MiSeq. It is said that the data used in the paper was 16S rRNA data. If there was an error, please explain how you corrected the error and what method you used. Also, if there is an error in the data, please explain how to efficiently handle it. Please write the draft to be posted on the blog in Korean.

안녕하세요. 오늘은 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문을 소개하고자 합니다. 논문의 제목은 "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform"이고, 다음 URL에서 확인하실 수 있습니다.

https://doi.org/10.1093/nar/gku1341

이 논문에서는 16S rRNA 데이터를 사용하여 앰플리콘 방법을 이용한 시퀀싱의 문제점을 분석하였습니다. 앰플리콘 방법은 특정 DNA 영역을 증폭하여 시퀀싱하는 방법으로, 다양한 생물학적 응용에 사용됩니다. 그러나 이 방법에는 여러 가지 편향과 오류가 발생할 수 있습니다. 예를 들어, 증폭 과정에서 PCR 편향이나 증폭 돌연변이가 발생할 수 있고, 시퀀싱 과정에서는 인덱스 점프나 인덱스 오염, 품질 저하 등의 문제가 있을 수 있습니다.

이러한 편향과 오류는 시퀀싱 결과의 정확도와 신뢰도에 영향을 미칠 수 있으므로, 적절한 보정과 검증이 필요합니다. 이 논문에서는 일루미나 MiSeq 플랫폼을 사용하여 앰플리콘 시퀀싱을 수행한 데이터를 분석하고, 편향과 오류의 원인과 영향을 평가하였습니다. 또한, 편향과 오류를 줄이기 위한 몇 가지 방법을 제안하였습니다.

논문에서 사용한 데이터는 16S rRNA 데이터로, 박테리아의 다양성과 상대적 농도를 파악하기 위해 널리 사용되는 마커 유전자입니다. 16S rRNA 데이터는 앰플리콘 방법으로 쉽게 증폭할 수 있지만, 동시에 여러 가지 편향과 오류에 노출될 수 있습니다. 예를 들어, 16S rRNA 유전자는 다른 박테리아 간에 유사도가 높기 때문에, 인덱스 점프나 인덱스 오염이 발생하면 잘못된 분류가 될 수 있습니다. 또한, 16S rRNA 유전자는 GC 함량이 다양하기 때문에, PCR 편향이나 증폭 돌연변이가 발생하면 잘못된 상대적 농도가 산출될 수 있습니다.

논문에서는 이러한 편향과 오류를 검출하고 보정하기 위해 여러 가지 방법을 사용하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염을 줄이기 위해, 인덱스 디자인을 최적화하고, 인덱스 프라이머를 제거하는 단계를 추가하였습니다. 또한, PCR 편향이나 증폭 돌연변이를 줄이기 위해, PCR 사이클 수를 최소화하고, 증폭 조건을 표준화하였습니다. 그리고, 시퀀싱 품질을 향상시키기 위해, 품질 저하가 발생하는 시퀀싱 끝부분을 잘라내고, 품질 점수를 기준으로 필터링하였습니다.

이렇게 보정된 데이터를 사용하여, 박테리아의 다양성과 상대적 농도를 분석하였습니다. 그 결과, 보정 전과 후의 데이터에서는 박테리아의 종류와 비율에 차이가 있음을 확인하였습니다. 이는 앰플리콘 시퀀싱에 발생하는 편향과 오류가 데이터 해석에 영향을 미칠 수 있음을 보여줍니다. 따라서, 앰플리콘 시퀀싱을 수행할 때는 편향과 오류를 최소화하고, 보정하고, 검증하는 과정이 필수적임을 강조하고자 합니다.

이 논문에서는 편향과 오류를 줄이기 위한 방법 외에도, 발생한 편향과 오류를 해결하기 위한 방법도 제시하였습니다. 예를 들어, 인덱스 점프나 인덱스 오염이 발생한 경우에는, 인덱스 정보를 이용하여 잘못된 분류를 수정하는 방법이 있습니다. 또한, PCR 편향이나 증폭 돌연변이가 발생한 경우에는, GC 보정이나 돌연변이 보정을 수행하는 방법이 있습니다. 이러한 방법들은 데이터의 정확도와 신뢰도를 더욱 높일 수 있습니다.

이상으로, 일루미나 MiSeq 시퀀서를 사용하여 앰플리콘 패널을 이용한 시퀀싱에 대한 편향과 오류를 확인하는 논문에 대해 소개하였습니다. 앰플리콘 시퀀싱은 매우 유용한 방법이지만, 동시에 주의가 필요한 방법이기도 합니다. 앰플리콘 시퀀싱을 수행하시는 분들께서는 이 논문을 참고하여, 데이터의 정확도와 신뢰도를 높이시기 바랍니다. 감사합니다.

라고 합니다.

좀 같은 말 늘려서 빙빙 돌려막는 느낌이 좀 들긴하지만....

그래도 짧지 않은 글을 작성해주니깐 좋은것 같습니다. :)

출처: @ye._.vely618

월요일, 2월 06, 2023

우리들의 Nanopore는 결핵균을 잘 시퀀싱하여 세계 공중 보건에 기여할 수 있을까?

Evaluation of Nanopore sequencing for Mycobacterium tuberculosis drug susceptibility testing and outbreak investigation: a genomic analysis

https://doi.org/10.1016/S2666-5247(22)00301-9

그래서 한번 알아 보았습니다.

일루미나 일색인 시퀀싱 시장에 신성처럼 찾아온 (찾아왔지 떨어지지 않았습니다.) long-read sequencing의 이단아 ONT을 사용한 결핵균의 drug susceptibility testing (DST) 결과가 기존 일루미나 결과에 비해 부족하지 않고, 동등한 결과와 정보를 제공해 줄 수 있는지 확인해 보았습니다.

영국, 남아프리카등의 샘플을 MiSeq, HiSeq, NextSeq, MinION, GridION, PacBio 기기를 사용하여 시퀀싱 진행하였습니다. 물론 개별 시퀀서마다 동일한 샘플을 시퀀싱한 것은 아니고 영국샘플은 MiSeq, GridION에서, 남아프리카나 마다가스카르 샘플은 HiSeq, NextSeq, MinION에서 진행하였으나, 전체적으로 short와 long read 시퀀서간에 비교 할 수 있도록 디자인은 되었습니다.

일루미나는 UK에서 사용하는 COMPASS를 사용해서, Nanopore는 BCFtools를 사용하여 변이를 확인하였습니다.

그래서 일루미나와 Nanopore의 변이 결과를 확인해보니(본문의 figure1을 참고) 재현율이 다소 떨어지는 경향을 확인 할 수 있었습니다.

Nanopore는 정밀도: 99.3%, 재현율: 90.2%

일루미나는 정밀도: 99.6%, 재현율: 91.9%

그리고 151개의 isolate(시퀀싱한 isolate는 208개이나 일루미나와 Nanopore를 동시에 비교 할 수 있는 데이터는 151개 였음)에서 66,537개의 저항성 변이가 call되었는데 일루미나와 Nanopore간에 4개의 차이밖에 보이지 않았다고 합니다. (이정도면 거의 동일한 수준 아닌가?)

그래서 결론은 우리 모두 예상하듯이 Nanopore 데이터로도 정밀한 변이 call이 가능함을 확인하였고, 그 결과 또한 일루미나와 동등한 수준이므로, 깨작 깨작 하지 말고 Nanopore를 이용해서 MTB 전체 서열을 한번에 분석해서 결과를 주면 좋지 않을까 기대하고 싶다. 되지 안하을까합니다.

본 저자는 ONT.L 주식을 (아직) 보유하고 있지 않습니다.

출처: @candyz_hyojung

일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)

오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한 BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -

3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )

Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.

Sequencing Samples	Bases(Gbp)	Read(x10⁶)	Clean rare	>Q20	>Q30	GC	Mean coverage
BGISEQ500-WES	29.41	294.3	0.41%	96.72%	89.14%	49.75%	328.49X
MGISEQ2000-WES	16.34	163.55	0.25%	98.18%	92.08%	49.71%	129.40X
HiSeq4000-WES	41.93	283.7	4.46%	97.36%	93.01%	50.63%	395.17X
NovaSeq-WES	25.88	178.87	2.25%	95.33%	92.67%	49.73%	241.52X
BGISEQ500-WGS	126.86	1270.02	1.76%	93.73%	83.33%	41.76%	41.03X
MGISEQ2000-WGS	137.36	1374.87	0.21%	96.17%	88.19%	41.76%	45.13X
HiSeq4000-WGS	191	1276.1	8.25%	95.90%	90.11%	41.69%	58.00X
NovaSeq-WGS	98.3	657.45	1.28%	95.89%	93.86%	41.61%	28.96X
HiSeq Xten-WGS	134	894.58	7.29%	94.50%	87.63%	40.71%	38.93X

Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ... :)

출처: @sana_twice.09

토요일, 9월 07, 2019

Nextera DNA Flex는 모지?

이번글은 그냥 둘러보다가 알게된

일루미나에서 새로 나온듯한 Library Kit에 대해서 한번 알아보겠습니다.

모 나온지는 1-2년된듯한 라이브러리 Kit같습니다.

일루미나 라이브러리에 TruSeq이라는 라이브러리 킷외에 Nextera라는 라이브러리 킷이 하나더 있었다는건 나 좀 시퀀싱 읆어봤다 하시는 분이라면 다 알고 계실겁니다.

Nextera가 TruSeq과의 큰 차이점이라고 한다면 fragmentation과 tagging이 Transposome이라는 짜르고 붙이는 기능이 포함되어 있는 효소를 가지고 한다는 점일 겁니다.

지금까지 제가 알고 있었던 Transposome이 라는 녀석이 하단의 fig 2. 처럼 작동해서 fragmentation의 size가 broad하다는 것으로 알고 있었는데...

출처: Nextera DNA Library Prep Kits Data Sheet

그런데 최근 Nextera Library Kit에다가 재미있는 방법을 결합시켜서 이전보다 fragmentation과 tagging 작업을 더 효율적으로 바꾼것 같아보이네요

Bead-linked Transposome 바로 BLT 되겠습니다.

맛있겠다. 출처: 맥도널드 홈페이지

이게진짜 BLT 출처: 일루미나 홈페이지

Bead에 Transposome 를 붙여놓고 거기다가 DNA를 넣어서 슥하고 자르고
삭하고 PCR primer를 붙여버린다는...
물론 transposome의 단점은 그대로 가지고는 있다능
fragment size가 일정하지 않은데, 그리고 추가적으로 양쪽에 PCR primer가 각각 있어야되는데 그렇지 않은 애들은?
(그럼에도 불구하고 팔아먹고는 있네요.. ㅎㅎ )

그래도 이전 방법보다는 fragment size가 조금더 일정하게 나오지 않을까하는
그리고 사람 손은 한번은 덜 타니깐 조금은 나은 방법으로 발전하는게 아닌가 하고 생각은 드네요 ㅎㅎ

출처: @sana_twice.09

수요일, 1월 15, 2014

NGS 물량공세 플랫폼 오픈

오늘 페북에 내 스팸 메일 제외하고
가장 핫한 이슈는 일루미나가 새로운 NGS기계를 내놓았고
그걸 마크로젠이 냉큼 구매했다는 이야기...

>Illumina Sequencing System Spec<

물량으로는 일루미나는 때려잡아도 못잡을듯..
결과가 TB단위가 나올줄이야... ㅋㅋ

그리고 HiSeq X Ten 이름에 있는 것과 같이
HiSeq X를 사려면 10대라는 최소 주문 수량을 만족해야 한다는...
"우리 일루미나 고객님들은 쪼잔하지 않아요"가 2014년도 일루미나 슬로건인가? ㅎㅎ

일년에 한두번씩 휴양지에서 세미나 개최해서 초정도 해주고 그런것 같다만...
이게 무슨 청첩장도 아니고 최소 주문 수량을...;;;; ㅎㅎ

여하튼...
일루미나 덕분에
Open the real hell gate... ㅋㅋ

목요일, 9월 27, 2012

그렇게 좋은 PacBio에 손이 안가는 이유...

"진정 우리꺼는 여러분들에게 좋으면 좋지
해를 안끼친다는.... "

- PacBio 본사 시니어 연구원느님의 발표

그렇게해도 PacBio는 정이 안간다는 ㅎㅎ

Illumima/ Life Tech.는 "우리거 좋아, 한번 써봐" (라는 우리꺼 안쓰면 니네 좀 후회할껄?)라는 느낌이라면,

PacBio는 "이번 논문에도 나왔듯이 우리꺼쓰면 울트라 캡숑 짱 따봉 좋아요 한번 써보세요" (라는 느낌?)

점심먹으면서 K군과 담소를 나누면서
Microorganism/ Meta genome 분야에서는 454에 비해 확실히 경쟁력이 있는데
(미국에서 1K Fungal genome project에서 PacBio를 사용하고 있다고 합니다.)
그외에는 과연 얼마나 경쟁력이 있는지... 잘 모르겠다는.... ㅎㅎㅎㅎ

그리고 제일 중요한건,

개인적으로 PacBio를 선듯 사용하지 못하는 이유는
비용문제에 대해서 확실한 해결책을 제시하지 못하고 있다는것도 큰 문제인듯..

PacBio를 가장 괴롭히는 것이 Error ratio문제인데
어차피 random error니깐 depth가 많으면 된다는 점~

다만, 다른 시퀀서의 QV를 맞추기위해 그 depth만큼
시퀀싱을 하면 비용 증가로 이어진다는것.

지구상에 재료비에 제한을 두지 않고 풍족하게 사용가능한 랩을 제외하고
사용 가능한 QV에 맞는 depth만큼 시퀀싱할 랩 아니면 ㅎㄷㄷㄷ

모 어차피 시퀀싱 업체에 맡기면 되니깐~ :)

ps. 약간의 글 수정이 있었습니다.
ㄴㅈㅊ에 다니는 지인의 염려가 있어 약간 수정을 하였습니다.
기술적인 부분이 아닌 현실적인 문제인 비용문제에 대해서 언급했으니
모 문제가 있겠냐마는.. ㅎㅎㅎㅎ

월요일, 9월 10, 2012

Illumina Adapter Sequence

Illumina Sequencing에서 사용되는
Adapter중 TruSeq (분석할때 받는 데이터들이 다 요녀석으로 되어 있어서...) DNA/RNA Adapter Sequence를 확인해서 확인해봤습니다. ㅎㅎ

Type	Sequence
TruSeq Universal Adapter	AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT
TruSeq Adapter, Index 1	GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCACGATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 2	GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGATGTATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 3	GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTAGGCATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 4	GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGACCAATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 5	GATCGGAAGAGCACACGTCTGAACTCCAGTCACACAGTGATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 6	GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCCAATATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 7	GATCGGAAGAGCACACGTCTGAACTCCAGTCACCAGATCATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 8	GATCGGAAGAGCACACGTCTGAACTCCAGTCACACTTGAATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 9	GATCGGAAGAGCACACGTCTGAACTCCAGTCACGATCAGATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 10	GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAGCTTATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 11	GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGCTACATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 12	GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTTGTAATCTCGTATGCCGTCTTCTGCTTG

나중에 급할때 찾기 좀 애매해서...
요기다가 급 정리 ㅎㅎ

데이터 받았는데 TruSeq DNA/RNA Adapter인데 Index 12번보다 큰 경우
TruSeq Small RNA Index를 사용하는 것이라고 하네요
기본적인 Adapter sequence는 TruSeq DNA/RNA 인데 Index만 TruSeq Small RNA..
모 그렇다고 합니다. :)

좀더 자세한 Illumina Adapter Sequence에 대해서 알고 싶다면
다음 링크 참조 LINK