토요일, 12월 14, 2019

qiime2 -시작하기1-

qiime을 한번 실행시켜 봤습니다.

저는 완벽한 ubuntu 시스템이 아닌 윈도우에서 지원하는 linux subsystem에서 ubuntu 18.04 LTS를 설치해서 사용하고 있습니다.

그래서 약간 이글을 보시는 분들과 환경이 다소 차이가 날 수 있는걸 감안하시고 봐주시기 바랍니다. :)
-근데 지금까지 크게 차이 안나는거 같습니다. ㅎㅎ 소스 컴파일을 빡시게 해봐야 좀 차이가 나는걸 느낄수도...

WSL의 ubuntu를 시작하면 걍 shell창이 뜹니다.

그러면 qiime2를 원할하게 사용하기 위해서
conda env를 활성화 시켜보겠습니다. (물론 꼭 conda를 활성화해서 안해도 사용 가능핧!!..)

$conda activate qiime2-2019.10
하면 다음과 같이 conda env환경이 활성화 됩니다.
(qiime2-2019.10)$

다음과 같이 qiime 명령어를 실행시켜주면
(qiime2-2019.10)$qiime






















사용가능한 명령어들을 표시됩니다.
사용 방법은 모 알고 있다 싶이 qiime뒤에 명령어 입력해서 엔터치시면
(qiime2-2019.10)$qiime [command]

또 각 명령어에서 사용 가능한 sub command들을 볼 수 있습니다.

이제 qiime2를 본격적으로 사용하시기 전에 qiime glossary를 잘 일독하시고 사용하시면되겠습니다.

튜토리얼 페이지 상단에 이렇게 적혀있습니다.
Abandon all hope, ye who enter. If you have not read the glossary.
(신곡을... ㅋㅋ 센스가..) 꼭 읽으십시요!!

여튼.. 저는 glossary없이 qiime2를 접했을 때 첫 관문이 artifact, artifact를 이런 의미로  사용할 줄이야.. artifact는 원래 제거 대상아니었나요 Orz

qiime1으로 파이프라인 셋업해본 분이시라면 이건 모 신세계 아니겠습니까!!
일목요연한 명령어 리스트를 명령어 하나로 볼 수 있다니.. 아놔

그럼 다음에 또 명령어 몇개 실행해보고 다시 와보겠습니다. :)


출처: @sana_twice.09

※ 짧게라도 정리해서 일주일에 한개는 포스팅 할 줄 알았는데 이거 모 보름에 하나 겨우겨우 하네요.. ㅋ 정신을 가다듬을 정신이 없어서... 일단 되는대로 한번 업데이트 하는걸로...

일요일, 12월 01, 2019

qiime2 설치편

지난번 qiime2 파헤치기에 이어
이번에는 설치편!!
WSL을 이용하여 우분투 18.04 LTS에 설치하는것처럼 흉내를 내보겠습니다.

윈도우 10에서 WSL을 활성화시키고 Ubuntu를 설치하면 되겠습니다.
자세한 내용은 >여기< 를 참고해주시면 될것 같습니다.
(저도 이분의 블로그를 보고 WSL 셋팅하고 ubuntu 설치했습니다. :) )

위에서 우분투 설치후 apt-get update와 build-essential같은 패키지 설치해 주시면 다음 작업에 크게 문제가 생길일은 없으니 설치하라고 하시는거 다 설치해주시면됩니다만 생정보도구중에 특이하게 요구하는 패키지를 사용하는 프로그램 쓰시는 분이라면 알아서 하실만하리라고 봅니다. :)

여튼 ubuntu 업데이트까지 되고 나면

qiime2를 설치하기 위해 conda를 설치하시면됩니다.

conda는 miniconda2를 사용하였고 자세한 설치 화면은
>여기< 를 참고하시면되겠습니다.

$wget https://repo.anaconda.com/miniconda/Miniconda2-latest-Linux-x86_64.sh
$sh Miniconda2-latest-Linux-x86_64.sh

miniconda2를 설치한 이후에는 qiime2의 설치 안내 페이지에 나와 있는대로
진행해주시면됩니다. 자세한 내용은 >여< 에 나와있습니다.

$conda update conda
$conda install wget
$wget https://data.qiime2.org/distro/core/qiime2-2019.10-py36-linux-conda.yml
$conda env create -n qiime2-2019.10 --file qiime2-2019.10-py36-linux-conda.yml

conda에 설치된 qiime2를 사용하려면 qiime2가 설치된 conda환경인 qiime2-2019.10을 활성화 시켜주면됩니다.
$conda activate qiime2-2019.10

활성화된 환경을 비활성화 하려면 다음과 같이..
$conda deactivate

일단 설치는 했습니다.

다음에 사용해보아요~ :) 제발~


출처: @sana_twice.09

토요일, 11월 30, 2019

Windows Subsystem Linux 입문

?? 윈도우용 리눅스 하위 시스템 설명서가 아니라
Linux용 Windows 하위 시스템 설명서라고?

번역이 다른건지 문화가 다른건지 그건 중요한게 아니고
윈도우에서 cygwin도 아니고 버추얼박스도 아닌데 리눅스 명령어를 그것도 우분투를 사용할 수 있다고?
이런 말도 안되는 일이 이미 꽤 예전부터 사용되고 있었는데
저는 이번달에 되서야 알았고..

별도 서버를 접속해야 테스트를 할 수 있었던걸..
이젠 손쉽게 할 수 있게 되었습니다.

윈도우10에서 ubuntu에 접속했습니다! (아... 전 이 화면을 좋아합니다.)

역시 Dell 사용자로 정품 윈도우를 사용하니 좋은 날이 있군요
모 어둠의 경로로 해서 사용해도 가능은 할거 같은데..

WSL도 WSL1과 2로 나눠지는거 같은데...
일단 우분투 설치도 간편하게 잘 했고
이것저것 설치 또한 간편하게 다운받아서 했고
전혀 시스템에 별도로 오버헤드 걸리는것 없이 자연스럽게 작업을 하고 있습니다.

다만 일정 작업을 하면 자원을 완벽히 공유하고 있어서
순간 빡센 작업을 시키면 서류작업같은거 전혀 안되는게 단점입니다. ㅎㅎ


그래서 조만간 지난번에 진행하지 못했던 qiime2 설치편을 이어서....



출처: @sana_twice.09

일요일, 11월 17, 2019

엄마한테서 니가 왜 나와

중국에서 비 침습성 산전 검사(NIPT)를 활용해서 흥미진진한 연구를 진행해서 2018년도에 투고한 논문을 한번 훑어봤습니다.

Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations, Patterns of Viral Infections, and Chinese Population History
>논문은 여기로<


NGS시대에 유전학연구를 할 때 가장 문제되는게 표본 크기가 제일 문제되고 있죠, 시퀀싱을 하자니 기본적인 depth가 필요한데 적절한 depth로 하자니 비용때문에 표본 크기를 줄여야 되고.. 표본 크기를 줄이자니 그정도 시퀀싱해서 얻어진 결과가 잘 될까?

그래서 중국 연구진(물론 미국과 덴마크 연구진도 합세했습니다.)이 NIPT 데이터를 이용해서 유전체 연구를 진행해 보았답니다.

NIPT는 shallow sequencing의 대명사죠, 그럼에도 불구하고 전세계적으로 스크리닝방법으로 정착을해서 현재도 굳이 침습적 산전진단을 받지 않아도 되는 산모들에게 대안이 되어 주고 있습니다.
(오늘은 NIPT 성능과 위음성과 같은 것은 논외로 하겠습니다.)

산모들의 NIPT 데이터를 사용해서 유전학 연구를?
이게 될까? 저도 될줄은 몰랐는데 이분들 일단 했으니 논문이 나왔겠죠..

대한민국에도 엄청 많은 NIPT 데이터가 쌓여 있을텐데.. 한번 해봐도 나쁘지않을 것 같습니다. (물론 동의서가... ㄷㄷㄷ )

결론적으로 슬쩍 읽는 NIPT 가지고 거기다가 두명혹은 그 이상의 정보가 섞여 있는데 그거가지고 모 뭐할꺼야? 라고 하신다면 큰 오산!
슬쩍 읽는가지고도 집단유전학, Association mapping study 그리고 (아놔 이거 모야?인데 진짜 나온다는.. ㅋㅋ ) 인간 혈장내 바이러스 연구를 할 수 있다고 합니다.

일단 NIPT로 얻어진 allele 정보가.. 진짜 쓸만한가 알아보았슴다.
NIPT 데이터(CMDB)에서 call된 SNP들이 기존의 1KG CHN,EAS 및 전체에서 얼마나 확인되었는지, CMDB에서 novel variant들이 있는지 확인했고
non-reference allele freq를 가지고 1K genome의 CHN allele과 CMDB의 allele를 비교해보았습니다.

물론 Novel은 적게, gnomAD, 1KG 데이터와 많이 공유하고, 상관관계는 높습니다.


변이에 대한 결과를 확인 했으니 이제 중국의 유전학 썰을 한번 풀어보는걸로..
분석에 걸림돌이 되는 오류같은것들은 적절히 제외해주고 한족에 대해서 한번 확인해봤습니다.



31개 행정구역의 4만5천명 한족이라고 확인된 샘플들을 PCA분석을 해보 았는데 위도에 따라 차이가 많이 보였습니다(이 결과는 이전 연구 결과와 동일한.., 동서에 의한 차이는 별로.. ,논문내에서는 이주정책에 의해 설명되는것 같다고 하는데 정확히 무슨 말인지는.. 1996년 논문을 봐야할듯 하네요. ). 그러나 그 외 소수민족에서는 걍 경도, 위도 상관없이 다 차이가 있었다고 하네요. 그래야 소수민족이지 않을까하는 생각이기도 합니다.
가장 차이가 나는 집단은 신장지방의 Kazakh, Uyghur, 내몽골 지역의 Mongol이었습니다.
(일단 언어가 다르다고 하네요)

그리고 키와 BMI와 같은 Multiple Complex Traits의 Phenotype - Genotype Association을 확인해봤슴다.
지금까지 연구된것들과 비슷한 SNP들이 확인되었고 CBK, GIANT, UK BioBank 대규모 set들과 비교해봤을 때도 크게 다른 값을 보이지 않았습니다. 그리고 NIPT라는 특별한 샘플이라는 점을 고안하여 쌍태아와 관련된것도 한번 확인해 보았답니다.
(산모 연령에 대한 것도 확인했다고 했는데... 이건 유전적이라기 보다는... 사회학적인 부분이지 않을까했는데.. 모 연관성이 높은 SNP를 찾긴 찾았는데 저는 패스 하도록 하겠습니다.)
중국의 NIPT 샘플중 470여명의 쌍둥이들이 있었는데(초음파로 확인) NRG1의 rs12056727d이 꽤나 흥미로운 좌위로 확인되었습니다. 이 SNP는 UK BioBank에서 갑상선 항진증과 관련이 있는것으로 확인되었습니다. 그리고 갑산성 기능은 불임과 관련이 있습니다. NRG1유전자에 대한 내용은 일단 넘어가더라도 쌍둥이를 임신한 산모는 갑상선 자극 호르몬 수준이 낮아지는 경향이 있습니다.


그리고 오늘 포스팅 제목에 부합하는 내용인, 산모 혈장에서 보이는 circulating viral DNA!
왜왜왜 나오냐고

일단 NIPT에서 수행된 시퀀싱 결과에서 human에 mapping되지 않는 read들을 따로 모아서 NCBI 바이러스 DB에 확인해봤고 그 결과를 Figure5의 A,B에 정리했습니다. 그렇지만 우리가 잘못 분류하거나 샘플이 오염 되었을 수도 있기에 검토하였다. 대부분은 특정 지역에 국한되었고, 이미 인체내 genome에 내재화 되어 있는 HCV서열이 있는것을 확인했지만... 그 대상 숫자가.. 고작 3명..

근데 중국에서만 그런건 아니고 유럽쪽 연구에서도 바이러스가 나왔었다능
-물론 바이러스 종류가 좀 다른 것으로보입니다.
실험 디자인이 달라서 그런것인지 진짜 지리적으로 차이가 있는것인지 모 좀더 확인해봐야 하겠지만... 크.. 인구도 많고 땅덩어리도 작지 않은 중국 아니겠습니까.
HBV관련해서 민감도도 계산했고 지리적 분포를 확인해서 지리적으로 확인되는 바이러스 종류들이 다르다는 것을 확인했습니다.




그래서 NIPT 데이터를 잘 활용한다면 공중보건에도 꽤나 유용할것 같다는게
저자들의 논지였고 현재 NIPT 서비스를 하고 있는(그러나... 내년에도 하고 있을거라는 보장은... 어느 이유로든지 밝지 않은) 본인에게도 걍 헛소리로 보이지는 않고 진짜 유용할것같다능...

ps. 근데 일주일에 논문하나 읽기가 이렇게 어려웠나;;;




출처: @sana_twice.09

일요일, 11월 10, 2019

저쪽집이 좋지만 우리집도 잘해요, 시퀀싱

가능하면 일주일에 하나씩은 업데이트 하려고 했는데 여윽시..
그건 어려운것 같네요 ㅎㅎ
그래도 되는대로 논문읽고 일주일에 한번씩 업데이트 하는걸로 :)


오늘은 금년 6월달에 남중국과학대학에서 Scientific reports에 투고한 논문 되겠습니다.

제목은 Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers >여기를 방문하세요<

현존하는 1빠 시퀀서대비 가격도 저렴 시약도 저렴한  BGISEQ과 MGISEQ 성능 비교 테스트인데 결론은 왜 Strelka2가 적절한 분석 파이프라인으로 권장한다인지..

-일단 BGISEQ과 MGISEQ의 라이브러리 제작 및 시퀀서 방식을 뒤로하고 성능만 봅니다.
덤으로 Tianhe-2라는 슈퍼컴퓨터 자랑도 -


3개 콜러(GATK4, Strelka2, Samtools-Varscan2)를 가지고 WES, WGS를 비교해보니 WES데이터는 시퀀서 및 콜러별로 높은 일치성을 보이는 반면 WGS는 그러지 못했습니다(니들도 WGS가 WES처럼 높은 일치성을 보일거라고 생각안했잖아ㅋㅋ 어디서 약을.. 그래도 논문은 나왔기에 괜찮습니다 Orz )




Figure 1. 우리는 여러분이 가장 많이 사용하고 권장하는 콜러를 지금 있는 그대로 분석을 돌려봤습니다.


Sequencing Samples Bases(Gbp) Read(x106) Clean rare >Q20 >Q30 GC Mean coverage
BGISEQ500-WES 29.41 294.3 0.41% 96.72% 89.14% 49.75%  328.49X
MGISEQ2000-WES 16.34 163.55 0.25% 98.18% 92.08% 49.71%  129.40X
HiSeq4000-WES 41.93 283.7 4.46% 97.36% 93.01% 50.63%  395.17X
NovaSeq-WES 25.88 178.87 2.25% 95.33% 92.67% 49.73%  241.52X
BGISEQ500-WGS 126.86 1270.02 1.76% 93.73% 83.33% 41.76%  41.03X
MGISEQ2000-WGS 137.36 1374.87 0.21% 96.17% 88.19% 41.76%  45.13X
HiSeq4000-WGS 191 1276.1 8.25% 95.90% 90.11% 41.69%  58.00X
NovaSeq-WGS 98.3 657.45 1.28% 95.89% 93.86% 41.61%  28.96X
HiSeq Xten-WGS 134 894.58 7.29% 94.50% 87.63% 40.71%  38.93X
Table 1. 우리 필요한 만큼 시퀀싱 잘 했어요

Figure 4,5 WES관련 작업 시간 및 결과 정리
Figure 6,7 WGS관련 작업 시간 및 결과 정리
(이미지 생략)

그래서 WES와 WGS를 각각 콜러의 조합에서 분석한 결과 SNP는 일관적으로 잘 call하였고 InDel은 일관적이지 못했다.
플랫폼별로 보면 SNP는 BGI플랫폼이 InDel은 일루미나 플랫폼이 더 나았다.
이거슨 시퀀싱할때 read 길이를 BGI 플랫폼과 illumina 플랫폼의 길이를 각각 100PE, 150PE로 해서 그렇다는 이유를... (그럼 왜 BGI플랫폼은 150PE로 안하고..??)

그리고 시퀀싱 뎁스 운운하는데.. 결론은 추가테스트 및 다른 분들이 더 해줬으면 하는걸로..
그리고 각 플랫폼에서 분석 툴의 성능 비교는 Strelka2가 다른 2개 분석 방법도나 나은걸로
순위를 따지자면 Strelka2 > GATK > Samtools-VarScan(SV) (모 다들 예상하셨다 싶이..)
InDel을 call하는 결과가 좀 차이가 있었는데 NovaSeq-SV에서 23개의 small variant를 call했는데반해 X-Ten-SV에서는861개의 small variant을 call했.. (BGI플랫폼은 갑자기 사라지고..)
그리고 마무리는 germline의 SNP, InDel call 능력은 높은 일치성이 있는 걸로 마무으리~

종합적으로 Strelka2가 최적의 분석 파이프 라인
응? 이거 시퀀서 비교 아니었어?
응 아니야, Strelka2 좋아요 꾹! 구독아니 github 꾹!
결국 이렇다고합니다.

이 논문의 의의는 테스트 해볼 비교 set이 생겼다는것에 ...  :)


출처: @sana_twice.09


금요일, 10월 25, 2019

간만에 denovo RNA-Seq 해보기 -유전자구조예측편-

denovo RNA-Seq를 사용해서 조립을 했다면
조립된 서열들은 어떤 유전자인지 궁금해 지겠쥬?

안 궁금하면 그냥 끝! 하고
서열을 NCBI에 fastq파일 디파짓하고 Bye さようなら하면
그냥 남 좋은일 하는 겁니다.
(나는 대인배다 나는 시퀀싱 비용이 아깝지 않다 하시는 분이라면
친하게 지내요!! 제발~ )

여튼 RNA-Seq을 했고, 생산된 RNA-Seq을 가지고 조립까지 했다면
조립된 서열들은 어떤 유전자들일까 궁금한게 인지사정!

그러면 그런 tool에서는 어떤 것들이 있을까?

바로 이런게 있습니다.
TransDecoder

TransDecoder Wiki

조립된 RNA-Seq서열 에서 coding 서열을 찾아주는 프로그램 입니다.
(현재 버전이 5.5.0이네요.. 다행히 어떤 업데이트도 일어나지 않았네요..)

풋 아마추어같이 RNA-Seq서열이니깐 ATG로 시작하는 것 찾으면 되지 무슨 프로그램이야 프로그램은 아마추어 같으니라고!!
라고 하신다면 당신은 느응력자!

다들 알고계시다 싶이 ATG로 시작하는 것들 major긴 하지만 RNA-Seq을 해서 조립하게되면 ATG로 시작하지 않은 partial로 어딘가가 짤려진 gene 서열들이 존재하기 때문에 그런것들도 잘 알아서(모 대략, 못찾는것도다는) 찾아주는 녀석이 바로 이녀석 되겠습니다.

-사실 이거 말고 다른것도 많이 있을겁니다. 제가 이것밖에 안써서 이거 소개합니다. ㅎㅎ


그냥 위에 파일 다운 받아서 압축 풀고 trinity로 조립한 fasta파일을 넣고 돌리면

$ ~/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t Trinity.fasta --gene_trans_map Trinity.fasta.gene_trans_map

(근데 저 --gene_trans_map이 무슨 옵션이었는지 까먹었네요...)

여튼 이렇게 돌리면 대략적인 결과 나오고 그 결과가지고 연구하면됩니다.
이거가지고 부족해!! 하시면 genome project 진행하시면되겠습니다!!

ps. 위의 글은 유전자 예측이 아닌 유전자 구조 예측이 맞는 표현입니다. Orz


출처: SM

수요일, 10월 23, 2019

산모의 건강상태가 NIPS에 미치는 영향

Noninvasive prenatal testing for aneuploidy using cell-free DNA – New implications for maternal health

간만에 하는 업무와 갱장히 밀접한 글 하나 투척이라기 보다는
간단히 정리 정도...


NIPS/NIPT, 비침습적 산전 스크리닝 혹은 테스트의 약자로 산모의 혈액내에 있는 태아의 cfDNA를 사용하여 태아에 문제가 있는지 확인 할 수 있는 기술로써 홍콩대학의 Denis Lo 옹께서 산모 혈액내에 태아것도 있다. 그리고 산모와 태아의 것을 구분 할 수 있다고 밝혀주셔서 전세계적으로 빠르게 확산되었죠.


지속적인 연구를 통해 Trisomy 13/18/21에 대해서 우수한 정확도를 보여주고 있습니다만, NIPS/NIPT를 하다보면 이게 검사가 잘 안되는 경우가 있습니다.

그러나 어떠한 이유인지 분석 할 수 없는 경우나 알 수없가 없었습니다.
그래서 지속적으로 축적된 임상 경험을 바탕으로 NIPS/NIPT와 산모의 건강과 관련하여 상호관계가 있을것으로 추측하였고 그래서 한번 어떤 것들이 NIPS/NIPT의 성능에 영향을 미치는지 조사해본 논문하나를 살펴보았습니다. :)


산모의 비만 (Obesity)

NIPS/NIPT를 할 때 의뢰서에 키와 몸무게 란이 있습니다. 이는 BMI이 치수로 산모의 체질량을 확인하는데 BMI가 높을수록 NIPS/NIPT에 필요한 태아의 cfDNA의 비율이 떨어지기 떄문에 NIPS/NIPT가 실패할 확률이 높아진다고 보고되고 있습니다.
지방세포에서 세포 사멸과 괴사로 혈중 내 태아의 cfDNA보다 산모의 cfDNA 양이 상승하여 태아의 cfDNA 비율을 떨어트린다는 것입니다.


자가면역질환 (Autoimmune disease)

자가면역질환은 문자 그대로 자기 자신을 공격하는 질환으로 세포 주기가 굉장히 짧아지는것이 문제가 되어 임신하지 않은 전신성 홍반성 루프스(SLE) 환자에서 혈중 cfDNA가 증가하는 것을 확인했습니다. 그래서 SLE가 있는 임산부의 NIPS/NIPT결과를 해석할 때는 주의를 기울여야 한다고 말하기도 하였습니다.


태아 분획에 영향을 줄 수 있는 것들 (Other maternal influences on fetal fraction)

표2(논문 참조)에 나와있듯이 태아 분획과 다양한 산모의 특징(인종, 흡연여부, 고혈압, 나이등등등)들은 통계적으로 유의한 연관성을 가지고 있으나 이러한 산모의 특징들은 상반된 결과를 나타내는 결과들도 있기 때문에 덜 중요해 보인다고 합니다.
(인종 ㅂㄷㅂㄷ, ㅂㄷㅂㄷ 했다고 인종차별자는 아니니 오해 없으시기 바랍니다.)


산모가 받은 처방 (Maternal medications)

산모가 복용하는 약 또한 NIPS/NIPT의 결과를 방해 할 수 있습니다.
LMWH(Low molecular weight heparin)은 NIPS/NIPT에 부정적인 영향을 미치는 첫 물질이었습니다. heparin과 NIPS/NIPT의 부정적인 결과에 대해서 정확한 메카니즘은 알려져 있지 않지만 NIPS/NIPT 검사를 위해서는 heparin 복용을 일정 시간 중단해야 합니다. 그리고 IVIG(Intravenous immunoglobulin)의 경우 cfDNA가 증가하는 것처럼 보고 되었지만 NIPT의 분석 성능에는 확인되지 않았습니다.


장기 이식 받은 산모 (Organ transplant recipients)

장기 이식을 받은 산모의들의 NIPS/NIPT는 고려를 해봐야 합니다. 특히나 장기 이식받은 장기가 남성 기증자라면 특히나 주의해야한다. 남성 기증자의 장기는 Y염색체 특이적 cfDNA서열을 만들어내어 잘못된 판단을 유발 할 수도 있다. 그리고 NIPS/NIPT는 염색체 이상이 있는 산모가 하면 정확하지않은 결과를 받아볼 수 있기 때문에 NIPS/NIPT 전 상담을 꼭 진행해야 합니다.


※ 정정 :하단은 NIPS/NIPT를 해서 산모로부터 우연히 알게되는 것에대한 내용입니다.

산모의 성염색체 상태 (Maternal sex chromosome conditions)

NIPS/NIPT에서 X염색체의 정확도는 13/18/21과 같은 상염색체보다 본질적으로 좋지 않습니다. 다른 이수성에 비해 X 염색체 이상에 대해 더 높은 태아 및 태반 모자이크 현상이 있습니다. 산모에 따라 나이와 연관있는 X 염색체 손실이 일어나기도 하고 일부 산모에게서는 정상 XX에서 저수준으로 XO/XX 모자이크로 바뀌기도 합니다.또한 많은 SCA(Sex chromosome aneuploidies)는 불확실한 NIPS/NIPT결과를 초래하기도 합니다. NIPS/NIPT에 의해 의심된 181개 SCA case중 16 case (8.5%)가 산모에 의해 기인한 것으로 확인되었다고 합니다.


산모의 상염색체 이상 (Maternal autosomal abnormalities)

산모의 상염색체이상도 잘못된 NIPS/NIPT 결과를 발생시킵니다. 이런 경우 산모가 저수준의 모자이크 T18이나 염색체 13 혹은 18번에 부분적으로 중복이 있어 발생할 수 있습니다. 최근 NIPS/NIPT 분석 중에 22q11.2와 같은 미세결실 증후군을 탐지하고 있는데 한 연구에서 고위험의 미세 결실 결과 중 60%(20 case/32 case)가 산모에 의한 것이지 않을까 의심되고 있습니다. 그러나 다른 NIPS/NIPT 제공 업체의 경우 고위험 미세 결실 결과중 2%만이 산모에 의한 것으로 확인(?이 진짜 된건지 산모를 검사를 했는지는 까지는)됐다고 합니다. 그런데 이런 차이가 나는 이유는 NIPS/NIPT분석 방법이나 reference의 편향성이나 인구 특징들에 따라 달라지기 때문에 분석 결과에 대한 비교까지는 어려운것 같다고 합니다.


산모의 종양 (Maternal malignancy)

종양세포는 NIPS/NIPT 분석에 사용하는 혈장내의 cfDNA를 기여하고 있다는 것에 누구도 부정은 못할 것 입니다. 종양이 NIPS/NIPT 결과에 영향을 준다는 사례 보고는 여기에서 설명되었습니다. 125,426명의 산모 집단에서 산모의 종양으로 인해 NIPS/NIPT결과가 불일치한 산모 10명에 대해서 정보를 공개했습니다. 산모들의 종양/암 유형은 lymphoma, leukaemia, colorectal and anal cancers 이었다고 합니다.
그리고 산모들은 추가적인 생물정보학적 분석으로 비특이적인 CNV들을 보여줬는데 NIPS/NIPT에서 관찰된 비특이적인 패턴들은 종양/암 치료후 사라져서 종양/암과 NIPS/NIPT와의 관계를 확인 할 수 있었습니다.


그래서 종합적으로 요약하자면 임상적으로 NIPS/NIPT에 대한 경험과 자료가 증가함에 따라 산모의 건강과 밀접한 관련이 있다는 것을 확인 할 수 있었고 비만, 면역질환 및 LMWH 치료와 같은 NIPS/NIPT 결과에 영향을 줄 수 있는 산모의 상태에 대해서 인지하고 있어야합니다(안그러면 위양성 결과를 받아들고 옳지못한...).
NIPS/NIPT결과로 얻어진 2차 산모의 위험 소견에 대해 산모에게 알리는 것도 중요한 윤리적 고려사항이라고 생각됩니다.


이렇다고합니다.

간만에 업무와 관련되 내용 포스트 좀 해봤습니다.

출처: sana_twice.09

월요일, 10월 21, 2019

bam파일을 가장 쌈빡하게 잘 다루는 방법

NGS 시대를 살면서 bam파일은 어떻게 땔래야 땔수없는
껌딱지같은 녀석이 되어버렸습니다.

다양한 정보를 가지고있기는 한데 그 안에서 정보를 추출같은 핸들링하기가 쉽지 않은게 사실이긴 합니다.

그래서 여기 sam파일 bam파일을 samtools보다 빠르게  처리해주는 툴하나
가지고 와봤습니다.

모 이미 samtools대신에 잘 사용하고 계실겁니다.

sambamba라고 (현재 버전은 v0.7.0 입니다. 논문은 여기에 있습니다.)

sambamba는 samtools와 비슷한 대부분의 기능을 가지고 있습니다.
view, sort, index, merge, slice, flagstat, markdup
그리고 사용법도 모 크게 어렵지 않습니다. :)

sambamba documentation을 보시면 모 크게 어렵지 않게 손쉽게 사용하실 수 있을겁니다. :)


출처: sana_twice.09



금요일, 10월 18, 2019

Trimmomatic 설치 및 사용

Trimmomatic Site

Trimmomatic Manual

Trimmomatic은 cutadapt와 함께 Illumina 시퀀서들의 adapter들을 제거하고 trimming하는데 널리사용되는 tool되겠습니다.

설치방법은..
>wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.36.zip
>unzip Trimmomatic-0.36.zip
Trimmomatic-0.36폴더 밑에 파일 생성
>cd Trimmomatic-0.36
>java -jar trimmomatic-0.36.jar -h

참 쉽죠!!
물론 java가 설치되어 있어야한다는게 함정


Quick Start

Paired End일때
java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36


Single End일때
java -jar trimmomatic-0.35.jar SE -phred33 input.fq.gz output.fq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

위의 Quick Start에서 사용한 내용은 paired와 single 차이일뿐 옵션은 동일합니다.
찬찬히 뜯어보면 다음과 같다고 하네요

ILLUMINACLIP:TruSeq3-PE.fa:2:30:10
- 일루미나 아답타 서열을 제거하는 옵션입니다. 자세한 내용은 하단에..
LEADING:3
- 서열의 앞쪽을 기준으로 quality (여기서는 3) 이하의 N개 서열을 제거합니다.
TRAILING:3
- 서열의 뒤쪽을 기준으로 설정한 quality (여기도 3) 이하의 N개 서열을 제거합니다.
SLIDINGWINDOW:4:15
- 4base씩 확인하면서 평균 quality가 설정된 기준 quality (여기서는 15)보다 이하일 경우 제거합니다.
MINLEN:36
- 위의 단계들을 거치면서도 살아 남은 서열 길이가 기준 길이 (여기서는 36bp)보다 짧으면 (이하) 아예 read를 삭제합니다.



사용 가능한 옵션

ILLUMINACLIP:<fastaWithAdaptersEtc>:<seed mismatches>:<palindrome clip threshold>:<simple clip threshold>
- fastaWithAdaptersEtc: trimmomatics에서 TruSeq2와 TruSeq3서열은 제공하고 있고 그외에 아답터 서열을 사용하고 싶으면 fa파일을 넣어주면 됨
- seed mismatches: 허용가능한seed 서열의 mismatch 개수
- palindrome clip threshold: palindrome trimming방법은 Paired End로 시퀀싱을 했을 때 적용할 수 있는 방법으로 아답타 서열이 traget read 앞뒤에 존재해서 첫번째 read와 두번째 read에서 역 상보적으로 동일한 read들이 발견되는 경우 해당 서열들을 삭제하는 방법입니다. (참고 palindrome란? )
- simple clip threshold: 설정된 기준 값에 부합하는 충분히 정확한 match가 확인되면 적절히 clipping함

SLIDINGWINDOW:<windowSize>:<requiredQuality>
설정된 windowSize 서열들의 평균 qaulity가 requiredQuality 값보다 작아지면 작아진 서열들 이후를 제거합니다.

LEADING:<quality>
read 앞쪽을 기준으로 설정된 quality보다 낮은 quality를 가진 서열들을 제거합니다.

TRAILING:<quality>
read 뒤쪽을 기준으로 설정된 quality보다 낮은 quality를 가진 서열들을 제거합니다.

CROP:<length>
read 앞쪽을 기준으로 설정된 length만큼 서열들을 보존한다.

HEADCROP:<length>
read 앞쪽을 기준으로 설정된 length만큼 서열을 삭제한다.

MINLEN:<length>

TOPHRED33 quality를 phread 33으로 변환

TOPHRED64 quality를 phread 64으로 변환


그리고 중요한 점 하나! trimmomatic는 옵션에 순서가 있다는 사실! 저도 아직 테스트 해보지는 못했는데 옵션이 순서대로 적용 된다고 합니다. 설명서에 그렇게 써 있으니 맞겠죠. 그래서 일단 어답터 서열을 먼저 제거하라고 합니다. :)

그럼 즐거운 trimming 작업 되시길..





@sana_twice.09


수요일, 10월 16, 2019

메타지놈은 kaiju와 함께

코펜하겐에 계시는 이름좀 들어본 A. Krogh옹이 속한 팀(저자가 2명인건 비밀)에서 출판한 메타지놈 classification 분석 툴인 kaiju (1저자님이 퍼시픽림좀 보신듯.. 그럼 kaiju이후 analysis pipeline은 jager인건가)에 대해서 잠시 얘기해 보도록 하겠습니다.

웹서버 : http://kaiju.binf.ku.dk/
논문 : Fast and sensitive taxonomic classification for metagenomics with Kaiju
현재 kaiju버전 : https://github.com/bioinformatics-centre/kaiju/releases/tag/v1.7.1


모 이제 metagenome이야 쩔 핫해요라는거는 일주일에 한두번은
수십억 L. 로 시작하는 미생물들을 우리 입안에 털어넣고 있는이상 따로 말해야하는가?

그렇지만 아직도 연구할건 많다는건 비밀이라서
많은 연구자들이 다양한 연구를 하기위해 이것저것 시도를 할 때
사용할 도구들을 계속 만들고 있는데 이 kaiju 또한 그런 도구중 하나 되겠습니다.

모 아이디어는 기존에는 DNA read를 었어서 DNA랑 비교했는데
우리 그러지 말고 단백질 조각이랑 비교하면 어떻겠니? 하는 논문 되겠습니다.

걍 제일 중요한 Figure

결론: DNA-DNA 비교 하지말고 DNA-Protein비교가 더 좋지? 되겠습니다.


그리고 위의 그림으로만 믿지 못하는 (저같은) 닝겐들을 위해서
그럼 너님들을 위해서 real 샘플에서 결과를 보여주지 훗
기대하시라고!

됐냐?

추가적으로 전세계적으로 NGS는 일루미나느님이 잡고 있다보니 저자분들께서
HiSeq(Short)과 MiSeq(Long)에 대해서 kaiju와 kreken으로 비교해두었습니다.
HiSeq에서는 두 프로그램의 sensitivity나 precision은 별로 차이가 없었고 MiSeq결과에서는 그래도 (phylum 수준에서나마) kaiju(그냥도 아니고 greedy-5 모드)가 karken보다 조금더 높은 sensitivity와 precision을 보여준다고 합니다.

결론은 Microbiome은 MiSeq으로 대동단결(진정 MiSeq밖에 없는것인가.. Orz)




출처: @sana_twice.09