레이블이 hyojung인 게시물을 표시합니다. 모든 게시물 표시
레이블이 hyojung인 게시물을 표시합니다. 모든 게시물 표시

금요일, 12월 01, 2023

이제 우리 cfDNA를 활용해 보아요 (feat. 머신러닝)


Genome-wide cell-free DNA fragmentation in patients with cancer


"내 혈관 속 DNA가 말해줘"라는 BTS의 DNA의 가사 처럼 우리 혈관 속에는 우리 상태를 알게 해주는 마커로 사용할 수 있는 cfDNA가 있습죠

오늘은 2019년 발표된 "Genome-wide cell-free DNA fragmentation in patients with cancer"라는 논문을 가져와봤습니다.

DOI: 10.1038/s41586-019-1272-6

이 논문은 암환자의 혈액 내 cfDNA를 측정하여 암 진단은 당연하고, 어떤 암종인지, 조기 발견 및 모니터링을 위한 초석을 놓은... 물론 그전에 다른 논문에서 이미 초석을 다진 논문도 있을것 같긴하지만, 어찌됐든 모 괜찮은 논문이라고 생각합니다. :)


그래서 7종의 암환자 200여명과 건강한 (aka 암환자가 아닌) 건강한 사람의 cfDNA을 분석해서 이리저리 굴려보고 돌려보고 해서(결국 머신러닝 아니겠습니까) 암종간 cfDNA의 profile의 변화를 머신러닝을 통해 모델을 만들었고, cfDNA profile 모델과 함께 cfDNA상에 존재하는 변이를 활용하면 더 나은 결과를 보여줬다고 하네요


cfDNA는 원래 혈액속에 있는 암에 걸리면 (무조건은 아니지만) cfDNA의 양이 증가하게 됩니다. 원래 혈액속에 떠다니는 cfDNA가 만들어지는 source외에 암세포가 혈액에 추가로 cfDNA가 더 공급하는 꼴이 되기때문이죠.

cfDNA 중 암세포에서 나온 cfDNA인 ctDNA?만 따로 선별하는 방법으로 접근하기도합니다. 개인적으로는 cfDNA에서 ctDNA를 찾겠다 보다는  cfDNA를 더 잘 characterization 하는게 나을듯한데... cfDNA를 characterization하면 ctDNA를 더 잘 구별할 수 있게 되는건가? 여튼..

아.. 그래서 제가 블로그에 가끔씩 얘기했던 NIPT를 하다가 산모의 암도 찾아냈다고 하는 얘기가 있었기도 했습니다.

오늘은 cfDNA와 머신러닝 방법을 이용해서 암진단 및 암종 구분을 하는 논문에 대해서 잠깐 얘기해보았는데, 분야를 막론하고 머신러닝 모델을 개발할것 까지는 아니지만 활용을 잘 할 수 는 있어야 한다는 느낌은 항상 받는것 같습니다.


23년 12월의 첫날, 아내느님의 탄생일 기념으로 포스팅을 해보았습니다.




출처 : @candyz_hyojung


수요일, 9월 20, 2023

cnvkit 설치 방법

간만에 프로그램 설치 기록 하나 남겨 봅니다.

설치할 tool은 Copy Number Variant 탐지에 대명사 중 하나인 CNVKit입니다.

참조할 사이트는 당연히 공식 cnvkit github고요 


첫번째 방법은 conda를 이용한 방법!

$ conda config --add channels defaults 
(conda를 설치해서 사용하시는 분들은 굳이 defaults는 안하셔도 됩니다.)

$ conda config --add channels conda-forge
$ conda config --add channels bioconda
$ conda install psutil
$ conda create -n cnvkit cnvkit
라고 명령어를 입력하면 엄청 많은 패키지들을 설치하겠다고 나옵니다.

$ source activate cnvkit

(cnvkit)$ python cnvkit.py -h
numpy가 없다고 나와서 다음과 같이 가상 환경 안에서 numpy 설치
(cnvkit)$ conda install numpy

그러나 conda를 이용한 방법은 제대로 작동을 안해서...

$ source deactivate


이유는 꼭 알아야 할까요? 다른 방법으로 설치하면되지요!

그래서 걍 github에서 소스 파일 다운 받아서 pip를 사용하여 설치!!

$ git clone https://github.com/etal/cnvkit
$ cd cnvkit/
$ pip install -e .
$ ~/Python-2.7.12/bin/python cnvkit.py -h

기본 pip를 사용했기 때문에 python-2.7.12에 설치가 되었고, 만약 pip3를 사용하여 설치하였다면... python3을 이용하면 되었을 것으로 예상됩니다.

그래서 오늘은 conda와 pip를 이용한 설치 방법에 대해서 알아보았습니다.

다음에 또 유익한 정보를 가지고 찾아오도록 하겠습니다.



출처: @candyz_hyojung



수요일, 7월 20, 2022

Long Read 조립은 누가누가 잘하나

Piroplasm를 나노포어를 사용하여 genome project를 진행했고 나노포어를 활용한 assembler들에 대한 성능 비교 논문 되겠습니다.


제목은 Systematic Comparison of the Performances of De Novo Genome Assemblers for Oxford Nanopore Technology Reads From Piroplasm

doi는 https://doi.org/10.3389/fcimb.2021.696669


piroplasm이 몬지는 모르겠으나 일단 그렇게 엄청나게 복잡하지는 않은 원생동물이나 사람이나 동물들에게 질병을 일으키는 녀석 되는 것 같습니다. funding중에 동물 전염병 및 인수공통전염병 관련 프로그램이 있는것으로 보아하니...


여튼 중요한건 nanopore로 읽어낸 서열을 사용하여 genome 조립할때 어떤 어떤 조립 프로그램이 제일 좋은지를 검토해본 것이니 OLC (Over-Layout-Consensus)나 전통적인 de-Brujin graph, string graph-based 방법 등등의 NECAT, Canu, wtdbg2, Miniasm, Smartdenovo, FlyeNextDenovo, Shasta와 같이 일반적으로 long-read에 사용하는 assembler들을 비교 테스트 하였다고 합니다.

대신 여기서는 assembly의 정확도와 함께 CPU 사용량, 메모리 사용량, 분석시간 사용방법 등등에 대해서도 함께 평가했다고 합니다. 참 바람직한 태도라고 봅니다. 모든 연구팀들이 그래픽카드 4개꼽히고 6T 메모리의 4U 서버를 가지고있는것은 아니니 말입니다.


실험 방법은 prioplasm free한 양 2마리(??)에게 prioplasm을 감염시켜 잘 배양(??)시킨 다음 Qiagen 사용 prep kit을 가지고 DNA 추출하고 PromethION으로 시퀀싱하였고 데이터 셋트에 따른 assembly 결과 평가를 위해 6가지 생산량 (약 15x, 30x, 50x, 70x, 100x, 120x)의 셋트를 만들었다고 합니다. 그리고 추가적(aka error correction)으로 (일루미나와 특허 소송에서 승리한) MGI로도 시퀀싱을 하였다고 합니다.


여튼 결과적으로

N50과 contig개수(적을수록 좋음)는 생산량과 밀접하고,
분석 시간은 생산량이 많으면 어떤 assembler를 사용하던 길어졌고,
polishing은 안하는것보다 하는것이 좋은것 같고 각 tool의 장단점은 Figure3에 방사형 그래프로 이쁘게 표현하였으니 한번 참고하시면 좋을것 같습니다.

그래서 Miniasm, Flye, wtdbg2는 그닥 좋은 선택지는 아닌것 같고 평균 커버리지가 30x 이상 확보된다면 NECAT, Canu, NextDenovo, Smartdenovo가 더 나은것 같다 정도 되겠습니다.

(사실 위의 tool들을 실행시키려면 평균 30x 이상은 있어야 작동을 합니다. 안그러면 작동안하던지 말도안되는 결과들을 뱉어내곤 합니다.)


그리고 시간이 충분했는지 각 assembler 결과들을 병합/후처리하는 작업을 하여 더 나은 assembly 결과를 보여주는지 테스트 했고 몇몇 조합에서 결과물이 향상된것을 확인했다는데... dramatically 좋은 결과는 보여주지 않은것 같았습니다. 

만약 병합/후처리하는 결과가 좋았다면 논문 결과가 single assembler 쓰지말고 ensemble방법을 추천드립니다라고 했었을테니 말이죠.. 



출처: @candyz_hyojung


월요일, 4월 25, 2022

Forensic Microbiome Database


Forensic Microbiome Database: A Tool for Forensic Geolocation Meta-Analysis Using Publicly Available 16S rRNA Microbiome Sequencing

DOI : 10.3389/fmicb.2021.644861



간만에 재미난 제목의 논문이 있어 올려봅니다.

Microbiom Database인데 법의학을 위한...

미생물검체를 시퀀싱한 결과를 분석툴에 돌리고나면 이 미생물검체가 어디서 채취되었는지.. 사람의 어느 부위 또는 지리적 위치와 같은 것을 알려줄수 있는 DB가 있다면 범죄추적에 갱장히 많은 도움을 주겠죠?

그래서 결론은 다양한 분야와 연구자들의 지속적인 데이터 공유로 DB의 업데이트가 필요하니 굽신굽신 (가능하면 다양한 샘플을 정교하게 분류하고 tag 달아서)




미생물을 이용한 법의학하니 옛날에 CSI에서 신발바닥이나 바지밑단 뭍은 물질을 바탕으로 범인의 행동반경이나 직업들을 유추하거나 시체에서 애벌래나 성충이 되는 벌레들을 가지고 대략적인 사망시간 추정 또는 시체가 다른곳에서 유기되었는지도 추측하는 장면이 나왔었는데 만약 미생물 정보를 활용하여 사건 장소나 범인에 대한 정보를 예측할 수 있는 좋은 도구가 될것 같네요

다만 시퀀싱할때마다 시퀀싱되는 종들의 편차가 잘못된 결과를 도출 할 수 있으니 이런 편차나 문제를 극적으로 줄여 줄 수 있는 실험방법이나 분석방법이 나오면 참 좋을듯하네요

간단하게 생각나는 건...
임의의 장소에서 채취된 A검체를 시퀀싱한 결과를 DB에 대고 샘플링(100번 혹은 1000번정도)해서 비교해서 가장 비슷한 DB의 결과를 확률적으로 보여주는 방법 정도?

그리고 Microbiom을 더 정확하게 분류해놓은 DB가 필요하다는.. (사실 모 이건 모든 Microbiom 서비스를 하는 곳에서 요구되는 사항이긴 하지만..)

그리고 이 흥미진진한 내용을 보고 싶으시면 >이곳< 을 방문하시면 될것 같습니다.




그럼 4월 마지막 주를 활활 불태워 보고자 흥미진진한 논문 한번 올려봤습니다. :)




출처: @candyz_hyojung


화요일, 9월 21, 2021

Mac OS에 Redmine 설치하기

오늘은 레드마인 설치기를....

처음에는 맥북에서 Bitnami가 제공하는 redmine을 사용하여 일감정리를 하고 있었는데 우리 Big Sur가 중간에 업데이트를 하면서 Bitnami redmine stack이 먹통이 되면서(중간 일감도 덤으로 요단강을 건넜다는...) 

결국 꼼수쓰지 않고 손수 설치를 강행했다는...

근데 워낙에 잘 정리된 문서가 있어서 생각보다 어렵지는 않았음

중간에 문제가 있을만한 것은 대부분

xcode-select --install

로 해결되는 문제였고

위의 정리된 문서블로그 한번 탐독 후 설치 진행하면 에러없이 잘 사용 할수 있다는 사실


마지막에 redmine 실행 시킬때는

bundle exec rails server webrick -e production -b 0.0.0.0

이렇게 하면 같은 네트웍대에 있는 사용자들은 내 레드마인에 접근 가능하다는..


현재 맥북 환경은 Big Sur (11.5.2, 한영키잘먹히는 개선 버전)으로 전혀 문제 없이 레드마인을 운영하고 있다는...

대신 다른 문서를 복붙할때 이모티콘이 있는 경우 저장이 안되는 문제가 있는데 이건 아마 redmine만의 문제가 아니라 mysql의 utf8사용시 utf8mb4을 사용하면 문제가 해결 된다는 얘기가 있는데.. 아직 안해봐서..... 어차피 일감 정리할때 이모티콘은 안쓰니...


@candyz_hyojung
출처: @candyz_hyojung