레이블이 prinseq인 게시물을 표시합니다. 모든 게시물 표시
레이블이 prinseq인 게시물을 표시합니다. 모든 게시물 표시

수요일, 4월 18, 2018

PRINSEQ 설치

PRINSEQ Site

세상에는 다양한 fastq 파일을 핸들링하는 tool들이 있는데
최근에 microbiome작업하면서 다시 손댄 tool
-다른 tool들 대비 stat 자동화하기 나쁘지않아 보였고 이미지가 좀 이쁘지않나?

여튼.. 문제는 2013년 이후 업데이트되지 않았다는게 좀 그런데..
모 그렇다고 실행되던게 갑자기 안되지 않으니..
설치해서 사용했었으니 사용해도 무방하다. :)


>wget https://sourceforge.net/projects/prinseq/files/standalone/prinseq-lite-0.20.4.tar.gz
>tar zxf prinseq-lite-0.20.4.tar.gz

lite 버전을 설치하려면 다음과 같은 perl 모듈을 설치해줘야 프로그램이 실행된다.
#use Data::Dumper; ###
use Getopt::Long;
use Pod::Usage;
use File::Temp qw(tempfile); #for output files
use Fcntl qw(:flock SEEK_END); #for log file
use Digest::MD5 qw(md5_hex); #for dereplication
use Cwd;
use List::Util qw(sum min max);

그리고 graph버전을 설치하려면 다음과 같은 perl모듈을 설치해줘야 하니
prinseq설치 전에 미리미리 설치하는것에 정신건강에 이롭다.
use Getopt::Long;
use Pod::Usage;
use File::Temp qw(tempfile); #for output files
use Fcntl qw(:flock SEEK_END); #for log file
use Cwd;
use JSON;
use Cairo;
use Statistics::PCA;
use MIME::Base64;
use File::Basename;
use Data::Dumper;

다른 생정보관련 프로그램을 설치했다면 대부분 설치되어있을듯...

만약 추가적인 설치가 필요하면 
cpan 실행해서 필요한 모듈 install해주면 된다능..

아니면 이런거 대신 해주는 팀원이나 부서원이 있는 회사다니시면 됩니다. :)

목요일, 10월 25, 2012

SFF 파일은 어떻게 작업을 해야하나...

아....

딱히 인연이 없던 454 파일을 작업할 기회가 생겨서..
다음과 같이 스크립트를 좀 작성했습니다.

454에서 제공하는 Data analysis를 이용하지 않아서 좀 거시기합니다.
(Homopolymer trimming은 제공하지 못하고 있습니다. ㅎㅎ)

convertsff.py 

SFF파일을 fastq 혹은 fasta, qual 파일로 변환하는 스크립트
fastq로 변환하는 경우 illumina 1.3/1.5+ score로 변환 됩니다.
biopython이 설치되어 있어야 합니다.


SFF_Filter.py

illumina 데이터와는 일단 길이가 차이가 나니.... ㅎㅎ
filtering 스크립트를 간단히 만들었습니다.
cutoff base quality와 cutoff read length는 사용자가 설정 할 수 있게 하였습니다. :)
그리고 N의 포함 정도와 cutoff base quality 포함 정도는 고갱님의 의견을 반영하여
박하지 않게 설정해서 fixed시켜 놨습니다.
맘대로 수정하셔도 무방합니다. :)
다만 더 좋은 옵션이나 방법으로 업데이트 하셨다면 공유를 해주시면 더더욱 감사드리겠습니다.

데이터 변환 및 필터링이 끝나고 나면
QC를 해봐야 겠죠?

좀 간단히 결과를 이쁘게 그려주는게 어디 없을까 하고 있었는데
prinseq라는 프로그램이 있어 잠시 사용해봤습니다.
사용방법은 어렵지 않아요~ :)


Base Quality가 Phred +33인 경우

perl prinseq-lite.pl -verbose -fastq <input.fq> -graph_data <output.gd> -out_good null -out_bad null

Base Quality가 Phred +64인 경우

perl prinseq-lite.pl -verbose -fastq <input.fq> -graph_data <output.gd> -phred64 -out_good null -out_bad null


Quality Check 결과물을 Html로 확인하는 경우
perl prinseq-graphs.pl -i <output.gd> -html_all -o <output_name>

Quality Check 결과물을 png로 확인하는 경우
perl prinseq-graphs.pl -i <output.gd> -png_all -o <output_name>





추후에 시간이되면
Data analysis 프로그램을 설치해서 작업하는 단계나 방법에 대해서 설명하도록 하겠습니다. 그리고 추가적으로 NGS QC toolkit을 사용해서 QC하는 것도..
S대 L모군이 찾아논건데 괜찮아보여서 테스트 해볼까 합니다.
Illumina 외에 454도 지원하고 제일 매력적인건 multi-thread를 지원한다는것!!

모 여하튼...

다음기회에~ :)