레이블이 SLIDINGWINDOW인 게시물을 표시합니다. 모든 게시물 표시
레이블이 SLIDINGWINDOW인 게시물을 표시합니다. 모든 게시물 표시

금요일, 10월 18, 2019

Trimmomatic 설치 및 사용

Trimmomatic Site

Trimmomatic Manual

Trimmomatic은 cutadapt와 함께 Illumina 시퀀서들의 adapter들을 제거하고 trimming하는데 널리사용되는 tool되겠습니다.

설치방법은..
>wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.36.zip
>unzip Trimmomatic-0.36.zip
Trimmomatic-0.36폴더 밑에 파일 생성
>cd Trimmomatic-0.36
>java -jar trimmomatic-0.36.jar -h

참 쉽죠!!
물론 java가 설치되어 있어야한다는게 함정


Quick Start

Paired End일때
java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36


Single End일때
java -jar trimmomatic-0.35.jar SE -phred33 input.fq.gz output.fq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

위의 Quick Start에서 사용한 내용은 paired와 single 차이일뿐 옵션은 동일합니다.
찬찬히 뜯어보면 다음과 같다고 하네요

ILLUMINACLIP:TruSeq3-PE.fa:2:30:10
- 일루미나 아답타 서열을 제거하는 옵션입니다. 자세한 내용은 하단에..
LEADING:3
- 서열의 앞쪽을 기준으로 quality (여기서는 3) 이하의 N개 서열을 제거합니다.
TRAILING:3
- 서열의 뒤쪽을 기준으로 설정한 quality (여기도 3) 이하의 N개 서열을 제거합니다.
SLIDINGWINDOW:4:15
- 4base씩 확인하면서 평균 quality가 설정된 기준 quality (여기서는 15)보다 이하일 경우 제거합니다.
MINLEN:36
- 위의 단계들을 거치면서도 살아 남은 서열 길이가 기준 길이 (여기서는 36bp)보다 짧으면 (이하) 아예 read를 삭제합니다.



사용 가능한 옵션

ILLUMINACLIP:<fastaWithAdaptersEtc>:<seed mismatches>:<palindrome clip threshold>:<simple clip threshold>
- fastaWithAdaptersEtc: trimmomatics에서 TruSeq2와 TruSeq3서열은 제공하고 있고 그외에 아답터 서열을 사용하고 싶으면 fa파일을 넣어주면 됨
- seed mismatches: 허용가능한seed 서열의 mismatch 개수
- palindrome clip threshold: palindrome trimming방법은 Paired End로 시퀀싱을 했을 때 적용할 수 있는 방법으로 아답타 서열이 traget read 앞뒤에 존재해서 첫번째 read와 두번째 read에서 역 상보적으로 동일한 read들이 발견되는 경우 해당 서열들을 삭제하는 방법입니다. (참고 palindrome란? )
- simple clip threshold: 설정된 기준 값에 부합하는 충분히 정확한 match가 확인되면 적절히 clipping함

SLIDINGWINDOW:<windowSize>:<requiredQuality>
설정된 windowSize 서열들의 평균 qaulity가 requiredQuality 값보다 작아지면 작아진 서열들 이후를 제거합니다.

LEADING:<quality>
read 앞쪽을 기준으로 설정된 quality보다 낮은 quality를 가진 서열들을 제거합니다.

TRAILING:<quality>
read 뒤쪽을 기준으로 설정된 quality보다 낮은 quality를 가진 서열들을 제거합니다.

CROP:<length>
read 앞쪽을 기준으로 설정된 length만큼 서열들을 보존한다.

HEADCROP:<length>
read 앞쪽을 기준으로 설정된 length만큼 서열을 삭제한다.

MINLEN:<length>

TOPHRED33 quality를 phread 33으로 변환

TOPHRED64 quality를 phread 64으로 변환


그리고 중요한 점 하나! trimmomatic는 옵션에 순서가 있다는 사실! 저도 아직 테스트 해보지는 못했는데 옵션이 순서대로 적용 된다고 합니다. 설명서에 그렇게 써 있으니 맞겠죠. 그래서 일단 어답터 서열을 먼저 제거하라고 합니다. :)

그럼 즐거운 trimming 작업 되시길..





@sana_twice.09