Trimmomatic Manual
Trimmomatic은 cutadapt와 함께 Illumina 시퀀서들의 adapter들을 제거하고 trimming하는데 널리사용되는 tool되겠습니다.
설치방법은..
>wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.36.zip
>unzip Trimmomatic-0.36.zip
Trimmomatic-0.36폴더 밑에 파일 생성
>cd Trimmomatic-0.36
>java -jar trimmomatic-0.36.jar -h
참 쉽죠!!
물론 java가 설치되어 있어야한다는게 함정
Quick Start
Paired End일때
java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
Single End일때
java -jar trimmomatic-0.35.jar SE -phred33 input.fq.gz output.fq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
위의 Quick Start에서 사용한 내용은 paired와 single 차이일뿐 옵션은 동일합니다.
찬찬히 뜯어보면 다음과 같다고 하네요
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10
- 일루미나 아답타 서열을 제거하는 옵션입니다. 자세한 내용은 하단에..
LEADING:3
- 서열의 앞쪽을 기준으로 quality (여기서는 3) 이하의 N개 서열을 제거합니다.
TRAILING:3
- 서열의 뒤쪽을 기준으로 설정한 quality (여기도 3) 이하의 N개 서열을 제거합니다.
SLIDINGWINDOW:4:15
- 4base씩 확인하면서 평균 quality가 설정된 기준 quality (여기서는 15)보다 이하일 경우 제거합니다.
MINLEN:36
- 위의 단계들을 거치면서도 살아 남은 서열 길이가 기준 길이 (여기서는 36bp)보다 짧으면 (이하) 아예 read를 삭제합니다.
사용 가능한 옵션
ILLUMINACLIP:<fastaWithAdaptersEtc>:<seed mismatches>:<palindrome clip threshold>:<simple clip threshold>
- fastaWithAdaptersEtc: trimmomatics에서 TruSeq2와 TruSeq3서열은 제공하고 있고 그외에 아답터 서열을 사용하고 싶으면 fa파일을 넣어주면 됨
- seed mismatches: 허용가능한seed 서열의 mismatch 개수
- palindrome clip threshold: palindrome trimming방법은 Paired End로 시퀀싱을 했을 때 적용할 수 있는 방법으로 아답타 서열이 traget read 앞뒤에 존재해서 첫번째 read와 두번째 read에서 역 상보적으로 동일한 read들이 발견되는 경우 해당 서열들을 삭제하는 방법입니다. (참고 palindrome란? )
- simple clip threshold: 설정된 기준 값에 부합하는 충분히 정확한 match가 확인되면 적절히 clipping함
SLIDINGWINDOW:<windowSize>:<requiredQuality>
설정된 windowSize 서열들의 평균 qaulity가 requiredQuality 값보다 작아지면 작아진 서열들 이후를 제거합니다.
LEADING:<quality>
read 앞쪽을 기준으로 설정된 quality보다 낮은 quality를 가진 서열들을 제거합니다.
TRAILING:<quality>
read 뒤쪽을 기준으로 설정된 quality보다 낮은 quality를 가진 서열들을 제거합니다.
CROP:<length>
read 앞쪽을 기준으로 설정된 length만큼 서열들을 보존한다.
HEADCROP:<length>
read 앞쪽을 기준으로 설정된 length만큼 서열을 삭제한다.
MINLEN:<length>
TOPHRED33 quality를 phread 33으로 변환
TOPHRED64 quality를 phread 64으로 변환
그리고 중요한 점 하나! trimmomatic는 옵션에 순서가 있다는 사실! 저도 아직 테스트 해보지는 못했는데 옵션이 순서대로 적용 된다고 합니다. 설명서에 그렇게 써 있으니 맞겠죠. 그래서 일단 어답터 서열을 먼저 제거하라고 합니다. :)
그럼 즐거운 trimming 작업 되시길..
@sana_twice.09 |
댓글 2개:
친절히 설명해주셔서 감사합니다!
혹시 잘 실행되었는지 아는방법이 있을까요?
간혹 biostar에서 작동하지않을수도 있다라는 글을 많이 보았는데
무슨내용인지 이해를 하지못하여 연락드립니다.
혹시 triommatic이 잘 작동하였는지 확인하려면 어떻게 해야할까요?
사실 trimmomatic은 안쓰고 fastp를 주로 쓰고 있는지라...
차주안으로 한번 이것저것 확인해보고 글 하나 작성해보도록 하겠습니다.
혹시 "biostar에서 작동하지 않을 수 있다"라는 글의 링크 공유해주시면 내용 확인이 더 수월 할 것 같습니다. :)
댓글 쓰기