레이블이 Index인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Index인 게시물을 표시합니다. 모든 게시물 표시

월요일, 10월 21, 2019

bam파일을 가장 쌈빡하게 잘 다루는 방법

NGS 시대를 살면서 bam파일은 어떻게 땔래야 땔수없는
껌딱지같은 녀석이 되어버렸습니다.

다양한 정보를 가지고있기는 한데 그 안에서 정보를 추출같은 핸들링하기가 쉽지 않은게 사실이긴 합니다.

그래서 여기 sam파일 bam파일을 samtools보다 빠르게  처리해주는 툴하나
가지고 와봤습니다.

모 이미 samtools대신에 잘 사용하고 계실겁니다.

sambamba라고 (현재 버전은 v0.7.0 입니다. 논문은 여기에 있습니다.)

sambamba는 samtools와 비슷한 대부분의 기능을 가지고 있습니다.
view, sort, index, merge, slice, flagstat, markdup
그리고 사용법도 모 크게 어렵지 않습니다. :)

sambamba documentation을 보시면 모 크게 어렵지 않게 손쉽게 사용하실 수 있을겁니다. :)


출처: sana_twice.09



금요일, 3월 01, 2019

간만에 RNAseq 분석 해보기 -Reference편-

Alignment를 수행하기 위해서는 reference가 필요합니다.
모 어떤 alignment 툴에서는 그냥 genome 서열만 있어도 되지만
하이 쓰루풋 시퀀싱 데이터를 다룰 때는 대부분 genome 서열을
나름의 index를 새로 생성하게 됩니다.

앞에서 설치했던 aligner들의 index를 만드는 작업의 로그를 남겨보도록 하겠습니다.

BWA
$ ~/bwa/bwa index -p index_name genome.fa

hisat2
$ ~/hisat2/hisat2_extract_exons.py genome.gtf > genome.exon
$ ~/hisat2/hisat2_extract_splice_sites.py genome.gtf > genome.ss
$ ~/hisat2/hisat2-build -f genome.fa --ss genome.ss --exon genome.exon genome_index_base
STAR
$ ~/STAR/STAR --runThreadN 16 --runMode genomeGenerate --genomeDir genomeOutFolder --genomeFastaFiles genome.fa --genomeSAindexNbases index_base --sjdbGTFfile genome.gtf --sjdbOverhang 99

Kallisto
$ ~/tophat/gtf_to_fasta genome.gtf genome.fa genome.gtf2fa.fa
$ ~/kallisto/kallisto index --index=index_name genome.gtf2fa.fa

Salmon
$ ~/salmon/bin/salmon index -t genome.gtf2fa.fa -i genome_idx --type quasi -k 31



이렇게 하면 각 align tool을 사용하기 위한 reference는 준비되었습니다.


출처: SM

토요일, 7월 04, 2015

Bowtie index 생성이 잘 안된다면..


오랜만에 글씁니다.

요즘 NGS다 모다 때문에
Bowtie이 BWA이 모 이상한 aligner?mapping tool 많이 쓰시고 있죠?
(예, BLAST나 BLAT하나면 다 되던 때가 저도 그립긴 합니다. ㅋ)

근데 요녀석을 하려면 BLAST처럼 db같은거 index를 만들어 줘야합니다.
왜냐고요? 아 몰랑 검색하시면 다 나옵니다.

근데 요녀석들이 그냥
명령어 치면 다 만들면 괜찮은데
가끔씩 말 안들을 때 있습니다.

그럴땐 어떻게 해야 하나..
(서버 때려봐야 내 발만 아프고 여차하면 수천 깨집니다. 보스한테 쫓겨날수도 있고요 ㅋ)

bowtie-0.X.X인 경우 debug 프로그램이 없는듯한데
bowtie-1.X.X인 경우 bowtie-build-[l/s]-debug가 있습니다.
이거 돌려보시면 index가 정상적으로 생성되지 않는 이유를 알 수 있습니다.

그럼 그냥 늦은 밤 간만에 글 써봤습니다. :)

월요일, 9월 10, 2012

Illumina Adapter Sequence


Illumina Sequencing에서 사용되는
Adapter중 TruSeq (분석할때 받는 데이터들이 다 요녀석으로 되어 있어서...) DNA/RNA Adapter Sequence를 확인해서 확인해봤습니다. ㅎㅎ


Type
Sequence
TruSeq Universal Adapter
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT
TruSeq Adapter, Index 1
GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCACGATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 2
GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGATGTATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 3
GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTAGGCATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 4
GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGACCAATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 5
GATCGGAAGAGCACACGTCTGAACTCCAGTCACACAGTGATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 6
GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCCAATATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 7
GATCGGAAGAGCACACGTCTGAACTCCAGTCACCAGATCATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 8
GATCGGAAGAGCACACGTCTGAACTCCAGTCACACTTGAATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 9
GATCGGAAGAGCACACGTCTGAACTCCAGTCACGATCAGATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 10
GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAGCTTATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 11
GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGCTACATCTCGTATGCCGTCTTCTGCTTG
TruSeq Adapter, Index 12
GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTTGTAATCTCGTATGCCGTCTTCTGCTTG


나중에 급할때 찾기 좀 애매해서...
요기다가 급 정리 ㅎㅎ

데이터 받았는데 TruSeq DNA/RNA Adapter인데 Index 12번보다 큰 경우
TruSeq Small RNA Index를 사용하는 것이라고 하네요
기본적인 Adapter sequence는 TruSeq DNA/RNA 인데 Index만 TruSeq Small RNA..
모 그렇다고 합니다. :)

좀더 자세한 Illumina Adapter Sequence에 대해서 알고 싶다면
다음 링크 참조 LINK