poretools git url
Oxford Nanopore 데이터 핸들링을 위한 tools중 하나로
현재 다양한 nano로 시작하는 tools들이 있긴 하지만
우선 이 tools을 먼저 살펴보았습니다.
이유는 간단합니다. 제가 사용하고 있으니 작업 로그 삼아 글쓰는거죠 ㅎㅎ
설치는 간단합니다.
먼저 poretools에 필요한 hdf5, numpy, cython 라이브러리들을 설치해 주시고
다음과 같이 샤샤샥
git clone https://github.com/arq5x/poretools물론 이렇게 해서 한큐에 되는 경우는 그렇게 많지는 않죠..
cd poretools
python setup.py install
물론 위는 root권한이 있어야 가능하고요
저같은 일반 유저들은 다음과 같이 해야겟죠(물론 이런 저런 라이브러리는 알아서 잘 설치를...)
git clone https://github.com/arq5x/poretools그럼 일단 큰 문제 없이 설치는 될 겁니다.
cd poretools
python setup.py install --home=/path/to/install
poretools는 nanopore read 추출/통계정도의 작업제외하고는 할 수 있는게...
그래서 여기서는 extract read관련한것만 간단히 적고자 합니다.
nanopore데이터는 hdf5로 PacBio와 format이 유사해서 직접 데이터를 확인 할 수 없습니다.
그래서 fasta파일이나 fastq파일로 추출 작업을 거쳐야 합니다.
다행히 추출 방법은 그리어렵지 않습니다(사실 어려울게 없죠).
poretools {fasta|fastq} /path/to/reads/pass/ > reads.{fa|fq}
이렇게 하면 fast5파일에서 fasta나 fastq정보를 추출해서 파일로 만들어 줍니다.
근데 nanopore보시다 보면 1D다 2D다 이상한 얘기를 하는것을 볼 수 있습니다.
1D, 2D는 sequence type입니다. 쉽게 얘기해서 1D는 한번 읽고 2D는 두번 읽은거
그래서 2D가 먼데? 요기
그러면 2D 서열은 어떻게 추출하는건가?
다음과 같이 각 type에 따라 저장 할 수 있습니다.
poretools {fasta|fastq} --type {all|fwd|rev|2D|fwd,rev|best} /path/to/reads/pass/ > reads.{fa|fq}