레이블이 mafft인 게시물을 표시합니다. 모든 게시물 표시
레이블이 mafft인 게시물을 표시합니다. 모든 게시물 표시

수요일, 4월 26, 2023

언제까지 primer3만 사용할텐가

이제부터는 ConsensusPrime을 사용해보자.

ConsensusPrime—A Bioinformatic Pipeline for Ideal Consensus Primer Design

https://github.com/mcollatz/ConsensusPrime

작년 말에 출판된 논문으로 서열 정렬과 프라이머 디자인까지 자동화한 tool 소개 곰국되겠습니다.

소스코드는 물론 최신 트렌드에 맞게 docker로도 제공되고있습니다.

primer를 디자인 하고자 하는 영역의 서열과 primer3의 paramerter 파일만 준비하면 나머지는 제가, 아니 ConsensusPrime가 해줍니다.

물론 내가 원하는 수준의 결과물이 나오냐? 그런 모르겠습니다만

그래도 온갖 삽질은 줄어 들것 같은 긍정회로가 돌아가고 있지 않나요? 

실제로 쓸만한지는 한번 사용해보는걸로 :)


다음에 흥미로운 논문으로 찾아오도록 하겠습니다.



@ye._.vely618






토요일, 2월 29, 2020

현재 SARS-CoV-2 Tree를 그리면 어떻게 나올까

2월 28일 기준 2월의 마지막 주말을 맞아 gisaid에 몇개나 업로드 됐는지 확인하러 들어 갔는데 200개가 넘었네??
(2020년 2월 29일 현재 234개임)

그래서 tree 그려보면 어떻게 나올까 궁금해서 한번 그려봤습니다.
근데 200여개 중에 full length로 보이는 거는 대략 164개 정도

그래서 164개 골라내고 SARS 4개 서열과 MERS 2개 서열을 함께 align하고 tree를 그냥 후딱 그려보았다.
(집에서 그냥 작업용으로 사용하는 PC가 i3에 그냥 서류작업에 샘플 테스트는 돌릴 수 있는 정도지 무엇인가 작업하기에는 어렵지 않겠습니까? 그래서 다음과 같이...
최소한의 부하가 걸리지 않는 옵션으로...)

Align: mafft in.fa > out.fa (정확도를 높이는 작업은 진행안했다. 집 컴퓨터로 하려니 안끝나서)
Phylogentic Tree: MEGA X (Maximum Likelihood, General Time Reversible model 사용 했고, 당연히 Bootstrap 100이도 해보려고 했는데 안끝나서 결국 컴터를 껐다는 Orz)

근데 서열중에 Pangolin이라는 단어에 2017이라는 숫자가 있어서 뭐지? 했는데
이게 바로 그 천산갑  ㄷㄷㄷ
천산갑을 벌써 시퀀싱해서 올렸나? 근데 샘플링날짜가 2017? 모지.. 여튼


여튼 그냥 집에서 대충 취미삼아 그려본거...
우리나라에서 올라온 서열들은 7개가 있는데 SNU01, KCDC12, KCDC03/05/06/07/24 3그룹으로 나눠지는 듯한.....

이거 가지고 알 수 있는것은 7명에서 얻은 샘플이 gisaid에 올라와 있고 다른 서열들과 비교해보니 이렇다더라 정도...

그냥 가볍게 보시면 될것 같습니다. :)


GISAID 164ea + Other
GISAID 164ea
ps. 음... 위의 이미지를 저도 한번 봐봤는데 잘 안보이네요..
그렇게 꼭 보고 싶으시면 메일 보내주시면 대단한것도 아니니 164개와 SARS/ MERS 서열 파일 보내드리겠습니다.



출처: @sana_twice.09

토요일, 2월 08, 2020

2019-nCoV Tree 그려보기 -End-

지난번 2번째 글에서는 NCBI에서 genbank파일을 다운로드 받아서 python script로 어쩌구 저쩌구하면 2019-nCoV 서열을 모을 수 있다고 했는데요...

2019-nCoV관련 더 많은 정보들을 확인하시려면 gisaid라는곳에서 서열 을 받으시면 되겠습니다.

gisaid.org


현재(2020년 2월 8일) 76개 서열이 업로드되어 있고 그중 complete genome이 아닌 몇개가 있어서 대략 70개의 서열이 업로드되어 있다고 보시면 되겠습니다.
(아.. 아래 화면은 당연히 회원가입 해야 확인 할 수 있습니다.)


여기서 몇몇 1번 서열들을 다운로드해서 테스트 해보도록 하겠습니다. (최근에 KCDC에서 발표한 서열도 포함하였습니다.

그럼 MEGA-X를 수행하기 전에 서열 정렬 프로그램으로 mafft를 사용하도록 하겠습니다.
(muscle도 좋은데 mafft가 더 빨라서... 빠르다고 좋은건 아니지만 어차피 dna서열 MSA방법이 손꼽는 특정 프로그램이 없는 관계로.. clustalw, clustalo, muscle, tcoffe, mafft 정확히는 protein 서열 정렬이 주특기이고 protein 서열 정렬이 더 의미가 많...)

여하튼.. 그래서

>mafft.bat --auto 2019-nCoV_10ea.fasta > 2019-nCoV_10ea.mafft.fasta

한 결과를 MEGA-X에서 열어보면 이렇게!!




몬가 잘 서열이 잘 정렬 된것처럼 보이죠


Phylogenetic Analsis를 클릭하고, Confirmation창이 하나 뜨는데 저는 No 선택합니다. 이 서열은 전체 genome이지 coding하는 서열이 아니라서.. (물론 coding되는 서열들입니다. ㅎㅎ)

그리고 난 후



MEGA-X 실행 화면에서 PHYLOGENY 선택하고,




5가지방법중 맘에 드시는거 선택해서 작업하시면
진행바가 죽죽 진행되면서

짠하고 다음과 같이 Tree가...


이렇게 그려집니다.

다음번에 기회되면 Tree 그릴때 사용되는 방법에 대해서 공부해서 작성해보는 기회가 있기를 바래보며... 
2020년 새해 벽두 (설날기준)부터 전세계를 공포로 몰아넣고 있는 2019-nCoV Tree그리기를 마무리 하도록 하겠습니다. :)





출처: @sana_twice.09