레이블이 GFF인 게시물을 표시합니다. 모든 게시물 표시
레이블이 GFF인 게시물을 표시합니다. 모든 게시물 표시

화요일, 6월 21, 2016

snpEff에서 사용하는 genome annotation은 어떻게 추가할 수 있는가?

snp annotation에 빈번히 사용되는
snpEff (snpSift는 난 모르겠고)

snpEff에서도 나름 최신의 genome 정보를 제공하고 있지만
내가 de novo진행한것은?? (제가 곰팽이 de novo들을 많이하다보니.. ㅋㅋ)
어떻하라는 말인가...

고갱님 genome과 gene정보를 NCBI에 등록하고 NCBI gff가 공개되서 snpEff팀에서 지원해주는 시점에 사용하시면 됩니다.

근데 우리 고갱님들 그때까지 기다리시면 암걸리시죠?

그래서 간단한 가내수공업만 할 줄 아시면 곧바로 작업 가능합니다.

일단 위에 소개된 snpEff 사이트에서 snpEff 다운받으시고
압축푸시면 되겠습니다.

그리고 이번에 새로 조립하신 complete든 draft든 genome의 서열과 gff(version 2/3 택일)파일을 /path/to/snpEff/data/ 폴더 밑에 genome 이름으로 폴더 만드시고 그 밑에 복사하시면 되겠습니다. 대신 genome과 gff파일 이름은 genes.gff, sequences.fa로 바꿔주시는 센스!!

ex) 새로 조립한 genome이름이 Lee girwon이라면 Lee_girwon이라고 만드시고 그 밑에 파일을 복사해주시면 되겠습니다.

그리고 추가적으로 하나더 해야 하는 작업은 snpEff.config파일 수정
/path/to/snpEff/snpEff.config파일 끝에 새롭게 추가할 genome을 추가해 줍니다.

ex) vi snpEff.config
Lee_girwon.genome : Lee_girwon
--다음 라인은 선택사항 입니다.--
[TAB]Lee_girwon.chromosomes : AAA0001.1, AAA0002.1
[TAB]Lee_girwon.AAA0001.1.codonTable : Standard
[TAB]Lee_girwon.AAA0002.1.codonTable : Invertebrate_Mitochondrial

자 snpEff.config에 필요한 정보를 추가하였다면 이제는 database를 만들어주는 시간입니다.

java -jar /path/to/snpEff/snpEff.jar build -gff3 -v Lee_girwon

하시면 snpEff database가 뚝딱 만들어 집니다.

참 쉽죠?

위에 까만글씨로 욕은 아닌데 욕먹은 느낌이 나서 귀찮다?
그럼 작업가능한 서버계정과 흡족 할 사례비주시면 대행해드립 ㅋㅋ

토요일, 11월 30, 2013

GFF3에서 유전자 개수가 몇개인지 궁금할때?



요즘 de novo를 다루는 관계로
assembly 후 gene prediction 할 때 지난번에 포스팅 했던 maker를 사용하는 일이
빈번하다.

maker 결과 중 gff3 type (이 gff/gtf 파일의 형식이.. 버전마다 상이해서... 물론 본인은 차이점은 잘 모르겠다는게 문제.. 여하튼 다르다고 하니...)으로도 파일이 생성되는데
이 파일을 분석에 사용하시라고 분석자에게 보내드렸는데..
안타깝게도 gff 파일이 처음이셨던듯하다.
그런 분에게 gff파일을 보낸 내가 잘못했지만...
gff파일에서 유전자개수를 잘못 알고 계신 관계로.. ㅋㅋ
(지금까지 그렇게 알고 계시면 큰 낭패인데...)

여하튼..
gff파일에서 유전자 개수를 세시는데
$wc genome.gff
하신 듯.. (다르게 하면 그 숫자가 안나오고 wc하면 언급한 숫자가 나온다)

그래서 간단하나마 gff 파일에서 유전자 개수 세기를
언급하고자 한다.
대충 숫자만을 알고 싶다면 굳이 스크립트 필요없다.
$cut -f 3 genome.gff | grep gene | wc

자 이러면 유전자 개수를 알 수 있다.

다음부터는 wc만 하지 않길 바라는 간절한 마음뿐...




화요일, 2월 19, 2013

Ensembl Other Metazoa gtf Summary


Metazoa 중 기타등등

Name (Ensembl)
Total Gene
Exon / Gene
Total Transcript
Exon (bp)
Intron (bp)
CDS (bp)
Max
Median
Min
Max
Median
Min
Max
Median
Min
Aedes aegypti AaegL1
17356
3.71877
18769
13140
230
1
329294
166
1
33984
1050
78
Amphimedon queenslandica Aqu1
30289
5.67803
30289
45177
125
1
50310
84
0
47673
837
16
Anopheles gambiae AgamP3
13465
4.08734
15322
14035
237
1
249417
96
1
47532
1188
75
Apis mellifera Amel 2 0
10736
6.42632
11058
13210
180
1
734966
127
1
53646
1203
21
Atta cephalotes Attacep1 0
18062
4.64179
18093
11406
170
3
402844
210
1
24183
648
3
Bombyx mori Bmor1
14623
5.44245
14623
53798
159
1
9993
720
12
56286
864
86
Caenorhabditis briggsae CB4
22922
5.34233
22947
17127
151
1
82249
65
1
40740
927
12
Caenorhabditis elegans WBcel215
45836
3.41548
56569
14975
144
1
100913
79
1
55686
1038
39
Culex quinquefasciatus CpipJ1
22985
3.27309
23049
12993
188
1
95576
121
1
27324
1017
87
Danaus plexippus DanPle 1 0
16260
5.88678
16260
31119
152
2
156604
287
10
56718
870
42
Daphnia pulex Dappu1
36274
4.14269
36274
12783
150
1
48487
77
0
23328
699
147
Drosophila ananassae dana caf1
15978
3.58174
16061
13661
216
2
1034096
67
1
26715
1081.5
99
Drosophila erecta dere caf1
15810
3.58836
15902
13790
214
1
1121756
73
1
26610
1068
63
Drosophila grimshawi dgri caf1
15585
3.64921
15677
13188
217
1
216011
84
1
26532
1086
114
Drosophila melanogaster BDGP5
15682
4.06281
29173
28074
282
1
141627
109
2
68847
1401
33
Drosophila mojavensis dmoj caf1
15179
3.64089
15258
14595
217
2
245033
75
1
26778
1101
102
Drosophila persimilis dper caf1
17573
3.36966
17658
9522
214
1
160788
71
1
24360
939
69
Drosophila pseudoobscura HGSC2
16768
3.48754
18100
16920
222
2
168194
71
1
55446
1104
33
Drosophila sechellia dsec caf1
17273
3.4063
17362
11004
212
1
173070
73
1
43653
951
24
Drosophila virilis dvir caf1
15343
3.62582
15424
23577
216
1
535952
73
1
40497
1113
90
Drosophila willistoni dwil caf1
16385
3.48911
16469
21318
219
2
682464
73
1
27621
1059
87
Drosophila yakuba dyak r1 3 FB2008 07
16891
3.52034
16983
13188
213
2
161037
74
1
26790
1023
36
Heliconius melpomene Hmel1
16203
5.79658
16363
30639
157
2
188384
428
0
46440
993
42
Ixodes scapularis IscaW1
24925
3.77083
24925
7779
141
1
177576
1608
15
13764
591
95
Nematostella vectensis ASM20922v1
27270
5.25966
27270
12085
126
1
48615
441
0
26235
750
147
Pediculus humanus PhumU1
10990
6.32402
10992
14871
178
2
52922
95
8
32199
1131
135
Schistosoma mansoni sma v3 1
14651
5.09406
16054
79759
170
3
67221
1579
1
22980
873
60
Strongylocentrotus purpuratus Spur2 5
28549
6.54275
28549
63039
145
2
574472
742
0
29134
1061
15
Tribolium castaneum Tcas3
16541
4.34194
16543
26331
198
1
310600
60
1
63351
993
45
Trichinella spiralis Tspiralis1
15461
5.49376
15461
10056
129
1
8636
87
10
37257
588
5
Trichoplax adhaerens ASM15027v1
11627
8.35504
11627
18339
105
2
48786
139
11
23130
1035
147

Ensembl Fungi gtf Summary



Ensembl에서 제공하는 Fungi의 gtf 정보를 사용하여 Summary 해보았습니다.

2주전부터 올릴려고 하고 있었는데 bug 및 계산 착오로 인해서 몇번 수정하느라 늦었습니다. 조만간 업데이트 할 예정입니다. :)

Name (Ensembl)
Total Gene
Exon / Gene
Total Transcript
Exon (bp)
Intron (bp)
CDS (bp)
Max
Median
Min
Max
Median
Min
Max
Median
Min
Ashbya gossypii (ASM9102v1)
5189
1.053
5189
14700
1098
1
666
61
1
14697
1215.0
75
Aspergillus clavatus (CADRE)
9452
3.001
9452
14778
250
2
2397
63
7
24606
1239.0
126
Aspergillus flavus (JCVI-afl1-v2.0)
13875
2.776
13875
14742
258
3
8254
62
8
23289
1056.0
147
Aspergillus fumigatusa1163 (CADRE)
10160
2.886
10160
14778
267
2
2678
61
8
24780
1218.0
63
Aspergillus fumigatus (CADRE)
9898
2.887
9898
25548
272
2
3092
60
1
25545
1245.0
63
Aspergillus nidulans (ASM14920v1)
10827
3.299
10827
18015
245
1
3570
61
1
21642
1236.0
27
Aspergillus niger (CADRE)
14445
3.523
14445
13734
175
1
2702
69
1
21105
1086.0
30
Aspergillus oryzae (CADRE2)
12388
2.885
12388
14742
248
2
2753
62
1
20655
1114.5
300
Aspergillus terreus (CADRE)
10601
3.142
10601
13746
258
1
1425575
59
14
17526
1260.0
147
Botryotinia fuckeliana (BotFuc Aug2005)
16727
2.604
16727
12278
189
1
7371
75
22
20424
744.0
87
Fusarium oxysporum (FO2)
18066
2.670
18066
13941
286
1
2370
59
4
22593
1014.0
3
Gaeumannomyces graminis (Gae graminis V2)
14771
2.649
14963
16454
364
1
9098
88
4
19899
1041.0
96
Gibberella moniliformis (ASM14955v1)
14602
2.730
14621
22425
300
1
989
58
22
22647
1056.0
84
Gibberella zeae (ASM24013v2)
13696
2.767
13697
29066
280
1
975
56
1
33591
1098.0
87
Glomerella graminicola (GCA 000149035.1)
12436
2.685
12436
26808
276
1
2183
64
10
26805
1158.0
93
Komagataella pastoris (GCA 000027005.1)
5228
1.111
5228
14853
1053
2
903
63
10
14850
1188.0
135
Leptosphaeria maculans (ASM23037v1)
12765
2.781
12765
20704
215
3
5775
64
40
29229
999.0
99
Magnaporthe oryzae (MG8)
13218
2.726
13382
18290
361
3
2120
89
5
19623
1083.0
102
Magnaporthe poae (Mag poae ATCC 64411 V1)
12389
2.720
12555
14426
407
2
2101
88
21
18789
1005.0
93
Melampsora laricipopulina (GCA 000204055.1)
16828
4.739
16828
16603
150
1
35273
80
10
15816
900.0
102
Nectria haematococca (v2.0)
16092
3.031
16092
22950
281
1
8864
55
11
22947
1233.0
147
Neosartorya fischeri (CADRE)
10805
2.912
10805
14781
261
2
1506
59
8
18807
1221.0
90
Neurospora crassa (ASM18292v1)
10413
2.644
10432
15030
260
1
1274
85
32
32460
1212.0
87
Phaeosphaeria nodorum (ASM14691v1)
12678
2.626
12678
18212
295
1
1744
56
14
21135
1044.0
63
Puccinia graminis (ASM14992v1)
16481
4.293
16660
5473
176
1
1700
86
21
15642
924.0
87
Puccinia triticina (ASM15152v1)
13330
3.859
13330
8664
168
1
3818
83
15
14283
912.0
147
Pyrenophora teres (GCA 000166005.1)
11958
2.484
11958
9963
310
5
5050
54
21
29457
1143.0
150
Pyrenophora triticirepentis (GCA 000149985.1)
12387
2.638
12387
14088
303
3
2108
57
23
29079
1107.0
117
Saccharomyces cerevisiae (SacCer Apr2011)
7126
1.060
7126
14733
951
1
2483
100
1
14730
1075.5
48
Schizosaccharomyces pombe (ASM294v1)
7018
1.764
7019
14362
565
2
2526
56
1
14772
1134.0
72
Sclerotinia sclerotiorum (ASM14694v1)
10413
2.756
10413
17212
183
1
1494
79
24
20313
819.0
84
Sporisorium reilianum (GCA 000230245.1)
6803
1.452
6803
15883
843
1
2252
87
1
16272
1473.0
75
Trichoderma virens (ASM17099v1)
12698
2.865
12704
61919
297
2
9208
68
10
62673
1140.0
132
Tuber melanosporum (ASM15164v1)
7727
3.786
7727
25158
272.5
6
31660
63
9
28635
1077.0
30
Ustilago maydis (UM1)
6690
1.732
6690
16296
549
1
1122
95
19
16293
1503.0
60
Zymoseptoria tritici (MG2)
11075
2.591
11075
12888
298
2
42135
62
11
13839
1068.0
147