토요일, 11월 30, 2013
GFF3에서 유전자 개수가 몇개인지 궁금할때?
요즘 de novo를 다루는 관계로
assembly 후 gene prediction 할 때 지난번에 포스팅 했던 maker를 사용하는 일이
빈번하다.
maker 결과 중 gff3 type (이 gff/gtf 파일의 형식이.. 버전마다 상이해서... 물론 본인은 차이점은 잘 모르겠다는게 문제.. 여하튼 다르다고 하니...)으로도 파일이 생성되는데
이 파일을 분석에 사용하시라고 분석자에게 보내드렸는데..
안타깝게도 gff 파일이 처음이셨던듯하다.
그런 분에게 gff파일을 보낸 내가 잘못했지만...
gff파일에서 유전자개수를 잘못 알고 계신 관계로.. ㅋㅋ
(지금까지 그렇게 알고 계시면 큰 낭패인데...)
여하튼..
gff파일에서 유전자 개수를 세시는데
$wc genome.gff
하신 듯.. (다르게 하면 그 숫자가 안나오고 wc하면 언급한 숫자가 나온다)
그래서 간단하나마 gff 파일에서 유전자 개수 세기를
언급하고자 한다.
대충 숫자만을 알고 싶다면 굳이 스크립트 필요없다.
$cut -f 3 genome.gff | grep gene | wc
자 이러면 유전자 개수를 알 수 있다.
다음부터는 wc만 하지 않길 바라는 간절한 마음뿐...
화요일, 2월 19, 2013
Ensembl Other Metazoa gtf Summary
Metazoa 중 기타등등
Name
(Ensembl)
|
Total Gene
|
Exon / Gene
|
Total Transcript
|
Exon
(bp)
|
Intron
(bp)
|
CDS
(bp)
|
||||||
Max
|
Median
|
Min
|
Max
|
Median
|
Min
|
Max
|
Median
|
Min
|
||||
Aedes aegypti
AaegL1
|
17356
|
3.71877
|
18769
|
13140
|
230
|
1
|
329294
|
166
|
1
|
33984
|
1050
|
78
|
Amphimedon
queenslandica Aqu1
|
30289
|
5.67803
|
30289
|
45177
|
125
|
1
|
50310
|
84
|
0
|
47673
|
837
|
16
|
Anopheles
gambiae AgamP3
|
13465
|
4.08734
|
15322
|
14035
|
237
|
1
|
249417
|
96
|
1
|
47532
|
1188
|
75
|
Apis mellifera
Amel 2 0
|
10736
|
6.42632
|
11058
|
13210
|
180
|
1
|
734966
|
127
|
1
|
53646
|
1203
|
21
|
Atta
cephalotes Attacep1 0
|
18062
|
4.64179
|
18093
|
11406
|
170
|
3
|
402844
|
210
|
1
|
24183
|
648
|
3
|
Bombyx mori
Bmor1
|
14623
|
5.44245
|
14623
|
53798
|
159
|
1
|
9993
|
720
|
12
|
56286
|
864
|
86
|
Caenorhabditis
briggsae CB4
|
22922
|
5.34233
|
22947
|
17127
|
151
|
1
|
82249
|
65
|
1
|
40740
|
927
|
12
|
Caenorhabditis
elegans WBcel215
|
45836
|
3.41548
|
56569
|
14975
|
144
|
1
|
100913
|
79
|
1
|
55686
|
1038
|
39
|
Culex
quinquefasciatus CpipJ1
|
22985
|
3.27309
|
23049
|
12993
|
188
|
1
|
95576
|
121
|
1
|
27324
|
1017
|
87
|
Danaus
plexippus DanPle 1 0
|
16260
|
5.88678
|
16260
|
31119
|
152
|
2
|
156604
|
287
|
10
|
56718
|
870
|
42
|
Daphnia pulex
Dappu1
|
36274
|
4.14269
|
36274
|
12783
|
150
|
1
|
48487
|
77
|
0
|
23328
|
699
|
147
|
Drosophila
ananassae dana caf1
|
15978
|
3.58174
|
16061
|
13661
|
216
|
2
|
1034096
|
67
|
1
|
26715
|
1081.5
|
99
|
Drosophila
erecta dere caf1
|
15810
|
3.58836
|
15902
|
13790
|
214
|
1
|
1121756
|
73
|
1
|
26610
|
1068
|
63
|
Drosophila
grimshawi dgri caf1
|
15585
|
3.64921
|
15677
|
13188
|
217
|
1
|
216011
|
84
|
1
|
26532
|
1086
|
114
|
Drosophila
melanogaster BDGP5
|
15682
|
4.06281
|
29173
|
28074
|
282
|
1
|
141627
|
109
|
2
|
68847
|
1401
|
33
|
Drosophila
mojavensis dmoj caf1
|
15179
|
3.64089
|
15258
|
14595
|
217
|
2
|
245033
|
75
|
1
|
26778
|
1101
|
102
|
Drosophila
persimilis dper caf1
|
17573
|
3.36966
|
17658
|
9522
|
214
|
1
|
160788
|
71
|
1
|
24360
|
939
|
69
|
Drosophila
pseudoobscura HGSC2
|
16768
|
3.48754
|
18100
|
16920
|
222
|
2
|
168194
|
71
|
1
|
55446
|
1104
|
33
|
Drosophila
sechellia dsec caf1
|
17273
|
3.4063
|
17362
|
11004
|
212
|
1
|
173070
|
73
|
1
|
43653
|
951
|
24
|
Drosophila
virilis dvir caf1
|
15343
|
3.62582
|
15424
|
23577
|
216
|
1
|
535952
|
73
|
1
|
40497
|
1113
|
90
|
Drosophila
willistoni dwil caf1
|
16385
|
3.48911
|
16469
|
21318
|
219
|
2
|
682464
|
73
|
1
|
27621
|
1059
|
87
|
Drosophila
yakuba dyak r1 3 FB2008 07
|
16891
|
3.52034
|
16983
|
13188
|
213
|
2
|
161037
|
74
|
1
|
26790
|
1023
|
36
|
Heliconius
melpomene Hmel1
|
16203
|
5.79658
|
16363
|
30639
|
157
|
2
|
188384
|
428
|
0
|
46440
|
993
|
42
|
Ixodes
scapularis IscaW1
|
24925
|
3.77083
|
24925
|
7779
|
141
|
1
|
177576
|
1608
|
15
|
13764
|
591
|
95
|
Nematostella
vectensis ASM20922v1
|
27270
|
5.25966
|
27270
|
12085
|
126
|
1
|
48615
|
441
|
0
|
26235
|
750
|
147
|
Pediculus
humanus PhumU1
|
10990
|
6.32402
|
10992
|
14871
|
178
|
2
|
52922
|
95
|
8
|
32199
|
1131
|
135
|
Schistosoma
mansoni sma v3 1
|
14651
|
5.09406
|
16054
|
79759
|
170
|
3
|
67221
|
1579
|
1
|
22980
|
873
|
60
|
Strongylocentrotus
purpuratus Spur2 5
|
28549
|
6.54275
|
28549
|
63039
|
145
|
2
|
574472
|
742
|
0
|
29134
|
1061
|
15
|
Tribolium
castaneum Tcas3
|
16541
|
4.34194
|
16543
|
26331
|
198
|
1
|
310600
|
60
|
1
|
63351
|
993
|
45
|
Trichinella
spiralis Tspiralis1
|
15461
|
5.49376
|
15461
|
10056
|
129
|
1
|
8636
|
87
|
10
|
37257
|
588
|
5
|
Trichoplax
adhaerens ASM15027v1
|
11627
|
8.35504
|
11627
|
18339
|
105
|
2
|
48786
|
139
|
11
|
23130
|
1035
|
147
|
Ensembl Fungi gtf Summary
Ensembl에서 제공하는 Fungi의 gtf 정보를 사용하여 Summary 해보았습니다.
2주전부터 올릴려고 하고 있었는데 bug 및 계산 착오로 인해서 몇번 수정하느라 늦었습니다. 조만간 업데이트 할 예정입니다. :)
Name
(Ensembl)
|
Total Gene
|
Exon / Gene
|
Total Transcript
|
Exon
(bp)
|
Intron
(bp)
|
CDS
(bp)
|
||||||
Max
|
Median
|
Min
|
Max
|
Median
|
Min
|
Max
|
Median
|
Min
|
||||
Ashbya
gossypii (ASM9102v1)
|
5189
|
1.053
|
5189
|
14700
|
1098
|
1
|
666
|
61
|
1
|
14697
|
1215.0
|
75
|
Aspergillus
clavatus (CADRE)
|
9452
|
3.001
|
9452
|
14778
|
250
|
2
|
2397
|
63
|
7
|
24606
|
1239.0
|
126
|
Aspergillus
flavus (JCVI-afl1-v2.0)
|
13875
|
2.776
|
13875
|
14742
|
258
|
3
|
8254
|
62
|
8
|
23289
|
1056.0
|
147
|
Aspergillus
fumigatusa1163 (CADRE)
|
10160
|
2.886
|
10160
|
14778
|
267
|
2
|
2678
|
61
|
8
|
24780
|
1218.0
|
63
|
Aspergillus
fumigatus (CADRE)
|
9898
|
2.887
|
9898
|
25548
|
272
|
2
|
3092
|
60
|
1
|
25545
|
1245.0
|
63
|
Aspergillus
nidulans (ASM14920v1)
|
10827
|
3.299
|
10827
|
18015
|
245
|
1
|
3570
|
61
|
1
|
21642
|
1236.0
|
27
|
Aspergillus
niger (CADRE)
|
14445
|
3.523
|
14445
|
13734
|
175
|
1
|
2702
|
69
|
1
|
21105
|
1086.0
|
30
|
Aspergillus
oryzae (CADRE2)
|
12388
|
2.885
|
12388
|
14742
|
248
|
2
|
2753
|
62
|
1
|
20655
|
1114.5
|
300
|
Aspergillus
terreus (CADRE)
|
10601
|
3.142
|
10601
|
13746
|
258
|
1
|
1425575
|
59
|
14
|
17526
|
1260.0
|
147
|
Botryotinia
fuckeliana (BotFuc Aug2005)
|
16727
|
2.604
|
16727
|
12278
|
189
|
1
|
7371
|
75
|
22
|
20424
|
744.0
|
87
|
Fusarium
oxysporum (FO2)
|
18066
|
2.670
|
18066
|
13941
| 286 |
1
|
2370
|
59
|
4
|
22593
|
1014.0
|
3
|
Gaeumannomyces
graminis (Gae graminis V2)
|
14771
|
2.649
|
14963
|
16454
|
364
|
1
|
9098
|
88
|
4
|
19899
|
1041.0
|
96
|
Gibberella
moniliformis (ASM14955v1)
|
14602
|
2.730
|
14621
|
22425
|
300
|
1
|
989
|
58
|
22
|
22647
|
1056.0
|
84
|
Gibberella
zeae (ASM24013v2)
|
13696
|
2.767
|
13697
|
29066
|
280
|
1
|
975
|
56
|
1
|
33591
|
1098.0
|
87
|
Glomerella
graminicola (GCA 000149035.1)
|
12436
|
2.685
|
12436
|
26808
|
276
|
1
|
2183
|
64
|
10
|
26805
|
1158.0
|
93
|
Komagataella
pastoris (GCA 000027005.1)
|
5228
|
1.111
|
5228
|
14853
|
1053
|
2
|
903
|
63
|
10
|
14850
|
1188.0
|
135
|
Leptosphaeria
maculans (ASM23037v1)
|
12765
|
2.781
|
12765
|
20704
|
215
|
3
|
5775
|
64
|
40
|
29229
|
999.0
|
99
|
Magnaporthe
oryzae (MG8)
|
13218
|
2.726
|
13382
|
18290
|
361
|
3
|
2120
|
89
|
5
|
19623
|
1083.0
|
102
|
Magnaporthe
poae (Mag poae ATCC 64411 V1)
|
12389
|
2.720
|
12555
|
14426
|
407
|
2
|
2101
|
88
|
21
|
18789
|
1005.0
|
93
|
Melampsora
laricipopulina (GCA 000204055.1)
|
16828
|
4.739
|
16828
|
16603
|
150
|
1
|
35273
|
80
|
10
|
15816
|
900.0
|
102
|
Nectria
haematococca (v2.0)
|
16092
|
3.031
|
16092
|
22950
|
281
|
1
|
8864
|
55
|
11
|
22947
|
1233.0
|
147
|
Neosartorya
fischeri (CADRE)
|
10805
|
2.912
|
10805
|
14781
|
261
|
2
|
1506
|
59
|
8
|
18807
|
1221.0
|
90
|
Neurospora
crassa (ASM18292v1)
|
10413
|
2.644
|
10432
|
15030
|
260
|
1
|
1274
|
85
|
32
|
32460
|
1212.0
|
87
|
Phaeosphaeria
nodorum (ASM14691v1)
|
12678
|
2.626
|
12678
|
18212
|
295
|
1
|
1744
|
56
|
14
|
21135
|
1044.0
|
63
|
Puccinia
graminis (ASM14992v1)
|
16481
|
4.293
|
16660
|
5473
|
176
|
1
|
1700
|
86
|
21
|
15642
|
924.0
|
87
|
Puccinia
triticina (ASM15152v1)
|
13330
|
3.859
|
13330
|
8664
|
168
|
1
|
3818
|
83
|
15
|
14283
|
912.0
|
147
|
Pyrenophora
teres (GCA 000166005.1)
|
11958
|
2.484
|
11958
|
9963
|
310
|
5
|
5050
|
54
|
21
|
29457
|
1143.0
|
150
|
Pyrenophora
triticirepentis (GCA 000149985.1)
|
12387
|
2.638
|
12387
|
14088
|
303
|
3
|
2108
|
57
|
23
|
29079
|
1107.0
|
117
|
Saccharomyces
cerevisiae (SacCer Apr2011)
|
7126
|
1.060
|
7126
|
14733
|
951
|
1
|
2483
|
100
|
1
|
14730
|
1075.5
|
48
|
Schizosaccharomyces
pombe (ASM294v1)
|
7018
|
1.764
|
7019
|
14362
|
565
|
2
|
2526
|
56
|
1
|
14772
|
1134.0
|
72
|
Sclerotinia
sclerotiorum (ASM14694v1)
|
10413
|
2.756
|
10413
|
17212
|
183
|
1
|
1494
|
79
|
24
|
20313
|
819.0
|
84
|
Sporisorium
reilianum (GCA 000230245.1)
|
6803
|
1.452
|
6803
|
15883
|
843
|
1
|
2252
|
87
|
1
|
16272
|
1473.0
|
75
|
Trichoderma
virens (ASM17099v1)
|
12698
|
2.865
|
12704
|
61919
|
297
|
2
|
9208
|
68
|
10
|
62673
|
1140.0
|
132
|
Tuber
melanosporum (ASM15164v1)
|
7727
|
3.786
|
7727
|
25158
|
272.5
|
6
|
31660
|
63
|
9
|
28635
|
1077.0
|
30
|
Ustilago
maydis (UM1)
|
6690
|
1.732
|
6690
|
16296
|
549
|
1
|
1122
|
95
|
19
|
16293
|
1503.0
|
60
|
Zymoseptoria
tritici (MG2)
|
11075
|
2.591
|
11075
|
12888
|
298
|
2
|
42135
|
62
|
11
|
13839
|
1068.0
|
147
|
피드 구독하기:
글 (Atom)