레이블이 gtf인 게시물을 표시합니다. 모든 게시물 표시
레이블이 gtf인 게시물을 표시합니다. 모든 게시물 표시

토요일, 11월 30, 2013

GFF3에서 유전자 개수가 몇개인지 궁금할때?



요즘 de novo를 다루는 관계로
assembly 후 gene prediction 할 때 지난번에 포스팅 했던 maker를 사용하는 일이
빈번하다.

maker 결과 중 gff3 type (이 gff/gtf 파일의 형식이.. 버전마다 상이해서... 물론 본인은 차이점은 잘 모르겠다는게 문제.. 여하튼 다르다고 하니...)으로도 파일이 생성되는데
이 파일을 분석에 사용하시라고 분석자에게 보내드렸는데..
안타깝게도 gff 파일이 처음이셨던듯하다.
그런 분에게 gff파일을 보낸 내가 잘못했지만...
gff파일에서 유전자개수를 잘못 알고 계신 관계로.. ㅋㅋ
(지금까지 그렇게 알고 계시면 큰 낭패인데...)

여하튼..
gff파일에서 유전자 개수를 세시는데
$wc genome.gff
하신 듯.. (다르게 하면 그 숫자가 안나오고 wc하면 언급한 숫자가 나온다)

그래서 간단하나마 gff 파일에서 유전자 개수 세기를
언급하고자 한다.
대충 숫자만을 알고 싶다면 굳이 스크립트 필요없다.
$cut -f 3 genome.gff | grep gene | wc

자 이러면 유전자 개수를 알 수 있다.

다음부터는 wc만 하지 않길 바라는 간절한 마음뿐...




화요일, 2월 19, 2013

Ensembl Other Metazoa gtf Summary


Metazoa 중 기타등등

Name (Ensembl)
Total Gene
Exon / Gene
Total Transcript
Exon (bp)
Intron (bp)
CDS (bp)
Max
Median
Min
Max
Median
Min
Max
Median
Min
Aedes aegypti AaegL1
17356
3.71877
18769
13140
230
1
329294
166
1
33984
1050
78
Amphimedon queenslandica Aqu1
30289
5.67803
30289
45177
125
1
50310
84
0
47673
837
16
Anopheles gambiae AgamP3
13465
4.08734
15322
14035
237
1
249417
96
1
47532
1188
75
Apis mellifera Amel 2 0
10736
6.42632
11058
13210
180
1
734966
127
1
53646
1203
21
Atta cephalotes Attacep1 0
18062
4.64179
18093
11406
170
3
402844
210
1
24183
648
3
Bombyx mori Bmor1
14623
5.44245
14623
53798
159
1
9993
720
12
56286
864
86
Caenorhabditis briggsae CB4
22922
5.34233
22947
17127
151
1
82249
65
1
40740
927
12
Caenorhabditis elegans WBcel215
45836
3.41548
56569
14975
144
1
100913
79
1
55686
1038
39
Culex quinquefasciatus CpipJ1
22985
3.27309
23049
12993
188
1
95576
121
1
27324
1017
87
Danaus plexippus DanPle 1 0
16260
5.88678
16260
31119
152
2
156604
287
10
56718
870
42
Daphnia pulex Dappu1
36274
4.14269
36274
12783
150
1
48487
77
0
23328
699
147
Drosophila ananassae dana caf1
15978
3.58174
16061
13661
216
2
1034096
67
1
26715
1081.5
99
Drosophila erecta dere caf1
15810
3.58836
15902
13790
214
1
1121756
73
1
26610
1068
63
Drosophila grimshawi dgri caf1
15585
3.64921
15677
13188
217
1
216011
84
1
26532
1086
114
Drosophila melanogaster BDGP5
15682
4.06281
29173
28074
282
1
141627
109
2
68847
1401
33
Drosophila mojavensis dmoj caf1
15179
3.64089
15258
14595
217
2
245033
75
1
26778
1101
102
Drosophila persimilis dper caf1
17573
3.36966
17658
9522
214
1
160788
71
1
24360
939
69
Drosophila pseudoobscura HGSC2
16768
3.48754
18100
16920
222
2
168194
71
1
55446
1104
33
Drosophila sechellia dsec caf1
17273
3.4063
17362
11004
212
1
173070
73
1
43653
951
24
Drosophila virilis dvir caf1
15343
3.62582
15424
23577
216
1
535952
73
1
40497
1113
90
Drosophila willistoni dwil caf1
16385
3.48911
16469
21318
219
2
682464
73
1
27621
1059
87
Drosophila yakuba dyak r1 3 FB2008 07
16891
3.52034
16983
13188
213
2
161037
74
1
26790
1023
36
Heliconius melpomene Hmel1
16203
5.79658
16363
30639
157
2
188384
428
0
46440
993
42
Ixodes scapularis IscaW1
24925
3.77083
24925
7779
141
1
177576
1608
15
13764
591
95
Nematostella vectensis ASM20922v1
27270
5.25966
27270
12085
126
1
48615
441
0
26235
750
147
Pediculus humanus PhumU1
10990
6.32402
10992
14871
178
2
52922
95
8
32199
1131
135
Schistosoma mansoni sma v3 1
14651
5.09406
16054
79759
170
3
67221
1579
1
22980
873
60
Strongylocentrotus purpuratus Spur2 5
28549
6.54275
28549
63039
145
2
574472
742
0
29134
1061
15
Tribolium castaneum Tcas3
16541
4.34194
16543
26331
198
1
310600
60
1
63351
993
45
Trichinella spiralis Tspiralis1
15461
5.49376
15461
10056
129
1
8636
87
10
37257
588
5
Trichoplax adhaerens ASM15027v1
11627
8.35504
11627
18339
105
2
48786
139
11
23130
1035
147

Ensembl Fungi gtf Summary



Ensembl에서 제공하는 Fungi의 gtf 정보를 사용하여 Summary 해보았습니다.

2주전부터 올릴려고 하고 있었는데 bug 및 계산 착오로 인해서 몇번 수정하느라 늦었습니다. 조만간 업데이트 할 예정입니다. :)

Name (Ensembl)
Total Gene
Exon / Gene
Total Transcript
Exon (bp)
Intron (bp)
CDS (bp)
Max
Median
Min
Max
Median
Min
Max
Median
Min
Ashbya gossypii (ASM9102v1)
5189
1.053
5189
14700
1098
1
666
61
1
14697
1215.0
75
Aspergillus clavatus (CADRE)
9452
3.001
9452
14778
250
2
2397
63
7
24606
1239.0
126
Aspergillus flavus (JCVI-afl1-v2.0)
13875
2.776
13875
14742
258
3
8254
62
8
23289
1056.0
147
Aspergillus fumigatusa1163 (CADRE)
10160
2.886
10160
14778
267
2
2678
61
8
24780
1218.0
63
Aspergillus fumigatus (CADRE)
9898
2.887
9898
25548
272
2
3092
60
1
25545
1245.0
63
Aspergillus nidulans (ASM14920v1)
10827
3.299
10827
18015
245
1
3570
61
1
21642
1236.0
27
Aspergillus niger (CADRE)
14445
3.523
14445
13734
175
1
2702
69
1
21105
1086.0
30
Aspergillus oryzae (CADRE2)
12388
2.885
12388
14742
248
2
2753
62
1
20655
1114.5
300
Aspergillus terreus (CADRE)
10601
3.142
10601
13746
258
1
1425575
59
14
17526
1260.0
147
Botryotinia fuckeliana (BotFuc Aug2005)
16727
2.604
16727
12278
189
1
7371
75
22
20424
744.0
87
Fusarium oxysporum (FO2)
18066
2.670
18066
13941
286
1
2370
59
4
22593
1014.0
3
Gaeumannomyces graminis (Gae graminis V2)
14771
2.649
14963
16454
364
1
9098
88
4
19899
1041.0
96
Gibberella moniliformis (ASM14955v1)
14602
2.730
14621
22425
300
1
989
58
22
22647
1056.0
84
Gibberella zeae (ASM24013v2)
13696
2.767
13697
29066
280
1
975
56
1
33591
1098.0
87
Glomerella graminicola (GCA 000149035.1)
12436
2.685
12436
26808
276
1
2183
64
10
26805
1158.0
93
Komagataella pastoris (GCA 000027005.1)
5228
1.111
5228
14853
1053
2
903
63
10
14850
1188.0
135
Leptosphaeria maculans (ASM23037v1)
12765
2.781
12765
20704
215
3
5775
64
40
29229
999.0
99
Magnaporthe oryzae (MG8)
13218
2.726
13382
18290
361
3
2120
89
5
19623
1083.0
102
Magnaporthe poae (Mag poae ATCC 64411 V1)
12389
2.720
12555
14426
407
2
2101
88
21
18789
1005.0
93
Melampsora laricipopulina (GCA 000204055.1)
16828
4.739
16828
16603
150
1
35273
80
10
15816
900.0
102
Nectria haematococca (v2.0)
16092
3.031
16092
22950
281
1
8864
55
11
22947
1233.0
147
Neosartorya fischeri (CADRE)
10805
2.912
10805
14781
261
2
1506
59
8
18807
1221.0
90
Neurospora crassa (ASM18292v1)
10413
2.644
10432
15030
260
1
1274
85
32
32460
1212.0
87
Phaeosphaeria nodorum (ASM14691v1)
12678
2.626
12678
18212
295
1
1744
56
14
21135
1044.0
63
Puccinia graminis (ASM14992v1)
16481
4.293
16660
5473
176
1
1700
86
21
15642
924.0
87
Puccinia triticina (ASM15152v1)
13330
3.859
13330
8664
168
1
3818
83
15
14283
912.0
147
Pyrenophora teres (GCA 000166005.1)
11958
2.484
11958
9963
310
5
5050
54
21
29457
1143.0
150
Pyrenophora triticirepentis (GCA 000149985.1)
12387
2.638
12387
14088
303
3
2108
57
23
29079
1107.0
117
Saccharomyces cerevisiae (SacCer Apr2011)
7126
1.060
7126
14733
951
1
2483
100
1
14730
1075.5
48
Schizosaccharomyces pombe (ASM294v1)
7018
1.764
7019
14362
565
2
2526
56
1
14772
1134.0
72
Sclerotinia sclerotiorum (ASM14694v1)
10413
2.756
10413
17212
183
1
1494
79
24
20313
819.0
84
Sporisorium reilianum (GCA 000230245.1)
6803
1.452
6803
15883
843
1
2252
87
1
16272
1473.0
75
Trichoderma virens (ASM17099v1)
12698
2.865
12704
61919
297
2
9208
68
10
62673
1140.0
132
Tuber melanosporum (ASM15164v1)
7727
3.786
7727
25158
272.5
6
31660
63
9
28635
1077.0
30
Ustilago maydis (UM1)
6690
1.732
6690
16296
549
1
1122
95
19
16293
1503.0
60
Zymoseptoria tritici (MG2)
11075
2.591
11075
12888
298
2
42135
62
11
13839
1068.0
147