snp annotation에 빈번히 사용되는
snpEff (snpSift는 난 모르겠고)
snpEff에서도 나름 최신의 genome 정보를 제공하고 있지만
내가 de novo진행한것은?? (제가 곰팽이 de novo들을 많이하다보니.. ㅋㅋ)
어떻하라는 말인가...
고갱님 genome과 gene정보를 NCBI에 등록하고 NCBI gff가 공개되서 snpEff팀에서 지원해주는 시점에 사용하시면 됩니다.
근데 우리 고갱님들 그때까지 기다리시면 암걸리시죠?
그래서 간단한 가내수공업만 할 줄 아시면 곧바로 작업 가능합니다.
일단 위에 소개된 snpEff 사이트에서 snpEff 다운받으시고
압축푸시면 되겠습니다.
그리고 이번에 새로 조립하신 complete든 draft든 genome의 서열과 gff(version 2/3 택일)파일을 /path/to/snpEff/data/ 폴더 밑에 genome 이름으로 폴더 만드시고 그 밑에 복사하시면 되겠습니다. 대신 genome과 gff파일 이름은 genes.gff, sequences.fa로 바꿔주시는 센스!!
ex) 새로 조립한 genome이름이 Lee girwon이라면 Lee_girwon이라고 만드시고 그 밑에 파일을 복사해주시면 되겠습니다.
그리고 추가적으로 하나더 해야 하는 작업은 snpEff.config파일 수정
/path/to/snpEff/snpEff.config파일 끝에 새롭게 추가할 genome을 추가해 줍니다.
ex) vi snpEff.config
Lee_girwon.genome : Lee_girwon
--다음 라인은 선택사항 입니다.--
[TAB]Lee_girwon.chromosomes : AAA0001.1, AAA0002.1
[TAB]Lee_girwon.AAA0001.1.codonTable : Standard
[TAB]Lee_girwon.AAA0002.1.codonTable : Invertebrate_Mitochondrial
자 snpEff.config에 필요한 정보를 추가하였다면 이제는 database를 만들어주는 시간입니다.
java -jar /path/to/snpEff/snpEff.jar build -gff3 -v Lee_girwon
하시면 snpEff database가 뚝딱 만들어 집니다.
참 쉽죠?
위에 까만글씨로 욕은 아닌데 욕먹은 느낌이 나서 귀찮다?
그럼 작업가능한 서버계정과 흡족 할 사례비주시면 대행해드립 ㅋㅋ
화요일, 6월 21, 2016
토요일, 11월 30, 2013
GFF3에서 유전자 개수가 몇개인지 궁금할때?
요즘 de novo를 다루는 관계로
assembly 후 gene prediction 할 때 지난번에 포스팅 했던 maker를 사용하는 일이
빈번하다.
maker 결과 중 gff3 type (이 gff/gtf 파일의 형식이.. 버전마다 상이해서... 물론 본인은 차이점은 잘 모르겠다는게 문제.. 여하튼 다르다고 하니...)으로도 파일이 생성되는데
이 파일을 분석에 사용하시라고 분석자에게 보내드렸는데..
안타깝게도 gff 파일이 처음이셨던듯하다.
그런 분에게 gff파일을 보낸 내가 잘못했지만...
gff파일에서 유전자개수를 잘못 알고 계신 관계로.. ㅋㅋ
(지금까지 그렇게 알고 계시면 큰 낭패인데...)
여하튼..
gff파일에서 유전자 개수를 세시는데
$wc genome.gff
하신 듯.. (다르게 하면 그 숫자가 안나오고 wc하면 언급한 숫자가 나온다)
그래서 간단하나마 gff 파일에서 유전자 개수 세기를
언급하고자 한다.
대충 숫자만을 알고 싶다면 굳이 스크립트 필요없다.
$cut -f 3 genome.gff | grep gene | wc
자 이러면 유전자 개수를 알 수 있다.
다음부터는 wc만 하지 않길 바라는 간절한 마음뿐...
화요일, 2월 19, 2013
Ensembl Other Metazoa gtf Summary
Metazoa 중 기타등등
Name
(Ensembl)
|
Total Gene
|
Exon / Gene
|
Total Transcript
|
Exon
(bp)
|
Intron
(bp)
|
CDS
(bp)
|
||||||
Max
|
Median
|
Min
|
Max
|
Median
|
Min
|
Max
|
Median
|
Min
|
||||
Aedes aegypti
AaegL1
|
17356
|
3.71877
|
18769
|
13140
|
230
|
1
|
329294
|
166
|
1
|
33984
|
1050
|
78
|
Amphimedon
queenslandica Aqu1
|
30289
|
5.67803
|
30289
|
45177
|
125
|
1
|
50310
|
84
|
0
|
47673
|
837
|
16
|
Anopheles
gambiae AgamP3
|
13465
|
4.08734
|
15322
|
14035
|
237
|
1
|
249417
|
96
|
1
|
47532
|
1188
|
75
|
Apis mellifera
Amel 2 0
|
10736
|
6.42632
|
11058
|
13210
|
180
|
1
|
734966
|
127
|
1
|
53646
|
1203
|
21
|
Atta
cephalotes Attacep1 0
|
18062
|
4.64179
|
18093
|
11406
|
170
|
3
|
402844
|
210
|
1
|
24183
|
648
|
3
|
Bombyx mori
Bmor1
|
14623
|
5.44245
|
14623
|
53798
|
159
|
1
|
9993
|
720
|
12
|
56286
|
864
|
86
|
Caenorhabditis
briggsae CB4
|
22922
|
5.34233
|
22947
|
17127
|
151
|
1
|
82249
|
65
|
1
|
40740
|
927
|
12
|
Caenorhabditis
elegans WBcel215
|
45836
|
3.41548
|
56569
|
14975
|
144
|
1
|
100913
|
79
|
1
|
55686
|
1038
|
39
|
Culex
quinquefasciatus CpipJ1
|
22985
|
3.27309
|
23049
|
12993
|
188
|
1
|
95576
|
121
|
1
|
27324
|
1017
|
87
|
Danaus
plexippus DanPle 1 0
|
16260
|
5.88678
|
16260
|
31119
|
152
|
2
|
156604
|
287
|
10
|
56718
|
870
|
42
|
Daphnia pulex
Dappu1
|
36274
|
4.14269
|
36274
|
12783
|
150
|
1
|
48487
|
77
|
0
|
23328
|
699
|
147
|
Drosophila
ananassae dana caf1
|
15978
|
3.58174
|
16061
|
13661
|
216
|
2
|
1034096
|
67
|
1
|
26715
|
1081.5
|
99
|
Drosophila
erecta dere caf1
|
15810
|
3.58836
|
15902
|
13790
|
214
|
1
|
1121756
|
73
|
1
|
26610
|
1068
|
63
|
Drosophila
grimshawi dgri caf1
|
15585
|
3.64921
|
15677
|
13188
|
217
|
1
|
216011
|
84
|
1
|
26532
|
1086
|
114
|
Drosophila
melanogaster BDGP5
|
15682
|
4.06281
|
29173
|
28074
|
282
|
1
|
141627
|
109
|
2
|
68847
|
1401
|
33
|
Drosophila
mojavensis dmoj caf1
|
15179
|
3.64089
|
15258
|
14595
|
217
|
2
|
245033
|
75
|
1
|
26778
|
1101
|
102
|
Drosophila
persimilis dper caf1
|
17573
|
3.36966
|
17658
|
9522
|
214
|
1
|
160788
|
71
|
1
|
24360
|
939
|
69
|
Drosophila
pseudoobscura HGSC2
|
16768
|
3.48754
|
18100
|
16920
|
222
|
2
|
168194
|
71
|
1
|
55446
|
1104
|
33
|
Drosophila
sechellia dsec caf1
|
17273
|
3.4063
|
17362
|
11004
|
212
|
1
|
173070
|
73
|
1
|
43653
|
951
|
24
|
Drosophila
virilis dvir caf1
|
15343
|
3.62582
|
15424
|
23577
|
216
|
1
|
535952
|
73
|
1
|
40497
|
1113
|
90
|
Drosophila
willistoni dwil caf1
|
16385
|
3.48911
|
16469
|
21318
|
219
|
2
|
682464
|
73
|
1
|
27621
|
1059
|
87
|
Drosophila
yakuba dyak r1 3 FB2008 07
|
16891
|
3.52034
|
16983
|
13188
|
213
|
2
|
161037
|
74
|
1
|
26790
|
1023
|
36
|
Heliconius
melpomene Hmel1
|
16203
|
5.79658
|
16363
|
30639
|
157
|
2
|
188384
|
428
|
0
|
46440
|
993
|
42
|
Ixodes
scapularis IscaW1
|
24925
|
3.77083
|
24925
|
7779
|
141
|
1
|
177576
|
1608
|
15
|
13764
|
591
|
95
|
Nematostella
vectensis ASM20922v1
|
27270
|
5.25966
|
27270
|
12085
|
126
|
1
|
48615
|
441
|
0
|
26235
|
750
|
147
|
Pediculus
humanus PhumU1
|
10990
|
6.32402
|
10992
|
14871
|
178
|
2
|
52922
|
95
|
8
|
32199
|
1131
|
135
|
Schistosoma
mansoni sma v3 1
|
14651
|
5.09406
|
16054
|
79759
|
170
|
3
|
67221
|
1579
|
1
|
22980
|
873
|
60
|
Strongylocentrotus
purpuratus Spur2 5
|
28549
|
6.54275
|
28549
|
63039
|
145
|
2
|
574472
|
742
|
0
|
29134
|
1061
|
15
|
Tribolium
castaneum Tcas3
|
16541
|
4.34194
|
16543
|
26331
|
198
|
1
|
310600
|
60
|
1
|
63351
|
993
|
45
|
Trichinella
spiralis Tspiralis1
|
15461
|
5.49376
|
15461
|
10056
|
129
|
1
|
8636
|
87
|
10
|
37257
|
588
|
5
|
Trichoplax
adhaerens ASM15027v1
|
11627
|
8.35504
|
11627
|
18339
|
105
|
2
|
48786
|
139
|
11
|
23130
|
1035
|
147
|
Ensembl Fungi gtf Summary
Ensembl에서 제공하는 Fungi의 gtf 정보를 사용하여 Summary 해보았습니다.
2주전부터 올릴려고 하고 있었는데 bug 및 계산 착오로 인해서 몇번 수정하느라 늦었습니다. 조만간 업데이트 할 예정입니다. :)
Name
(Ensembl)
|
Total Gene
|
Exon / Gene
|
Total Transcript
|
Exon
(bp)
|
Intron
(bp)
|
CDS
(bp)
|
||||||
Max
|
Median
|
Min
|
Max
|
Median
|
Min
|
Max
|
Median
|
Min
|
||||
Ashbya
gossypii (ASM9102v1)
|
5189
|
1.053
|
5189
|
14700
|
1098
|
1
|
666
|
61
|
1
|
14697
|
1215.0
|
75
|
Aspergillus
clavatus (CADRE)
|
9452
|
3.001
|
9452
|
14778
|
250
|
2
|
2397
|
63
|
7
|
24606
|
1239.0
|
126
|
Aspergillus
flavus (JCVI-afl1-v2.0)
|
13875
|
2.776
|
13875
|
14742
|
258
|
3
|
8254
|
62
|
8
|
23289
|
1056.0
|
147
|
Aspergillus
fumigatusa1163 (CADRE)
|
10160
|
2.886
|
10160
|
14778
|
267
|
2
|
2678
|
61
|
8
|
24780
|
1218.0
|
63
|
Aspergillus
fumigatus (CADRE)
|
9898
|
2.887
|
9898
|
25548
|
272
|
2
|
3092
|
60
|
1
|
25545
|
1245.0
|
63
|
Aspergillus
nidulans (ASM14920v1)
|
10827
|
3.299
|
10827
|
18015
|
245
|
1
|
3570
|
61
|
1
|
21642
|
1236.0
|
27
|
Aspergillus
niger (CADRE)
|
14445
|
3.523
|
14445
|
13734
|
175
|
1
|
2702
|
69
|
1
|
21105
|
1086.0
|
30
|
Aspergillus
oryzae (CADRE2)
|
12388
|
2.885
|
12388
|
14742
|
248
|
2
|
2753
|
62
|
1
|
20655
|
1114.5
|
300
|
Aspergillus
terreus (CADRE)
|
10601
|
3.142
|
10601
|
13746
|
258
|
1
|
1425575
|
59
|
14
|
17526
|
1260.0
|
147
|
Botryotinia
fuckeliana (BotFuc Aug2005)
|
16727
|
2.604
|
16727
|
12278
|
189
|
1
|
7371
|
75
|
22
|
20424
|
744.0
|
87
|
Fusarium
oxysporum (FO2)
|
18066
|
2.670
|
18066
|
13941
| 286 |
1
|
2370
|
59
|
4
|
22593
|
1014.0
|
3
|
Gaeumannomyces
graminis (Gae graminis V2)
|
14771
|
2.649
|
14963
|
16454
|
364
|
1
|
9098
|
88
|
4
|
19899
|
1041.0
|
96
|
Gibberella
moniliformis (ASM14955v1)
|
14602
|
2.730
|
14621
|
22425
|
300
|
1
|
989
|
58
|
22
|
22647
|
1056.0
|
84
|
Gibberella
zeae (ASM24013v2)
|
13696
|
2.767
|
13697
|
29066
|
280
|
1
|
975
|
56
|
1
|
33591
|
1098.0
|
87
|
Glomerella
graminicola (GCA 000149035.1)
|
12436
|
2.685
|
12436
|
26808
|
276
|
1
|
2183
|
64
|
10
|
26805
|
1158.0
|
93
|
Komagataella
pastoris (GCA 000027005.1)
|
5228
|
1.111
|
5228
|
14853
|
1053
|
2
|
903
|
63
|
10
|
14850
|
1188.0
|
135
|
Leptosphaeria
maculans (ASM23037v1)
|
12765
|
2.781
|
12765
|
20704
|
215
|
3
|
5775
|
64
|
40
|
29229
|
999.0
|
99
|
Magnaporthe
oryzae (MG8)
|
13218
|
2.726
|
13382
|
18290
|
361
|
3
|
2120
|
89
|
5
|
19623
|
1083.0
|
102
|
Magnaporthe
poae (Mag poae ATCC 64411 V1)
|
12389
|
2.720
|
12555
|
14426
|
407
|
2
|
2101
|
88
|
21
|
18789
|
1005.0
|
93
|
Melampsora
laricipopulina (GCA 000204055.1)
|
16828
|
4.739
|
16828
|
16603
|
150
|
1
|
35273
|
80
|
10
|
15816
|
900.0
|
102
|
Nectria
haematococca (v2.0)
|
16092
|
3.031
|
16092
|
22950
|
281
|
1
|
8864
|
55
|
11
|
22947
|
1233.0
|
147
|
Neosartorya
fischeri (CADRE)
|
10805
|
2.912
|
10805
|
14781
|
261
|
2
|
1506
|
59
|
8
|
18807
|
1221.0
|
90
|
Neurospora
crassa (ASM18292v1)
|
10413
|
2.644
|
10432
|
15030
|
260
|
1
|
1274
|
85
|
32
|
32460
|
1212.0
|
87
|
Phaeosphaeria
nodorum (ASM14691v1)
|
12678
|
2.626
|
12678
|
18212
|
295
|
1
|
1744
|
56
|
14
|
21135
|
1044.0
|
63
|
Puccinia
graminis (ASM14992v1)
|
16481
|
4.293
|
16660
|
5473
|
176
|
1
|
1700
|
86
|
21
|
15642
|
924.0
|
87
|
Puccinia
triticina (ASM15152v1)
|
13330
|
3.859
|
13330
|
8664
|
168
|
1
|
3818
|
83
|
15
|
14283
|
912.0
|
147
|
Pyrenophora
teres (GCA 000166005.1)
|
11958
|
2.484
|
11958
|
9963
|
310
|
5
|
5050
|
54
|
21
|
29457
|
1143.0
|
150
|
Pyrenophora
triticirepentis (GCA 000149985.1)
|
12387
|
2.638
|
12387
|
14088
|
303
|
3
|
2108
|
57
|
23
|
29079
|
1107.0
|
117
|
Saccharomyces
cerevisiae (SacCer Apr2011)
|
7126
|
1.060
|
7126
|
14733
|
951
|
1
|
2483
|
100
|
1
|
14730
|
1075.5
|
48
|
Schizosaccharomyces
pombe (ASM294v1)
|
7018
|
1.764
|
7019
|
14362
|
565
|
2
|
2526
|
56
|
1
|
14772
|
1134.0
|
72
|
Sclerotinia
sclerotiorum (ASM14694v1)
|
10413
|
2.756
|
10413
|
17212
|
183
|
1
|
1494
|
79
|
24
|
20313
|
819.0
|
84
|
Sporisorium
reilianum (GCA 000230245.1)
|
6803
|
1.452
|
6803
|
15883
|
843
|
1
|
2252
|
87
|
1
|
16272
|
1473.0
|
75
|
Trichoderma
virens (ASM17099v1)
|
12698
|
2.865
|
12704
|
61919
|
297
|
2
|
9208
|
68
|
10
|
62673
|
1140.0
|
132
|
Tuber
melanosporum (ASM15164v1)
|
7727
|
3.786
|
7727
|
25158
|
272.5
|
6
|
31660
|
63
|
9
|
28635
|
1077.0
|
30
|
Ustilago
maydis (UM1)
|
6690
|
1.732
|
6690
|
16296
|
549
|
1
|
1122
|
95
|
19
|
16293
|
1503.0
|
60
|
Zymoseptoria
tritici (MG2)
|
11075
|
2.591
|
11075
|
12888
|
298
|
2
|
42135
|
62
|
11
|
13839
|
1068.0
|
147
|
피드 구독하기:
글 (Atom)