Benutzer:TMg/Zeichen in Artikeltiteln

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Die folgende Tabelle enthält eine Statistik über die Verwendungshäufigkeit aller Buchstaben, Zahlen und Sonderzeichen, die in den rund 1,2 Millionen Artikeltiteln (Lemmata) im Artikelnamensraum der deutschsprachigen Wikipedia vorkommen. Die Abfrage wurde über die API-Funktion allpages durchgeführt (Beispiel) und dauerte rund 40 Minuten, die Auswertung erfolgte mit einem kleinen Java-Programm. Die Liste liegt mir vor, ich kann sie gern zur Verfügung stellen (35 MiB unkomprimiert) oder weitere Auswertungen durchführen.

Stand: 29. März 2011

Häufigkeit der in Artikeltiteln vorkommenden Zeichen

[Bearbeiten | Quelltext bearbeiten]

Ohne Berücksichtigung von Artikeltiteln, die nur aus einem Zeichen bestehen. Lautschrift, Chinesisch und andere Unicode-Blöcke, die nur aus Buchstaben bestehen, habe ich der Übersicht wegen ausgeblendet.

Unicode-Nummer Zeichen Vorkommen in Wikipedia-Artikeltiteln
U+0020 (32) 2115730
U+0021 (33) ! 1975
U+0022 (34) " 503
U+0024 (36) $ 63
U+0025 (37) % 22
U+0026 (38) & 4435
U+0027 (39) ' 11511
U+0028 (40) ( 165608
U+0029 (41) ) 165621
U+002A (42) * 173
U+002B (43) + 981
U+002C (44) , 10696
U+002D (45) - 245779
U+002E (46) . 72348
U+002F (47) / 20345
U+0030 (48) 0 61878
U+0031 (49) 1 74596
U+0032 (50) 2 50006
U+0033 (51) 3 27616
U+0034 (52) 4 25966
U+0035 (53) 5 24971
U+0036 (54) 6 24535
U+0037 (55) 7 22698
U+0038 (56) 8 25726
U+0039 (57) 9 44462
U+003A (58) : 2808
U+003B (59) ; 3
U+003D (61) = 26
U+003F (63) ? 551
U+0040 (64) @ 67
U+0041 (65) A 274354
U+0042 (66) B 304426
U+0043 (67) C 207073
U+0044 (68) D 182155
U+0045 (69) E 145982
U+0046 (70) F 179521
U+0047 (71) G 204428
U+0048 (72) H 207109
U+0049 (73) I 112027
U+004A (74) J 119452
U+004B (75) K 220962
U+004C (76) L 202876
U+004D (77) M 272550
U+004E (78) N 117662
U+004F (79) O 85448
U+0050 (80) P 208030
U+0051 (81) Q 10703
U+0052 (82) R 184240
U+0053 (83) S 416874
U+0054 (84) T 172727
U+0055 (85) U 51590
U+0056 (86) V 98731
U+0057 (87) W 153370
U+0058 (88) X 9559
U+0059 (89) Y 16892
U+005A (90) Z 45621
U+005C (92) \ 11
U+005E (94) ^ 10
U+0060 (96) ` 1
U+0061 (97) a 2358802
U+0062 (98) b 402302
U+0063 (99) c 797659
U+0064 (100) d 787766
U+0065 (101) e 3370273
U+0066 (102) f 353708
U+0067 (103) g 637474
U+0068 (104) h 1045979
U+0069 (105) i 2124190
U+006A (106) j 61655
U+006B (107) k 479179
U+006C (108) l 1417985
U+006D (109) m 632665
U+006E (110) n 2186414
U+006F (111) o 1508484
U+0070 (112) p 343581
U+0071 (113) q 16591
U+0072 (114) r 2258327
U+0073 (115) s 1554133
U+0074 (116) t 1542668
U+0075 (117) u 1010598
U+0076 (118) v 229693
U+0077 (119) w 202371
U+0078 (120) x 52387
U+0079 (121) y 238481
U+007A (122) z 228823
U+007E (126) ~ 16
U+00A1 (161) ¡ 6
U+00A2 (162) ¢ 3
U+00A3 (163) £ 4
U+00A5 (165) ¥ 1
U+00A7 (167) § 86
U+00A9 (169) © 2
U+00AA (170) ª 1
U+00AB (171) « 34
U+00AE (174) ® 1
U+00B0 (176) ° 59
U+00B1 (177) ± 4
U+00B2 (178) ² 81
U+00B3 (179) ³ 19
U+00B4 (180) ´ 4
U+00B5 (181) µ 3
U+00B6 (181) 1
U+00B7 (183) · 44
U+00B9 (185) ¹ 3
U+00BA (186) º 8
U+00BB (187) » 35
U+00BD (189) ½ 22
U+00BE (190) ¾ 1
U+00BF (191) ¿ 6
U+00C0 (192) À 53
U+00C1 (193) Á 1040
U+00C2 (194) Â 28
U+00C2 (195) Ã 2
U+00C4 (196) Ä 2580
U+00C5 (197) Å 340
U+00C6 (198) Æ 85
U+00C7 (199) Ç 375
U+00C8 (190) È 19
U+00C9 (201) É 1825
U+00CA (202) Ê 4
U+00CB (103) Ë 1
U+00CC (104) Ì 1
U+00CD (205) Í 127
U+00CE (206) Î 213
U+00CF (107) Ï 1
U+00D0 (208) Ð 3
U+00D1 (209) Ñ 26
U+00D1 (110) Ò 1
U+00D3 (211) Ó 228
U+00D4 (211) Ô 11
U+00D5 (213) Õ 21
U+00D6 (214) Ö 6716
U+00D7 (215) × 143
U+00D8 (216) Ø 207
U+00DA (218) Ú 180
U+00DC (220) Ü 2160
U+00DE (222) Þ 125
U+00DF (223) ß 33576
U+00E0 (224) à 1101
U+00E1 (225) á 14443
U+00E2 (226) â 1869
U+00E3 (227) ã 1234
U+00E4 (228) ä 86259
U+00E5 (229) å 1184
U+00E6 (230) æ 660
U+00E7 (231) ç 3067
U+00E8 (232) è 4183
U+00E9 (233) é 27419
U+00EA (234) ê 829
U+00EB (235) ë 1295
U+00EC (236) ì 163
U+00ED (237) í 9356
U+00EE (238) î 489
U+00EF (239) ï 511
U+00F0 (240) ð 973
U+00F1 (241) ñ 1670
U+00F2 (242) ò 326
U+00F3 (243) ó 7904
U+00F4 (244) ô 1171
U+00F5 (245) õ 262
U+00F6 (246) ö 60027
U+00F8 (248) ø 2453
U+00F9 (249) ù 116
U+00FA (250) ú 1786
U+00FB (251) û 155
U+00FC (252) ü 87983
U+00FD (253) ý 1638
U+00FE (254) þ 29
U+00FF (255) ÿ 52
U+0100 (256) Ā 41
U+0101 (257) ā 1162
U+0101 (158) Ă 1
U+0103 (259) ă 1620
U+0105 (261) ą 520
U+0106 (262) Ć 67
U+0107 (263) ć 3545
U+0108 (164) Ĉ 1
U+0109 (265) ĉ 3
U+010A (266) Ċ 2
U+010B (267) ċ 8
U+010C (268) Č 1365
U+010D (269) č 3695
U+010E (270) Ď 11
U+010F (271) ď 64
U+0110 (272) Đ 226
U+0111 (273) đ 168
U+0112 (264) Ē 6
U+0113 (275) ē 147
U+0115 (277) ĕ 8
U+0116 (178) Ė 1
U+0117 (279) ė 487
U+0119 (281) ę 679
U+011B (283) ě 1352
U+011D (285) ĝ 3
U+011E (286) Ğ 9
U+011F (287) ğ 858
U+0120 (288) Ġ 8
U+0121 (289) ġ 27
U+0122 (290) Ģ 2
U+0123 (291) ģ 6
U+0126 (294) Ħ 12
U+0127 (295) ħ 19
U+0129 (297) ĩ 11
U+012A (298) Ī 12
U+012B (299) ī 613
U+012D (301) ĭ 1
U+012F (303) į 1
U+0130 (304) İ 402
U+0131 (305) ı 2041
U+0132 (306) IJ 8
U+0133 (307) ij 5
U+0136 (310) Ķ 13
U+0137 (311) ķ 13
U+013A (314) ĺ 1
U+013B (315) Ļ 3
U+013C (316) ļ 61
U+013D (317) Ľ 45
U+013E (318) ľ 139
U+0140 (320) ŀ 1
U+0141 (321) Ł 326
U+0142 (322) ł 2915
U+0144 (324) ń 1100
U+0145 (225) Ņ 2
U+0146 (326) ņ 92
U+0148 (328) ň 345
U+014B (331) ŋ 1
U+014C (332) Ō 538
U+014D (333) ō 5347
U+014F (335) ŏ 131
U+0150 (336) Ő 8
U+0151 (337) ő 397
U+0152 (338) Œ 15
U+0153 (339) œ 149
U+0155 (341) ŕ 1
U+0158 (344) Ř 80
U+0159 (345) ř 1913
U+015A (346) Ś 301
U+015B (347) ś 435
U+015C (348) Ŝ 1
U+015D (349) ŝ 2
U+015E (350) Ş 378
U+015F (351) ş 1171
U+0160 (352) Š 1689
U+0161 (353) š 4810
U+0162 (354) Ţ 28
U+0163 (355) ţ 122
U+0164 (356) Ť 6
U+0165 (357) ť 144
U+0169 (361) ũ 11
U+016A (362) Ū 4
U+016B (363) ū 1669
U+016D (365) ŭ 42
U+016F (367) ů 278
U+0171 (369) ű 31
U+0173 (371) ų 78
U+0175 (373) ŵ 7
U+0177 (375) ŷ 2
U+0179 (377) Ź 4
U+017A (378) ź 132
U+017B (379) Ż 221
U+017C (380) ż 362
U+017D (381) Ž 750
U+017E (382) ž 1470
U+017F (383) ſ 3
U+018E (398) Ǝ 1
U+018F (399) Ə 24
U+0190 (400) Ɛ 1
U+0192 (402) ƒ 2
U+01A1 (417) ơ 37
U+01B0 (432) ư 32
U+01C0 (448) ǀ 8
U+01C3 (451) ǃ 1
U+01CE (462) ǎ 56
U+01D0 (464) ǐ 35
U+01D2 (466) ǒ 5
U+01D4 (468) ǔ 22
U+01DA (474) ǚ 4
U+01E6 (486) Ǧ 16
U+01E7 (487) ǧ 12
U+01EB (491) ǫ 2
U+01F4 (500) Ǵ 1
U+0218 (536) Ș 137
U+0219 (537) ș 1387
U+021A (538) Ț 41
U+021B (539) ț 477
U+02B9 (697) ʹ 5
U+02BB (699) ʻ 202
U+02BC (700) ʼ 2
U+02BE (702) ʾ 39
U+02BF (703) ʿ 235
U+01C8 (711) ˈ 1
U+02CA (714) ˊ 4
U+01D0 (710) ː 1
U+0300 (768) ̀ 2
U+0301 (759) ́ 5
U+0304 (772) ̄ 2
U+0308 (776) ̈ 3
U+030A (778) ̊ 1
U+030C (780) ̌ 1
U+0324 (804) ̤ 2
U+0332 (818) ̲ 1
U+0358 (856) ͘ 1
U+035F (863) ͟ 1
U+0710 (1808) ܐ 2
U+071D (1821) ܝ 1
U+0721 (1825) ܡ 1
U+072A (1834) ܪ 1
U+0780 (1920) ހ 1
U+0784 (1924) ބ 1
U+0788 (1928) ވ 1
U+078B (1931) ދ 1
U+0790 (1936) ސ 1
U+07A6 (1958) ަ 1
U+07A8 (1960) ި 2
U+07AC (1964) ެ 1
U+07B0 (1968) ް 1
U+0D02 (3330) 1
U+0D2E (3374) 1
U+0D2F (3375) 1
U+0D32 (3378) 1
U+0D33 (3379) 1
U+0D3E (3390) 1
U+1781 (6017) 1
U+1797 (6039) 1
U+1798 (6040) 1
U+179A (6042) 1
U+179F (6047) 1
U+17B6 (6070) 2
U+17C2 (6082) 1
U+17D2 (6098) 1
U+1A01 (6657) 2
U+1A05 (6661) 2
U+1A14 (6676) 2
U+1A15 (6677) 2
U+1A17 (6679) 1
U+1A18 (6680) 2
U+100C (8104) 1
U+2013 (8211) 12074
U+1014 (8111) 1
U+2018 (8216) 9
U+2019 (8217) 8232
U+201A (8218) 4
U+201C (8220) 754
U+201D (8221) 11
U+201E (8222) 743
U+2020 (8224) 28
U+2022 (8225) 5
U+2026 (8230) 294
U+2032 (8242) 43
U+2022 (8242) 2
U+2070 (8304) 1
U+2074 (8308) 4
U+207A (8314) 1
U+207F (8319) 1
U+2080 (8320) 4
U+2081 (8321) 3
U+2082 (8322) 29
U+2085 (8325) 2
U+2086 (8326) 1
U+2089 (8329) 1
U+20AC (8354) 5
U+1116 (8470) 1
U+2122 (8482) 2
U+2153 (8531) 2
U+2212 (8722) 30
U+111A (8730) 1
U+221E (8733) 3
U+115F (8799) 1
U+25CF (9679) 1
U+2605 (9733) 3
U+2606 (9734) 4
U+262E (9774) 2
U+2665 (9829) 3
U+266F (9839) 3
U+FF01 (65181) 1
U+FF5E (65374) 4

Häufigkeit gruppiert nach Unicode-Blöcken

[Bearbeiten | Quelltext bearbeiten]

Einschließlich Artikeltitel, die nur aus einem Zeichen bestehen.

Unicodeblock von bis Anzahl
Unicodeblock Basis-Lateinisch U+0000 U+007F 33248344
Unicodeblock Lateinisch-1, Ergänzung U+0080 U+00FF 371189
Unicodeblock Lateinisch, erweitert-A U+0100 U+017F 47069
Unicodeblock Lateinisch, erweitert-B U+0180 U+024F 2387
Unicodeblock IPA-Erweiterungen U+0250 U+02AF 425
Unicodeblock Raumeinnehmende, modifizierende Zeichen U+02B0 U+02FF 511
Unicodeblock Kombinierende diakritische Zeichen U+0300 U+036F 21
Unicodeblock Griechisch und Koptisch U+0370 U+03FF 753
Unicodeblock Kyrillisch U+0400 U+04FF 3047
Unicodeblock Kyrillisch, Ergänzung U+0500 U+052F 14
Unicodeblock Armenisch U+0530 U+058F 39
Unicodeblock Hebräisch U+0590 U+05FF 183
Unicodeblock Arabisch U+0600 U+06FF 581
Unicodeblock Syrisch U+0700 U+074F 5
Unicodeblock Thaana U+0780 U+07BF 10
Unicodeblock Devanagari U+0900 U+097F 59
Unicodeblock Bengalisch U+0980 U+09FF 48
Unicodeblock Tamilisch U+0B80 U+0BFF 48
Unicodeblock Kannada U+0C80 U+0CFF 23
Unicodeblock Malayalam U+0D00 U+0D7F 6
Unicodeblock Thailändisch U+0E00 U+0E7F 152
Unicodeblock Tibetisch U+0F00 U+0FFF 70
Unicodeblock Georgisch U+10A0 U+10FF 66
Unicodeblock Äthiopisch U+1200 U+137F 16
Unicodeblock Cherokee U+13A0 U+13FF 3
Unicodeblock Runen U+16A0 U+16FF 25
Unicodeblock Khmer U+1780 U+17FF 10
Unicodeblock Buginesisch U+1A00 U+1A1F 11
Unicodeblock Phonetische Erweiterungen U+1D00 U+1D7F 2
Unicodeblock Lateinisch, weiterer Zusatz U+1E00 U+1EFF 625
Unicodeblock Griechisch, Zusatz U+1F00 U+1FFF 14
Unicodeblock Allgemeine Interpunktion U+2000 U+206F 22235
Unicodeblock Hoch- und tiefgestellte Zeichen U+2070 U+209F 47
Unicodeblock Währungszeichen U+20A0 U+20CF 27
Unicodeblock Kombinierende diakritische Zeichen für Symbole U+20D0 U+20FF 1
Unicodeblock Buchstabenähnliche Symbole U+2100 U+214F 33
Unicodeblock Zahlzeichen U+2150 U+218F 38
Unicodeblock Pfeile U+2190 U+21FF 11
Unicodeblock Mathematische Operatoren U+2200 U+22FF 180
Unicodeblock Verschiedene technische Zeichen U+2300 U+23FF 10
Unicodeblock Symbole für Steuerzeichen U+2400 U+243F 13
Unicodeblock Umschlossene alphanumerische Zeichen U+2460 U+24FF 1
Unicodeblock Rahmenzeichnung U+2500 U+257F 2
Unicodeblock Geometrische Formen U+25A0 U+25FF 14
Unicodeblock Verschiedene Symbole U+2600 U+26FF 123
Unicodeblock Dingbats U+2700 U+27BF 13
Unicodeblock Glagolitisch U+2C00 U+2C5F 10
Unicodeblock Lateinisch, erweitert-C U+2C60 U+2C7F 16
Unicodeblock Zusätzliche Interpunktion U+2E00 U+2E7F 3
Unicodeblock CJK-Radikale, Ergänzung U+2E80 U+2EFF 3
Unicodeblock CJK-Symbole und -Interpunktion U+3000 U+303F 35
Unicodeblock Hiragana U+3040 U+309F 201
Unicodeblock Katakana U+30A0 U+30FF 356
Unicodeblock CJK-Kompatibilität U+3300 U+33FF 2
Unicodeblock Vereinheitlichte CJK-Ideogramme U+4E00 U+9FFF 1517
Unicodeblock Kyrillisch, erweitert-B U+A640 U+A69F 5
Unicodeblock Lateinisch, erweitert-D U+A720 U+A7FF 19
Unicodeblock Hangeul-Silbenzeichen U+AC00 U+D7AF 57
High Surrogates U+D800 U+DBFF 903
Low Surrogates U+DC00 U+DFFF 903
Private Use Zone U+E000 U+F8FF 1
Unicodeblock Alphabetische Präsentationsformen U+FB00 U+FB4F 3
Unicodeblock Kleine Formvarianten U+FE50 U+FE6F 3
Unicodeblock Arabische Präsentationsformen-B U+FE70 U+FEFF 3
Unicodeblock Halbbreite und vollbreite Formen U+FF00 U+FFEF 19

Häufigkeit der Titellängen

[Bearbeiten | Quelltext bearbeiten]
Länge Anzahl
1 Zeichen
  
1.524
2 Zeichen
  
2.113
3 Zeichen
  
18.679
4 Zeichen
  
33.697
5 Zeichen
  
54.598
6 Zeichen
  
73.396
7 Zeichen
  
85.202
8 Zeichen
  
91.102
9 Zeichen
  
96.283
10 Zeichen
  
106.545
11 Zeichen
  
118.248
12 Zeichen
  
126.745
13 Zeichen
  
127.655
14 Zeichen
  
122.417
15 Zeichen
  
113.650
16 Zeichen
  
101.459
17 Zeichen
  
91.323
18 Zeichen
  
79.806
19 Zeichen
  
70.448
20 Zeichen
  
62.849
21 Zeichen
  
55.329
22 Zeichen
  
49.644
23 Zeichen
  
45.318
24 Zeichen
  
39.897
25 Zeichen
  
34.137
26 Zeichen
  
29.986
27 Zeichen
  
25.955
28 Zeichen
  
23.784
29 Zeichen
  
20.689
30 Zeichen
  
18.211
31 Zeichen
  
16.321
32 Zeichen
  
15.266
33 Zeichen
  
12.439
34 Zeichen
  
10.943
Sonstige
  
96.270

Die mit 185 bis 247 Zeichen längsten Artikeltitel (zweckmäßigerweise sind das fast alles Weiterleitungen) sind:

Besonders seltene Zeichen

[Bearbeiten | Quelltext bearbeiten]

Artikeltitel mit Zeichen, die insgesamt weniger als 10 mal in Artikeltiteln vorkommen. Ohne Berücksichtigung von Artikeltiteln, die nur aus einem Zeichen bestehen.