Википедия:Частотный словник | Данные в этой статье приведены по состоянию на 23 октября 2006 года. Вы можете помочь, обновив информацию в статье. |
Вторая редакция (включены предлоги, имена собственные, исправлены ошибки).
Методика
- С сайта http://download.wikipedia.org был скачан образ русскоязычного раздела Википедии в формате XML (ruwiki-20061023-pages-meta-current.xml), содержащий последние версии всех страниц.
- С помощью удобного Perl-модуля Parse::MediaWikiDump из массива всех страниц были выделены исходные тексты статей (страницы из основного пространства имён) и обсуждений (страницы из пространств имён «Обсуждение», «Обсуждение участника», «Обсуждение Википедии», а также страницы, содержащие в названии «Википедия:Форум», «Википедия:К удалению», «Википедия:Вниманию участников», «Википедия:Опросы», «Википедия:Обсуждения»). Эти тексты были сохранены в двух больших файлах, их размеры составили: 135 и 48 МБ (в кодировке UTF-8)
- Из текстов были удалены: изображения, перенаправления, категории, интервики-ссылки, шаблоны, таблицы, комментарии, теги, многие небуквенные символы (кавычки, тире). Ссылки были заменены на свои заголовки ([[название страницы|заголовок ссылки]]).
- С сайта http://aot.ru был скачан и установлен морфологический анализатор и словари для него (LGPL версия под Linux).
- Из-за особенностей работы морфологического анализатора, тексты были дополнительно обработаны: символы подчёркивания были заменены на пробелы, убраны пустые строки; файлы были разбиты на множество маленьких, по 500 строк.
- Был произведён морфологический анализ текстов (то есть фраза «мама мыла раму» была преобразована в «мама мыть рама»), лексемы были записаны в файлы. Среди слов затесались также и отдельные буквы, например, «н» (вероятно, от «год до н. э.»), «т» (вероятно от «т. к.») и другие (например, инициалы).
- Анализатор допускает заметное число ошибок, например предлог «при» он посчитал за повелительное наклонение от глагола «переть», в итоге последннее оказалось аж на 26 месте. (я это исправил в списке на этой странице, но не в файлах с общим списком)
- Анализатор не справился с обсценной лексикой: таким образом, отметку в 100 словоупотреблений у нас преодолел глагол «ховать».
- Глокая куздра превратилась в «глокий куздр».
- Рассчитан частотный словник.
Результаты
Было выявлено (вторая редакция):
- в статьях
- всего 22,5 млн слов
- 650 тыс. лексем
- 89 тыс. лексем встречаются 10 раз и более раз
- 17 тыс. лексем встречаются 100 раз и более раз.
- в обсуждениях
- всего 4 млн слов
- 135 тыс. лексем
- 18,5 тыс. лексем встречаются 10 раз и более раз
- 3,5 тыс. лексем встречаются 100 раз и более раз.
Таблицы
- Полный частотный словник можно скачать здесь(ссылка не работает) (надо бы перенести куда-нибудь в более постоянное место).
250 наиболее популярных слов (вторая редакция)
Ранг
|
Слово в статье
|
Частота
|
|
Ранг
|
Слово в обсужд.
|
Частота
|
1 |
в |
907330 |
|
1 |
в |
126580
|
2 |
и |
672533 |
|
2 |
и |
117180
|
3 |
на |
281237 |
|
3 |
не |
102234
|
4 |
с |
239353 |
|
4 |
этот |
67911
|
5 |
быть |
139721 |
|
5 |
что |
58993
|
6 |
по |
128939 |
|
6 |
на |
55849
|
7 |
этот |
124553 |
|
7 |
я |
45429
|
8 |
год |
124478 |
|
8 |
а |
42498
|
9 |
не |
117176 |
|
9 |
с |
36144
|
10 |
из |
105350 |
|
10 |
быть |
33970
|
11 |
к |
101112 |
|
11 |
статья |
33937
|
12 |
который |
92754 |
|
12 |
как |
28624
|
13 |
для |
91126 |
|
13 |
по |
27956
|
14 |
он |
88710 |
|
14 |
но |
21871
|
15 |
а |
86882 |
|
15 |
вы |
21801
|
16 |
что |
80812 |
|
16 |
к |
20831
|
17 |
от |
80353 |
|
17 |
если |
20599
|
18 |
как |
77090 |
|
18 |
о |
20353
|
19 |
его |
74397 |
|
19 |
весь |
19843
|
20 |
также |
73641 |
|
20 |
то |
19792
|
21 |
они |
66690 |
|
21 |
стать |
18613
|
22 |
до |
59253 |
|
22 |
они |
18513
|
23 |
г |
58687 |
|
23 |
так |
17900
|
24 |
или |
58012 |
|
24 |
мочь |
17600
|
25 |
о |
56212 |
|
25 |
для |
17020
|
26 |
при |
55060 |
|
26 |
из |
16540
|
27 |
за |
50361 |
|
27 |
или |
16289
|
28 |
один |
50218 |
|
28 |
он |
15326
|
29 |
другой |
47641 |
|
29 |
есть |
15007
|
30 |
город |
44643 |
|
30 |
который |
14754
|
31 |
новый |
43794 |
|
31 |
такой |
14302
|
32 |
первый |
43784 |
|
32 |
же |
14123
|
33 |
но |
43170 |
|
33 |
бы |
14096
|
34 |
свой |
42232 |
|
34 |
у |
13702
|
35 |
время |
42047 |
|
35 |
тот |
12862
|
36 |
см |
41945 |
|
36 |
только |
11964
|
37 |
ссылка |
40959 |
|
37 |
за |
11898
|
38 |
весь |
39855 |
|
38 |
можно |
11747
|
39 |
человек |
37573 |
|
39 |
википедия |
11741
|
40 |
после |
36085 |
|
40 |
один |
10804
|
41 |
мочь |
34518 |
|
41 |
его |
10495
|
42 |
у |
34167 |
|
42 |
от |
10363
|
43 |
м |
33700 |
|
43 |
еще |
10202
|
44 |
ngc |
33633 |
|
44 |
нет |
10105
|
45 |
тот |
33422 |
|
45 |
мы |
9927
|
46 |
являться |
32929 |
|
46 |
ссылка |
9882
|
47 |
во |
32834 |
|
47 |
другой |
9844
|
48 |
стать |
31763 |
|
48 |
было |
8837
|
49 |
фильм |
30362 |
|
49 |
слово |
8819
|
50 |
так |
30324 |
|
50 |
участник |
8595
|
51 |
общий |
29695 |
|
51 |
надо |
8537
|
52 |
россия |
29605 |
|
52 |
уже |
8524
|
53 |
было |
29434 |
|
53 |
человек |
8491
|
54 |
иметь |
29181 |
|
54 |
сам |
8285
|
55 |
район |
29143 |
|
55 |
простой |
7952
|
56 |
же |
29069 |
|
56 |
написать |
7919
|
57 |
название |
28423 |
|
57 |
до |
7713
|
58 |
область |
28315 |
|
58 |
нужный |
7547
|
59 |
место |
28123 |
|
59 |
удалить |
7519
|
60 |
число |
27824 |
|
60 |
про |
7455
|
61 |
the |
27769 |
|
61 |
т |
7432
|
62 |
то |
27714 |
|
62 |
иметь |
7321
|
63 |
история |
27680 |
|
63 |
вот |
7197
|
64 |
такой |
27081 |
|
64 |
вопрос |
6915
|
65 |
of |
27025 |
|
65 |
чем |
6897
|
66 |
система |
26934 |
|
66 |
должен |
6787
|
67 |
язык |
26722 |
|
67 |
свой |
6778
|
68 |
ее |
25956 |
|
68 |
там |
6685
|
69 |
два |
25604 |
|
69 |
хороший |
6607
|
70 |
более |
25320 |
|
70 |
сделать |
6565
|
71 |
под |
25229 |
|
71 |
страница |
6521
|
72 |
только |
24032 |
|
72 |
более |
6520
|
73 |
группа |
23556 |
|
73 |
ее |
6366
|
74 |
н |
23423 |
|
74 |
ли |
6287
|
75 |
себя |
23401 |
|
75 |
да |
6273
|
76 |
она |
23122 |
|
76 |
чтобы |
6258
|
77 |
население |
22692 |
|
77 |
при |
6222
|
78 |
война |
22411 |
|
78 |
название |
6168
|
79 |
большой |
22041 |
|
79 |
язык |
6081
|
80 |
вид |
21478 |
|
80 |
писать |
6040
|
81 |
работа |
21108 |
|
81 |
год |
6038
|
82 |
страна |
20419 |
|
82 |
она |
5971
|
83 |
жизнь |
20095 |
|
83 |
кто |
5944
|
84 |
известный |
19446 |
|
84 |
текст |
5910
|
85 |
величина |
19443 |
|
85 |
того |
5891
|
86 |
the |
19267 |
|
86 |
оставить |
5888
|
87 |
тип |
19121 |
|
87 |
очень |
5850
|
88 |
т |
19089 |
|
88 |
являться |
5645
|
89 |
ошибка рег. выр. |
18981 |
|
89 |
раз |
5638
|
90 |
некоторый |
18755 |
|
90 |
например |
5505
|
91 |
получить |
18665 |
|
91 |
мой |
5491
|
92 |
между |
18480 |
|
92 |
даже |
5427
|
93 |
несколько |
18452 |
|
93 |
the |
5422
|
94 |
александр |
18390 |
|
94 |
вообще |
5421
|
95 |
свое |
18340 |
|
95 |
обсуждение |
5398
|
96 |
со |
18264 |
|
96 |
какой |
5381
|
97 |
однако |
18191 |
|
97 |
случай |
5370
|
98 |
сам |
18152 |
|
98 |
ваш |
5366
|
99 |
российский |
18094 |
|
99 |
тоже |
5349
|
100 |
русский |
17999 |
|
100 |
считать |
5349
|
101 |
список |
17990 |
|
101 |
знать |
5330
|
102 |
день |
17904 |
|
102 |
информация |
5271
|
103 |
обозначение |
17811 |
|
103 |
мень |
5208
|
104 |
где |
17748 |
|
104 |
данный |
5198
|
105 |
сайт |
17739 |
|
105 |
себя |
5188
|
106 |
состав |
17628 |
|
106 |
категория |
5185
|
107 |
мир |
17627 |
|
107 |
правило |
5102
|
108 |
звездный |
17576 |
|
108 |
большой |
5099
|
109 |
каталог |
17529 |
|
109 |
ни |
5047
|
110 |
имя |
17302 |
|
110 |
говорить |
5011
|
111 |
веко |
17237 |
|
111 |
здесь |
4859
|
112 |
начало |
17130 |
|
112 |
русский |
4801
|
113 |
того |
16612 |
|
113 |
хотя |
4755
|
114 |
когда |
16391 |
|
114 |
об |
4704
|
115 |
государственный |
16378 |
|
115 |
думать |
4686
|
116 |
д |
16344 |
|
116 |
источник |
4600
|
117 |
and |
16166 |
|
117 |
именно |
4560
|
118 |
часть |
16059 |
|
118 |
список |
4452
|
119 |
самый |
15944 |
|
119 |
время |
4441
|
120 |
высокий |
15811 |
|
120 |
шаблон |
4424
|
121 |
центр |
15810 |
|
121 |
вид |
4400
|
122 |
основный |
15730 |
|
122 |
ну |
4309
|
123 |
еще |
15426 |
|
123 |
автор |
4262
|
124 |
находиться |
15415 |
|
124 |
предлагать |
4227
|
125 |
конец |
15326 |
|
125 |
все |
4223
|
126 |
ребенок |
15299 |
|
126 |
где |
4191
|
127 |
последний |
15114 |
|
127 |
новый |
4185
|
128 |
все |
15068 |
|
128 |
английский |
4148
|
129 |
книга |
14995 |
|
129 |
тем |
4142
|
130 |
если |
14991 |
|
130 |
также |
4119
|
131 |
больший |
14833 |
|
131 |
ты |
4094
|
132 |
советский |
14762 |
|
132 |
когда |
4088
|
133 |
есть |
14721 |
|
133 |
видеть |
4069
|
134 |
главный |
14720 |
|
134 |
удаление |
4055
|
135 |
москва |
14687 |
|
135 |
первый |
4054
|
136 |
ссср |
14474 |
|
136 |
почему |
4031
|
137 |
входить |
14464 |
|
137 |
сказать |
4030
|
138 |
река |
14440 |
|
138 |
тут |
4016
|
139 |
игра |
14427 |
|
139 |
пока |
3940
|
140 |
земля |
14394 |
|
140 |
раздел |
3922
|
141 |
изображение |
14358 |
|
141 |
со |
3918
|
142 |
i |
14268 |
|
142 |
дело |
3902
|
143 |
слово |
14232 |
|
143 |
сайт |
3891
|
144 |
образ |
14148 |
|
144 |
без |
3883
|
145 |
км |
14068 |
|
145 |
ничто |
3871
|
146 |
второй |
14004 |
|
146 |
делать |
3811
|
147 |
через |
13938 |
|
147 |
правка |
3768
|
148 |
можно |
13893 |
|
148 |
термин |
3733
|
149 |
форма |
13802 |
|
149 |
кстати |
3707
|
150 |
э |
13800 |
|
150 |
казаться |
3689
|
151 |
университет |
13776 |
|
151 |
хотеть |
3677
|
152 |
территория |
13701 |
|
152 |
поэтому |
3630
|
153 |
около |
13661 |
|
153 |
во |
3608
|
154 |
многие |
13371 |
|
154 |
тогда |
3608
|
155 |
п |
13292 |
|
155 |
тема |
3575
|
156 |
in |
13251 |
|
156 |
мнение |
3574
|
157 |
сторона |
13238 |
|
157 |
итог |
3573
|
158 |
размер |
13102 |
|
158 |
под |
3571
|
159 |
чтобы |
13081 |
|
159 |
против |
3571
|
160 |
родиться |
13059 |
|
160 |
сейчас |
3566
|
161 |
уже |
12910 |
|
161 |
существовать |
3544
|
162 |
pgc |
12895 |
|
162 |
место |
3541
|
163 |
например |
12884 |
|
163 |
любой |
3532
|
164 |
a |
12798 |
|
164 |
история |
3523
|
165 |
существовать |
12692 |
|
165 |
давать |
3471
|
166 |
каждый |
12687 |
|
166 |
имя |
3431
|
167 |
использовать |
12687 |
|
167 |
факт |
3404
|
168 |
всего |
12680 |
|
168 |
два |
3402
|
169 |
сша |
12669 |
|
169 |
of |
3390
|
170 |
данный |
12613 |
|
170 |
после |
3378
|
171 |
сюжет |
12595 |
|
171 |
право |
3325
|
172 |
школа |
12515 |
|
172 |
смысл |
3320
|
173 |
видеть |
12506 |
|
173 |
отдельный |
3286
|
174 |
использоваться |
12462 |
|
174 |
некоторый |
3225
|
175 |
объект |
12450 |
|
175 |
использовать |
3178
|
176 |
эпоха |
12404 |
|
176 |
см |
3159
|
177 |
роль |
12391 |
|
177 |
конечный |
3148
|
178 |
официальный |
12371 |
|
178 |
голосование |
3123
|
179 |
развитие |
12340 |
|
179 |
следовать |
3093
|
180 |
хороший |
12335 |
|
180 |
добавить |
3077
|
181 |
ii |
12222 |
|
181 |
россия |
3073
|
182 |
крупный |
12157 |
|
182 |
сторона |
3071
|
183 |
род |
12126 |
|
183 |
потому |
3068
|
184 |
литература |
12113 |
|
184 |
никакой |
3050
|
185 |
результат |
12098 |
|
185 |
несколько |
3031
|
186 |
положение |
11978 |
|
186 |
согласный |
3030
|
187 |
р |
11968 |
|
187 |
известный |
3016
|
188 |
наука |
11939 |
|
188 |
никто |
3002
|
189 |
автор |
11915 |
|
189 |
стоять |
2981
|
190 |
работать |
11895 |
|
190 |
понимать |
2978
|
191 |
должен |
11882 |
|
191 |
найти |
2966
|
192 |
церковь |
11796 |
|
192 |
какой-то |
2954
|
193 |
остров |
11753 |
|
193 |
наш |
2934
|
194 |
власть |
11751 |
|
194 |
отношение |
2923
|
195 |
сын |
11711 |
|
195 |
каждый |
2919
|
196 |
николай |
11662 |
|
196 |
общий |
2912
|
197 |
действие |
11625 |
|
197 |
привести |
2863
|
198 |
государство |
11586 |
|
198 |
точка |
2840
|
199 |
иван |
11535 |
|
199 |
энциклопедия |
2839
|
200 |
тем |
11520 |
|
200 |
проект |
2824
|
201 |
временить |
11500 |
|
201 |
проблема |
2821
|
202 |
расположить |
11466 |
|
202 |
кроме |
2809
|
203 |
называть |
11455 |
|
203 |
уж |
2808
|
204 |
современный |
11440 |
|
204 |
что-то |
2797
|
205 |
различный |
11293 |
|
205 |
много |
2776
|
206 |
чем |
11291 |
|
206 |
всего |
2773
|
207 |
дата |
11285 |
|
207 |
русская |
2763
|
208 |
я |
11282 |
|
208 |
правильный |
2759
|
209 |
mcg |
11166 |
|
209 |
мало |
2748
|
210 |
военный |
11157 |
|
210 |
работа |
2719
|
211 |
период |
11146 |
|
211 |
самый |
2717
|
212 |
король |
11109 |
|
212 |
число |
2693
|
213 |
значение |
11103 |
|
213 |
to |
2655
|
214 |
член |
11097 |
|
214 |
идти |
2649
|
215 |
открытие |
11014 |
|
215 |
версия |
2582
|
216 |
компания |
10897 |
|
216 |
действительно |
2573
|
217 |
случай |
10832 |
|
217 |
понять |
2570
|
218 |
очень |
10692 |
|
218 |
свое |
2570
|
219 |
московский |
10678 |
|
219 |
разный |
2570
|
220 |
партия |
10674 |
|
220 |
понятие |
2564
|
221 |
русская |
10672 |
|
221 |
вика |
2531
|
222 |
институт |
10616 |
|
222 |
город |
2489
|
223 |
национальный |
10553 |
|
223 |
вполне |
2480
|
224 |
созвездие |
10509 |
|
224 |
администратор |
2474
|
225 |
создать |
10473 |
|
225 |
материал |
2423
|
226 |
против |
10461 |
|
226 |
е |
2416
|
227 |
владимир |
10451 |
|
227 |
создать |
2390
|
228 |
без |
10415 |
|
228 |
править |
2377
|
229 |
тыс |
10305 |
|
229 |
and |
2362
|
230 |
путь |
10297 |
|
230 |
определение |
2358
|
231 |
качество |
10255 |
|
231 |
возможно |
2354
|
232 |
прямой |
10197 |
|
232 |
повод |
2349
|
233 |
частить |
10187 |
|
233 |
решение |
2338
|
234 |
отношение |
10180 |
|
234 |
варианта |
2333
|
235 |
составлять |
10166 |
|
235 |
д |
2317
|
236 |
связь |
10165 |
|
236 |
зрение |
2315
|
237 |
армия |
10163 |
|
237 |
ведь |
2311
|
238 |
затем |
10147 |
|
238 |
a |
2308
|
239 |
факт |
10137 |
|
239 |
убрать |
2278
|
240 |
поздний |
10108 |
|
240 |
теперь |
2269
|
241 |
друг |
10014 |
|
241 |
п |
2262
|
242 |
над |
9947 |
|
242 |
лишь |
2243
|
243 |
станция |
9931 |
|
243 |
значить |
2227
|
244 |
смерть |
9919 |
|
244 |
дать |
2222
|
245 |
процесс |
9894 |
|
245 |
называть |
2220
|
246 |
оригинальный |
9886 |
|
246 |
достаточно |
2212
|
247 |
общество |
9860 |
|
247 |
книга |
2189
|
248 |
наиболее |
9853 |
|
248 |
г |
2182
|
249 |
ряд |
9848 |
|
249 |
перевод |
2166
|
250 |
деятельность |
9828 |
|
250 |
однако |
2165
|
Проверяем Закон Ципфа: «частота n-го слова в частотном словнике обратно пропорциональна его порядковому номеру».
График для частот слов из статей с рангами от 3 до 170.
Интересные наблюдения
- Смело пополняйте список!
- «ВЫ» встречается в обсуждениях 21 801 раз, «ТЫ» — 4094 раз.
- Просматривая список с конца, можно искать среди редких слов слова с опечатками, затем находить их в статьях и исправлять.
- В статьях удивительно много «фильмов» (49 место). Ещё больше заготовок о космических объектах — «NGC», 44 место.
- Слово «Удалить» в обсуждениях (59-е место) встречается чаще, чем «Оставить» (86-е) (эти слова часто встречаются в обсуждениях на ВП:КУ).
- Чаще других в статьях встречается имя Александр (94 место), затем идут имена Николай (196 место), Иван (199 место) и Владимир (227 место).
- В статьях затесалось несколько английских слов - the, to, of, and, I, a и in. Видимо в непереводимых названиях...
- Также есть слова или обозначения II (видать, римская цифра «2») и MSG — судя по всему, сокращение от Michael Schenker Group.
- Слово "МЕНЬ" явно от "меня".
- Слово "российский" (99-е место) встречается немного чаще, чем "русский" (100-е место).
См. также
|