Падлік частотнасці слоў


Сэрвіс Падлік частотнасці слоў вырашае задачу па атрыманні статыстыкі ўжывання адвольных сімвальных паслядоўнасцяў у электронным тэксце. Прыватным выпадкам гэтай задачы з’яўляецца задача падліку частоты ўжывання слоў у электронным тэксце.

Для атрымання неабходнай статыстыкі карыстальнік мае магчымасць увесьці адвольны тэкст і задаць (скарэктаваць) два мноствы сімвалаў для настройкі працы сэрвіса пад канкрэтную задачу. Першае з іх: сімвалы, з якіх можа складацца слова. Сюды карыстальнік можа змясціць алфавіт альбо мноства сімвалаў, якія будуць ужывацца для распазнавання слоў у тэксце.

wordFrequency_GUI_2014-12-12

Па змаўчанні ў гэтым вакне змешчаны ўсе літарныя сімвалы кадыроўкі “Windows-1251” і сімвалы лічбаў:

0123456789

ABCDEFGHIJKLMNOPQRSTUVWXYZ

abcdefghijklmnopqrstuvwxyz

ЂЃѓЉЊЌЋЏђљњќћџЎўЈҐЁЄЇІіґёєјЅѕї

АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ

абвгдежзийклмнопрстуфхцчшщъыьэюя

Другое мноства: сімвалы, з якіх можа складацца, але не можа пачынацца слова. Па змаўчанні гэта сімвалы асноўнага і частковага націскаў, апостраф і злучок.

Карыстальнік мае магчымасць пазначыць, ці патрэбна пры падліку статыстыкі ўлічваць рэгістр літар. Апроч таго, карыстальнік можа атрымліваць пэўную колькасць кантэкстаў кожнай са знойдзеных сімвальных паслядоўнасцяў, пазначыўшы ў полі “Number of examples” лік адрозны ад нуля.

Націснуўшы “Get frequency of Words! / Атрымаць частату слоў”, карыстальнік атрымоўвае спіс слоў (альбо паслядоўнасцяў сімвалаў) з пазнакай іх колькасці ва ўваходным тэксце. Спіс прадстаўлены ў трох выглядах: спарадкаваны па частаце слоў, спарадкаваны па алфавіту і спарадкаваны па прынцыпе адваротнага слоўніка.

Напрыклад, калі падаць на ўваход “Новы Запавет” (у перакладзе Васіля Сёмухі), пазначыць залежнасць ад рэгістра, а колькасць прыкладаў – 0 (Number of examples: 0), атрымаем наступныя вынікі:

wordFrequency_NovyZavet_2014-12-12

У выпадку, калі карыстальнік прыбярэ рэгістразалежнасць аналізу, вынікі будуць адрознівацца, так як адны і тыя ж словы ў розным рэгістры цяпер будуць прымацца пры падліку за адно. Аналіз, праведзены на тым жа тэксце дасць наступныя вынікі, адсартаваныя па алфавіту:

і    9155

ў    2536

што    2099

а    2033

ня    1640

на    1542

у    1489

не    1485

яго    1375 і г.д.

Для таго, каб атрымаць кантэксты знойдзеных слоў (ці паслядоўнасцяў сімвалаў) патрэбна пазначыць неабходную іх колькасць у полі “Number of examples”. Кантэкст уяўляе сабой фрагмент тэксту ў 7 слоў: 3 словы перад знойдзеным словам, само знойдзенае слова і 3 словы пасля знойдзенага слова. Калі пазначыць колькасць прыкладаў адрозную ад нуля, то пасля кожнага прыведзенага слова і частаты яго ўжыванняў будзе адлюстравана адпаведная полю “Number of examples” колькасць кантэкстаў. Напрыклад, калі колькасць кантэкстаў роўная 2, то вынік можа мець наступны выгляд:

wordFrequency_Examples=2_2015-08-04

Старонка сэрвісу – http://corpus.by/WordFrequencyCounter/?lang=be

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.