Сэрвіс «Падлік частотнасці n-грам» прызначаны для падліку частотнасці паслядоўнасцяў розных па велічыні камбінацый элементаў. У якасці элементаў могуць выступаць як сімвалы, так і токены, словы і нават рэгулярныя выразы. На ўваход сэрвісу падаецца адвольны набор сімвалаў. Вынікам працы сэрвісу з’яўляецца спіс n-грам з іх частотамі ва ўваходным тэксце. Напрыклад, пры ўмовах па змаўчанні, сэрвіс пакажа частоты ўсіх трохсімвальных паслядоўнасцяў у тэксце. Гэта можа быць карысна для стварэння розных збалансаваных і мінімізаваных мностваў слоў, сказаў, тэкстаў і інш.
Доступ да сэрвіса праз API
Для доступу да сэрвіса “Падлік частотнасці n-грам” праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://corpus.by/NgramFrequencyCounter/api.php. Праз масіў data перадаюцца наступныя параметры:
- localization — мова лакалізацыі выніковых дадзеных.
- text — адвольны набор сімвалаў.
- gramSelector — тып «грам» – элементаў, па паслядоўнасцях якіх адбываецца падлік. Даступныя тыпы:
- character — сімвал;
- word — слова.
- n — колькасць «грам» у адной n-граме.
- caseSensitive — маркер неабходнасці ўлічвання рэгістру сімвалаў пры падліку.
- delimiterSensitive — маркер неабходнасці ўлічвання раздзяляльнікаў (прабелы, знакі прыпынку) пры падліку.
Прыклад AJAX-запыту:
$.ajax({
type: “POST”,
url: “https://corpus.by/NgramFrequencyCounter/api.php”,
data:{
“localization”: “en”,
“text”: “Груша цвіла апошні год.
Усе галіны яе, усе вялікія расохі, да апошняга пруціка, былі ўсыпаны буйным бела-ружовым цветам. Яна кіпела, млела і раскашавалася ў пчаліным звоне, цягнула да сонца сталыя лапы і распускала ў яго ззянні маленькія, кволыя пальцы новых парасткаў. І была яна такая магутная і свежая, так утрапёна спрачаліся ў яе ружовым раі пчолы, што, здавалася, не будзе ёй зводу і не будзе ёй канца.”,
“gramSelector“: “character“,
“n“: “3”,
“caseSensitive“: “1”,
“delimiterSensitive“: “1”
},
success: function(msg){ },
error: function() { }
});
Сервер верне JSON-масіў з уваходным наборам сімвалаў (параметр text), выніковым спісам n-грам з іх частотамі (параметр result) і статыстычнымі дадзенымі (параметр headline). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:
[
{
“text”: “Груша цвіла апошні год.
Усе галіны яе, усе вялікія расохі, да апошняга пруціка, былі ўсыпаны буйным бела-ружовым цветам. Яна кіпела, млела і раскашавалася ў пчаліным звоне, цягнула да сонца сталыя лапы і распускала ў яго ззянні маленькія, кволыя пальцы новых парасткаў. І была яна такая магутная і свежая, так утрапёна спрачаліся ў яе ружовым раі пчолы, што, здавалася, не будзе ёй зводу і не будзе ёй канца.”,
“result”: “5: «ла »
4: «ым »
4: «рас»
4: « ра»
4: « і »
3: «ела»
3: « бу»
3: « ў »
3: «а с»
3: «алі»
3: «я, »
3: «ала»
3: «овы»
3: «на »
2: «зво»
2: «да »
2: « зв»
…”,
“headline”: “Number of units in the text: <b>408</b><br>Number of unique <b>3-grams</b>: <b>316</b><br>”
}
]
Спасылкі на крыніцы
Старонка сэрвіса: https://corpus.by/NgramFrequencyCounter/?lang=be