Падлік частотнасці n-грам


Сэрвіс «Падлік частотнасці n-грам» прызначаны для падліку частотнасці паслядоўнасцяў розных па велічыні камбінацый элементаў. У якасці элементаў могуць выступаць як сімвалы, так і токены, словы і нават рэгулярныя выразы. На ўваход сэрвісу падаецца адвольны набор сімвалаў. Вынікам працы сэрвісу з’яўляецца спіс n-грам з іх частотамі ва ўваходным тэксце. Напрыклад, пры ўмовах па змаўчанні, сэрвіс пакажа частоты ўсіх трохсімвальных паслядоўнасцяў у тэксце. Гэта можа быць карысна для стварэння розных збалансаваных і мінімізаваных мностваў слоў, сказаў, тэкстаў і інш.

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса “Падлік частотнасці n-грам” праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://corpus.by/NgramFrequencyCounter/api.php. Праз масіў data перадаюцца наступныя параметры:

  • localization — мова лакалізацыі выніковых дадзеных.
  • text — адвольны набор сімвалаў.
  • gramSelector — тып «грам» – элементаў, па паслядоўнасцях якіх адбываецца падлік. Даступныя тыпы:
    • character — сімвал;
    • word — слова.
  • n — колькасць «грам» у адной n-граме.
  • caseSensitive — маркер неабходнасці ўлічвання рэгістру сімвалаў пры падліку.
  • delimiterSensitive — маркер неабходнасці ўлічвання раздзяляльнікаў (прабелы, знакі прыпынку) пры падліку.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://corpus.by/NgramFrequencyCounter/api.php”,
   data:{
      “localization”: “en”,
      “text”: “Груша цвіла апошні год.
Усе галіны яе, усе вялікія расохі, да апошняга пруціка, былі ўсыпаны буйным бела-ружовым цветам. Яна кіпела, млела і раскашавалася ў пчаліным звоне, цягнула да сонца сталыя лапы і распускала ў яго ззянні маленькія, кволыя пальцы новых парасткаў. І была яна такая магутная і свежая, так утрапёна спрачаліся ў яе ружовым раі пчолы, што, здавалася, не будзе ёй зводу і не будзе ёй канца.”,

      “gramSelector“: “character“,
      “n“: “3”,
      “caseSensitive“: “1”,
      “delimiterSensitive“: “1”
   },
   success: function(msg){ },
   error: function() { }
});

Сервер верне JSON-масіў з уваходным наборам сімвалаў (параметр text), выніковым спісам n-грам з іх частотамі (параметр result) і статыстычнымі дадзенымі (параметр headline). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “Груша цвіла апошні год.
Усе галіны яе, усе вялікія расохі, да апошняга пруціка, былі ўсыпаны буйным бела-ружовым цветам. Яна кіпела, млела і раскашавалася ў пчаліным звоне, цягнула да сонца сталыя лапы і распускала ў яго ззянні маленькія, кволыя пальцы новых парасткаў. І была яна такая магутная і свежая, так утрапёна спрачаліся ў яе ружовым раі пчолы, што, здавалася, не будзе ёй зводу і не будзе ёй канца.”,

      “result”: “5: «ла »
4: «ым »
4: «рас»
4: « ра»
4: « і »
3: «ела»
3: « бу»
3: « ў »
3: «а с»
3: «алі»
3: «я, »
3: «ала»
3: «овы»
3: «на »
2: «зво»
2: «да »
2: « зв»

…”,
      “headline”: “Number of units in the text: <b>408</b><br>Number of unique <b>3-grams</b>: <b>316</b><br>”
   }
]

 

Спасылкі на крыніцы

Старонка сэрвіса: https://corpus.by/NgramFrequencyCounter/?lang=be

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.