(Беларуская) Падлік частотнасці n-грам


Извините, этот техт доступен только в “Беларуская” и “Американский Английский”. For the sake of viewer convenience, the content is shown below in this site default language. You may click one of the links to switch the site language to another available language.

Сэрвіс «Падлік частотнасці n-грам» прызначаны для падліку частотнасці паслядоўнасцяў розных па велічыні камбінацый элементаў. У якасці элементаў могуць выступаць як сімвалы, так і токены, словы і нават рэгулярныя выразы. На ўваход сэрвісу падаецца адвольны набор сімвалаў. Вынікам працы сэрвісу з’яўляецца спіс n-грам з іх частотамі ва ўваходным тэксце. Напрыклад, пры ўмовах па змаўчанні, сэрвіс пакажа частоты ўсіх трохсімвальных паслядоўнасцяў у тэксце. Гэта можа быць карысна для стварэння розных збалансаваных і мінімізаваных мностваў слоў, сказаў, тэкстаў і інш.

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса “Падлік частотнасці n-грам” праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://corpus.by/NgramFrequencyCounter/api.php. Праз масіў data перадаюцца наступныя параметры:

  • localization — мова лакалізацыі выніковых дадзеных.
  • text — адвольны набор сімвалаў.
  • gramSelector — тып «грам» – элементаў, па паслядоўнасцях якіх адбываецца падлік. Даступныя тыпы:
    • character — сімвал;
    • word — слова.
  • n — колькасць «грам» у адной n-граме.
  • caseSensitive — маркер неабходнасці ўлічвання рэгістру сімвалаў пры падліку.
  • delimiterSensitive — маркер неабходнасці ўлічвання раздзяляльнікаў (прабелы, знакі прыпынку) пры падліку.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://corpus.by/NgramFrequencyCounter/api.php”,
   data:{
      “localization”: “en”,
      “text”: “Груша цвіла апошні год.
Усе галіны яе, усе вялікія расохі, да апошняга пруціка, былі ўсыпаны буйным бела-ружовым цветам. Яна кіпела, млела і раскашавалася ў пчаліным звоне, цягнула да сонца сталыя лапы і распускала ў яго ззянні маленькія, кволыя пальцы новых парасткаў. І была яна такая магутная і свежая, так утрапёна спрачаліся ў яе ружовым раі пчолы, што, здавалася, не будзе ёй зводу і не будзе ёй канца.”,

      “gramSelector“: “character“,
      “n“: “3”,
      “caseSensitive“: “1”,
      “delimiterSensitive“: “1”
   },
   success: function(msg){ },
   error: function() { }
});

Сервер верне JSON-масіў з уваходным наборам сімвалаў (параметр text), выніковым спісам n-грам з іх частотамі (параметр result) і статыстычнымі дадзенымі (параметр headline). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “Груша цвіла апошні год.
Усе галіны яе, усе вялікія расохі, да апошняга пруціка, былі ўсыпаны буйным бела-ружовым цветам. Яна кіпела, млела і раскашавалася ў пчаліным звоне, цягнула да сонца сталыя лапы і распускала ў яго ззянні маленькія, кволыя пальцы новых парасткаў. І была яна такая магутная і свежая, так утрапёна спрачаліся ў яе ружовым раі пчолы, што, здавалася, не будзе ёй зводу і не будзе ёй канца.”,

      “result”: “5: «ла »
4: «ым »
4: «рас»
4: « ра»
4: « і »
3: «ела»
3: « бу»
3: « ў »
3: «а с»
3: «алі»
3: «я, »
3: «ала»
3: «овы»
3: «на »
2: «зво»
2: «да »
2: « зв»

…”,
      “headline”: “Number of units in the text: <b>408</b><br>Number of unique <b>3-grams</b>: <b>316</b><br>”
   }
]

 

Спасылкі на крыніцы

Старонка сэрвіса: https://corpus.by/NgramFrequencyCounter/?lang=be

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.