Лематызатар


Сэрвіс «Лематызатар» прызначаны для вызначэння пачатковых форм слоў. На ўваход сэрвісу падаецца адвольны тэкст на беларускай мове. Вынікам працы сэрвісу з’яўляецца спіс слоў уваходнага тэксту з іх пачатковымі формамі, а таксама спіс слоў, пачатковую форму якіх не ўдалося вызначыць.

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса “Лематызатар” праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас http://corpus.by/Lemmatizer/api.php. Праз масіў параметраў data перадаецца адвольны ўваходны тэкст (параметр text), спіс слоў з вызначанымі карыстальнікам пачатковымі формамі (параметр knownList), раздзяляльнік выніковай інфармацыі (параметр localDelimiter), маркер неабходнасці ўказання слоўнікаў, з якіх узята інфармацыя (параметр dictionaryNames), маркер падачы выніковага спісу ў радок (параметр horizontalFormat) і маркеры выкарыстання таго ці іншага слоўніка.

Элементы ўваходнага масіву data маюць наступныя параметры:

  • text — адвольны ўваходны тэкст на беларускай мове.
  • knownList — спіс слоў з вызначанымі карыстальнікам пачатковымі формамі.
  • localDelimiter — раздзяляльнік выніковай інфармацыі – сімвал, які будзе раздзяляць слова, яго пачатковую форму і назву слоўніка ў выніковым спісе.
  • dictionaryNames — маркер неабходнасці ўказання слоўнікаў, з якіх узята інфармацыя.
  • horizontalFormat — маркер неабходнасці падачы ўсёй выніковай інфармацыі ў адзін радок; калі маркер не адзначаны, то інфармацыя па кожным слове падаецца ў асобныя радкі.
  • Маркеры выкарыстання слоўнікаў:
    • sbm1987 — «Слоўнік беларускай мовы. Арфаграфія. Арфаэпія. Акцэнтуацыя. Словазмяненне / пад рэд. М.В. Бірылы. – Мінск, 1987».

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “http://corpus.by/Lemmatizer/api.php”,
   data:{
      “text”: “Груша цвіла апошні год. Усе галіны яе, усе вялікія расохі, да апошняга пруціка, былі ўсыпаны буйным бела-ружовым цветам.”,
      “knownList“: “расохі_расоха”,
      “localDelimiter”: “|”,
      “dictionaryNames”: 1,
      “horizontalFormat”: 0,
      “sbm1987”: 1
}
success: function(msg){ }
});

Сервер верне JSON-масіў з уваходным тэкстам (параметр text), выніковым спісам слоў з інфармацыяй пра іх пачатковыя формы (параметр result) і спіс невядомых сэрвісу слоў (параметр unknownWords). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “Груша цвіла апошні год. Усе галіны яе, усе вялікія расохі, да апошняга пруціка, былі ўсыпаны буйным бела-ружовым цветам.”,
      “result”: “гру+ша|груша|sbm1987
цвіла+|цвісці|sbm1987
апо+шні|апошні|sbm1987|апо+шні|апошні|sbm1987
го+д|год|sbm1987|го+д|год|sbm1987
.|ЗнакПрыпынку
усе+|увесь|sbm1987|усе+|увесь|sbm1987
галі+ны|галіна|sbm1987|галі+ны|галіна|sbm1987|галі+ны|галіна|sbm1987|галіны+|галіна|sbm1987|галі+ны|галіна|sbm1987|галі+ны|галіна|sbm1987
яе+|ён|sbm1987|яе+|ён|sbm1987|яе+|яго|sbm1987|яе+|яго|sbm1987|яе+|яго|sbm1987|яе+|яго|sbm1987|яе+|яго|sbm1987|яе+|яго|sbm1987|яе+|яго|sbm1987
,|ЗнакПрыпынку
усе+|увесь|sbm1987|усе+|увесь|sbm1987
вялі+кія|вялікі|sbm1987|вялі+кія|вялікі|sbm1987
расохі|расоха|known
,|ЗнакПрыпынку
да+|да|sbm1987|да+|да|sbm1987
апо+шняга|апошні|sbm1987|апо+шняга|апошні|sbm1987|апо+шняга|апошні|sbm1987
пруціка|НевядомаеСлова
,|ЗнакПрыпынку
бы+лі|быль|sbm1987|бы+лі|быль|sbm1987|бы+лі|быль|sbm1987|бы+лі|быль|sbm1987|бы+лі|быль|sbm1987|былі+|быць|sbm1987
ўсы+паны|усыпаны|sbm1987|ўсы+паны|усыпаны|sbm1987|ўсы+паны|усыпаны|sbm1987|ўсы+паны|усыпаны|sbm1987
буйны+м|буйны|sbm1987|буйны+м|буйны|sbm1987|буйны+м|буйны|sbm1987|буйны+м|буйны|sbm1987|буйны+м|буйны|sbm1987
бе=ла-ружо+вым|бела-ружовы|sbm1987|бе=ла-ружо+вым|бела-ружовы|sbm1987|бе=ла-ружо+вым|бела-ружовы|sbm1987|бе=ла-ружо+вым|бела-ружовы|sbm1987|бе=ла-ружо+вым|бела-ружовы|sbm1987
цве+там|цвет|sbm1987|цве+там|цвет|sbm1987
.|ЗнакПрыпынку”,

      “unknownWords”: “пруціка”
   }
]

Прыклад выкарыстання дадзенага API — вэб-сэрвіс «Вызначэнне мовы праз API» (http://corpus.by/LemmatizerViaApi/).

 

Спасылкі на крыніцы

Старонка сэрвіса: http://corpus.by/Lemmatizer/?lang=be

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.

Пакінуць каментарый

Your email address will not be published. Required fields are marked *