Вызначэнне часцін мовы


Сэрвіс Вызначэнне часцін мовы дазваляе карыстальніку ў рэжыме анлайн даведацца, да якой часціны мовы належыць пэўнае слова. На ўваход сэрвісу даецца тэкст на беларускай ці рускай мове, на выхадзе карыстальнік атрымлівае спіс слоў, у якім пазначана, да якой часціны мовы адносіцца кожнае слова тэксту.

 

Асноўныя тэрміны і паняцці

Часціны мовы — разрады слоў, якія характарызуюцца агульнасцю значэння, марфалагічных прыкмет, сінтаксічнай ролі. Часціна мовы можа быць вылучана толькі на падставе сукупнасці пэўных крытэрыяў. Увага надаецца наступным фактарам пэўнай адзінкі:

  • што яна звычайна абазначае (прадмет, дзеянне, якасць і г. д.);
  • у якіх граматычных формах яна можа ўзнікаць;
  • якія ёй характэрныя словаўтваральныя сродкі;
  • якія функцыі яна выконвае ў сказе [1].

 

Практычная каштоўнасць

Дакладнае вызначэнне таго, да якой часціны мовы адносяцца словы ў тэксце, з’яўляецца важным для зразумення сэнсу пэўнага слова, калі ён залежыць ад часціны мовы. Напрыклад, сэрвіс можа выкарыстоўвацца перакладчыкамі, калі існуюць цяжкасці з перакладам пэўнага тэксту са словам, якое можа належаць да розных часцін мовы. Таксама можа ўжывацца ў праграмах перакладу.

 

Асаблівасці сэрвісу

Сэрвіс можа выкарыстоўваць шэраг слоўнікаў, кожны з якіх карыстальнік можа самастойна выбраць, паставіўшы або зняўшы гачак насупраць назвы слоўніка.

 

Апісанне інтэрфейсу карыстальніка

Інтэрфейс сэрвісу прадстаўлены на малюнку 1.

Малюнак 1. Інтэрфейс сэрвісу “Вызначэнне часцін мовы”

Зайшоўшы на старонку сэрвісу, карыстальнік мае магчымасць увесці тэкст, у якім трэба вызначыць прыналежнасць слоў да часцін мовы, на адной з дзвюх моў (беларускай, рускай). Таксама асобна можна дадаць вядомыя словы, прыналежнасць да пэўнай часціны мовы якіх можна дакладна вызначыць.

Інтэрфейс мае наступныя вобласці:

  • вобласць уводу тэксту;
  • вобласць уводу вядомых слоў з часцінамі мовы, да якіх яны належаць;
  • вобласць вываду тэксту ў выглядзе слоў разам з часцінамі мовы, да якіх гэтыя словы адносяцца;
  • вобласць вываду невядомых слоў.

Для атрымання слоў разам з часцінамі мовы, да якіх яны належаць, трэба націснуць на кнопку “Паказаць спіс слоў з часцінамі мовы!”.

 

Карыстальніцкі сцэнар працы з сэрвісам

  1. На старонцы сэрвісу ўвесці ў поле ўводу тэкст.
  2. У поле “Вядомыя словы” ўвесці, калі ёсць, вядомыя словы з іх часцінамі мовы праз сімвал “_” (малюнак 1).
  3. У вобласці выбару слоўнікаў пазначыць неабходныя слоўнікі (малюнак 1).
  4. Націснуць кнопку “Паказаць спіс слоў з часцінамі мовы!” для атрымання вынікаў (малюнак 2).

Малюнак 2. Вынікі вызначэння сэрвісам часцін мовы слоў

 

Доступ да сэрвіса праз API

Каб атрымаць інфармацыю пра прыналежнасць кожнага са слоў уваходнага тэксту той ці іншай часціне мовы, неабходна адправіць AJAX-запыт тыпу POST на адрас http://corpus.by/PartOfSpeechTagger/api.php. Праз масіў параметраў data перадаецца ўваходны тэкст (параметр text), спіс слоў з вызначанымі карыстальнікам часцінамі мовы (параметр knownList), раздзяляльнік выніковай інфармацыі (параметр localDelimiter), маркер неабходнасці ўказання слоўнікаў, з якіх узята інфармацыя (параметр dictionaryNames), маркер неабходнасці падачы ўсёй выніковай інфармацыі ў адзін радок (параметр horizontalFormat) і шэраг маркераў выкарыстання таго ці іншага слоўніка.

Элементы ўваходнага масіву data маюць наступныя параметры:

  • text — адвольны ўваходны тэкст.
  • knownList — спіс слоў з вызначанымі карыстальнікам часцінамі мовы.
  • localDelimiter — раздзяляльнік выніковай інфармацыі.
  • dictionaryNames — маркер неабходнасці ўказання слоўнікаў, з якіх узята інфармацыя.
  • horizontalFormat — маркер неабходнасці падачы ўсёй выніковай інфармацыі ў адзін радок; калі маркер не адзначаны, то інфармацыя па кожным слове падаецца ў асобныя радкі.
  • Маркеры выкарыстання слоўнікаў:
    • sbm1987 — «Слоўнік беларускай мовы. Арфаграфія. Арфаэпія. Акцэнтуацыя. Словазмяненне / пад рэд. М.В. Бірылы. – Мінск, 1987»;
    • sbm2012initial —  «Слоўнік беларускай мовы. / навук. рэд. А.А. Лукашанец, В.П. Русак. – Мінск : Беларус. навука, 2012»;
    • zalizniak — «Грамматический словарь русского языка: Словоизменение / А.А. Зализняк. — Москва : Русский язык, 1980. — 880 c.»;
    • new — слоўнік сістэмы сінтэзу маўлення па тэксце;
    • S2016_01 — карыстальніцкі слоўнік беларускай мовы;
    • S2016_02 — карыстальніцкі слоўнік рускай мовы;
    • S2016_03 — карыстальніцкі слоўнік беларускай мовы.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “http://corpus.by/PartOfSpeechTagger/api.php”,
   data:{
      “text”: “Груша цвіла апошні грод.”,
      “knownList“: “груша_назоўнік цвіла_дзеяслоў”,
      “localDelimiter”: “_”,
      “dictionaryNames”: 1,
      “horizontalFormat”: 0,
      “sbm1987”: 1,
      “sbm2012initial”: 1
}
success: function(msg){ }
});

Сервер верне JSON-масіў з уваходным тэкстам (параметр text), выніковым спісам слоў з інфармацыяй пра іх прыналежнасць да той ці іншай часціны мовы (параметр result) і спіс невядомых сэрвісу слоў (параметр unknownWords). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “Груша цвіла апошні грод.”,
      “result”: “груша_назоўнік_known
цвіла_дзеяслоў_known
апо+шні_JJMO_sbm1987_апо+шні_JJMA_sbm1987_апо+шні_невядомаяКатэгорыя_sbm2012initial
грод_НевядомаяЧасц
._ЗнакПрыпынку”,

      “unknownWords”: “грод”
   }
]

Прыклад выкарыстання дадзенага API — вэб-сэрвіс «Вызначэнне часцін мовы праз API» (http://corpus.by/PartOfSpeechTaggerViaApi/).

 

Спасылкі на крыніцы

Старонка сэрвісу: http://corpus.by/PartOfSpeechTagger/?lang=be

 

Перакрыжаваныя спасылкі

  1. Часціны мовы // Вікіпедыя [Электронны рэсурс]. — 2017. Рэжым доступу : https://be.wikipedia.org/wiki/Часціны_мовы. — Дата доступу : 15.03.2017.

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.