(Беларуская) Генератар парадыгмы слова


Извините, этот техт доступен только в “Беларуская” и “Американский Английский”. For the sake of viewer convenience, the content is shown below in this site default language. You may click one of the links to switch the site language to another available language.

Сэрвіс «Генератар парадыгмы слова» дазваляе атрымаць парадыгму слова. На ўваход сэрвісу даецца слова ці яго словаформы, сэрвіс ажыццяўляе пошук парадыгмы па слоўніку, і пры адсутнасці гатовай парадыгмы на выхадзе карыстальнік атрымлівае згенераваную парадыгму ўведзенага слова ці парадыгмы, створаныя на падставе падобных па напісанні слоў. Выніковыя згенераваныя парадыгмы маюць націск, пазначаны сімвалам «+», і спецыяльныя тэгі, аддзеленыя ад слова ніжнім падкрэсліваннем «_».

 

Асноўныя тэрміны і паняцці

Граматычнае значэнне слова – характарыстыка слова з пункту гледжання яго прыналежнасці да пэўнай граматычнай катэгорыі. Граматычнымі катэгорыямі з’яўляюцца, напрыклад, значэнні роду, ліку, склону, скланення, ладу, трывання і г. д. Граматычныя значэнні дапамагаюць класіфікаваць лексіку мовы. Напрыклад, назоўнікі дрэва і сонца маюць розныя лексічныя, але аднолькавае граматычнае значэнне – гэта назоўнікі, агульныя, неадушаўлёныя, ніякага роду, у адзіночным ліку, назоўнага склону [1].

Лексема, або Парадыгматычнае слова – слова як абстрактная (пазатэкставая, слоўнікавая) адзінка дадзенай мовы [2, с. 20].

Лема – пачатковая форма слова. Напрыклад, для назоўнікаў гэта форма назоўнага склону, адзіночнага ліку (аблокаў – лема воблака).

Парадыгма – сукупнасць усіх словаформаў слова. Напрыклад, дрэва, дрэва, дрэву, дрэва, дрэвам, дрэве, дрэвы, дрэваў, дрэвам, дрэвы, дрэвамі, дрэвах.

Слова – адна з асноўных структурных адзінак мовы, якая служыць для наймення паняццяў.

Словаформа ці форма слова – выяўляе розныя граматычныя значэнні слова пры захаванні яго лексічнага значэння.

NooJ – праграмнае забеспячэнне для распрацоўкі лінгвістычных працэсаў [3, 4].

Словаформы адной лексемы маюць словаўтваральную парадыгму (дрэва, дрэву, дрэве і г. д.), якая і з’яўляецца вынікам працы дадзенага сэрвіса.

 

Практычная каштоўнасць

Сэрвіс дапамагае пры стварэнні лінгваакустычных рэсурсаў, у прыватнасці слоўнікаў. Напрыклад, пры дапамозе гэтага сэрвіса створаны слоўнікі іншага сэрвіса платформы www.corpus.by «Праверка правапісу», а менавіта гэта карыстальніцкія слоўнікі беларускай мовы S2016_01 [5], S2016_03 [6]. Таксама вынікі працы сэрвіса з’яўляюцца карыснымі ў індывідуальным карыстанні пры патрэбе даведацца тую ці іншую форму слова.

 

Асаблівасці сэрвіса

Пры працы сэрвіса выкарыстоўваецца слоўнік SBM1987, створаны паводле публікацыі «Слоўнік беларускай мовы. Арфаграфія. Арфаэпія. Акцэнтуацыя. Словазмяненне / пад рэд. М.В. Бірылы. – Мінск, 1987» [4], які таксама задзейнічаны ў працы сэрвіса «Праверка правапісу».

Тэгі, якія выводзяцца пасля сімвала «_», дапамагаюць пазначыць граматычнае значэнне слова, напрыклад, часціну мовы, род, лік, склон і да т. п., і генераваць парадыгмы ўваходнага слова на падставе падобных слоў з такім жа граматычным значэннем (калі ўваходнага слова няма ў слоўніку сэрвіса). Дадзеныя тэгі неабходныя непасрэдна для працы сэрвіса і на цяперашні момант не знаходзяцца ў свабодным доступе. У далейшым яны будуць рэалізаваныя ў выглядзе элементаў карыстальніцкага інтэрфейсу, а менавіта выпадаючых меню, якія дадуць магчымасць паслядоўна задаць патрэбнае граматычнае значэнне слова. На цяперашні момант карыстальнік можа выбраць толькі часціну мовы ўведзенага слова ў выпадаючым меню.

На цяперашні момант сэрвіс генеруе парадыгмы для слоў на беларускай мове. Асваенне сэрвісам апрацоўкі слоў на іншых мовах магчыма пры даданні слоўнікаў і лінгваакустычных рэсурсаў гэтых моў адпаведна.

 

Апісанне інтэрфейсу

Графічны інтэрфейс сэрвіса прадстаўлены на малюнку 1.

Малюнак 1. Графічны інтэрфейс сэрвісу «Генератар парадыгмы слова»

Малюнак 1. Графічны інтэрфейс сэрвіса «Генератар парадыгмы слова»

 

Інтэрфейс змяшчае наступныя вобласці:

  • поле ўводу словаформ(ы);
  • выбар спосабу апрацоўкі (слоўніка);
  • дапаможны выбар тэга і/ці часціны мовы;
  • кнопка «Згенераваць магчымыя парадыгмы!», якая запускае апрацоўку і дае магчымасць атрымаць вынікі.

 

Карыстальніцкія сцэнары працы з сэрвісам

Сцэнар 1. Генерацыя адсутнай у слоўніку парадыгмы паводле падобных па напісанні слоў

  1. Увесці ў поле ўводу патрэбнае слова і/ці яго словаформы (напрыклад, аўдыягід).
  2. Ніжэй поля ўводу пазначыць «Апрацоўка паводле слоўніка словаформ».
  3. Для атрымання не ўсіх магчымых, а толькі найбольш блізкіх да правільнага варыянтаў парадыгм у полі «Усе часціны мовы» пазначыць часціну мовы (аўдыягід – гэта назоўнік). Пры гэтым удакладненні будуць прапанаваны толькі парадыгмы, складзеныя на падставе падобных слоў, якія належаць да абранай часціны мовы.
  4. Націснуць «Згенераваць магчымыя парадыгмы!» і атрымаць вынік. Сэрвіс знойдзе падобныя па напісанні словы і прапануе карыстальніку парадыгмы, створаныя на іх прыкладзе. Адсутнасць парадыгмы ў слоўніку будзе пазначана выразам #Парадыгма складзена на падставе наступных слоў (малюнак 2).
  5. Разглядзець прапанаваныя парадыгмы і абраць адпаведную ці найбольш блізкую да правільнай парадыгму, і пры неабходнасці ўнесці ў яе праўкі.

Напрыклад, у слоўніку сэрвіса адсутнічае парадыгма слова аўдыягід. Пры выкананні сцэнара 1 працы з сэрвісам у выніку будуць паказаныя парадыгмы, складзеныя на падставе ўсіх падобных па напісанні слоў, знойдзеных у слоўніку – гід, альдэгід, поліфармальдэгід, фармальдэгід, агід, эгід (малюнак 2).

Малюнак 2. Вынікі генерацыі парадыгмы паводле слоўніка словаформ, калі парадыгма адсутнічае ў слоўніку і складзена на падставе падобных па напісанні слоў

Малюнак 2. Вынікі генерацыі парадыгмы паводле слоўніка словаформ, калі парадыгма адсутнічае ў слоўніку і складзена на падставе падобных па напісанні слоў

Відавочна, што найбольш блізкай да правільнай з’яўляецца парадыгма, складзеная на падставе слова гід, але ў дадзенай парадыгме згенераваныя неадпаведныя словаформы вінавальнага склону адзіночнага і множнага лікаў, паколькі гід – адушаўлёны назоўнік, а аўдыягід – неадушаўлёны. Парадыгмы, складзеныя на падставе астатніх слоў, змяшчаюць яшчэ больш неадпаведнасцяў, паколькі за прыклад сэрвісам былі ўзятыя неадушаўлёныя словы (альдэгід, поліфармальдэгід, фармальдэгід) і словаформы слоў жаночага роду (агіда, эгіда).

Могуць узнікнуць складанасці пры генераванні парадыгм рэдкаўжывальных, спецыфічных ці новых у мове слоў. Так, да слова агмень сэрвіс прапануе 17 варыянтаў парадыгм, складзеных на падставе назоўнікаў з разнастайнымі граматычнымі значэннямі. У падобных выпадках пры выбары парадыгмы карыстальнік мусіць абапірацца на ўласныя веды і тэматычную літаратуру (слоўнікі, даведнікі і г. д.).

 

Сцэнар 2. Пошук парадыгмы слова паводле слоўніка словаформ

  1. Увесці ў поле ўводу патрэбнае слова і/ці яго словаформы (напрыклад, дрэва).
  2. Ніжэй поля ўводу пазначыць «Апрацоўка паводле слоўніка словаформ».
  3. Для паскарэння працы сэрвіса ў полі «Усе часціны мовы» можна абраць часціну мовы (дрэва – гэта назоўнік).
  4. Націснуць «Згенераваць магчымыя парадыгмы!» і атрымаць вынік. Знойдзеная ў слоўніку парадыгма будзе пазначана выразам #Парадыгма знойдзена ў слоўніку (малюнак 3).
Малюнак 3. Вынік генерацыі парадыгмы паводле слоўніка словаформ, калі парадыгма знойдзена ў слоўніку

Малюнак 3. Вынік генерацыі парадыгмы паводле слоўніка словаформ, калі парадыгма знойдзена ў слоўніку

Пры ўвядзенні некарэктнага запісу (знакі прыпынку, лічбы, лацінскія сімвалы, тэкст вялікага памеру і г. д.) сэрвіс паведаміць пра гэта адпаведнай пазнакай. Напрыклад, пры ўводзе выразу зялёнае дрэва,%7# будзе атрыманы наступны запіс:

зялёнае дрэва,%7# – некарэктны запіс
прыклад карэктнага запісу: загадчык

 

Сцэнар 3. Генерацыя парадыгмы слова паводле флексійнага слоўніка NooJ

  1. Увесці ў поле ўводу патрэбнае слова і/ці яго словаформы, аддзяляючы пераходамі на новы радок. Напрыклад, «клад,NOUN кладзе,NOUN кладамі,NOUN».
  2. Ніжэй поля ўводу пазначыць «Апрацоўка паводле флексійнага слоўніка NooJ». Для карэктнай працы дадзенага слоўніка не павінна быць пазначана часціна мовы.
  3. Націснуць «Згенераваць магчымыя парадыгмы!» і атрымаць вынік (малюнак 4).
Малюнак 4. Вынікі генерацыі парадыгмы паводле флексійнага слоўніка NooJ

Малюнак 4. Вынікі генерацыі парадыгмы паводле флексійнага слоўніка NooJ

Пасля атрымання вынікаў працы па гэтым сцэнары карыстальнік таксама павінны ўважліва разгледзець прапанаваныя парадыгмы і абраць правільную.

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса “Генератар парадыгмы слова” праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас http://corpus.by/WordParadigmGenerator/api.php. Праз масіў параметраў data перадаецца слова ці яго словаформы (параметр text) і рэжым працы (параметр mode). Апроч таго, можа быць перададзены тэг (параметр tag) ці граматычная катэгорыя (параметр category).

Элементы ўваходнага масіву data маюць наступныя параметры:

  • text — слова ці некалькі слоў, поўную парадыгму якіх патрэбна атрымаць. Фармат залежыць ад рэжыму працы сэрвіса. Пры рэжыме “general” словы ўводзяцца без дадатковых пазнак праз перавод радка. Пры рэжыме “nooj” словы ўводзяцца ў фармаце “слова,часціна мовы“, напрыклад, “клад,NOUN.
  • mode — рэжым працы сэрвіса. Даступны два рэжымы: “general” і “nooj“.
  • tag — тэг, які абазначае шэраг граматычных асаблівасцяў слова. Напрыклад, “NNAMO”.
  • category — граматычная катэгорыя слова. Даступны наступныя катэгорыі: “усе”, “назоўнік”, “прыметнік”, “лічэбнік”, “займеннік”, “дзеяслоў”, “прыслоўе”, “прыназоўнік”, “злучнік”, “часціца”, “выклічнік”.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://corpus.by/WordParadigmGenerator/api.php”,
   data:{
      “text”: “абмакванне
абмакваннямі
абмакванню”,

      “mode”: “general”,
      “tag”: “”,
      “category”: “назоўнік”
   }
   success: function(msg){ }
});

Сервер верне JSON-масіў з уваходнымі словамі (параметр text) і выніковым спісам парадыгмаў (параметр result). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “абмакванне
абмакваннямі
абмакванню”,

      “result”: #This paradigm is generated based on the following words : абвалакванне, адскакванне, аплакванне, вывалакванне, завалакванне, звалакванне, падскакванне, падтакванне, праскакванне, развалакванне, саскакванне, узвалакванне, ускакванне
абма+кванне_NNINO
абма+квання_NNING
абма+кванню_NNIND
абма+кванне_NNINA
абма+кваннем_NNINI
абма+кванні_NNINR <…>”

   }
]

 

Спасылкі на крыніцы

Старонка сэрвіса: https://corpus.by/WordParadigmGenerator/?lang=be

 

Перакрыжаваныя спасылкі

  1. Грамматическое значение слова
  2. Зализняк А.А. «Русское именное словоизменение» с приложением избранных работ по современному русскому языку и общему языкознанию. – М. : Языки славянской культуры, 2002. – I-VIII. – 752 с.
  3. NooJ на Вікіпедыі
  4. Афіцыйная старонка NooJ
  5. Карыстальніцкі слоўнік беларускай мовы сэрвіса «Праверка правапісу» S2016_01
  6. Карыстальніцкі слоўнік беларускай мовы сэрвіса «Праверка правапісу» S2016_03
  7. Слоўнік беларускай мовы. Арфаграфія. Арфаэпія. Акцэнтуацыя. Словазмяненне / пад рэд. М.В. Бірылы. – Мінск, 1987.
  8. Зяноўка, Я.С. Стварэнне базы незафіксаванай нарматыўнымі крыніцамі лексікі праз corpus.by / Я.С. Зяноўка // Беларуская граматыка: ад Браніслава Тарашкевіча да сучаснасці : зборнік матэрыялаў Міжнароднай навуковай канферэнцыі (Мінск, 19–20 студзеня 2017 г.) / Нац. акад. навук Беларусі, Цэнтр даслед. беларус. культ., мовы і літ-ры, Ін-т мовазнаўства імя Якуба Коласа. — Мінск : Чатыры чвэрці, 2017. — C. 84-90.
  9. Zanouka, E. The Enlargement of Electronic Lexical Database by Computational On-line Free System / E. Zanouka // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems : материалы междунар. науч.-техн. конф. Вып. 1 (Минск, 16-18 февраля 2017 г.). / редкол. : В. В. Голенков (отв. ред.) [и др.]. — Минск : БГУИР, 2017. — C. 179-182.
  10. Гецэвіч, Ю.С. Інтэрнэт-сістэма генерацыі парадыгмаў слова для папаўнення электронных граматычных слоўнікаў / Ю.С. Гецэвіч, В.В. Варановіч, С.І. Лысы, І.В. Рэентовіч, Я.С. Качан // Международный конгресс по информатике: информационные системы и технологии=International Congress on computer science: Information systems and technologies / БГУ; под ред. С.В. Абламейко. — Минск, 2016. — C. 584-588.
  11. Hetsevich Y. Semi-automatic Part-of-Speech Annotating for Belarusian Dictionaries Enrichment in NooJ / Yu. Hetsevich, V. Varanovich, E. Kachan, S. Lysy, I. Reentovich // NOOJ 2016 International Conference. Book of Abstracts. June 9-11, 2016, Čzeské Budĕjovice, Czech Republiс / ed. Jan Radimský. — Čzeské Budĕjovice, University of South Bohemia in Čzeské Budĕjovice 2016. – P. 47-48.
  12. Hetsevich, Y. Semi-automatic Part-of-Speech Annotating for Belarusian Dictionaries Enrichment in NooJ / Y. Hetsevich, V. Varanovich, E. Kachan, I. Reentovich, S. Lysy // Automatic Processing of Natural-Language Electronic Texts with NooJ: 10th International Conference, NooJ 2016, České Budějovice, Czech Republic, June 9-11, 2016, Revised Selected Papers / ed. L. Barone, M. Monteleone, M. Silberztein. — Springer, 2017. — P. 101-111.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.