Генератар інфармацыі аб сімвалах


Сэрвіс «Генератар інфармацыі аб сімвалах» дае магчымасць атрымаць назвы сімвалаў кадыроўкі Windows-1251 (стандартнай 8-бітнай кадыроўкі для ўсіх рускіх версій Microsoft Windows). На ўваход сэрвісу падаецца электронны тэкст ці любая адвольная паслядоўнасць электронных сімвалаў кадыроўкі Windows-1251. Пасля апрацоўкі ўведзеных дадзеных карыстальнік атрымлівае спіс назваў сімвалаў па парадку іх знаходжання ва ўваходным тэксце.

 

Практычная каштоўнасць

Мэтай дадзенага сэрвіса з’яўляецца вырашэнне праблемы агучвання тэксту, у якім сустракаюцца незнаёмыя сінтэзатару сімвалы. Сэрвіс дапамагае разабрацца з парадкам ужывання сімвалаў у тэксце, як спецыфічным (напрыклад, транскрыпцыях), так і ў простым.

Напрыклад, можа спатрэбіцца высветліць, за якім сімвалам літары ў слоўніку ці транскрыпцыі пастаўлены націск, калі ён адлюстроўваецца незразумела ў нейкім рэдактары. У будучым функцыянал вырашэння гэтай задачы можа быць убудаваны ў сэрвіс «Падлік частотнасці сімвалаў», які на цяперашні час паказвае збольшага статыстыку і толькі адзін (першы сустрэты) кантэкст ужывання сімвала ў тэксце.

Ніжэй прыведзеныя прыклады вырашэння сэрвісам канкрэтных задач.

Прыклад 1. Вызначыць лацінскі сімвал у слове.

Напрыклад, на ўваход падаецца слова з адным лацінскім сімвалам /Тaта/. Пасля апрацоўкі сярод вынікаў будзе бачна, дзе менавіта знаходзіцца лацінскі сімвал.

Вынік:

КІРЫЛІЧНАЯ ВЯЛІКАЯ ЛІТАРА ТЭ
ЛАЦІНСКАЯ МАЛАЯ ЛІТАРА ЭЙ
КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА ТЭ
КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА А

Прыклад 2. Даведацца, якую афіцыйную назву мае сімвал.

На ўваход падаецца сімвал, напрыклад, /@/.

Вынік: КАМЕРЦЫЙНАЕ ЭТ

Прыклад 3. Даведацца назвы сімвалаў на замежнай мове.

На ўваход падаецца паслядоўнасць сімвалаў, напрыклад, /0123/.
Выбар мовы: English

Вынік:

DIGIT ZERO
DIGIT ONE
DIGIT TWO
DIGIT THREE

 

Апісанне інтэрфейсу карыстальніка

Графічны інтэрфейс сэрвіса ўключае наступныя часткі, прадстаўленыя на малюнку 1.

Малюнак 1. Інтэрфейс сэрвісу «Генератар інфармацыі аб сімвалах»

Інтэрфейс змяшчае наступныя вобласці:

  • поле ўводу электроннага тэксту ці паслядоўнасці сімвалаў;
  • поле выбару наладак:
    • мова (Беларуская, Русский, English);
    • форма вываду (у слупок, праз коску);
    • чэкбокс «Дадаваць слова “сімвал”»;
    • чэкбокс «Групаваць сімвалы».
  • кнопка «Атрымаць інфармацыю аб сімвалах!», якая запускае апрацоўку тэксту і дае магчымасць атрымаць вынікі;
  • поле вываду выніковых дадзеных.

 

Карыстальніцкі сцэнар працы з сэрвісам

  1. Увесці ў поле ўводу электронны тэкст ці паслядоўнасць сімвалаў.
  2. У полі выбару наладак абраць патрэбныя пункты меню і адзначыць ці зняць гачыкі з чэкбоксаў.
  3. Націснуць кнопку «Атрымаць інфармацыю аб сімвалах!», каб атрымаць выніковыя дадзеныя (малюнак 2).
  4. Прагледзець выніковы спіс назваў сімвалаў, унесці неабходныя праўкі ў зыходны тэкст ці прыняць да ведама атрыманую інфармацыю.

Малюнак 2. Вынікі апрацоўкі тэксту сэрвісам «Генератар інфармацыі аб сімвалах»

На малюнку 3 прадстаўлены выгляд выніковых дадзеных пры абранні наступных наладак: Беларуская, праз коску, дадаваць слова «сімвал», групаваць сімвалы.

Малюнак 3. Вынікі апрацоўкі тэксту сэрвісам «Генератар інфармацыі аб сімвалах» з адлюстраваннем сімвалаў праз коску, групіроўкай і словам «сімвал»

Безумоўна, магчымыя іншыя камбінацыі наладак.

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса “Генератар інфармацыі аб сімвалах” праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://corpus.by/CharacterInformationGenerator/api.php. Праз масіў data перадаюцца наступныя параметры:

  • text — адвольны ўваходны тэкст.
  • language — мова запрашваемай інфармацыі:
    • be — беларуская мова;
    • en — англійская мова;
    • ru — руская мова.
  • divider — раздзяляльнік выніковай інфармацыі:
    • newline — вывад спісу сімвалаў праз перавод радка;
    • comma — вывад спісу сімвалаў праз коску.
  • symbolNecessity — маркер неабходнасці слова «сімвал» перад назвай сімвала.
  • bunching — маркер неабходнасці групоўкі сімвалаў.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://corpus.by/CharacterInformationGenerator/api.php”,
   data:{
      “text”: “Слова.”,
      “language”: “be”,
      “divider”: “newline”,
      “symbolNecessity”: 1,
      “bunching”: 0
   },
   success: function(msg){ },
   error: function() { }
});

Сервер верне JSON-масіў з уваходным тэкстам (параметр text) і выніковым спісам назваў сімвалаў (параметр result). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “Слова.”,
      “result”: “СІМВАЛ КІРЫЛІЧНАЯ ВЯЛІКАЯ ЛІТАРА ЭС
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА ЭЛ
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА О
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА ВЭ
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА А
СІМВАЛ КРОПКА”

   }
]

 

Спасылкі на крыніцы

Старонка сэрвісу: https://corpus.by/CharacterInformationGenerator/?lang=be

Перакрыжаваныя спасылкі

  1. Станіславенка, Г.Р. Рэдагаванне электронных масіваў тэкстаў на беларускай мове з выкарыстаннем камп’ютарна-лінгвістычных сэрвісаў платформы www.corpus.by / Г.Р. Станіславенка, С.І. Лысы, Ю.С. Гецэвіч // Карповские научные чтения / БГУ ; под ред. А.И. Головня [и др.]. — Минск : ИВЦ Минфина, 2016. — C. 262-267.
  2. Гецэвіч, Ю.С. Праектаванне інтэрнэт-сервісаў для працэсараў сінтэзатара маўлення па тэксце з магчымасцю прадстаўлення бясплатных электронных паслуг насельніцтву / Ю.С. Гецэвіч, С.І. Лысы // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2014) : доклады XIII Международной конференции (Минск, 20 ноября 2014 г.). – Минск : ОИПИ НАН Беларуси, 2014. — C. 265-269.

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.