Character Information Generator


The service Character Information Generator was created to give the user an opportunity for getting names of Windows-1251 encoding characters (standard 8-bit encoding for all Russian versions of Microsoft Windows).

Any sequence of electronic characters of the given encoding (text, single words, random sequence of characters, for example, typed on a keyboard) is fed to the input. User can specify one of the three languages (Belarusian, Russian or English) and also choose the information output settings (character names arranged in columns or comma separated). The purpose of the given service is to help the synthesizer to read texts with unknown characters.

 

Examples of the usage:

1. To define Latin character in a word

For example, we type words with one Latin character

Тaта

and immediately see, where it is:

КІРЫЛІЧНАЯ ВЯЛІКАЯ ЛІТАРА ТЭ

ЛАЦІНСКАЯ МАЛАЯ ЛІТАРА ЭЙ

КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА ТЭ

КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА А

2. To find out the formal name for a character:

We type:

@

We get:

КАМЕРЦЫЙНАЕ ЭТ

3. To find out the formal names for characters in English

We type:

0123

We specify the language:

English

We get:

DIGIT ZERO

DIGIT ONE

DIGIT TWO

DIGIT THREE

 

Access to the service via the API

To access the service «Character Information Generator» via the API, you should send a AJAX-request (type: POST) to the address https://corpus.by/CharacterInformationGenerator/api.php. With an input array data the following parameters are passed:

  • text — arbitrary input text.
  • language — language of requested information:
    • be — belarusian;
    • en — english;
    • ru — russian.
  • divider — resulting information separator:
    • newline — listing characters by newlines;
    • comma — listing characters by commas.
  • symbolNecessity — marker for the word «symbol» before the name of the character.
  • bunching — marker for characters bunching.

Example of AJAX-request:

$.ajax({
   type: “POST”,
   url: “https://corpus.by/CharacterInformationGenerator/api.php”,
   data:{
      “text”: “Слова.”,
      “language”: “be”,
      “divider”: “newline”,
      “symbolNecessity”: 1,
      “bunching”: 0
},
success: function(msg){ },
error: function() { }
});

The server returns a JSON-array with the following parameters:

  • text — input text.
  • result — resulting character names list.

For example, the following reply will be formed on the above listed AJAX-request:

[
   {
      “text”: “Слова.”,
      “result”: “СІМВАЛ КІРЫЛІЧНАЯ ВЯЛІКАЯ ЛІТАРА ЭС
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА ЭЛ
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА О
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА ВЭ
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА А
СІМВАЛ КРОПКА”

   }
]

 

Спасылкі на крыніцы

The webpage of the service – https://corpus.by/CharacterInformationGenerator/?lang=en

Cross references

  1. Станіславенка, Г.Р. Рэдагаванне электронных масіваў тэкстаў на беларускай мове з выкарыстаннем камп’ютарна-лінгвістычных сэрвісаў платформы www.corpus.by / Г.Р. Станіславенка, С.І. Лысы, Ю.С. Гецэвіч // Карповские научные чтения / БГУ ; под ред. А.И. Головня [и др.]. — Минск : ИВЦ Минфина, 2016. — C. 262-267.
  2. Гецэвіч, Ю.С. Праектаванне інтэрнэт-сервісаў для працэсараў сінтэзатара маўлення па тэксце з магчымасцю прадстаўлення бясплатных электронных паслуг насельніцтву / Ю.С. Гецэвіч, С.І. Лысы // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2014) : доклады XIII Международной конференции (Минск, 20 ноября 2014 г.). – Минск : ОИПИ НАН Беларуси, 2014. — C. 265-269.

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.