The service Character Information Generator was created to give the user an opportunity for getting names of Windows-1251 encoding characters (standard 8-bit encoding for all Russian versions of Microsoft Windows).
Any sequence of electronic characters of the given encoding (text, single words, random sequence of characters, for example, typed on a keyboard) is fed to the input. User can specify one of the three languages (Belarusian, Russian or English) and also choose the information output settings (character names arranged in columns or comma separated). The purpose of the given service is to help the synthesizer to read texts with unknown characters.
Examples of the usage:
1. To define Latin character in a word
For example, we type words with one Latin character
Тaта
and immediately see, where it is:
КІРЫЛІЧНАЯ ВЯЛІКАЯ ЛІТАРА ТЭ
ЛАЦІНСКАЯ МАЛАЯ ЛІТАРА ЭЙ
КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА ТЭ
КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА А
2. To find out the formal name for a character:
We type:
@
We get:
КАМЕРЦЫЙНАЕ ЭТ
3. To find out the formal names for characters in English
We type:
0123
We specify the language:
English
We get:
DIGIT ZERO
DIGIT ONE
DIGIT TWO
DIGIT THREE
Access to the service via the API
To access the service «Character Information Generator» via the API, you should send a AJAX-request (type: POST) to the address https://corpus.by/CharacterInformationGenerator/api.php. With an input array data the following parameters are passed:
- text — arbitrary input text.
- language — language of requested information:
- be — belarusian;
- en — english;
- ru — russian.
- divider — resulting information separator:
- newline — listing characters by newlines;
- comma — listing characters by commas.
- symbolNecessity — marker for the word «symbol» before the name of the character.
- bunching — marker for characters bunching.
Example of AJAX-request:
$.ajax({
type: “POST”,
url: “https://corpus.by/CharacterInformationGenerator/api.php”,
data:{
“text”: “Слова.”,
“language”: “be”,
“divider”: “newline”,
“symbolNecessity”: 1,
“bunching”: 0
},
success: function(msg){ },
error: function() { }
});
The server returns a JSON-array with the following parameters:
- text — input text.
- result — resulting character names list.
For example, the following reply will be formed on the above listed AJAX-request:
[
{
“text”: “Слова.”,
“result”: “СІМВАЛ КІРЫЛІЧНАЯ ВЯЛІКАЯ ЛІТАРА ЭС
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА ЭЛ
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА О
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА ВЭ
СІМВАЛ КІРЫЛІЧНАЯ МАЛАЯ ЛІТАРА А
СІМВАЛ КРОПКА”
}
]
Спасылкі на крыніцы
The webpage of the service – https://corpus.by/CharacterInformationGenerator/?lang=en
Cross references
- Станіславенка, Г.Р. Рэдагаванне электронных масіваў тэкстаў на беларускай мове з выкарыстаннем камп’ютарна-лінгвістычных сэрвісаў платформы www.corpus.by / Г.Р. Станіславенка, С.І. Лысы, Ю.С. Гецэвіч // Карповские научные чтения / БГУ ; под ред. А.И. Головня [и др.]. — Минск : ИВЦ Минфина, 2016. — C. 262-267.
- Гецэвіч, Ю.С. Праектаванне інтэрнэт-сервісаў для працэсараў сінтэзатара маўлення па тэксце з магчымасцю прадстаўлення бясплатных электронных паслуг насельніцтву / Ю.С. Гецэвіч, С.І. Лысы // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2014) : доклады XIII Международной конференции (Минск, 20 ноября 2014 г.). – Минск : ОИПИ НАН Беларуси, 2014. — C. 265-269.