(Беларуская) Тэматычнае распазнаванне маўлення


Извините, этот техт доступен только в “Беларуская” и “Американский Английский”. For the sake of viewer convenience, the content is shown below in this site default language. You may click one of the links to switch the site language to another available language.

Сэрвіс «Тэматычнае распазнаванне маўлення» дазваляе карыстальніку пераўтварыць маўленне ў электронны тэкст анлайн. На ўваход сэрвісу даецца фанаграма маўленчых слоў тэматычных даменаў памерам не больш за 20 MB, на выхадзе сэрвіс дае распазнаны электронны тэкст фанаграмы. Фанаграма можа быць выбрана з пададзеных прыкладаў, загружана на сэрвіс з цвёрдага дыску камп’ютара ў фармаце .wav, а таксама можа быць запісана праз магчымасці аўдыязапісу сэрвісу.

 

Практычная каштоўнасць

Распазнаванне маўлення мае вялікія навуковыя перспектывы і шырокія магчымасці прымянення ў шматлікіх сістэмах «чалавек-машына», якія будуюцца на аснове маўленчых зносін. Таксама існуюць іншыя сферы дзейнасці, якія асабліва патрабуюць паслугі па распазнаванні маўлення. Напрыклад, гэта журналістыка, стэнаграфія і многія іншыя.

У прыватнасці, распазнаванне беларускага маўлення, якое становіцца магчымым пры дапамозе дадзенага сэрвісу, дасць магчымасць паўнавартаснага развіцця беларускіх тэхнічных навук, у тым ліку робататэхнікі.

 

Асаблівасці сэрвісу

На дадзены момант сэрвіс з’яўляецца дэманстрацыйным і распазнае беларускае маўленне наступных тэматычных даменаў:

  • вопратка;
  • гарады;
  • лікі;
  • спантаннае маўленне.

Спіс даменаў будзе папаўняцца.

Сэрвіс выкананы і працуе паводле інструкцыі па стварэнні праграм на базе CMU Sphinx [1].

 

Карыстальніцкі інтэрфейс

Графічны інтэрфейс сэрвісу прадстаўлены на малюнку 1.

Малюнак 1. Знешні інтэрфейс сэрвісу «Тэматычнае распазнаванне маўлення»

Малюнак 1. Знешні інтэрфейс сэрвісу «Тэматычнае распазнаванне маўлення»

 

Інтэрфейс мае дзве наступныя вобласці:

  • вобласць уводу гукавога файла (злева), якая мае ўкладкі з наступнымі магчымасцямі:
    • азнаёміцца з распазнаваннем маўлення дзякуючы ўбудаваным прыкладам;
    • загрузіць файл для распазнавання з цвёрдага дыску;
    • запісаць маўленчую фразу для распазнавання анлайн;
  • вобласць вываду распазнанага электроннага тэксту (справа).

 

Карыстальніцкія сцэнары працы з сэрвісам

Сцэнар 1. Распазнаванне маўлення з убудаваных прыкладаў

  1. Зайшоўшы на старонку сэрвісу, націснуць укладку «Прыклад».
  2. Абраць адно з прапанаваных у выпадаючым спісе слоў і націснуць «Распазнаць». Вынік адлюструецца ў полі «Распазнаны тэкст» справа (малюнак 2).
  3. Таксама можна праслухаць аўдыязапіс абранага слова.
Малюнак 2. Распазнаванне маўлення з убудаваных прыкладаў

Малюнак 2. Распазнаванне маўлення з убудаваных прыкладаў

 

Сцэнар 2. Распазнаванне маўленчай фразы, запісанай анлайн

  1. Зайшоўшы на старонку сэрвісу, націснуць укладку «Запісаць».
  2. Націснуць наступную кнопку «Запісаць».
  3. Вымавіць фразу ў падключаны мікрафон і націснуць кнопку «Стоп» для заканчэння запісу.
  4. Націснуць кнопку «Распазнаць» для адлюстравання вынікаў (малюнак 3).

Малюнак 3. Запіс маўленчай фразы анлайн

 

Сцэнар 3. Распазнаванне гукавога файла з лакальнага дыску камп’ютара

  1. Націснуць укладку «Загрузіць файл».
  2. Націснуць кнопку «Агляд…». Адкрыецца акно аперацыйнай сістэмы для выбару файла на дыску. Выбраць файл у фармаце .wav з лакальнага дыску камп’ютара (малюнак 4).
  3. Націснуць кнопку «Загрузіць», пасля чаго ў полі вываду справа адразу адлюструюцца вынікі распазнавання.
Малюнак 4. Распазнаванне гукавога файла з лакальнага дыску камп’ютара

Малюнак 4. Распазнаванне гукавога файла з лакальнага дыску камп’ютара

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса “Тэматычнае распазнаванне маўлення” праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://corpus.by/ThematicSpeechRecognizer/api.php. Праз масіў data перадаюцца наступныя параметры:

  • requestType — тып запыту: “recognizeWav”.
  • fileBlob — wav-файл, закадзіраваны ў “base64”.
  • domain — назва дамена. Даступны наступныя дамены: “clothes”, “digits”, “cities”, “colors”, “control”, “months”, “numbers”, “player_buttons”, “week”, “bel_all”.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://corpus.by/ThematicSpeechRecognizer/api.php”,
   data:{
      “requestType”: “recognizeWav”,
      “fileBlob”: “TWFuIGlzIGRpc3Rpbmd1aXNoZWQsIG5vdCBvbmx5IGJ5IGhpcyByZWFzb24sIGJ1dCBieSB0…”,
      “domain”: “clothes”
   },
   success: function(msg){ },
   error: function() { }
});

Сервер верне распазнаны тэкст.

Прыклад выкарыстання дадзенага API — вэб-сэрвіс «Тэматычнае распазнаванне маўлення», укладка «Запісаць» (https://corpus.by/ThematicSpeechRecognizer/).

 

Спасылкі на крыніцы

Старонка сэрвісу: https://corpus.by/ThematicSpeechRecognizer/?lang=be

 

Перакрыжаваныя спасылкі

  1. CMU Sphinx
  2. Казлоўская, Н.Д. Распрацоўка алгарытмаў дыктаранезалежнага распазнавання беларускага маўлення / Н.Д. Казлоўская, М.В. Шыбко, А.І. Пратасеня, Ю.С. Гецэвіч // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2017) : доклады XVI Международной конференции, Минск, 16 ноября 2017 г. / ОИПИ НАН Беларуси ; под науч. ред. А.В. Тузиков, Р.Б. Григянец, В.Н. Венгеров. — Минск : ОИПИ НАН Беларуси, 2017. — C. 299-304.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.