Тэматычнае распазнаванне маўлення


Сэрвіс «Тэматычнае распазнаванне маўлення» дазваляе карыстальніку пераўтварыць маўленне ў электронны тэкст анлайн. На ўваход сэрвісу даецца фанаграма маўленчых слоў тэматычных даменаў памерам не больш за 20 MB, на выхадзе сэрвіс дае распазнаны электронны тэкст фанаграмы. Фанаграма можа быць выбрана з пададзеных прыкладаў, загружана на сэрвіс з цвёрдага дыску камп’ютара ў фармаце .wav, а таксама можа быць запісана праз магчымасці аўдыязапісу сэрвісу.

 

Практычная каштоўнасць

Распазнаванне маўлення мае вялікія навуковыя перспектывы і шырокія магчымасці прымянення ў шматлікіх сістэмах «чалавек-машына», якія будуюцца на аснове маўленчых зносін. Таксама існуюць іншыя сферы дзейнасці, якія асабліва патрабуюць паслугі па распазнаванні маўлення. Напрыклад, гэта журналістыка, стэнаграфія і многія іншыя.

У прыватнасці, распазнаванне беларускага маўлення, якое становіцца магчымым пры дапамозе дадзенага сэрвісу, дасць магчымасць паўнавартаснага развіцця беларускіх тэхнічных навук, у тым ліку робататэхнікі.

 

Асаблівасці сэрвісу

На дадзены момант сэрвіс з’яўляецца дэманстрацыйным і распазнае беларускае маўленне наступных тэматычных даменаў:

  • вопратка;
  • гарады;
  • лікі;
  • спантаннае маўленне.

Спіс даменаў будзе папаўняцца.

Сэрвіс выкананы і працуе паводле інструкцыі па стварэнні праграм на базе CMU Sphinx [1].

 

Карыстальніцкі інтэрфейс

Графічны інтэрфейс сэрвісу прадстаўлены на малюнку 1.

Малюнак 1. Знешні інтэрфейс сэрвісу «Тэматычнае распазнаванне маўлення»

Малюнак 1. Знешні інтэрфейс сэрвісу «Тэматычнае распазнаванне маўлення»

 

Інтэрфейс мае дзве наступныя вобласці:

  • вобласць уводу гукавога файла (злева), якая мае ўкладкі з наступнымі магчымасцямі:
    • азнаёміцца з распазнаваннем маўлення дзякуючы ўбудаваным прыкладам;
    • загрузіць файл для распазнавання з цвёрдага дыску;
    • запісаць маўленчую фразу для распазнавання анлайн;
  • вобласць вываду распазнанага электроннага тэксту (справа).

 

Карыстальніцкія сцэнары працы з сэрвісам

Сцэнар 1. Распазнаванне маўлення з убудаваных прыкладаў

  1. Зайшоўшы на старонку сэрвісу, націснуць укладку «Прыклад».
  2. Абраць адно з прапанаваных у выпадаючым спісе слоў і націснуць «Распазнаць». Вынік адлюструецца ў полі «Распазнаны тэкст» справа (малюнак 2).
  3. Таксама можна праслухаць аўдыязапіс абранага слова.
Малюнак 2. Распазнаванне маўлення з убудаваных прыкладаў

Малюнак 2. Распазнаванне маўлення з убудаваных прыкладаў

 

Сцэнар 2. Распазнаванне маўленчай фразы, запісанай анлайн

  1. Зайшоўшы на старонку сэрвісу, націснуць укладку «Запісаць».
  2. Націснуць наступную кнопку «Запісаць».
  3. Вымавіць фразу ў падключаны мікрафон і націснуць кнопку «Стоп» для заканчэння запісу.
  4. Націснуць кнопку «Распазнаць» для адлюстравання вынікаў (малюнак 3).

Малюнак 3. Запіс маўленчай фразы анлайн

 

Сцэнар 3. Распазнаванне гукавога файла з лакальнага дыску камп’ютара

  1. Націснуць укладку «Загрузіць файл».
  2. Націснуць кнопку «Агляд…». Адкрыецца акно аперацыйнай сістэмы для выбару файла на дыску. Выбраць файл у фармаце .wav з лакальнага дыску камп’ютара (малюнак 4).
  3. Націснуць кнопку «Загрузіць», пасля чаго ў полі вываду справа адразу адлюструюцца вынікі распазнавання.
Малюнак 4. Распазнаванне гукавога файла з лакальнага дыску камп’ютара

Малюнак 4. Распазнаванне гукавога файла з лакальнага дыску камп’ютара

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса “Тэматычнае распазнаванне маўлення” праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас http://corpus.by/ThematicSpeechRecognizer/api.php. Праз масіў параметраў data перадаецца тып запыту (параметр requestType), wav-файл (параметр fileBlob) і назва дамена (параметр domain).

Элементы ўваходнага масіву data маюць наступныя параметры:

  • requestType — тып запыту: “recognizeWav”.
  • fileBlob — wav-файл, закадзіраваны ў “base64”.
  • domain — назва дамена. Даступны наступныя дамены: “clothes”, “digits”, “cities”, “colors”, “control”, “months”, “numbers”, “player_buttons”, “week”, “bel_all”.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://ssrlab.grid.by/ThematicSpeechRecognizer/api.php”,
   data:{
      “requestType”: “recognizeWav”,
      “fileBlob”: “TWFuIGlzIGRpc3Rpbmd1aXNoZWQsIG5vdCBvbmx5IGJ5IGhpcyByZWFzb24sIGJ1dCBieSB0…”,
      “domain”: “clothes”
}
success: function(msg){ }
});

Сервер верне распазнаны тэкст.

Прыклад выкарыстання дадзенага API — вэб-сэрвіс «Тэматычнае распазнаванне маўлення», укладка «Запісаць» (http://corpus.by/ThematicSpeechRecognizer/).

 

Спасылкі на крыніцы

Старонка сэрвісу: http://ssrlab.grid.by/ThematicSpeechRecognizer/?lang=be

 

Перакрыжаваныя спасылкі

1. CMU Sphinx

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.