(Беларуская) Распазнаванне дыктараў

Извините, этот техт доступен только в “Беларуская”. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

Сэрвіс «Распазнаванне дыктараў» вызначае найбліжэйшую мадэль дыктара, наяўную ў базе дадзеных, аналізуючы аўдыядадзеныя, выбраныя або прапанаваныя карыстальнікам. Прыватным выпадкам выкарыстання сэрвіса з’яўляецца магчымасць дадаць уласную мадэль дыктара для наступнага параўнання параметраў аўдыяфайлаў з параметрамі дадзенай мадэлі.

Асноўныя тэрміны і паняцці

Распазнаванне маўлення – аўтаматычны працэс пераўтварэння маўленчага сігналу ў лічбавую інфармацыю.

Распазнаванне па голасе – адна з форм біяметрычнай аўтэнтыфікацыі, якая дазваляе ідэнтыфікаваць асобу чалавека паводле сукупнасці ўнікальных характарыстык голасу. Адносіцца да дынамічных метадаў біяметрыі. Аднак, паколькі голас чалавека можа змяняцца ў залежнасці ад узросту, эмацыянальнага стану, здароўя, гарманальнага фону і цэлага шэрагу іншых фактараў, дадзены метад не з’яўляецца абсалютна дакладным.

Мадэль гаворачага – сукупнасць унікальных статыстычных і біяметрычных характарыстык голасу, атрыманая шляхам аналізу аўдыядадзеных, запісаных гаворачым. Можа ўключаць звесткі пра агульную манеру маўленчых паводзін.

Акустычная мадэль распазнавання маўлення – функцыя, якая прымае на ўваход невялікі ўчастак акустычнага сігналу (кадр) і выдае размеркаванне верагоднасцей розных фанем на гэтым кадры.

Практычная каштоўнасць

Праца сэрвіса з’яўляецца нагляднай дэманстрацыяй сучасных магчымасцей распазнавання мадэлі гаворачага. Магчымасць распазнаць такую мадэль адкрывае новыя перспектывы для шматлікіх галін чалавечай дзейнасці – перш за ўсё тых, што звязаныя з ідэнтыфікацыяй дадзеных і абаронай інфармацыі.

Тэхналогіі, падобныя да нашай, знаходзяць усё большае прымяненне ў крыміналістыцы – напрыклад, у фонаскапічнай экспертызе. Разнастайныя падраздзяленні сучасных банкаў (ад кол-цэнтраў да сістэм абароны персанальных дадзеных) выкарыстоўваюць галасавыя біяметрычныя тэхналогіі для ідэнтыфікацыі кліентаў і прафілактыкі махлярства.

Магчымасць распазнавання мадэлі гаворачага можа быць прыменена і ў навуковых і навукова-вытворчых галінах, у прыватнасці, у рабататэхніцы. З дапамогай ідэнтыфікацыйнай сістэмы робат можа «адрозніць» голас «гаспадара» ад іншых галасоў для выстаўлення прыярытэту вусных каманд.

Асаблівасці сэрвіса

На дадзены момант сэрвіс не валодае шырокай базай мадэляў дыктараў, аднак сістэмы, якія ім выкарыстоўваюцца, натрэніраваныя дастаткова, каб суаднесці мадэль гаворачага з наяўнымі прататыпамі і прапанаваць найбольш блізкі з іх. Акрамя таго, любы карыстальнік можа папоўніць базу сэрвіса, начытаўшы прапанаваныя тэксты праз мікрафон камп’ютара.

Распазнаванне маўлення, якое ажыццяўляецца сэрвісам у працэсе супастаўлення мадэляў, працуе на базе папулярнай праграмы Kaldi з адкрытым зыходным кодам. Згодна з артыкулам «Сравнительный анализ систем распознавания речи с открытым кодом», апублікаваным у 2017 годзе ў выданні «Міжнародны навукова-даследчы часопіс», сістэма Kaldi мае найвышэйшую дакладнасць распазнавання сярод усіх сістэм, прааналізаваных аўтарамі (Kaldi, CMU Sphinx, HTK, Julius, Iatros, RWTH ASR).

Алгарытм работы сэрвіса

Уваходныя дадзеныя алгарытму:

Аўдыяфайл для аналізу (файл з базы сэрвіса, загружаны або запісаны карыстальнікам), Audio;
Мадэлі дыктараў, Models;
Алгарытмы распазнавання маўлення сістэмы Kaldi, KaldiSRA (Speech Recognition Algorithms);
Алгарытмы пабудовы акустычнай мадэлі гаворачага сістэмы Kaldi, KaldiSAMC (Speaker Acoustic Model Construction).

Пачатак алгарытму.

Крок 1. Загрузка, выбар або запіс з дапамогай мікрафона аўдыёзапісу Audio.

Крок 2. Распазнанне асобных фанем у Audio з дапамогай KaldiSRA.

Крок 3. Пабудова згодна з акустыка-частотнымі параметрамі Audio статыстычнай біяметрычнай мадэлі дыктара SpeakerModel з дапамогай KaldiSAMC.

Крок 4. Параўнанне SpeakerModel з наяўнымі ў базе дадзеных сэрвіса мадэлямі дыктараў Models, выбар той мадэлі, матэматычная адлегласць да якой карацейшая.

Крок 5. Выдача назвы найбліжэйшай мадэлі дыктара карыстальніку.

Канец алгарытму.

Апісанне інтэрфейсу карыстальніка

Графічны карыстальніцкі інтэрфейс уяўляе сабой акно для працы з сэрвісам, якое мае 5 укладак: «Прыклад», «Дыктары», «Запісаць», «Загрузіць файл», «Дабавіць сябе».

1) Укладка «Прыклад»

Знешні выгляд акна ўкладкі «Прыклад» прадстаўлены на малюнку 1.