Лабараторыя распазнавання і сінтэзу маўлення была заснавана ў 1974 годзе спачатку як аддзел Цэнтральнага навукова-даследчага інстытуту сувязі (ЦНДІС), а з 1986 года як лабараторыя Інстытуту тэхнічнай кібернетыкі НАН Беларусі. Галоўны навуковы напрамак дзейнасці лабараторыі – тэорыя распазнавання і сінтэзу маўлення і прымяненне маўленчай сувязі ў чалавека-машынных сістэмах.
Галоўныя напрамкі навуковых даследаванняў лабараторыі:
- Высакаякасны сінтэз маўлення па тэксце;
- Камп’ютарнае кланаванне персанальнага голасу і маўлення;
- Шматмоўны сінтэз маўлення;
- Рабастнае распазнаванне дыскрэтнай і злітнай паслядоўнасці слоў;
- Камп’ютарная тэлефанія;
- Камп’ютарныя сістэмы рэабілітацыі інвалідаў слыху і зроку;
- Камп’ютэраная лінгвістыка;
- Апрацоўка натуральнай мовы;
- Перадапрацоўка электроннага тэксту.
Навуковыя падыходы і метадалогія
Высакаякасны шматмоўны і шматгалосы сінтэз маўлення па тэксце грунтуецца на выкарыстанні алафонных элементаў (усяго парадку 1000 шт.) натуральнага маўлення з максімальна магчымай імітацыяй зададзеных мужчынскіх і жаночых галасоў. Задача “персаналізацыі” сінтэтычнага маўлення (камп’ютарнае кланаванне) была паспяхова вырашана шляхам задавальнення наступных умоў:
- Максімальна дакладнае мадэляванне акустычных, фанетычных і прасадычных індывідуальных асаблівасцей голасу і маўлення дыктара;
- Мінімальна магчымыя скажэнні элементаў кампіляцыі ў працэсе іх запісу, прайгравання і прасадычнай мадыфікацыі;
- Адсутнасць якіх-небудзь дадатковых пераўтварэнняў элементаў маўлення тыпу PSOLA (ад скароч. англ. Pitch Synchronous Overlap and Add) ці FFT (ад скароч. англ. Fast Fourier Transform – хуткае пераўтварэнне Фур’е).
Задача перадапрацоўкі электронных тэкстаў на натуральнай мове вырашаецца з дапамогай праграмнага сродку NooJ (http://www.nooj-association.org/), які дазваляе распрацоўваць сінтаксічныя і марфалагічныя граматыкі, або так званыя канчатковыя аўтаматы, і тэставаць іх на вялікай колькасці тэкстаў. Для гэтых мэт быў непасрэдна распрацаваны беларускі модуль, які ўключае набор падабраных тэкстаў, некалькі дэманстрацыйных граматык і набор слоўнікаў (http://www.nooj4nlp.org/resources/be.zip).
Каб прадставіць карыстальніку Інтэрнэт-набор інструментальных сродкаў (сэрвісаў) па апрацоўцы тэксту, маўлення і іншых дадзеных распрацавана і пастаянна дадаткова дапрацоўваецца платформа www.corpus.by. У ёй сэрвісы групуюцца ў тэматычныя дамены для больш зручнага выкарыстання ў канкрэтных практычных сферах. Для пашырэння спісу сэрвісаў і іх якасці ў лабарыторыі выконваюцца навуковыя і навукова-практычныя праекты, распрацоўваюцца курсавыя, дыплёмныя, магістарскія і аспіранцкія працы. Устойлівыя Інтэрнэт-распрацоўкі ў будучым атрымліваюць прымяненне ў іншых Інтэрнэт-праектах, а таксама рэалізуюцца пад мабільныя платформы (рэалізавана для Android, IOS).
Базавыя алгарытмы распазнавання і прыняцця слоўных рашэнняў рэалізуюцца на аснове прапанаванага ў лабараторыі новага метаду дынамічнага супастаўлення сігналаў, мадыфікаванага для распазнавання слоў злітнага маўлення. Метад дае магчымасць ажыццявіць у працэсе распазнавання дынамічнае выраўноўванне часавых шкал эталоннага апісання слова і яго рэалізацыі ў бягучым маўленні пры невядомых пачатку і канцы слова, якое распазнаецца. Галоўнай вартасцю метаду з’яўляецца магчымасць вызначэння верагоднасці прысутнасці слова ў бягучым маўленчым патоку і ацэнкі яго часовага месцазнаходжання ў рэальных умовах наяўнасці рознага роду акустычных памех.
Вырашэнне праблемы рабастнага распазнавання маўлення грунтуецца на рэалізацыі двух асноўных падыходаў:
- Выкарыстанне вядомых метадаў рабастнага ацэньвання статыстычных параметраў у канкрэтных спецыфічных задачах аналізу, выдзялення прыкмет, навучання і распазнавання маўленчых сігналаў;
- Выкарыстанне метадаў калектыўнага распазнавання, дзе канчатковае рашэнне прымаецца па выніках распазнавання калектывам рашаючых правілаў з розным наборам прыкмет маўленчага сігналу.