У Аб’яднаным інстытуце праблем інфарматыкі Нацыянальнай Акадэміі навук Беларусі ўжо больш 40 гадоў займаюцца маўленчымі тэхналогіямі. Новы кірунак, прапанаваны былым загадчыкам лабараторыяй, а цяпер – галоўным навуковым супрацоўнікам доктарам навук Барысам Лабанавым – кампутарнае кланаванне голасу асобы.
Гэта тэхналогія дазваляе прайграваць адвольны тэкст з манерай чытання пэўнага чалавека і яго голасам, узнаўляць галасы вядомых асоб.
Пра перспектывы развіцця маўленчых тэхналогій «Заўтра тваёй краіны» распавяла выконваючая абавязкі загадчыка лабараторыі распазнавання і сінтэзу маўлення Аб’яднанага інстытута праблем інфарматыкі Нацыянальнай Акадэміі Навук Лілія ЦЫРУЛЬНІК.
— У чым сутнасць распазнання маўлення кампутарам?
— Канчатковая мэта распазнання маўлення – разуменне кампутарнай праграмай сэнсу выказвання чалавека і выкананне нейкіх дзеянняў. Тут дзве задачы. Першая — распазнаванне асобных маўленчых каманд. Напрыклад, замест таго, каб тыя ці іншыя каманды ўводзіць з дапамогай клавіятуры ці мышкі, вы можаце аддаваць іх голасам. Сістэма адкажа адпаведнымі дзеяннямі — вылучыць тэкст, скапіюе, пяройдзе на радок вышэй.
Сістэму можна выкарыстоўваць на вытворчасці пры працы са складаным абсталяваннем, калі замест выкарыстання механічных рычагоў выкарыстоўваюцца галасавыя каманды.
Другая задача — гэта распазнаванне так званага бесперапыннага маўлення. Гэта падобна на стэнаграфаванне. Так кампутар у выглядзе тэкставага файла можа выдаць нашу з вамі гутарку.
— Сінтэз маўлення — гэта задача наадварот?
— Так. Сінтэзатар маўлення з’яўляецца кампутарнай праграмай, якая па ўведзеным тэксце ажыццяўляе галасавы вывад інфармацыі , а таксама стварае гукавыя файлы, якія адпавядаюць уваходнаму тэксту. Жадаеце – праграма прачытае вам Льва Талстога, жадаеце – газетны артыкул. Галоўнае, каб першапачаткова быў тэкставы файл.
— Чыім голасам прачытае?
— Любы тэкст любога памеру можа быць прачытаны кампутарам мужчынскім або жаночым голасам. З дапамогай арыгінальнай тэхналогіі мы можам стварыць персанальны голас таго ці іншага чалавека. Пры прайграванні можна змяняць тэмбр голасу, хуткасць і гучнасць прайгравання. Атрыманы маўленчы запіс можна захоўваць у розных фарматах, напрыклад, у папулярным сярод аматараў музыкі МР3.
— Як на практыцы можна выкарыстоўваць сінтэзатар?
— З яго дапамогай, напрыклад, могуць стварацца аўдыёкніжкі. Вядома, прафесійны акцёр значна лепш агучыць аўдыёкніжку, чым кампутарная праграма. Аднак з выкарыстаннем праграмы – сінтэзатара маўлення, – вы можаце самастойна абраць любую кнігу для праслухоўвання і стварыць на яе аснове гукавы файл.
Выкарыстанне сінтэзатара маўлення актуальна для тых, хто не бачыць і запатрабавана, у прыватнасці, у інфармацыйных шапіках, якія цяпер ужываюцца ў банках, аэрапортах, на вакзалах. Інфармацыйныя шапікі выдаюць не толькі візуальную (выдаваную на экран), але і гукавую інфармацыю. Гэта інфармацыя цяпер, як правіла, запісваецца загадзя і пры неабходнасці прайграецца. Аднак пры любой змене запіс трэба перапісваць. Выкарыстанне сінтэзатара маўлення спросціць задачу і зробіць яе выкананне танным.
Яшчэ адзін прыклад — інфармаванне абанентаў па тэлефоне. Напрыклад, некаторым арганізацыям даводзіцца паведамляць пра запазычанасці за квартплату, тэлефон. Тут было б таксама разумна выкарыстоўваць сінтэзатар маўлення.
Убудаваўшы сінтэзатар маўлення ў праграму працы з электроннай поштай, можна праслухоўваць уваходную карэспандэнцыю, выконваючы адначасова якія-небудзь іншыя дзеянні. Можна, напрыклад, перавесці з электроннага выгляду ў аўдыё файл газету і слухаць ёй па дарозе на працу.
— Ці шмат падобных сістэм існуе ў свеце?
— Так, вядома, існуюць для большасці сучасных моў. Ёсць некалькі сістэм для рускай мовы, якасць якіх параўнальна са створанай у нас сістэмай. Для беларускай жа мовы падобных сістэм няма. Пры распрацоўцы сінтэзатара маўлення для кожнай мовы ёсць свае асаблівасці.
— Вы працуеце над стварэннем сінтэзу маўлення для беларускай мовы?
— Так. Пакуль якасць праграмы нас не задавальняе.
— А ў чым праблемы?
— Адной з асноўных асаблівасцяў пры стварэнні сістэмы сінтэзу маўлення з’яўляецца распрацоўка лінгвістычных і акустычных інфармацыйных рэсурсаў. Пры сінтэзе маўлення па тэксце неабходна ведаць, дзе ў кожным слове паставіць націск. У беларускай мове (як і ў рускай) сістэмы націскаў няма, таму неабходна стварыць электронны слоўнік націскаў, які змяшчае як мага большы лік слоў. Асобнай задачай з’яўляецца інтанаванне маўлення, якое ў беларускім таксама асаблівае. Для надання сінтэзаванага маўлення «правільнай» інтанацыі неабходна стварыць базу дадзеных інтанацый для беларускай мовы. Для агучвання адвольнага тэксту неабходна таксама наяўнасць маўленчай базы дадзеных, якая змяшчае ўсе гукі дадзенай мовы і іх асноўныя адценні. Такая база для рускай мовы ўтрымоўвае каля 800 кароткіх гукавых адрэзкаў. Для выкарыстання ў сінтэзатары беларускага маўлення яе неабходна папоўніць гукамі, спецыфічнымі для беларускай мовы, такімі як «Ў», беларускае «Г», цвёрдае «Ч», а таксама гукамі «Дж» і «Дзь», і іх асноўнымі адценнямі, у выніку змяніўшы базу на 30%.
— Наколькі даступныя вашы распрацоўкі для масавага спажыўца?
– Распрацаваную сістэму стварэння і агучванні аўдыёкніжак aBookForge мы прапануем у выглядзе праграмнага прадукта, які можа набыць любы карыстальнік. Інстытут склаў ліцэнзійную дамову з прыватнай фірмай, якая і ажыццяўляе продажы.
— А што за праект “гаворачая галава”?
– Гэта праграма аўдыёвізуальнага сінтэзу маўлення. Тэхналогія аўдыёвізуальнага сінтэзу маўлення ўключае не толькі агучванне голасам тэксту, але і адлюстраванне галавы і артикуляторных органаў (вуснаў, шчок, ніжняй сківіцы і г.д.) пры вымаўленні гэтага тэксту. Існуе два падыхода для стварэння аўдыёвізуальнага сінтэзатара маўлення: стварэнне стылізаванай трохмернай мадэлі «гаворачай галавы», а таксама стварэнне персанальнай двухмернай «гаворачай галавы» пэўнага чалавека на аснове фатаграфій яго твару пры вымаўленні вызначаных гукаў.
Сістэма аўдыёвізуальнага сінтэзу маўлення па тэксце запатрабавана не толькі людзьмі з праблемамі зроку, але і слабачуючымі, бо яны могуць чытаць «гаворачую галаву» па вуснах.
— На ваш погляд, якія перспектывы мае развіццё маўленчых тэхналогій у Беларусі?
– На працягу апошніх 15-20 гадоў маўленчыя тэхналогіі атрымалі бурнае развіццё. Сістэмы распазнання маўлення, сінтэзу маўлення па тэксце, ідэнтыфікацыі і верыфікацыі голасу асобы да сапраўднага моманту дасягнулі высокай якасці і выкарыстоўваюцца ў шматлікіх практычных прыкладаннях. Тым не менш, распрацоўваюцца новыя спосабы для паляпшэння якасці існуючых сістэм, а існуючыя сістэмы выкарыстоўваюцца ў новых практычных сферах. Даволі высокі патэнцыял развіцця маюць маўленчыя тэхналогіі і ў Беларусі. Сістэмы сінтэзу маўлення па тэксце могуць атрымаць далейшае развіццё і ўкараненне ў практычныя сістэмы агучвання прыпынкаў на транспарце, сістэмы навучання рускай/беларускай мовам, інфакіёскі.