У Акадэміі навук камп’ютар вучаць правільна гаварыць па-беларуску


У Акадэміі навук камп’ютар вучаць правільна гаварыць па-беларуску

Тэхналогія дазваляе прайграваць адвольны тэкст з манерай чытання канкрэтнага чалавека і яго голасам, аднаўляць галасы вядомых асоб.

У Аб’яднаным інстытуце праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі ўжо больш за 40 гадоў займаюцца маўленчымі тэхналогіямі. Новы напрамак, прапанаваны былым загадчыкам лабараторыі, а цяпер — галоўным навуковым супрацоўнікам доктарам навук Барысам Лабанавым, — камп’ютарнае кланаванне голасу асобы. Пра перспектывы развіцця маўленчых тэхналогій “Заўтра тваёй краіны” распавяла выконваючая абавязкі загадчыка лабараторыі распазнавання і сінтэзу маўлення Аб’яднанага інстытута праблем інфарматыкі Нацыянальнай акадэміі навук Лілія ЦЫРУЛЬНІК.

— У чым сутнасць распазнавання маўлення камп’ютарам?

— Канчатковая мэта распазнавання маўлення — разуменне камп’ютарнай праграмай сэнсу выказвання чалавека і выкананне нейкіх дзеянняў. Тут дзве задачы. Першая — распазнаванне асобных маўленчых каманд. Напрыклад, замест таго, каб тыя ці іншыя каманды ўводзіць з дапамогай клавіятуры або мышкі, вы можаце аддаваць іх голасам. Сістэма адкажа адпаведнымі дзеяннямі — выдзеліць тэкст, скапіруе, пяройдзе на радок вышэй.
Сістэму можна выкарыстоўваць на вытворчасці пры працы са складаным абсталяваннем, калі замест выкарыстання механічных рычагоў задзейнічаюцца галасавыя каманды.
Другая задача — гэта распазнаванне так званага бесперапыннага маўлення. Гэта падобна на стэнаграфаванне. Так камп’ютар у выглядзе тэкставага файла можа выдаць нашу з вамі гутарку.

— Сінтэз маўлення — гэта задача наадварот?

— Так. Сінтэзатар маўлення з’яўляецца камп’ютарнай праграмай, якая па ўведзеным тэксце ажыццяўляе галасавы вывад інфармацыі, а таксама стварае гукавыя файлы, адпаведныя ўваходнаму тэксту. Хочаце — праграма прачытае вам Льва Талстога, хочаце — газетны артыкул. Галоўнае, каб першапачаткова быў тэкставы файл.

— Чыім голасам прачытае?

— Любы тэкст любога памеру можа быць прачытаны камп’ютарам мужчынскім альбо жаночым голасам. З дапамогай арыгінальнай тэхналогіі мы можам стварыць персанальны голас таго ці іншага чалавека. Пры прайграванні можна мяняць тэмбр голасу, хуткасць і гучнасць прайгравання. Атрыманы маўленчы запіс можна захоўваць у розных фарматах, напрыклад, у папулярным сярод аматараў музыкі MP3.

— Як на практыцы можна выкарыстоўваць сінтэзатар?

— З яго дапамогай, напрыклад, могуць стварацца аўдыёкнігі. Вядома, прафесійны акцёр значна лепш агучыць аўдыёкнігу, чым камп’ютарная праграма. Аднак з выкарыстаннем праграмы — сінтэзатара маўлення — вы можаце самастойна выбраць любую кнігу для праслухоўвання і стварыць на яе аснове гукавы файл.
Выкарыстанне сінтэзатара маўлення актуальна для невідушчых і людзей са слабым зрокам і запатрабавана, у прыватнасці, у інфармацыйных кіёсках, якія цяпер ужываюцца ў банках, аэрапортах, на вакзалах. Інфармацыйныя кіёскі выдаюць не толькі візуальную (якая выдаецца на экран), але і гукавую інфармацыю. Гэта інфармацыя зараз, як правіла, запісваецца загадзя і пры неабходнасці прайграваецца. Аднак пры любым змяненні яе трэба перапісваць. Калі выкарыстоўваць сінтэзатар маўлення, гэта спросціць і зробіць таннейшай задачу.
Яшчэ адзін прыклад — інфармаванне абанентаў па тэлефоне. Напрыклад, некаторым арганізацыям прыходзіцца паведамляць пра запазычанасць за кватэрную плату, тэлефон. Тут было б таксама разумна выкарыстоўваць сінтэзатар маўлення.
Калі ўбудаваць сінтэзатар маўлення ў праграму працы з электроннай поштай, можна праслухоўваць уваходную карэспандэнцыю, выконваючы адначасова якія-небудзь іншыя дзеянні. Можна, напрыклад, перавесці з электроннага выгляду ў аўдыёфайл газету і слухаць яе па дарозе на працу.

— Ці шмат падобных сістэм існуе ў свеце?

— Так, вядома, існуюць для большасці сучасных моў. Ёсць некалькі сістэм для рускай мовы, якасць якіх параўнальная са створанай у нас сістэмай. Для беларускай жа мовы падобных сістэм няма. Пры распрацоўцы сінтэзатара маўлення для кожнай мовы ёсць свае асаблівасці.

— Вы працуеце над стварэннем сінтэзу маўлення для беларускай мовы?

— Так. Пакуль якасць праграмы нас не задавальняе.

— А ў чым праблемы?

— Адной з асноўных асаблівасцяў пры стварэнні сістэмы сінтэзу маўлення з’яўляецца распрацоўка лінгвістычных і акустычных інфармацыйных рэсурсаў. Пры сінтэзе маўлення па тэксце неабходна ведаць, дзе ў кожным слове паставіць націск. У беларускай мове (як і ў рускай) сістэмы націскаў няма, таму неабходна стварыць электронны слоўнік націскаў, які змяшчае як мага большую колькасць слоў. Асобнай задачай з’яўляецца інтанаванне маўлення, якое ў беларускай мове таксама асаблівае. Для надання сінтэзаванаму маўленню “правільнай” інтанацыі неабходна стварыць базу дадзеных інтанацый для беларускай мовы. Для агучвання адвольнага тэксту неабходна таксама наяўнасць маўленчай базы дадзеных, якая змяшчае ўсе гукі дадзенай мовы і іх асноўныя адценні. Такая база для рускай мовы змяшчае каля 800 кароткіх гукавых адрэзкаў. Для выкарыстання ў сінтэзатары беларускага маўлення яе неабходна папоўніць гукамі, спецыфічнымі для беларускай мовы, такімі як “У кароткі”, беларускае “Г”, цвёрдае “Ч”, а таксама гукамі “Дж” і “Дзь”, і іх асноўнымі адценнямі, у выніку змяніўшы базу на 30%.

— Наколькі даступныя вашы распрацоўкі для масавага спажыўца?

— Распрацаваную сістэму стварэння і агучвання аўдыёкніг aBookForge мы прапануем у выглядзе праграмнага прадукту, які можа набыць любы карыстальнік. Інстытут заключыў ліцэнзійны дагавор з прыватнай фірмай, якая і ажыццяўляе продажы.

— А што за праект “гаворачая галава”?

— Гэта праграма аўдыёвізуальнага сінтэзу маўлення. Тэхналогія аўдыёвізуальнага сінтэзу маўлення ўключае не толькі агучванне голасам тэксту, але і адлюстраванне галавы і артыкуляцыйных органаў (вуснаў, шчок, ніжняй сківіцы і г.д.) пры вымаўленні гэтага тэксту. Існуе два падыходу для стварэння аўдыёвізуальнага сінтэзатара маўлення: стварэнне стылізаванай трохмернай мадэлі “гаворачай галавы”, а таксама стварэнне персанальнай двухмернай “гаворачай галавы” канкрэтнага чалавека на аснове фотаздымкаў яго твару пры вымаўленні пэўных гукаў.
Сістэма аўдыёвізуальнага сінтэзу маўлення па тэксце запатрабавана не толькі людзьмі з праблемамі зроку, але і са слабым слыхам, бо яны могуць чытаць “гаворачую галаву” па вуснах.

— На ваш погляд, якія перспектывы мае развіццё маўленчых тэхналогій у Беларусі?

— На працягу апошніх 15—20 гадоў маўленчыя тэхналогіі атрымалі бурнае развіццё. Сістэмы распазнавання маўлення, сінтэзу маўлення па тэксце, ідэнтыфікацыі і верыфікацыі голасу асобы да цяперашняга моманту дасягнулі высокай якасці і выкарыстоўваюцца ў многіх практычных прыкладаннях. Тым не менш, распрацоўваюцца новыя спосабы для паляпшэння якасці існуючых сістэм, а існуючыя сістэмы выкарыстоўваюцца ва ўсё новых практычных сферах. Даволі высокі патэнцыял развіцця маюць маўленчыя тэхналогіі і ў Беларусі. Сістэмы сінтэзу маўлення па тэксце могуць атрымаць далейшае развіццё і ўкараненне ў практычныя сістэмы агучвання прыпынкаў на транспарце, сістэмы навучання рускай/беларускай мовам, інфакіёскі.

Віктар ЛІСТАПАДАЎ

Крыніца

Спампаваць (PDF, 804KB)

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.