Падмануць вочы прасцей, чым вушы. Калі Юрый Гецэвіч набірае на клавіятуры сказ “Мама мыла раму” і яго тут жа вымаўляе “гаворачая галава” на маніторы, зрок згаджаецца: так, міміка па той бок экрана абсалютна дакладная. А вось слых усё ж сумняваецца ў інтанацыі. Яшчэ ярчэй адрозненні камп’ютарнага і рэальнага маўлення чутны пры прайграванні вялікага фрагмента тэксту – не хапае эмоцый. Спярша гэта перашкаджае, але варта “настроіцца на хвалю”, і сутнасць сказанага лёгка ўспрымаецца.
Тым не менш, праца над стварэннем больш дасканалага, натуральнага маўлення – адна з галоўных задач, якую вырашаюць сёння вучоныя пад кіраўніцтвам Юрыя Гецэвіча, в. а. загадчыка лабараторыі распазнавання і сінтэза маўлення Аб’яднанага інстытута праблем інфарматыкі НАН.
Інтанацыі добрыя, але кульгаюць
Здавалася б, камп’ютар і мабільнік, якія размаўляюць, – не навіна, зараз без праблем можна купіць праграмы, якія могуць агучваць тэкст. Але камерцыйныя кампаніі, якія адаптуюць саму ідэю сінтэза маўлення для прымянення ў канкрэтных галінах, “наперадзе паравоза” не бягуць – выкарыстоўваюць выключна напрацаванае навукай.
Юрый Гецэвіч звяртае ўвагу, што ва ўсіх сінтэзатарах, якія прысутнічаюць на рынку, вельмі кульгаюць інтанацыі – доўгія сказы вымаўляюцца так, што пасля адной-двух старонак тэкст слухаць немагчыма, у іх параўнальна невялікая колькасць інтанацыйных контураў і правіл іх прымянення, а значыць, у галасавым варыянце ўзнікаюць недакладнасці. Як правіла, кампаніі чакаюць новых навуковых публікацый і ўжо потым бяруць свежыя напрацоўкі на ўзбраенне. Так, напрыклад, здарылася з апрацоўкай і прагаворваннем лічбаў, якіх яшчэ некалькі гадоў назад не было ні ў кога, а сёння гэта звычайная опцыя.
Агучванне тэкстаў – увогуле адна з самых складаных галін, і белых плямаў, над якімі яшчэ працаваць і працаваць, тут хапае. Напрыклад, Юрый Гецэвіч зараз заняты тым, каб машына магла зразумець і правільна прачытаць услых розныя спалучэнні лічбаў і літар, абрэвіятур, скарачэнняў, аўтаматычна ставіла націскі ў новых (незнаёмых для сінтэзатара) словах. Таму што далёка не ўсе пры напісанні прытрымліваюцца правілаў. Яго дысертацыя прысвечана лінгвістычнай апрацоўцы тэксту для сінтэзатара маўлення: “Мы нават у незнаёмых прозвішчах можам паставіць націскі – а як навучыць машыну шукаць такія, інтуітыўныя рашэнні? Ёсць і яшчэ больш цікавая задача: словы-амографы. У рускай і беларускай іх не так шмат, каля 10 тысяч, але яны так псуюць карціну! Як камп’ютару разабрацца – правільна сказаць “приобретает все бОльшую популярность или большУю”? У беларускай мове я ведаю трайныя амографы. Напрыклад, “прыгожая казачка распявала казачку свайму казачку”… Так, у нас ёсць сістэма, якая шукае словы-амографы, але рана ці позна мы ўсё роўна сутыкаемся з тым, што машына не ў стане ўспрыняць сэнс, кантэкст”. Вось чаму удасканальванне сінтэзу маўлення – задача таго ж узроўня, што і стварэнне штучнага інтэлекту.
З чаго сшыта слова
З таго часу як на маладзёжным інавацыйным форуме Нацыянальнай акадэміі навук праект Юрыя Гецэвіча і Дзмітрыя Пакладка – сінтэзатар рускага і беларускага маўлення па тэксце для стацыянарных і мабільных платформ быў прызнаны лепшым, здарылася многа чаго. Ён быў прэзентаваны на канферэнцыі, прысвечанай штучнаму інтэлекту OSTIS-2012, прымаў удзел у інавацыйным тыдні, атрымаў дыплом на «ТІБО-2012». На выставы запрашаюць пастаянна. Менавіта ж гэтыя маладыя вучоныя навучылі камп’ютар і мабільны тэлефон гаварыць па-беларуску. Раней сінтэзатара проста не існавала!
Дабіцца, каб камп’ютар загаварыў, – велізарная, карпатлівая праца. Запісваецца голас рэальнага чалавека, раскладваецца ў спецыяльнай праграме, якае паказвае найдрабнейшыя ваганні гука, нарэзваецца на “дэталі” – алафоны (найдрабнейшыя варыяцыі фанемы) – бо тая ж літара “а” ў націскным і ненаціскным складах і вымаўляецца па-рознаму. У выніку складваецца база з тысяч алафонаў. А ўжо потым ствараюцца алгарытмы, якія вымаюць з гэтай базы патрэбныя дэталі слова, якое трэба прайграць. “Сшываюць” слова з найдрабнейшых кавалачкаў. Цікава, што пры запісе голаса дыктару зусім не трэба начытваць аб’ёмныя творы. Вучоныя распрацавалі спецыяльны збалансаваны тэкст, на шэсць хвілін чыткі, у якім ёсць усе неабходныя фанемы.
Зразумела, у праграмы, якая пераводзіць тэкставыя файлы ў гукавыя, павінен быць вялікі слоўнік і сістэма яго папаўнення – дзецішча Юрыя Гецевіча аперыруе больш чым двума мільёнамі слоў рускай і беларускай моў.
Айфонаў не трэба
Першым на ўсходнееўрапейскай прасторы 40 гадоў назад пачаў вучыць камп’ютары прагаворваць набраны тэкст Барыс Лабанаў, галоўны навуковы супрацоўнік лабараторыі распазнавання і сінтэза маўлення Аб’яднанага інстытута праблем інфарматыкі. Ён і стварыў базіс, на якім сінтэз маўлення ўдакладняецца зараз і ў нас, і ў Расіі, – дарэчы, у большай ступені вучнямі Барыса Мяфодзьевіча. Юрый Гецэвіч – адзін з іх. Ён дастае старэнькі мабільны са словамі: “Спецыяльна захоўваю, каб не думалі, што для нашых праграм патрэбны наварочаныя айфоны. Гэта эксперыментальная праграмная мадэль мабільнага сінтэзатара маўлення па тэксце, зробленая ў нашай лабараторыі. Яна патрабуе ўсяго 2 мегабайта памяці і таму можа працаваць на самых простых прыстасаваннях”. І вось сінтэзаваны голас нараспеў пачынае чытаць «Зорку Венеру». Так жа можна агучыць і эсэмэску, і імя таго, хто звоніць. Быў бы тэкст!
Распрацавана і камп’ютарная сістэма стварэння аўдыёкніг. Нядаўна тут са студэнтамі-практыкантамі пераклалі падручнік «Грамадазнаўства» за 10-ты клас у гукавы фармат – гэта заняло ўсяго каля тыдня. Студэнты гаварылі, што такой рэальна патрэбнай для людзей практыкі ў іх яшчэ не было. “Гаворачая бібліятэка” ўжо існуе. Напрылад, яна працуе для дзяцей з парушэннямі зроку. Увогуле для тых, у каго праблемы са зрокам, праграма сінтэза маўлення – знаходка. Кнігі з шрыфтам Брайля дарагія, не гаворачы ўжо пра тое, што літаратурных навінак сярод іх не знойдзеш. А тут праграма перавядзе ў гукавы варыянт любы твор, электронная версія якога знаходзіцца ў сетцы. Створана ў лабараторыі і праграма навучання для тых, каму трэба навучыцца гаварыць, напрыклад, пасля інсульта: словы вымаўляе “гаворачая галава” на маніторы, міміку якой можна ўзнаўляць нават у павольным рэжыме, каб больш правільна яе імітаваць.
А самая свежая распрацоўка робіць сістэму сінтэзу прымянімай для сістэм апавяшчэння: дастаткова набраць патрэбную інфармацыю, і голас аб’явіць, калі і на які пуць прыбывае цягнік ці які прыпынак у тралейбусе наступны. Ці – з навінак: тэлефонны робат. Самастойна набярэ дзясяткі нумароў абанентаў і кожнаму паведаміць пра запазычанасць з указаннем канкрэтнай сумы, толькі б гэтыя дадзеныя былі ў камп’ютары.
У бліжэйшых планах вучоных – стварэнне інтэрнэт-версіі праграмы сінтэза маўлення. Цалкам магчыма, што першым “загаворыць” сайт Нацыянальнай бібліятэкі. Тады любы наведвальнік зможа скарыстацца пошукам кнігі “на слых”, будзе агучвацца ўвесь тэкст, на які трапіць курсор “мышкі”, – рубрыкі, укладкі, раздзелы. Увогуле, сур’ёзных напрацовак, якія дазваляюць прымяняць сінтэз маўлення для адукацыі, рэабілітацыі, у банкаўскай сістэме, на транспарце, у ЖКГ – маса. Засталося толькі патэнцыяльным спажыўцам развярнуцца ў бок навуковых дасягненняў і ацаніць іх перавагі.
Скажаш “паравоз” – піша “малако”
А вось з марай пісьменнікаў і журналістаў – камп’ютарам, які б успрымаў голас і пераводзіў яго ў тэкст, каб можна было начытваць паэмы і артыкулы, расхаджваючы па пакоі, справа стаіць складаная. Так, такія праграмы прадаюцца і рэкламуюцца, але ніводная з іх пакуль не здольна замяніць набор тэксту. Як правіла, больш ці менш даставерна яны адрозніваюць толькі галасы сваіх стваральнікаў, а з астатнімі справа стаіць наступным чынам: вымаўляеш “паравоз”, а пішацца “малако”. Юрый Гецэвіч тлумачыць малую іх эфектыўнасць тым, што праграме вельмі складана выдзеліць словы з патоку жывога маўлення і пры гэтым іх ні з чым не зблытаць. Аднак рашэнне шукаюць у тым ліку і нашы вучоныя.
Аўтар публікацыі: Юлія ВАСІЛІШЫНА
Фота: Віталь ГІЛЬ