СБ: “Праверка сінтэза слыхам”

Юрый Гецэвіч "вучыць" камп'ютар размаўляць Падмануць вочы прасцей, чым вушы. Калі Юрый Гецэвіч набірае на клавіятуры сказ “Мама мыла раму” і яго тут жа вымаўляе “гаворачая галава” на маніторы, зрок згаджаецца: так, міміка па той бок экрана абсалютна дакладная. А вось слых усё ж сумняваецца ў інтанацыі. Яшчэ ярчэй адрозненні камп’ютарнага і рэальнага маўлення чутны пры прайграванні вялікага фрагмента тэксту – не хапае эмоцый. Спярша гэта перашкаджае, але варта “настроіцца на хвалю”, і сутнасць сказанага лёгка ўспрымаецца.

Тым не менш, праца над стварэннем больш дасканалага, натуральнага маўлення – адна з галоўных задач, якую вырашаюць сёння вучоныя пад кіраўніцтвам Юрыя Гецэвіча, в. а. загадчыка лабараторыі распазнавання і сінтэза маўлення Аб’яднанага інстытута праблем інфарматыкі НАН.

Інтанацыі добрыя, але кульгаюць

Здавалася б, камп’ютар і мабільнік, якія размаўляюць, – не навіна, зараз без праблем можна купіць праграмы, якія могуць агучваць тэкст. Але камерцыйныя кампаніі, якія адаптуюць саму ідэю сінтэза маўлення для прымянення ў канкрэтных галінах, “наперадзе паравоза” не бягуць – выкарыстоўваюць выключна напрацаванае навукай.

Юрый Гецэвіч звяртае ўвагу, што ва ўсіх сінтэзатарах, якія прысутнічаюць на рынку, вельмі кульгаюць інтанацыі – доўгія сказы вымаўляюцца так, што пасля адной-двух старонак тэкст слухаць немагчыма, у іх параўнальна невялікая колькасць інтанацыйных контураў і правіл іх прымянення, а значыць, у галасавым варыянце ўзнікаюць недакладнасці. Як правіла, кампаніі чакаюць новых навуковых публікацый і ўжо потым бяруць свежыя напрацоўкі на ўзбраенне. Так, напрыклад, здарылася з апрацоўкай і прагаворваннем лічбаў, якіх яшчэ некалькі гадоў назад не было ні ў кога, а сёння гэта звычайная опцыя.

Агучванне тэкстаў – увогуле адна з самых складаных галін, і белых плямаў, над якімі яшчэ працаваць і працаваць, тут хапае. Напрыклад, Юрый Гецэвіч зараз заняты тым, каб машына магла зразумець і правільна прачытаць услых розныя спалучэнні лічбаў і літар, абрэвіятур, скарачэнняў, аўтаматычна ставіла націскі ў новых (незнаёмых для сінтэзатара) словах. Таму што далёка не ўсе пры напісанні прытрымліваюцца правілаў. Яго дысертацыя прысвечана лінгвістычнай апрацоўцы тэксту для сінтэзатара маўлення: “Мы нават у незнаёмых прозвішчах можам паставіць націскі – а як навучыць машыну шукаць такія, інтуітыўныя рашэнні? Ёсць і яшчэ больш цікавая задача: словы-амографы. У рускай і беларускай іх не так шмат, каля 10 тысяч, але яны так псуюць карціну! Як камп’ютару разабрацца – правільна сказаць “приобретает все бОльшую популярность или большУю”? У беларускай мове я ведаю трайныя амографы. Напрыклад, “прыгожая казачка распявала казачку свайму казачку”… Так, у нас ёсць сістэма, якая шукае словы-амографы, але рана ці позна мы ўсё роўна сутыкаемся з тым, што машына не ў стане ўспрыняць сэнс, кантэкст”. Вось чаму удасканальванне сінтэзу маўлення – задача таго ж узроўня, што і стварэнне штучнага інтэлекту.

З чаго сшыта слова

З таго часу як на маладзёжным інавацыйным форуме Нацыянальнай акадэміі навук праект Юрыя Гецэвіча і Дзмітрыя Пакладка – сінтэзатар рускага і беларускага маўлення па тэксце для стацыянарных і мабільных платформ быў прызнаны лепшым, здарылася многа чаго. Ён быў прэзентаваны на канферэнцыі, прысвечанай штучнаму інтэлекту OSTIS-2012, прымаў удзел у інавацыйным тыдні, атрымаў дыплом на «ТІБО-2012». На выставы запрашаюць пастаянна. Менавіта ж гэтыя маладыя вучоныя навучылі камп’ютар і мабільны тэлефон гаварыць па-беларуску. Раней сінтэзатара проста не існавала!

Дабіцца, каб камп’ютар загаварыў, – велізарная, карпатлівая праца. Запісваецца голас рэальнага чалавека, раскладваецца ў спецыяльнай праграме, якае паказвае найдрабнейшыя ваганні гука, нарэзваецца на “дэталі” – алафоны (найдрабнейшыя варыяцыі фанемы) – бо тая ж літара “а” ў націскным і ненаціскным складах і вымаўляецца па-рознаму. У выніку складваецца база з тысяч алафонаў. А ўжо потым ствараюцца алгарытмы, якія вымаюць з гэтай базы патрэбныя дэталі слова, якое трэба прайграць. “Сшываюць” слова з найдрабнейшых кавалачкаў. Цікава, што пры запісе голаса дыктару зусім не трэба начытваць аб’ёмныя творы. Вучоныя распрацавалі спецыяльны збалансаваны тэкст, на шэсць хвілін чыткі, у якім ёсць усе неабходныя фанемы.

Зразумела, у праграмы, якая пераводзіць тэкставыя файлы ў гукавыя, павінен быць вялікі слоўнік і сістэма яго папаўнення – дзецішча Юрыя Гецевіча аперыруе больш чым двума мільёнамі слоў рускай і беларускай моў.

Айфонаў не трэба

Першым на ўсходнееўрапейскай прасторы 40 гадоў назад пачаў вучыць камп’ютары прагаворваць набраны тэкст Барыс Лабанаў, галоўны навуковы супрацоўнік лабараторыі распазнавання і сінтэза маўлення Аб’яднанага інстытута праблем інфарматыкі. Ён і стварыў базіс, на якім сінтэз маўлення ўдакладняецца зараз і ў нас, і ў Расіі, – дарэчы, у большай ступені вучнямі Барыса Мяфодзьевіча. Юрый Гецэвіч – адзін з іх. Ён дастае старэнькі мабільны са словамі: “Спецыяльна захоўваю, каб не думалі, што для нашых праграм патрэбны наварочаныя айфоны. Гэта эксперыментальная праграмная мадэль мабільнага сінтэзатара маўлення па тэксце, зробленая ў нашай лабараторыі. Яна патрабуе ўсяго 2 мегабайта памяці і таму можа працаваць на самых простых прыстасаваннях”. І вось сінтэзаваны голас нараспеў пачынае чытаць «Зорку Венеру». Так жа можна агучыць і эсэмэску, і імя таго, хто звоніць. Быў бы тэкст!
Распрацавана і камп’ютарная сістэма стварэння аўдыёкніг. Нядаўна тут са студэнтамі-практыкантамі пераклалі падручнік «Грамадазнаўства» за 10-ты клас у гукавы фармат – гэта заняло ўсяго каля тыдня. Студэнты гаварылі, што такой рэальна патрэбнай для людзей практыкі ў іх яшчэ не было. “Гаворачая бібліятэка” ўжо існуе. Напрылад, яна працуе для дзяцей з парушэннямі зроку. Увогуле для тых, у каго праблемы са зрокам, праграма сінтэза маўлення – знаходка. Кнігі з шрыфтам Брайля дарагія, не гаворачы ўжо пра тое, што літаратурных навінак сярод іх не знойдзеш. А тут праграма перавядзе ў гукавы варыянт любы твор, электронная версія якога знаходзіцца ў сетцы. Створана ў лабараторыі і праграма навучання для тых, каму трэба навучыцца гаварыць, напрыклад, пасля інсульта: словы вымаўляе “гаворачая галава” на маніторы, міміку якой можна ўзнаўляць нават у павольным рэжыме, каб больш правільна яе імітаваць.

А самая свежая распрацоўка робіць сістэму сінтэзу прымянімай для сістэм апавяшчэння: дастаткова набраць патрэбную інфармацыю, і голас аб’явіць, калі і на які пуць прыбывае цягнік ці які прыпынак у тралейбусе наступны. Ці – з навінак: тэлефонны робат. Самастойна набярэ дзясяткі нумароў абанентаў і кожнаму паведаміць пра запазычанасць з указаннем канкрэтнай сумы, толькі б гэтыя дадзеныя былі ў камп’ютары.

У бліжэйшых планах вучоных – стварэнне інтэрнэт-версіі праграмы сінтэза маўлення. Цалкам магчыма, што першым “загаворыць” сайт Нацыянальнай бібліятэкі. Тады любы наведвальнік зможа скарыстацца пошукам кнігі “на слых”, будзе агучвацца ўвесь тэкст, на які трапіць курсор “мышкі”, – рубрыкі, укладкі, раздзелы. Увогуле, сур’ёзных напрацовак, якія дазваляюць прымяняць сінтэз маўлення для адукацыі, рэабілітацыі, у банкаўскай сістэме, на транспарце, у ЖКГ – маса. Засталося толькі патэнцыяльным спажыўцам развярнуцца ў бок навуковых дасягненняў і ацаніць іх перавагі.

Скажаш “паравоз” – піша “малако”

А вось з марай пісьменнікаў і журналістаў – камп’ютарам, які б успрымаў голас і пераводзіў яго ў тэкст, каб можна было начытваць паэмы і артыкулы, расхаджваючы па пакоі, справа стаіць складаная. Так, такія праграмы прадаюцца і рэкламуюцца, але ніводная з іх пакуль не здольна замяніць набор тэксту. Як правіла, больш ці менш даставерна яны адрозніваюць толькі галасы сваіх стваральнікаў, а з астатнімі справа стаіць наступным чынам: вымаўляеш “паравоз”, а пішацца “малако”. Юрый Гецэвіч тлумачыць малую іх эфектыўнасць тым, што праграме вельмі складана выдзеліць словы з патоку жывога маўлення і пры гэтым іх ні з чым не зблытаць. Аднак рашэнне шукаюць у тым ліку і нашы вучоныя.

Аўтар публікацыі: Юлія ВАСІЛІШЫНА

Фота: Віталь ГІЛЬ

Дата публікацыі: 27.07.2012

Крыніца: http://www.sb.by/print/post/134264/

Спампаваць (PDF, 242KB)

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.

Лабараторыя распазнавання і сінтэзу маўлення

Аб'яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

Аб'яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

Аб'яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

Spelling error report

The following text will be sent to our editors:

Your comment (optional):