Сінтэзатар маўлення “Фанемафон–2000”

Сінтэзатар маўлення – гэта навукаёмісты праграмны прадукт, у якім рэалізуецца мадэль вуснага чытання чалавекам адвольнага тэксту. Зварот да яго ажыццяўляецца сродкамі Windows праз стандартнае ўстройства ўводу-вываду.

З пункту гледжання карыстальніка сінтэзатар – гэты новы сродак для ажыццяўлення галасавога вываду інфармацыі з персанальнага камп'ютэра, які дапаўняе, а ў асобных выпадках і замяшчае візуальны вывад на дысплей. Карыстальнік персанальнага камп'ютэра, які ўжывае сінтэзатар, зможа аслабіць зрокавае напружанне, за кошт атрымання часткі інфармацыі голасам. Ён можа таксама атрымліваць інфармацыю падчас руху на некаторым аддаленні ад камп'ютэра, а пры выкарыстанні дадатковага тэлефоннага інтэрфейсу – перадаваць ці атрымліваць маўленчую інфармацыю па тэлефоне. Сінтэзатар маўлення – унікальны сродак перадачы інфармацыі для невідушчых і выдатная магчымасць стварэння камп'ютэрных сістэм навучання вуснаму маўленню.

Пад сінтэзам маўлення (СМ) разумеецца чытанне ўслых камп'ютэрам адвольнай тэкставай інфармацыі, а не прайграванне загадзя запісаных гукавых файлаў. Фактычна, дзякуючы сінтэзатару маўлення па тэксце адкрываецца яшчэ адзін канал перадачы дадзеных ад камп'ютэра да чалавека, аналагічны таму, які мы маем дзякуючы дысплею. З пункту гледжання карыстальніка найбольш зручнае (разумнае) выкарыстанне СМ – гэта ўключэнне сінтэзу маўлення (у перспектыве шматмоўнага, з магчымасцю перакладу) у склад аперацыйнай сістэмы. Такім жа чынам, як звычайна карыстаюцца камандай Print (Друкаваць), для выкліку СМ магла б ужывацца каманда Talk (Казаць). З выкарыстаннем СМ камп'ютэры змогуць агучваць навігацыю па меню, чытаць (дубляваць голасам) экранныя паведамленні, каталогі файлаў, перадаваць маўленчыя паведамленні па тэлефоне і г.д. Гэтыя функцыі асабліва важныя для людзей, якія маюць праблемы са зрокам. Для ўсіх астатніх яны створаць новае вымярэнне выгоды карыстання камп'ютэрам і значна зменшаць нагрузку на нервовую сістэму і зрок.

Сінтэзатар маўлення можа выкарыстоўвацца не толькі карыстальнікамі персанальных камп'ютэраў. Ён карысны таксама ў аўтаматызаваных сістэмах для стварэння галасавога інтэрфейсу кіравання, у бытавой тэхніцы для агучвання апаратурай каманд і выкананых дзеянняў, у кішэнных камп'ютэрах і электронных слоўніках, арганайзерах і мабільных тэлефонах для прамаўлення паведамленняў, якія з'яўляюцца на экране, у партатыўных сканарах для агучвання ў рэальным часе сканаванай інфармацыі.

Прынцып працы сінтэзатара маўлення заснаваны на стварэнні маўленчага сігналу, які адпавядае ўведзенаму тэксту, з вялікай колькасці (звыш 2000) найдрабнейшых гукавых адзінак, якія ўтрымоўваюцца ў галасавой базе. Для стварэння галасавой базы неабходныя гукавыя адзінкі выразаюцца з узораў натуральнага маўлення пэўнага дыктара. Такім чынам, сінтэзаванае маўленне захоўвае персанальныя асаблівасці голасу, акцэнту і інтанацыі. Наяўнасць розных галасавых баз дазваляе генераваць паведамленні рознымі галасамі. Вобразна кажучы, дзякуючы такому падыходу рэалізуецца камп'ютэрнае кланаванне персанальнага голасу і маўлення.

Агульная схема працы сінтэзатара маўлення наступная: уваходны арфаграфічны тэкст апрацоўваецца спачатку тэкставым працэсарам, у якім ажыццяўляецца расстаноўка славесных націскаў, літара-фанемнае пераўтварэнне тэксту, разбіццё яго на сінтагмы, выбар інтанацыйнага тыпу для кожнай сінтагмы. Атрыманы ў выніку гэтых пераўтварэнняў размечаны фанемны тэкст паступае на ўваход двух працэсараў: прасадычнага і фанетычнага. Фанетычны працэсар генеруе пазіцыйныя і камбінаторныя алафоны фанем. Прасадычны працэсар вызначае бягучыя значэнні амплітуды і працягласці гукаў, а таксама частоты асноўнага тону.

Сінтэзатар маўлення рэалізаваны ў асяроддзі візуальнага праграмавання MS Visual C++ 6.0 для аперацыйных сістэм сямейства Windows. Мінімальныя тэхнічныя патрабаванні да камп'ютэра: аб'ём вольнага месца на цвёрдым дыску – 20Mb, тактавая частата працэсара – 166MHz, аб'ём аператыўнай памяці – 32Mb, наяўнасць гукавой карты.

Сістэма складаецца з набору кампанент, якія адпавядаюць тэкставаму, фанетычнаму, прасадычнаму і акустычнаму працэсарам. Кожны працэсар з'яўляецца COM-аб'ектам і працуе незалежна ад іншых працэсараў па меры паступлення дадзеных. У якасці рэсурсаў сістэма выкарыстоўвае базу дадзеных (БД) славесных націскаў і гукавую базу алафонаў і мультыфонаў. Абедзве базы знаходзяцца ў дынамічна падключальных бібліятэках, што дазваляе хутка загружаць і выгружаць іх пры ініцыялізацыі і завяршэнні працы сістэмы. Для знаходжання націску ў слове выкарыстоўваецца алгарытм бінарнага пошуку слова ў БД націскаў. Тэкст аналізуецца па сінтагмах: пасля вылучэння сінтагмы ажыццяўляецца расстаноўка ў ёй націскаў, літара-фанемнае, а затым фанемна-алафоннае пераўтварэнні. Па тыпу сінтагмы вызначаюцца яе прасадычныя (інтанацыйныя) характарыстыкі. Як толькі сінтагма была сфармаваная, яна прамаўляецца. Паралельна з гэтымі дзеяннямі ідэнтыфікуецца наступная сінтагма, з якой ажыццяўляюцца аналагічныя пераўтварэнні. За кожнае дзеянне адказвае асобны паток ці цэлы працэсар. Такім чынам, затрымка паміж прамаўленнем сінтагмаў практычна не прыкметная. Маецца магчымасць захаваць сінтэзаванае маўленне ў wav-файле.

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.

Лабараторыя распазнавання і сінтэзу маўлення

Аб'яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

Аб'яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

Аб'яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

Spelling error report

The following text will be sent to our editors:

Your comment (optional):