Сінтэзатар «Гаворачая галава»

Сэрвіс «Сінтэзатар “Гаворачая галава”» дазваляе атрымаць візуалізацыю ўведзенага карыстальнікам тэксту. На ўваход сэрвісу падаецца электронны тэкст, сэрвіс апрацоўвае ўваходны тэкст і фарміруе відэафайл з аніміраванай галавой, якая вымаўляе ўведзеную фразу. «Гаворачая галава» перадае міміку чалавечай галавы і сінтэзаваны гук пры вымаўленні ўваходнага тэксту. Карыстальнік можа праглядзець выніковы відэафайл і захаваць яго.

Асноўныя тэрміны і паняцці

Сінтэз маўлення — фарміраванне маўленчага сігналу па электронным тэксце.

Сінтэзатар маўлення па тэксце (СМТ) [1] — гэта сістэма, здольная генераваць маўленне па тэксце. Змяшчае два блокі: блок лінгвістычнай апрацоўкі тэксту да фанемнага выгляду з пазнакамі націску, інтанацыі (прасодыі) і рытму, а таксама блок апрацоўкі маўленчага сігналу, які пераўтварае раней атрыманы фанемны выгляд у гукавы сігнал маўлення [2].

Асаблівасці сэрвіса

Сэрвіс генеруе «гаворачыя галовы» паводле фотаздымкаў чалавека. На цяперашні момант сэрвіс дазваляе візуалізаваць уваходны тэкст з дапамогай чатырох «гаворачых галоў», тры з якіх мужчынскія з мужчынскім сінтэзатарам маўлення і адна жаночая з жаночым сінтэзатарам маўлення, а менавіта:

Б.М. Лабанаў (сінтэзатар маўлення Barys);
А.В. Тузікаў (сінтэзатар маўлення Barys);
У.В. Галянкоў (сінтэзатар маўлення Barys);
Л.І. Цырульнік (сінтэзатар маўлення Alesia).

Для таго каб стварыць персанальную «гаворачую галаву», неабходна зрабіць некалькі фотаздымкаў твару чалавека ў пэўных пазіцыях мімікі рта і вуснаў. Сінтэзуючы «гаворачую галаву», сэрвіс задзейнічае працу «Сінтэзатара маўлення па тэксце», а таксама будуе паслядоўнасць фотаздымкаў з пазіцыямі вуснаў, адпаведнымі фанеме, якая сінтэзуецца (вымаўляецца «гаворачай галавой») у канкрэтны момант.

Сэрвіс знаходзіцца на стадыі дапрацоўкі і ўдасканалення, таму на цяперашні момант вялікі аб’ём тэксту сінтэзуецца з цяжкасцю. У сувязі з гэтым пажадана падаваць на ўваход тэкст памерам не больш за адзін сказ.

Практычная каштоўнасць

Сэрвіс дапаможа ўспрымаць маўленне людзям з парушэннямі слыху, паколькі ў іх будзе магчымасць пабачыць міміку пры вымаўленні ўваходнай фразы. Гэта пашырае магчымасці і сферы выкарыстання сінтэзатара маўлення. Дзякуючы відэаадлюстраванню сэрвіс дазваляе яшчэ больш персаналізаваць уваходны тэкст, паколькі стварае «гаворачыя галовы» на аснове фотаздымкаў рэальна існуючых людзей. «Гаворачыя галовы» маюць перспектывы прымянення ў наступных сферах:

сістэмы абзвону і інфакіёскі;
галасавыя і сігналізацыйныя сістэмы апавяшчэння;
сістэмы чытання электронных кніг;
навучальныя сістэмы;
гаворачыя камп’ютары для інвалідаў па зроку і слыху;
персаналізацыя прысутнасці анлайн для людзей з інваліднасцю (персанальны гаворачы аватар).

Апісанне інтэрфейсу карыстальніка

Графічны інтэрфейс сэрвіса прадстаўлены на малюнку 1.

Малюнак 1. Графічны інтэрфейс сэрвіса «Сінтэзатар “Гаворачая галава”»

Інтэрфейс змяшчае наступныя вобласці:

поле ўводу электроннага тэксту;
выбар «гаворачай галавы»;
кнопка «Get talking head!», якая запускае генерацыю «гаворачай галавы» і дае магчымасць атрымаць выніковы відэафайл.

Карыстальніцкі сцэнар працы з сэрвісам

Увесці ў поле ўводу электронны тэкст для візуалізацыі.
У выпадаючым меню «Select head» выбраць «гаворачую галаву».
Націснуць кнопку «Get talking head!», каб атрымаць выніковы відэафайл.
Націснуць на кнопку прайгравання і праглядзець вынік (малюнак 2).
Пры неабходнасці захаваць вынік на камп’ютар трэба націснуць «download video» і/ці «download audio», пасля чаго выніковы файл будзе спампаваны ў фармаце *.mp4 (відэа з сінтэзаваным маўленнем) ці *.wav (толькі сінтэзаванае маўленне).

Малюнак 2. Вынікі працы сэрвіса «Сінтэзатар “Гаворачая галава”»

Доступ да сэрвіса праз API
Для доступу да сэрвіса «Сінтэзатар “Гаворачая галава”» праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://corpus.by/TalkingHeadSynthesizer/api.php. Праз масіў data перадаюцца наступныя параметры:

text — адвольны ўваходны тэкст.
selector — гаворачая галава; прымае значэнні “male1”, “male2”, “male3” і “female1”.
selector_language — мова ўваходнага тэксту; прымае значэнні “be” і “ru”.

Прыклад AJAX-запыту:

$.ajax({
type: “POST”,
url: “https://corpus.by/TalkingHeadSynthesizer/api.php”,
data:{
“text”: “Груша цвіла апошні год.”,
“selector”: “male1”,
“selector_language”: “be”
},
success: function(msg){ },
error: function() { }
});

Сервер верне JSON-масіў з уваходным тэкстам (параметр text) і адрасамі, дзе захавана выніковае відэа (параметр VideoLink) і выніковае аўдыя (параметр AudioLink). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
{
“text”: “Груша цвіла апошні год.”,
“VideoLink”: “https://corpus.by/_cache/TalkingHeadSynthesizer/video/2019-09-03_17-18-50_80-94-171-2_403_output.mp4”,
“AudioLink”: “https://corpus.by/_cache/TalkingHeadSynthesizer/wav/2019-09-03_17-18-50_80-94-171-2_403.wav”
}
]

Спасылкі на крыніцы

Старонка сэрвіса: https://corpus.by/TalkingHeadSynthesizer/?lang=be

Сэрвіс «Сінтэзатар маўлення па тэксце», задзейнічаны ў працы дадзенага сэрвіса: https://corpus.by/TextToSpeechSynthesizer/?lang=be

Перакрыжаваныя спасылкі

Сінтэзатар маўлення па тэксце // Платформа для апрацоўкі тэкставай і гукавой інфармацыі розных тэматычных даменаў [Электронны рэсурс]. — 2017. Рэжым доступу : https://corpus.by/TextToSpeechSynthesizer/?lang=be. — Дата доступу : 30.03.2017.
Алгарытмы лінгвістычнай апрацоўкі тэкстаў для сінтэзу маўлення на беларускай і рускай мовах : дысертацыя на атрыманне навуковай ступені кандыдата тэхнічных навук : спецыяльнасць 05.13.01 Сістэмны аналіз, кіраванне і апрацоўка інфармацыі / Гецэвіч Юрый Станіслававіч ; навуковы кіраўнік Лабанаў Б. М. ; Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі. — Мінск, 2012. — 184, [6] л. : іл., табл., схемы. — Ч. тэксту рус. — Бібліягр.: л. 153-164.
Лобанов, Б.М. Ретроспективный обзор исследований и разработок лаборатории распознавания и синтеза речи / Б.М. Лобанов // Автоматическое распознавание и синтез речи: сб. науч. тр. – Минск: ИТК НАН Беларуси, 2000. – С. 6-24.
Гецэвіч, Ю.С. Праектаванне натуральна-моўных інтэрфейсаў для даведкавых сістэм / Ю.С. Гецэвіч, У.А. Жытко, С.А. Гецэвіч, Л.І. Кайгародава, К.А. Нікалаенка // Інфарматыка. – 2019. – Т. 16, № 3. – С. 37-47.

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.

Лабараторыя распазнавання і сінтэзу маўлення

Аб'яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

Аб'яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

Аб'яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі

Spelling error report

The following text will be sent to our editors:

Your comment (optional):