Сэрвіс «Сінтэзатар “Гаворачая галава”» дазваляе атрымаць візуалізацыю ўведзенага карыстальнікам тэксту. На ўваход сэрвісу падаецца электронны тэкст, сэрвіс апрацоўвае ўваходны тэкст і фарміруе відэафайл з аніміраванай галавой, якая вымаўляе ўведзеную фразу. «Гаворачая галава» перадае міміку чалавечай галавы і сінтэзаваны гук пры вымаўленні ўваходнага тэксту. Карыстальнік можа праглядзець выніковы відэафайл і захаваць яго.
Асноўныя тэрміны і паняцці
Сінтэз маўлення — фарміраванне маўленчага сігналу па электронным тэксце.
Сінтэзатар маўлення па тэксце (СМТ) [1] — гэта сістэма, здольная генераваць маўленне па тэксце. Змяшчае два блокі: блок лінгвістычнай апрацоўкі тэксту да фанемнага выгляду з пазнакамі націску, інтанацыі (прасодыі) і рытму, а таксама блок апрацоўкі маўленчага сігналу, які пераўтварае раней атрыманы фанемны выгляд у гукавы сігнал маўлення [2].
Асаблівасці сэрвіса
Сэрвіс генеруе «гаворачыя галовы» паводле фотаздымкаў чалавека. На цяперашні момант сэрвіс дазваляе візуалізаваць уваходны тэкст з дапамогай чатырох «гаворачых галоў», тры з якіх мужчынскія з мужчынскім сінтэзатарам маўлення і адна жаночая з жаночым сінтэзатарам маўлення, а менавіта:
- Б.М. Лабанаў (сінтэзатар маўлення Barys);
- А.В. Тузікаў (сінтэзатар маўлення Barys);
- У.В. Галянкоў (сінтэзатар маўлення Barys);
- Л.І. Цырульнік (сінтэзатар маўлення Alesia).
Для таго каб стварыць персанальную «гаворачую галаву», неабходна зрабіць некалькі фотаздымкаў твару чалавека ў пэўных пазіцыях мімікі рта і вуснаў. Сінтэзуючы «гаворачую галаву», сэрвіс задзейнічае працу «Сінтэзатара маўлення па тэксце», а таксама будуе паслядоўнасць фотаздымкаў з пазіцыямі вуснаў, адпаведнымі фанеме, якая сінтэзуецца (вымаўляецца «гаворачай галавой») у канкрэтны момант.
Сэрвіс знаходзіцца на стадыі дапрацоўкі і ўдасканалення, таму на цяперашні момант вялікі аб’ём тэксту сінтэзуецца з цяжкасцю. У сувязі з гэтым пажадана падаваць на ўваход тэкст памерам не больш за адзін сказ.
Практычная каштоўнасць
Сэрвіс дапаможа ўспрымаць маўленне людзям з парушэннямі слыху, паколькі ў іх будзе магчымасць пабачыць міміку пры вымаўленні ўваходнай фразы. Гэта пашырае магчымасці і сферы выкарыстання сінтэзатара маўлення. Дзякуючы відэаадлюстраванню сэрвіс дазваляе яшчэ больш персаналізаваць уваходны тэкст, паколькі стварае «гаворачыя галовы» на аснове фотаздымкаў рэальна існуючых людзей. «Гаворачыя галовы» маюць перспектывы прымянення ў наступных сферах:
- сістэмы абзвону і інфакіёскі;
- галасавыя і сігналізацыйныя сістэмы апавяшчэння;
- сістэмы чытання электронных кніг;
- навучальныя сістэмы;
- гаворачыя камп’ютары для інвалідаў па зроку і слыху;
- персаналізацыя прысутнасці анлайн для людзей з інваліднасцю (персанальны гаворачы аватар).
Апісанне інтэрфейсу карыстальніка
Графічны інтэрфейс сэрвіса прадстаўлены на малюнку 1.
Малюнак 1. Графічны інтэрфейс сэрвіса «Сінтэзатар “Гаворачая галава”»
Інтэрфейс змяшчае наступныя вобласці:
- поле ўводу электроннага тэксту;
- выбар «гаворачай галавы»;
- кнопка «Get talking head!», якая запускае генерацыю «гаворачай галавы» і дае магчымасць атрымаць выніковы відэафайл.
Карыстальніцкі сцэнар працы з сэрвісам
- Увесці ў поле ўводу электронны тэкст для візуалізацыі.
- У выпадаючым меню «Select head» выбраць «гаворачую галаву».
- Націснуць кнопку «Get talking head!», каб атрымаць выніковы відэафайл.
- Націснуць на кнопку прайгравання і праглядзець вынік (малюнак 2).
- Пры неабходнасці захаваць вынік на камп’ютар трэба націснуць «download video» і/ці «download audio», пасля чаго выніковы файл будзе спампаваны ў фармаце *.mp4 (відэа з сінтэзаваным маўленнем) ці *.wav (толькі сінтэзаванае маўленне).
Малюнак 2. Вынікі працы сэрвіса «Сінтэзатар “Гаворачая галава”»
Доступ да сэрвіса праз API
Для доступу да сэрвіса «Сінтэзатар “Гаворачая галава”» праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://corpus.by/TalkingHeadSynthesizer/api.php. Праз масіў data перадаюцца наступныя параметры:
- text — адвольны ўваходны тэкст.
- selector — гаворачая галава; прымае значэнні “male1”, “male2”, “male3” і “female1”.
- selector_language — мова ўваходнага тэксту; прымае значэнні “be” і “ru”.
Прыклад AJAX-запыту:
$.ajax({
type: “POST”,
url: “https://corpus.by/TalkingHeadSynthesizer/api.php”,
data:{
“text”: “Груша цвіла апошні год.”,
“selector”: “male1”,
“selector_language”: “be”
},
success: function(msg){ },
error: function() { }
});
Сервер верне JSON-масіў з уваходным тэкстам (параметр text) і адрасамі, дзе захавана выніковае відэа (параметр VideoLink) і выніковае аўдыя (параметр AudioLink). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:
[
{
“text”: “Груша цвіла апошні год.”,
“VideoLink”: “https://corpus.by/_cache/TalkingHeadSynthesizer/video/2019-09-03_17-18-50_80-94-171-2_403_output.mp4”,
“AudioLink”: “https://corpus.by/_cache/TalkingHeadSynthesizer/wav/2019-09-03_17-18-50_80-94-171-2_403.wav”
}
]
Спасылкі на крыніцы
Старонка сэрвіса: https://corpus.by/TalkingHeadSynthesizer/?lang=be
Сэрвіс «Сінтэзатар маўлення па тэксце», задзейнічаны ў працы дадзенага сэрвіса: https://corpus.by/TextToSpeechSynthesizer/?lang=be
Перакрыжаваныя спасылкі
- Сінтэзатар маўлення па тэксце // Платформа для апрацоўкі тэкставай і гукавой інфармацыі розных тэматычных даменаў [Электронны рэсурс]. — 2017. Рэжым доступу : https://corpus.by/TextToSpeechSynthesizer/?lang=be. — Дата доступу : 30.03.2017.
- Алгарытмы лінгвістычнай апрацоўкі тэкстаў для сінтэзу маўлення на беларускай і рускай мовах : дысертацыя на атрыманне навуковай ступені кандыдата тэхнічных навук : спецыяльнасць 05.13.01 Сістэмны аналіз, кіраванне і апрацоўка інфармацыі / Гецэвіч Юрый Станіслававіч ; навуковы кіраўнік Лабанаў Б. М. ; Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі. — Мінск, 2012. — 184, [6] л. : іл., табл., схемы. — Ч. тэксту рус. — Бібліягр.: л. 153-164.
- Лобанов, Б.М. Ретроспективный обзор исследований и разработок лаборатории распознавания и синтеза речи / Б.М. Лобанов // Автоматическое распознавание и синтез речи: сб. науч. тр. – Минск: ИТК НАН Беларуси, 2000. – С. 6-24.
- Гецэвіч, Ю.С. Праектаванне натуральна-моўных інтэрфейсаў для даведкавых сістэм / Ю.С. Гецэвіч, У.А. Жытко, С.А. Гецэвіч, Л.І. Кайгародава, К.А. Нікалаенка // Інфарматыка. – 2019. – Т. 16, № 3. – С. 37-47.