Сінтэзатар «Гаворачая галава»


Сэрвіс «Сінтэзатар “Гаворачая галава”» дазваляе атрымаць візуалізацыю ўведзенага карыстальнікам тэксту. На ўваход сэрвісу падаецца электронны тэкст, сэрвіс апрацоўвае ўваходны тэкст і фарміруе відэафайл з аніміраванай галавой, якая вымаўляе ўведзеную фразу. «Гаворачая галава» перадае міміку чалавечай галавы і сінтэзаваны гук пры вымаўленні ўваходнага тэксту. Карыстальнік можа праглядзець выніковы відэафайл і захаваць яго.

 

Асноўныя тэрміны і паняцці

Сінтэз маўлення —  фарміраванне маўленчага сігналу па электронным тэксце.

Сінтэзатар маўлення па тэксце (СМТ) [1] — гэта сістэма, здольная генераваць маўленне па тэксце. Змяшчае два блокі: блок лінгвістычнай апрацоўкі тэксту да фанемнага выгляду з пазнакамі націску, інтанацыі (прасодыі) і рытму, а таксама блок апрацоўкі маўленчага сігналу, які пераўтварае раней атрыманы фанемны выгляд у гукавы сігнал маўлення [2].

 

Асаблівасці сэрвіса

Сэрвіс генеруе «гаворачыя галовы» паводле фотаздымкаў чалавека. На цяперашні момант сэрвіс дазваляе візуалізаваць уваходны тэкст з дапамогай чатырох «гаворачых галоў», тры з якіх мужчынскія з мужчынскім сінтэзатарам маўлення і адна жаночая з жаночым сінтэзатарам маўлення, а менавіта:

  • Б.М. Лабанаў (сінтэзатар маўлення Barys);
  • А.В. Тузікаў (сінтэзатар маўлення Barys);
  • У.В. Галянкоў (сінтэзатар маўлення Barys);
  • Л.І. Цырульнік (сінтэзатар маўлення Alesia).

Для таго каб стварыць персанальную «гаворачую галаву», неабходна зрабіць некалькі фотаздымкаў твару чалавека ў пэўных пазіцыях мімікі рта і вуснаў. Сінтэзуючы «гаворачую галаву», сэрвіс задзейнічае працу «Сінтэзатара маўлення па тэксце», а таксама будуе паслядоўнасць фотаздымкаў з пазіцыямі вуснаў, адпаведнымі фанеме, якая сінтэзуецца (вымаўляецца «гаворачай галавой») у канкрэтны момант.

Сэрвіс знаходзіцца на стадыі дапрацоўкі і ўдасканалення, таму на цяперашні момант вялікі аб’ём тэксту сінтэзуецца з цяжкасцю. У сувязі з гэтым пажадана падаваць на ўваход тэкст памерам не больш за адзін сказ.

 

Практычная каштоўнасць

Сэрвіс дапаможа ўспрымаць маўленне людзям з парушэннямі слыху, паколькі ў іх будзе магчымасць пабачыць міміку пры вымаўленні ўваходнай фразы. Гэта пашырае магчымасці і сферы выкарыстання сінтэзатара маўлення. Дзякуючы відэаадлюстраванню сэрвіс дазваляе яшчэ больш персаналізаваць уваходны тэкст, паколькі стварае «гаворачыя галовы» на аснове фотаздымкаў рэальна існуючых людзей. «Гаворачыя галовы» маюць перспектывы прымянення ў наступных сферах:

  • сістэмы абзвону і інфакіёскі;
  • галасавыя і сігналізацыйныя сістэмы апавяшчэння;
  • сістэмы чытання электронных кніг;
  • навучальныя сістэмы;
  • гаворачыя камп’ютары для інвалідаў па зроку і слыху;
  • персаналізацыя прысутнасці анлайн для людзей з інваліднасцю (персанальны гаворачы аватар).

 

Апісанне інтэрфейсу карыстальніка

Графічны інтэрфейс сэрвіса прадстаўлены на малюнку 1.

Малюнак 1. Графічны інтэрфейс сэрвіса «Сінтэзатар “Гаворачая галава”»

Інтэрфейс змяшчае наступныя вобласці:

  • поле ўводу электроннага тэксту;
  • выбар «гаворачай галавы»;
  • кнопка «Get talking head!», якая запускае генерацыю «гаворачай галавы» і дае магчымасць атрымаць выніковы відэафайл.

 

Карыстальніцкі сцэнар працы з сэрвісам

  1. Увесці ў поле ўводу электронны тэкст для візуалізацыі.
  2. У выпадаючым меню «Select head» выбраць «гаворачую галаву».
  3. Націснуць кнопку «Get talking head!», каб атрымаць выніковы відэафайл.
  4. Націснуць на кнопку прайгравання і праглядзець вынік (малюнак 2).
  5. Пры неабходнасці захаваць вынік на камп’ютар трэба націснуць «download video» і/ці «download audio», пасля чаго выніковы файл будзе спампаваны ў фармаце *.mp4 (відэа з сінтэзаваным маўленнем) ці *.wav (толькі сінтэзаванае маўленне).

Малюнак 2. Вынікі працы сэрвіса «Сінтэзатар “Гаворачая галава”»

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса «Сінтэзатар “Гаворачая галава”» праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://ssrlab.grid.by/TalkingHeadSynthesizer/api.php. Праз масіў параметраў data перадаецца адвольны ўваходны тэкст (параметр text), галава (параметры selector) і мова (параметр selector_language).

Элементы ўваходнага масіву data маюць наступныя параметры:

  • text — адвольны ўваходны тэкст.
  • selector — гаворачая галава; прымае значэнні “male1”, “male2”, “male3” і “female1”.
  • selector_language — мова ўваходнага тэксту; прымае значэнні “be” і “ru”.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://ssrlab.grid.by/TalkingHeadSynthesizer/api.php”,
   data:{
      “text”: “Груша цвіла апошні год.”,
      “selector”: “male1”,
      “selector_language”: “be”
   }
   success: function(msg){ }
});

Сервер верне JSON-масіў з уваходным тэкстам (параметр text) і вынікам (параметр result). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “Груша цвіла апошні год.”,
      “VideoLink”: “https://ssrlab.grid.by/_cache/TalkingHeadSynthesizer/video/2018-06-12_10-31-48_80-94-162-88_899_output.mp4”,
      “AudioLink”: “https://ssrlab.grid.by/_cache/TalkingHeadSynthesizer/wav/2018-06-12_10-31-48_80-94-162-88_899.wav”
   }
]

Прыклад выкарыстання дадзенага API — вэб-сэрвіс «Сінтэзатар “гаворачая галава” праз API» (https://ssrlab.grid.by/TalkingHeadSynthesizerViaApi/).

 

Спасылкі на крыніцы

Старонка сэрвіса: https://ssrlab.grid.by/TalkingHeadSynthesizer/?lang=be

Сэрвіс «Сінтэзатар маўлення па тэксце», задзейнічаны ў працы дадзенага сэрвіса: http://corpus.by/TextToSpeechSynthesizer/?lang=be

 

Перакрыжаваныя спасылкі

  1. Сінтэзатар маўлення па тэксце // Платформа для апрацоўкі тэкставай і гукавой інфармацыі розных тэматычных даменаў [Электронны рэсурс]. — 2017. Рэжым доступу : http://corpus.by/TextToSpeechSynthesizer/?lang=be. — Дата доступу : 30.03.2017.
  2. Алгарытмы лінгвістычнай апрацоўкі тэкстаў для сінтэзу маўлення на беларускай і рускай мовах : дысертацыя на атрыманне навуковай ступені кандыдата тэхнічных навук : спецыяльнасць 05.13.01 Сістэмны аналіз, кіраванне і апрацоўка інфармацыі / Гецэвіч Юрый Станіслававіч ; навуковы кіраўнік Лабанаў Б. М. ; Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі. — Мінск, 2012. — 184, [6] л. : іл., табл., схемы. — Ч. тэксту рус. — Бібліягр.: л. 153-164.

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.