(Беларуская) Сінтэзатар «Гаворачая галава»


Sorry, this entry is only available in Беларуская. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

Сэрвіс «Сінтэзатар “Гаворачая галава”» дазваляе атрымаць візуалізацыю ўведзенага карыстальнікам тэксту. На ўваход сэрвісу падаецца электронны тэкст, сэрвіс апрацоўвае ўваходны тэкст і фарміруе відэафайл з аніміраванай галавой, якая вымаўляе ўведзеную фразу. «Гаворачая галава» перадае міміку чалавечай галавы і сінтэзаваны гук пры вымаўленні ўваходнага тэксту. Карыстальнік можа праглядзець выніковы відэафайл і захаваць яго.

 

Асноўныя тэрміны і паняцці

Сінтэз маўлення —  фарміраванне маўленчага сігналу па электронным тэксце.

Сінтэзатар маўлення па тэксце (СМТ) [1] — гэта сістэма, здольная генераваць маўленне па тэксце. Змяшчае два блокі: блок лінгвістычнай апрацоўкі тэксту да фанемнага выгляду з пазнакамі націску, інтанацыі (прасодыі) і рытму, а таксама блок апрацоўкі маўленчага сігналу, які пераўтварае раней атрыманы фанемны выгляд у гукавы сігнал маўлення [2].

 

Асаблівасці сэрвіса

Сэрвіс генеруе «гаворачыя галовы» паводле фотаздымкаў чалавека. На цяперашні момант сэрвіс дазваляе візуалізаваць уваходны тэкст з дапамогай чатырох «гаворачых галоў», тры з якіх мужчынскія з мужчынскім сінтэзатарам маўлення і адна жаночая з жаночым сінтэзатарам маўлення, а менавіта:

  • Б.М. Лабанаў (сінтэзатар маўлення Barys);
  • А.В. Тузікаў (сінтэзатар маўлення Barys);
  • У.В. Галянкоў (сінтэзатар маўлення Barys);
  • Л.І. Цырульнік (сінтэзатар маўлення Alesia).

Для таго каб стварыць персанальную «гаворачую галаву», неабходна зрабіць некалькі фотаздымкаў твару чалавека ў пэўных пазіцыях мімікі рта і вуснаў. Сінтэзуючы «гаворачую галаву», сэрвіс задзейнічае працу «Сінтэзатара маўлення па тэксце», а таксама будуе паслядоўнасць фотаздымкаў з пазіцыямі вуснаў, адпаведнымі фанеме, якая сінтэзуецца (вымаўляецца «гаворачай галавой») у канкрэтны момант.

Сэрвіс знаходзіцца на стадыі дапрацоўкі і ўдасканалення, таму на цяперашні момант вялікі аб’ём тэксту сінтэзуецца з цяжкасцю. У сувязі з гэтым пажадана падаваць на ўваход тэкст памерам не больш за адзін сказ.

 

Практычная каштоўнасць

Сэрвіс дапаможа ўспрымаць маўленне людзям з парушэннямі слыху, паколькі ў іх будзе магчымасць пабачыць міміку пры вымаўленні ўваходнай фразы. Гэта пашырае магчымасці і сферы выкарыстання сінтэзатара маўлення. Дзякуючы відэаадлюстраванню сэрвіс дазваляе яшчэ больш персаналізаваць уваходны тэкст, паколькі стварае «гаворачыя галовы» на аснове фотаздымкаў рэальна існуючых людзей. «Гаворачыя галовы» маюць перспектывы прымянення ў наступных сферах:

  • сістэмы абзвону і інфакіёскі;
  • галасавыя і сігналізацыйныя сістэмы апавяшчэння;
  • сістэмы чытання электронных кніг;
  • навучальныя сістэмы;
  • гаворачыя камп’ютары для інвалідаў па зроку і слыху;
  • персаналізацыя прысутнасці анлайн для людзей з інваліднасцю (персанальны гаворачы аватар).

 

Апісанне інтэрфейсу карыстальніка

Графічны інтэрфейс сэрвіса прадстаўлены на малюнку 1.

Малюнак 1. Графічны інтэрфейс сэрвіса «Сінтэзатар “Гаворачая галава”»

Інтэрфейс змяшчае наступныя вобласці:

  • поле ўводу электроннага тэксту;
  • выбар «гаворачай галавы»;
  • кнопка «Get talking head!», якая запускае генерацыю «гаворачай галавы» і дае магчымасць атрымаць выніковы відэафайл.

 

Карыстальніцкі сцэнар працы з сэрвісам

  1. Увесці ў поле ўводу электронны тэкст для візуалізацыі.
  2. У выпадаючым меню «Select head» выбраць «гаворачую галаву».
  3. Націснуць кнопку «Get talking head!», каб атрымаць выніковы відэафайл.
  4. Націснуць на кнопку прайгравання і праглядзець вынік (малюнак 2).
  5. Пры неабходнасці захаваць вынік на камп’ютар трэба націснуць «download video» і/ці «download audio», пасля чаго выніковы файл будзе спампаваны ў фармаце *.mp4 (відэа з сінтэзаваным маўленнем) ці *.wav (толькі сінтэзаванае маўленне).

Малюнак 2. Вынікі працы сэрвіса «Сінтэзатар “Гаворачая галава”»

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса «Сінтэзатар “Гаворачая галава”» праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://ssrlab.grid.by/TalkingHeadSynthesizer/api.php. Праз масіў параметраў data перадаецца адвольны ўваходны тэкст (параметр text), галава (параметры selector) і мова (параметр selector_language).

Элементы ўваходнага масіву data маюць наступныя параметры:

  • text — адвольны ўваходны тэкст.
  • selector — гаворачая галава; прымае значэнні “male1”, “male2”, “male3” і “female1”.
  • selector_language — мова ўваходнага тэксту; прымае значэнні “be” і “ru”.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://ssrlab.grid.by/TalkingHeadSynthesizer/api.php”,
   data:{
      “text”: “Груша цвіла апошні год.”,
      “selector”: “male1”,
      “selector_language”: “be”
   }
   success: function(msg){ }
});

Сервер верне JSON-масіў з уваходным тэкстам (параметр text) і вынікам (параметр result). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “Груша цвіла апошні год.”,
      “VideoLink”: “https://ssrlab.grid.by/_cache/TalkingHeadSynthesizer/video/2018-06-12_10-31-48_80-94-162-88_899_output.mp4”,
      “AudioLink”: “https://ssrlab.grid.by/_cache/TalkingHeadSynthesizer/wav/2018-06-12_10-31-48_80-94-162-88_899.wav”
   }
]

Прыклад выкарыстання дадзенага API — вэб-сэрвіс «Сінтэзатар “гаворачая галава” праз API» (https://ssrlab.grid.by/TalkingHeadSynthesizerViaApi/).

 

Спасылкі на крыніцы

Старонка сэрвіса: https://ssrlab.grid.by/TalkingHeadSynthesizer/?lang=be

Сэрвіс «Сінтэзатар маўлення па тэксце», задзейнічаны ў працы дадзенага сэрвіса: http://corpus.by/TextToSpeechSynthesizer/?lang=be

 

Перакрыжаваныя спасылкі

  1. Сінтэзатар маўлення па тэксце // Платформа для апрацоўкі тэкставай і гукавой інфармацыі розных тэматычных даменаў [Электронны рэсурс]. — 2017. Рэжым доступу : http://corpus.by/TextToSpeechSynthesizer/?lang=be. — Дата доступу : 30.03.2017.
  2. Алгарытмы лінгвістычнай апрацоўкі тэкстаў для сінтэзу маўлення на беларускай і рускай мовах : дысертацыя на атрыманне навуковай ступені кандыдата тэхнічных навук : спецыяльнасць 05.13.01 Сістэмны аналіз, кіраванне і апрацоўка інфармацыі / Гецэвіч Юрый Станіслававіч ; навуковы кіраўнік Лабанаў Б. М. ; Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі. — Мінск, 2012. — 184, [6] л. : іл., табл., схемы. — Ч. тэксту рус. — Бібліягр.: л. 153-164.

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.