Сінтэзатар «Гаворачая галава»


Сэрвіс «Сінтэзатар “Гаворачая галава”» дазваляе атрымаць візуалізацыю ўведзенага карыстальнікам тэксту. На ўваход сэрвісу падаецца электронны тэкст, сэрвіс апрацоўвае ўваходны тэкст і фарміруе відэафайл з аніміраванай галавой, якая вымаўляе ўведзеную фразу. «Гаворачая галава» перадае міміку чалавечай галавы і сінтэзаваны гук пры вымаўленні ўваходнага тэксту. Карыстальнік можа праглядзець выніковы відэафайл і захаваць яго.

 

Асноўныя тэрміны і паняцці

Сінтэз маўлення —  фарміраванне маўленчага сігналу па электронным тэксце.

Сінтэзатар маўлення па тэксце (СМТ) [1] — гэта сістэма, здольная генераваць маўленне па тэксце. Змяшчае два блокі: блок лінгвістычнай апрацоўкі тэксту да фанемнага выгляду з пазнакамі націску, інтанацыі (прасодыі) і рытму, а таксама блок апрацоўкі маўленчага сігналу, які пераўтварае раней атрыманы фанемны выгляд у гукавы сігнал маўлення [2].

 

Асаблівасці сэрвіса

Сэрвіс генеруе «гаворачыя галовы» паводле фотаздымкаў чалавека. На цяперашні момант сэрвіс дазваляе візуалізаваць уваходны тэкст з дапамогай чатырох «гаворачых галоў», тры з якіх мужчынскія з мужчынскім сінтэзатарам маўлення і адна жаночая з жаночым сінтэзатарам маўлення, а менавіта:

  • Б.М. Лабанаў (сінтэзатар маўлення Barys);
  • А.В. Тузікаў (сінтэзатар маўлення Barys);
  • У.В. Галянкоў (сінтэзатар маўлення Barys);
  • Л.І. Цырульнік (сінтэзатар маўлення Alesia).

Для таго каб стварыць персанальную «гаворачую галаву», неабходна зрабіць некалькі фотаздымкаў твару чалавека ў пэўных пазіцыях мімікі рта і вуснаў. Сінтэзуючы «гаворачую галаву», сэрвіс задзейнічае працу «Сінтэзатара маўлення па тэксце», а таксама будуе паслядоўнасць фотаздымкаў з пазіцыямі вуснаў, адпаведнымі фанеме, якая сінтэзуецца (вымаўляецца «гаворачай галавой») у канкрэтны момант.

Сэрвіс знаходзіцца на стадыі дапрацоўкі і ўдасканалення, таму на цяперашні момант вялікі аб’ём тэксту сінтэзуецца з цяжкасцю. У сувязі з гэтым пажадана падаваць на ўваход тэкст памерам не больш за адзін сказ.

 

Практычная каштоўнасць

Сэрвіс дапаможа ўспрымаць маўленне людзям з парушэннямі слыху, паколькі ў іх будзе магчымасць пабачыць міміку пры вымаўленні ўваходнай фразы. Гэта пашырае магчымасці і сферы выкарыстання сінтэзатара маўлення. Дзякуючы відэаадлюстраванню сэрвіс дазваляе яшчэ больш персаналізаваць уваходны тэкст, паколькі стварае «гаворачыя галовы» на аснове фотаздымкаў рэальна існуючых людзей. «Гаворачыя галовы» маюць перспектывы прымянення ў наступных сферах:

  • сістэмы абзвону і інфакіёскі;
  • галасавыя і сігналізацыйныя сістэмы апавяшчэння;
  • сістэмы чытання электронных кніг;
  • навучальныя сістэмы;
  • гаворачыя камп’ютары для інвалідаў па зроку і слыху;
  • персаналізацыя прысутнасці анлайн для людзей з інваліднасцю (персанальны гаворачы аватар).

 

Апісанне інтэрфейсу карыстальніка

Графічны інтэрфейс сэрвіса прадстаўлены на малюнку 1.

Малюнак 1. Графічны інтэрфейс сэрвіса «Сінтэзатар “Гаворачая галава”»

Інтэрфейс змяшчае наступныя вобласці:

  • поле ўводу электроннага тэксту;
  • выбар «гаворачай галавы»;
  • кнопка «Get talking head!», якая запускае генерацыю «гаворачай галавы» і дае магчымасць атрымаць выніковы відэафайл.

 

Карыстальніцкі сцэнар працы з сэрвісам

  1. Увесці ў поле ўводу электронны тэкст для візуалізацыі.
  2. У выпадаючым меню «Select head» выбраць «гаворачую галаву».
  3. Націснуць кнопку «Get talking head!», каб атрымаць выніковы відэафайл.
  4. Націснуць на кнопку прайгравання і праглядзець вынік (малюнак 2).
  5. Пры неабходнасці захаваць вынік на камп’ютар трэба націснуць «download video» і/ці «download audio», пасля чаго выніковы файл будзе спампаваны ў фармаце *.mp4 (відэа з сінтэзаваным маўленнем) ці *.wav (толькі сінтэзаванае маўленне).

Малюнак 2. Вынікі працы сэрвіса «Сінтэзатар “Гаворачая галава”»

 

Доступ да сэрвіса праз API
Для доступу да сэрвіса «Сінтэзатар “Гаворачая галава”» праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://corpus.by/TalkingHeadSynthesizer/api.php. Праз масіў data перадаюцца наступныя параметры:

  • text — адвольны ўваходны тэкст.
  • selector — гаворачая галава; прымае значэнні “male1”, “male2”, “male3” і “female1”.
  • selector_language — мова ўваходнага тэксту; прымае значэнні “be” і “ru”.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://corpus.by/TalkingHeadSynthesizer/api.php”,
   data:{
      “text”: “Груша цвіла апошні год.”,
      “selector”: “male1”,
      “selector_language”: “be”
   },
   success: function(msg){ },
   error: function() { }
});

Сервер верне JSON-масіў з уваходным тэкстам (параметр text) і адрасамі, дзе захавана выніковае відэа (параметр VideoLink) і выніковае аўдыя (параметр AudioLink). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “Груша цвіла апошні год.”,
      “VideoLink”: “https://corpus.by/_cache/TalkingHeadSynthesizer/video/2019-09-03_17-18-50_80-94-171-2_403_output.mp4”,
      “AudioLink”: “https://corpus.by/_cache/TalkingHeadSynthesizer/wav/2019-09-03_17-18-50_80-94-171-2_403.wav”
   }
]

 

Спасылкі на крыніцы

Старонка сэрвіса: https://corpus.by/TalkingHeadSynthesizer/?lang=be

Сэрвіс «Сінтэзатар маўлення па тэксце», задзейнічаны ў працы дадзенага сэрвіса: https://corpus.by/TextToSpeechSynthesizer/?lang=be

 

Перакрыжаваныя спасылкі

  1. Сінтэзатар маўлення па тэксце // Платформа для апрацоўкі тэкставай і гукавой інфармацыі розных тэматычных даменаў [Электронны рэсурс]. — 2017. Рэжым доступу : https://corpus.by/TextToSpeechSynthesizer/?lang=be. — Дата доступу : 30.03.2017.
  2. Алгарытмы лінгвістычнай апрацоўкі тэкстаў для сінтэзу маўлення на беларускай і рускай мовах : дысертацыя на атрыманне навуковай ступені кандыдата тэхнічных навук : спецыяльнасць 05.13.01 Сістэмны аналіз, кіраванне і апрацоўка інфармацыі / Гецэвіч Юрый Станіслававіч ; навуковы кіраўнік Лабанаў Б. М. ; Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі. — Мінск, 2012. — 184, [6] л. : іл., табл., схемы. — Ч. тэксту рус. — Бібліягр.: л. 153-164.
  3. Лобанов, Б.М. Ретроспективный обзор исследований и разработок лаборатории распознавания и синтеза речи / Б.М. Лобанов // Автоматическое распознавание и синтез речи: сб. науч. тр. – Минск: ИТК НАН Беларуси, 2000. – С. 6-24.
  4. Гецэвіч, Ю.С. Праектаванне натуральна-моўных інтэрфейсаў для даведкавых сістэм / Ю.С. Гецэвіч, У.А. Жытко, С.А. Гецэвіч, Л.І. Кайгародава, К.А. Нікалаенка // Інфарматыка. – 2019. – Т. 16, № 3. – С. 37-47.

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.