Сінтэзатар «Гаворачая галава»


Сэрвіс «Сінтэзатар “Гаворачая галава”» дазваляе атрымаць візуалізацыю ўведзенага карыстальнікам тэксту. На ўваход сэрвісу падаецца электронны тэкст, сэрвіс апрацоўвае ўваходны тэкст і фармуе відэафайл з аніміраванай галавой, якая вымаўляе ўведзеную фразу. «Гаворачая галава» перадае міміку чалавечай галавы і сінтэзаваны гук пры вымаўленні ўваходнага тэксту. Карыстальнік можа праглядзець выніковы відэафайл і захаваць яго.

 

Асноўныя тэрміны і паняцці

Сінтэз маўлення —  фармаванне маўленчага сінналу па электронным тэксце.

Сінтэзатар маўлення па тэксце (СМТ) [1] — гэта сістэма, здольная генераваць маўленне па тэксце. Змяшчае два блокі: блок лінгвістычнай апрацоўкі тэксту да фанемнага выгляду з пазнакамі націску, інтанацый (прасодыі) і рытму, а таксама блок апрацоўкі маўленчага сігналу, які пераўтварае раней артыманы фанемны выгляд у гукавы сігнал маўлення [2].

 

Асаблівасці сэрвісу

Сэрвіс генеруе «гаворачыя галовы» паводле фотаздымкаў чалавека. На цяперашні момант сэрвіс дазваляе візуалізаваць уводны тэкст з дапамогай чатырох «гаворачых галоваў», тры з якіх мужчынскія з мужчынскім сінтэзатарам маўлення і адна жаночая з жаночым сінтэзатарам маўлення, а менавіта:

  • Б.М. Лабанаў (сінтэзатар маўлення Barys);
  • А.В. Тузікаў (сінтэзатар маўлення Barys);
  • У.В. Галянкоў (сінтэзатар маўлення Barys);
  • Л.І. Цырульнік (сінтэзатар маўлення Alesia).

Для таго, каб стварыць персанальную «гаворачую галаву», неабходна зрабіць некалькі фотаздымкаў твару чалавека ў пэўных пазіцыях мімікі рта і вуснаў. Сінтэзуючы «гаворачую галаву», сэрвіс задзейнічае працу сэрвісу «Сінтэзатар маўлення па тэксце», а таксама будуе паслядоўнасць фотаздымкаў з пазіцыямі вуснаў, адпаведнымі фанеме, якая сінтэзуецца (вымаўляецца «гаворачай галавой») у канкрэтны момант.

Сэрвіс знаходзіцца на стадыі дапрацоўкі і ўдасканалення, таму на цяперашні момант вялікі аб’ём тэксту сінтэзуецца з цяжкасцю. У сувязі з гэтым пажадана падаваць на ўваход тэкст памерам не больш за адзін сказ.

 

Практычная каштоўнасць

Сэрвіс дапаможа ўспрымаць маўленне людзям з парушэннямі слыху, паколькі ў іх будзе магчымасць пабачыць міміку пры вымаўленні ўваходнай фразы. Гэта пашырае магчымасці і сферы выкарыстання сінтэзатара маўлення. Таксама дзякуючы відэаадлюстраванню сэрвіс дазваляе яшчэ больш персаналізаваць уваходны тэкст, паколькі стварае «гаворачыя галовы» на аснове фотаздымкаў рэальна існуючых людзей. «Гаворачыя галовы» маюць перспектывы прымянення ў наступных сферах:

  • Сістэмы абзвону і інфакіёскі
  • Галасавыя і сігналізацыйныя сістэмы апавяшчэння
  • Сістэмы чытання электронных кніг
  • Навучальныя сістэмы
  • Гаворачыя камп’ютары для інвалідаў па зроку і слыху
  • Персаналізацыя прысутнасці анлайн для людзей з інваліднасцю (персанальны гаворачы аватар)

 

Апісанне інтэрфейсу карыстальніка

Графічны інтэрфейс сэрвісу прадстаўлены на малюнку 1.

Малюнак 1. Графічны інтэрфейс сэрвісу «Сінтэзатар “Гаворачая галава”»

Інтэрфейс змяшчае наступныя вобласці:

  • поле ўводу электроннага тэксту;
  • выбар «гаворачай галавы»;
  • кнопка «Get talking head!», якая запускае генерацыю «гаворачай галавы» і дае магчымасць атрымаць выніковы відэафайл.

 

Карыстальніцкі сцэнар працы з сэрвісам

  1. Увесці ў поле ўводу электронны тэкст для візуалізацыі.
  2. У выпадаючым меню «Select head» выбраць «гаворачую галаву».
  3. Націснуць кнопку «Get talking head!», каб атрымаць выніковы відэафайл.
  4. Націснуць на кнопку прайгравання і праглядзець вынік (малюнак 2).
  5. Пры неабходнасці захаваць вынік на камп’ютар націснуць «download video» і/ці «download audio», пасля чаго выніковы файл будзе спампаваны ў фармаце *.mp4 (відэа з сінтэзаваным маўленнем) ці *.wav (толькі сінтэзаванае маўленне).

Малюнак 2. Вынікі працы сэрвісу «Сінтэзатар “Гаворачая галава”»

 

Спасылкі на крыніцы

Старонка сэрвісу: https://ssrlab.grid.by/TalkingHeadSynthesizer/?lang=be

Сэрвіс «Сінтэзатар маўлення па тэксце», задзейнічаны ў працы дадзенага сэрвісу: http://corpus.by/TextToSpeechSynthesizer/?lang=be

 

Перакрыжаваныя спасылкі

  1. Сінтэзатар маўлення па тэксце // Платформа для апрацоўкі тэкставай і гукавой інфармацыі розных тэматычных даменаў [Электронны рэсурс]. — 2017. Рэжым доступу : http://corpus.by/TextToSpeechSynthesizer/?lang=be. — Дата доступу : 30.03.2017.
  2. Алгарытмы лінгвістычнай апрацоўкі тэкстаў для сінтэзу маўлення на беларускай і рускай мовах : дысертацыя на атрыманне навуковай ступені кандыдата тэхнічных навук : спецыяльнасць 05.13.01 Сістэмны аналіз, кіраванне і апрацоўка інфармацыі / Гецэвіч Юрый Станіслававіч ; навуковы кіраўнік Лабанаў Б. М. ; Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі. — Мінск, 2012. — 184, [6] л. : іл., табл., схемы. — Ч. тэксту рус. — Бібліягр.: л. 153-164.

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.

Пакінуць каментарый

Your email address will not be published. Required fields are marked *