Графічнае адлюстраванне алафонных фраз


Галоўнай задачай сэрвісу “Графічнае адлюстраванне алафонных фраз з’яўляецца графічнае адлюстраванне фізічнага сігналу ў часавым альбо частотным выглядзе для алафоннага радка, зададзенага карыстальнікам сэрвісу. Алафонны радок мае форму тэкставага радка, складзенага з паслядоўна запісаных алафонаў. Для адлюстравання сігналу выкарыстоўваюцца два графікі: асцылаграма сігналу і спектраграма сігналу.

Асцылаграма сігналу – двухмернае часавае адлюстраванне сігналу. Больш дакладна, залежнасць амплітуды сігналу ад часу: вось абсцыс (х) – час, вось ардынат (y) – амплітуда сігналу. На гэтым графіку добра бачна дынаміка энергіі сігналу і змяненне магутнасці ўсіх яго кампанент разам (танальнай, шумавой). Прыклад асцылаграмы паказаны на малюнку 1.

 

AllophonicPhrasePlotter_Osc_ZorkaVenera_2016-01-16Малюнак 1

Спектраграма сігналу – трохмернае частотна-часавае адлюстраванне сігналу. Больш дакладна, залежнасць магутнасці сігналу ад часу і частаты адначасова: вось абсцыс (х) – час, вось ардынат (y) – частата, вось аплікат (z) – магутнасць сігналу (у дадзеным выпадку замест асобнай графічнай восі выкарыстоўваецца колер. Чым большая інтэнсіўнасць колеру, тым большую магутнасць мае сігнал на гэтай частаце ў гэты момант часу). У адрозненні ад асцылаграмы, спектраграма дазваляе ўбачыць асобны ўнёсак кожнага з кампанентаў сігналу, якія маюць найбольшую энергію ў канкрэтны момант часу (танальныя ці шумавыя кампаненты, якія гармонікі ў асобнасці і г.д.). Прыклад спектраграмы прыведзены на малюнку 2.

AllophonicPhrasePlotter_Spec_ZorkaVenera_2016-01-16Малюнак 2

Асцылаграмы і спектраграмы фанетычных фраз могуць быць карыснымі пры вывучэнні аспектаў прасадычных з’яў вуснага маўлення (інтанацыйнага складу), ад якіх вельмі моцна залежыць успрыманне маўлення чалавекам. Як вядома, прасодыка складаецца з трох кампанентаў: энергетыкі – бягучай змены сілы гуку, рытмікі – змены працягласці гукаў і паўз і мелодыкі – руху частаты асноўнага тону. Усе гэтыя моўныя з’явы яскрава назіраюцца на асцылаграме. Напрыклад, праз адлюстраванне рытмікі асцылаграма можа падказаць карыстальніку, дзе адносна агульнай працягласці фразы, знаходзіцца слоўны ці фразавы націск: у гэтым месцы на графіку павінна назірацца большая амплітуда сігналу.

Сцэнар працы з сэрвісам выглядае наступным чынам. Карыстальнік заходзіць на старонку “Графічнае адлюстраванне алафонных фраз”. Алафонную фразу карыстальнік павінен уводзіць у спецыяльна адведзенае тэкставае поле, у якім дазволены шматрадковы ўвод (мал. 3)

AllophonicPhrasePlotter_GUI_2016-01-16Малюнак 3

Пасля ўводу алафоннага тэксту карыстальнік павінен націснуць адпаведную кнопку:

  • “Get Allophonic Phrase Oscillogram!” – для пабудавання асцылаграмы фразы;
  • “Get Allophonic Phrase Spectrogram!” – для пабудавання спектраграмы фразы;

Перад будаваннем графіку ў карыстальніка ёсць магчымасць выбару дадатковых параметраў. Для гэтага патрэбна націснуць спасылку: “Click Here For Additional Options”. З’явіцца меню з дадатковымі параметрамі выбару колеру графіка (Color map), кантрасту (Image cоntrast) і тыпу акна аналізу (FFT windows type). Першы параметр дае магчымасць выбару карты колеру: чорна-белай (Color map -> Grey) ці каляровай (Color map -> Color). Другі – выбару паміж высокакантраснай (High) і сярэднекантрастнай (Normal) выявай. Трэці – акно аналізу – гэта спецыфічны параметр, які ўплывае на апрацоўку сігналу для карыстальніка. Ён праявіцца ў большай ці меншай выразнасці графіку (Hann, Hamming, Kaizer). Выбраць патрэбна тое значэнне, якое найлепш падыходзіць да вашага экрану.

Пасля націску на кнопку трэба пачакаць некаторы час, пакуль сэрвіс апрацуе запыт і згенеруе адказ у выглядзе html-старонкі, у якую ўбудаваны малюнак сігналу ў фармаце png, і якую браўзер адлюструе карыстальніку. Графік можна захаваць на лакальным дыску камп’ютару, націснуўшы на малюнак правай клавішай мышкі, далей “Захаваць малюнак як…”.

Сэрвіс можа выкарыстоўвацца экспертамі-фанетыстамі, лінгвістамі, студэнтамі філалагічных і педагагічных вузаў ці проста зацікаўленымі асобамі для знаёмства з “выглядам” і фізічнымі характарыстыкамі алафонаў (рэалізацый фанем), а таксама ў працэсе вывучэння беларускай мовы. Напрыклад, даследаванне спектраграм можа быць карысным пры вывучэнні як фанетыкі мовы ў агульным, так і асобных гукаў мовы ў прыватнасці. Кожны алафонны радок мае свае асаблівасці з пункту гледжання яго фізічных параметраў, якія з’яўляюцца вынікамі дзеяння інтра- і экстралінгвістычных фактараў мовы. Гэтыя фізічныя параметры і складаюць “жывую непаўторную карціну” гука, добра бачную на частотна-часавым плане, які сабой уяўляе спектраграма.

 

Доступ да сэрвіса праз API

Для доступу да сэрвіса “Графічнае адлюстраванне алафонных фраз” праз API, неабходна адправіць AJAX-запыт тыпу POST на адрас https://corpus.by/AllophonicPhrasePlotter/api.php. Праз масіў data перадаюцца наступныя параметры:

  • text — алафонная фраза. Напрыклад, “Z002,O022,R003,K004,A333,#C11,V’012,E243,N’002,E042,R002,A321”.
  • voice — голас агучкі. Даступны наступныя галасы:
    • Для беларускага маўлення: AlesiaBel, AlesiaBel (dictation mode), BorisBel, BorisBel (dictation mode), BorisBelHigh.
    • Для рускага маўлення: AlesiaRus (dictation mode), BorisRus, BorisRus (dictation mode), BorisRusHigh.
  • img_type — тып графічнага адлюстравання. Даступны наступныя тыпы:
    • oscl — асцылаграма.
    • spec — спектраграма.
  • img_color_map — колеравая гама. Даступны наступныя тыпы:
    • color — каляровая колеравая гама.
    • grey — шэрая колеравая гама.
  • img_contrast — кантраст. Даступны наступныя тыпы:
    • high — высокі кантраст.
    • normal — звычайны кантраст.
  • fft_win_type — вагавая функцыя. Даступны наступныя тыпы:
    • hamming — вагавая функцыя Хэмінга.
    • hann — вагавая функцыя Ханна.
    • kaiser — вагавая функцыя Кайзера.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “https://corpus.by/AllophonicPhrasePlotter/api.php”,
   data:{
      “text”: “Z002,O022,R003,K004,A333,#C11,V’012,E243,N’002,E042,R002,A321”,

      “voice”: “BorisBel”,
      “img_type”: “SpecButton”,
      “img_color_map”: “color”,
      “img_contrast”: “high”,
      “fft_win_type “: “hamming”
   },
   success: function(msg){ },
   error: function() { }
});

Сервер верне JSON-масіў са статусам выканання запыту (параметр status) і адрасам, па якім размешчаны згенераваны малюнак (параметр img_path). Напрыклад, па вышэй прыведзеным AJAX-запыце быў сфарміраваны наступны адказ:

[
   {
      “status”: “success”,
      “img_path”: “cache/img/2018-11-08_13-21-03_80-94-171-2_866_spec_color.png”
   }
]

Спасылкі на крыніцы

Старонка сэрвісу: https://corpus.by/AllophonicPhrasePlotter/?lang=be

Перакрыжаваныя спасылкі

  1. Zahariev, Vadim Grapheme-to-Phoneme and Phoneme-to-Grapheme Conversion in Belarusian with NooJ for TTS and STT Systems / Vadim Zahariev, Stanislau Lysy, Alena Hiuntar, Yury Hetsevich // Automatic Processing of Natural-Language Electronic Texts with NooJ: 9th International Conference, NooJ 2015, Minsk, Belarus, June 11-13, 2015, Revised Selected Papers / ed. T. Okrut, Y. Hetsevich, M. Silberztein, H. Stanislavenka. — Springer International Publishing, 2016. — P. 137-150.

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.