Падлік частотнасці алафонаў


Сэрвіс «Падлік частотнасці алафонаў» дазваляе атрымаць звесткі пра частату наяўнасці алафонаў у тэксце. На ўваход сэрвісу падаецца электронны тэкст з алафонамі, і па выніках яго апрацоўкі на выхадзе карыстальнік атрымлівае спіс знойдзеных ва ўваходным тэксце алафонаў і частату іх наяўнасці.

 

Асноўныя тэрміны і паняцці

Алафон — рэалізацыя фанемы, яе варыянт, абумоўлены канкрэтным фанетычным акружэннем.

Дыфон — сегмент маўлення паміж сярэдзінамі суседніх фанем.

Поўны алафонны запіс — запіс поўнай назвы алафона(ў), напрыклад, A000, A001, A002, A003.

Скарочаны алафонны запіс — запіс скарочанай назвы, якая ахоплівае некалькі алафонаў. Напрыклад, запіс А0 з частатой 3 ў выніковым спісе азначае, што ў тэксце сустрэлася тры алафоны, якія падпадаюць пад запіс А0. Гэта могуць быць тры любыя алафоны сярод усіх алафонаў, назва якіх пачынаецца з камбінацыі A0 (A000, A001, A002, A003, A010 і г.д.).

 

Практычная каштоўнасць

Мэтай сэрвісу з’яўляецца складанне упарадкаваных па алфавіце або па колькасці спісаў алафонаў, якія змяшчаюцца ва ўваходным алафонным тэксце. Гэты сэрвіс выкарыстоўваецца для стварэння мінімальнага мноства слоў, якое б пакрывала ўсе існыя алафоны беларускай мовы, што ў будучыні дапаможа знізіць страты часу і сродкаў на стварэнне новых галасоў для сінтэзатара. Сэрвіс распрацаваны для вузкапрафесійнага кола карыстальнікаў, якія займаюцца ўдасканаленнем працы сінтэзатара маўлення па тэксце.

Асаблівасці сэрвісу

Увод алафонаў павінны ажыццяўляцца толькі з выкарыстаннем сімвалаў лацінскага алфавіту. Пры выкарыстанні кірылічных сімвалаў частата будзе падлічана няправільна або нулявая.

 

Апісанне інтэрфейсу карыстальніка

Графічны інтэрфейс сэрвісу прадстаўлены на малюнку 1.

Малюнак 1. Інтэрфейс сэрвісу «Падлік частотнасці алафонаў»

Інтэрфейс змяшчае наступныя вобласці:

  • поле ўводу тэксту з алафонамі;
  • поле ўводу «стоп-алафонаў», дзе карыстальнік можа ўвесці спіс алафонаў, якія будуць ігнаравацца пры пошуку і сартыроўцы;
  • вобласць выбару поўнага ці скарочанага запісу алафонаў;
  • выпадаючае меню, якое дазваляе аддзяляць алафоны ад дыфонаў (толькі алафоны, толькі дыфоны, усе алафоны і дыфоны);
  • поле ўводу колькасці кантэкстаў (па змаўчанні 10);
  • кнопка “Канвертаваць”, якая запускае апрацоўку і дае магчымасць атрымаць вынікі.

 

Карыстальніцкія сцэнары працы з сэрвісам

Сцэнар 1. Падлік частотнасці поўнага запісу алафонаў

  1. У поле ўводу ўвесці тэкст з алафонамі.
  2. У поле ўводу «стоп-алафонаў» пры патрэбе ўвесці спіс алафонаў, якія будуць ігнаравацца пры пошуку і сартыроўцы.
  3. Паставіць гачак насупраць пункту «Пошук поўнага запісу алафонаў».
  4. У выпадаючым меню выбраць толькі алафоны.
  5. Націснуць кнопку «Атрымаць спіс алафонаў» і праглядзець спіс вынікаў (малюнак 2).

Малюнак 2. Вынікі падліку частотнасці поўнага запісу алафонаў

 

Сцэнар 2. Падлік частотнасці скарочанага запісу алафонаў

  1. У поле ўводу ўвесці тэкст з алафонамі.
  2. У поле ўводу «стоп-алафонаў» пры патрэбе ўвесці спіс алафонаў, якія будуць ігнаравацца пры пошуку і сартыроўцы.
  3. Паставіць гачак насупраць пункту «Пошук скарочанага запісу алафонаў».
  4. У выпадаючым меню выбраць толькі алафоны.
  5. Націснуць кнопку «Атрымаць спіс алафонаў» і праглядзець спіс вынікаў (малюнак 3).

Малюнак 3. Вынікі падліку частотнасці скарочанага запісу алафонаў

Сцэнар 3. Падлік частотнасці дыфонаў

  1. У поле ўводу ўвесці тэкст з дыфонамі.
  2. У поле ўводу «стоп-алафонаў» пры патрэбе ўвесці спіс дыфонаў, якія будуць ігнаравацца пры пошуку і сартыроўцы.
  3. Паставіць гачак насупраць пункту «Пошук поўнага запісу алафонаў».
  4. У выпадаючым меню выбраць толькі дыфоны.
  5. Націснуць кнопку «Атрымаць спіс алафонаў» і праглядзець спіс вынікаў (малюнак 4).

Малюнак 4. Вынікі падліку частотнасці дыфонаў

Сцэнар 3. Падлік частотнасці алафонаў і дыфонаў

  1. У поле ўводу ўвесці тэкст з алафонамі і дыфонамі.
  2. У поле ўводу «стоп-алафонаў» пры патрэбе ўвесці спіс алафонаў і дыфонаў, якія будуць ігнаравацца пры пошуку і сартыроўцы.
  3. Паставіць гачак насупраць пункту «Пошук поўнага запісу алафонаў».
  4. У выпадаючым меню выбраць усе алафоны і дыфоны.
  5. Націснуць кнопку «Атрымаць спіс алафонаў» і праглядзець спіс вынікаў (малюнак 5).

Малюнак 5. Вынікі падліку частотнасці поўнага запісу алафонаў і дыфонаў

Спалучэнне наладак «Пошук поўнага запісу алафонаў» і «толькі дыфоны» з’яўляецца некарэктным.

 

Доступ да сэрвіса праз API

Каб атрымаць табліцу частотнасці алафонаў/дыфонаў па ўваходным алафонным/дыфонным тэксце, патрэбна адправіць AJAX-запыт тыпу POST на адрас http://corpus.by/AllophoneFrequencyCounter/api.php. Праз масіў параметраў data перадаецца ўваходны тэкст (параметр text), спіс алафонаў/дыфонаў, якія не патрэбна ўлічваць (параметр stop_words), тып базавых адзінак, па якіх вядзецца падлік (параметр phones_type), абмежаванне колькасці кантэкстаў (параметр number_of_examples) і фармат запісу алафонаў: поўны ці скарочаны (параметр allophone_type).

Элементы ўваходнага масіву data маюць наступныя параметры:

  • text — уваходны тэкст, які ўяўляе сабой алафонны тэкст, дыфонны тэкст або змешаны алафонны/дыфонны тэкст.
  • stop_words — спіс алафонаў/дыфонаў, якія пры падліку частотнасці не будуць улічвацца, падаюцца праз прабел ці перавод радка.
  • phones_type — тып базавых адзінак, па якіх вядзецца падлік. Даступна тры тыпы:
    • allophones — для выканання падліку частотнасці толькі алафонаў;
    • diphones — для выканання падліку частотнасці толькі дыфонаў;
    • all — для выканання падліку частотнасці і алафонаў, і дыфонаў.
  • number_of_examples — абмежаванне колькасці кантэкстаў, якія будуць прыведзены ў выніковай табліцы.
  • allophone_type — тып алафонаў, па якіх будзе здзяйсняцца падік:
    • full — поўны запіс алафонаў;
    • short — скарочаны запіс алафонаў.

Прыклад AJAX-запыту:

$.ajax({
   type: “POST”,
   url: “http://corpus.by/AllophoneFrequencyCounter/api.php”,
   data:{
      “text”: “M004O113,J’013,/,R032O022,D001,N004Y322,/,K001,U032,T000”,
      “stopWords”: “K001 U032 T000”,
      “phones_type”: “all”,
      “number_of_examples”: 0,
      “allophone_type”: “full”
}
success: function(msg){ }
});

Сервер верне JSON-масіў з уваходным тэкстам (параметр text), колькасцю ўсіх фанем (параметр AllPhonesCnt), колькасцю ўнікальных фанем (параметр UniquePhonesCnt) і выніковай табліцай частотнасці (параметр ResultTable). Напрыклад, па вышэй прыведзеным AJAX-запыце будзе сфарміраваны наступны адказ:

[
   {
      “text”: “M004O113,J’013,/,R032O022,D001,N004Y322,/,K001,U032,T000”,
      “AllPhonesCnt”: 8,
      “UniquePhonesCnt”: 8,
      “ResultTable”: “<table class=”sort”><thead><tr><td>Sound</td><td>Frequency</td></tr></thead><tbody><tr valign=”top”><td width=”5%”><b>D001</b></td><td width=”5%” align=”center”>1</td></tr><tr valign=”top”><td width=”5%”><b>J’013</b></td><td width=”5%” align=”center”>1</td></tr><tr valign=”top”><td width=”5%”><b>M004O113</b></td><td width=”5%” align=”center”>1</td></tr><tr valign=”top”><td width=”5%”><b>N004Y322</b></td><td width=”5%” align=”center”>1</td></tr><tr valign=”top”><td width=”5%”><b>R032O022</b></td><td width=”5%” align=”center”>1</td></tr></tbody></table></p>”
   }

]

Прыклад выкарыстання дадзенага API — вэб-сэрвіс «Падлік частотнасці алафонаў праз API» (http://corpus.by/AllophoneFrequencyCounterViaApi/).

 

Спасылкі на крыніцы

Старонка сэрвісу – http://corpus.by/AllophoneFrequencyCounter/?lang=be

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.