Лысы, С.І. Фанетычная мінімізацыя корпуса тэкстаў на беларускай мове для навучання сістэмы сінтэзу маўлення / С.І. Лысы // Інфарматыка. – 2019. – Т. 16, № 1. – С. 75-85.


Анатацыя

Большасць сучасных сістэм сінтэзу маўлення базіруюць сваю працу на корпусным метадзе. Корпусны метад, у адрозненні ад папулярнага раней кампіляцыйнага, выкарыстоўвае базу дадзеных натуральнага маўлення, якая складаецца не з асобных спецыяльна выбраных элементаў кампіляцыі, а ўяўляе сабой корпус фанаграм натуральнага маўлення. Для дасягнення высокай якасці сінтэзаванага маўлення пры такім падыходзе патрабуюцца вялікія аб’ёмы тэкставай і адпаведнай гукавой інфармацыі, што з’яўляецца істотнай праблемай для так званых нерэсурсных моў, да якіх адносіцца і беларуская. У такім выпадку, як правіла, прымяняецца фанетычная мінімізацыя – адмысловы адбор тэкстаў, у выніку якога аб’ём тэкставага корпуса максімальна змяншаецца, але пры гэтым захоўваецца фанетычная паўната.
У артыкуле разглядаюцца звесткі пра сутнасць і спосаб працы корпуснага метаду генерацыі гукавога сігналу ў сістэмах сінтэзу маўлення, прыводзіцца падрабязны агляд падыходаў да фарміравання тэкставых і маўленчых карпусоў, неабходных для генерацыі маўлення корпусным метадам. Другая палова працы прысвечана апісанню распрацаванага алгарытму фанетычнай мінімізацыі корпуса тэкстаў на беларускай мове, а таксама тэхнічных і лінгвістычных рэсурсаў, выкарыстаных для яго рэалізацыі. Прыводзяцца апісанні распрацаванага праграмнага прататыпа і шэрагу праведзеных аўтарам эксперыментаў па фанетычнай мінімізацыі.

Ключавыя словы: фанетычная мінімізацыя, беларуская мова, сінтэз маўлення, корпусны метад, корпус тэкстаў

Гэтая публікацыя ў часопісе «Інфарматыка».

Спампаваць (PDF, 456KB)

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.