Культура: Камп’ютар, які ведае дзеканне з аканнем


У топ-10 вынікаў дзейнасці Нацыянальнай акадэміі навук Беларусі за 2017 год увайшоў новы слоўнік і яго метадалогія
Як пісаў Чэстэртан, сапраўднага чалавека пазнаць не цяжка: у яго боль у сэрцы і ўсмешка на твары. Сапраўднага аўтэнтычнага беларуса таксама пазнаць даволі лёгка: з ягоным, паводле Пімена Панчанкі, звонкім “дзе” і густым “чаго”, з яго “мяккім” вымаўленнем слоў тыпу “сьнех” і “сьмех”, цвёрдым “р”, “аканнем” ды “яканнем”. А каб гэтую адметную маўленчую аўтэнтыку захаваць, варта яе кадыфікаваць — прывесці да нормы і замацаваць у слоўніку.

 

/i/content/pi/cult/676/14905/pages-6-7-S.jpg

Ад лінгвіста да праграміста

Летась такі грунтоўны лінгвістычны даведнік, у якім замацаваныя нормы правільнага літаратурнага вымаўлення, быў падрыхтаваны і выдадзены. Маю на ўвазе “Арфаэпічны слоўнік беларускай мовы”, дзе прадстаўлена 117 тысяч слоў. Яго стварылі “гуманітарыі” і “тэхнары” (ці “лірыкі” і “фізікі”, каму як даспадобы), спецыялісты двух інстытуцый Нацыянальнай акадэміі навук Беларусі — Цэнтра даследаванняў беларускай культуры, мовы і літаратуры і Аб’яднанага інстытута праблем інфарматыкі.

Важнасць такога слоўніка несумненная для работнікаў культуры, выкладчыкаў навучальных устаноў, журналістаў і ўсіх тых, хто ў сваёй прафесійнай дзейнасці штодзённа карыстаецца вуснай і пісьмовай формамі беларускай літаратурнай мовы. Каб дакладна перадаць правільнае вымаўленне, у слоўніку выкарыстаны спецыяльны спосаб запісу слоў — так званая фанетычная транскрыпцыя. Затранскрыбіраваныя словы бяруцца ў квадратныя дужкі, мяккасць літар перадаецца знакам [’], падаўжэнне фіксуецца двукроп’ем — напрыклад, [c’oн’:а] (сёння) — кожны гук абазначаецца асобным значком.

З дапамогай слоўніка можна даведацца, што беларусы вымаўляюць слова “снег” як [c’н’эх], а не як [сн’ек] (руская арфаэпічная норма) ці [с’н’іг] (украінская арфаэпічная норма). Што трэба казаць “ня трэба”, “бяз радасці” (а не “не трэба”, “без радасці), “зьвінець”, “сьвісцець”, “песьня” (а не “звінець”, “свісцець”, “песня”), “йіх”, “йіней” (а не “іх”, “іней”), “фудбол”, “прозьба” (а не “футбол”, “просьба”) і гэтак далей.

Але ў чым навізна гэтага слоўніка? Як патлумачыў “К” дырэктар Інстытута мовазнаўства імя Якуба Коласа Цэнтра даследаванняў беларускай культуры, мовы і літаратуры Нацыянальнай акадэміі навук Беларусі Ігар Капылоў, даведнік створаны з прымяненнем інавацыйных падыходаў — камп’ютарных праграм інструментальнай апрацоўкі гукавых файлаў.

— Падчас працы над даведнікам было зроблена комплекснае даследаванне беларускага літаратурнага вымаўлення, што дазволіла выключыць фактар несістэмнасці ці, можна сказаць, фактар суб’ектыўнасці ў перадачы матэрыялаў і вырашыць шэраг спрэчных момантаў, звязаных з арфаэпічным асваеннем новай лексікі, — зазначыў суразмоўца. — Да таго ж, гэтая праца выканана з дапамогай найноўшых тэхнічных сродкаў. А гэта вельмі важна для развіцця сучаснага беларускага мовазнаўства, у прыватнасці, для такога яго кірунку, як камп’ютарная лінгвістыка.

Па словах Ігара Капылова, да мінулага года распрацоўкі Інстытута мовазнаўства ў топ-10 вынікаў дзейнасці Нацыянальнай акадэміі навук Беларусі яшчэ не ўваходзілі. Гэта яшчэ адзін красамоўны факт, які сведчыць на карысць і перспектыўнасць сумеснай працы лінгвістаў і праграмістаў.

7 чалавека-гадоў: многа ці мала?

Адзін з укладальнікаў “Арфаэпічнага слоўніка беларускай мовы”, доктар філалагічных навук, загадчык аддзела сучаснай беларускай мовы Інстытута мовазнаўства Валянціна Русак кажа, што праца над слоўнікам расцягнулася на год.

— Але яна магла доўжыцца і болей, асабліва калі б у нас не было тэхнічнай падтрымкі з боку супрацоўнікаў Аб’яднанага інстытута праблем інфарматыкі, — заўважае візаві. — Па маіх падліках, мы такім чынам ашчадзілі пяць-сем чалавека-гадоў.

У чым жа заключалася дапамога інфарматыкаў? Як распавёў адзін з укладальнікаў “Арфаэпічнага слоўніка беларускай мовы”, аспірант лабараторыі распазнавання і сінтэзу маўлення Аб’яднанага інстытута праблем інфарматыкі Станіслаў Лысы, усё пачалося з таго, што супрацоўнікі лабараторыі распрацавалі аўтаматычную сістэму сінтэзу маўлення і выклалі яе ў інтэрнэт для вольнага карыстання. Прынцып работы сінтэзатара маўлення выкарысталі пасля і для аўтаматычнай генерацыі транскрыпцый слоў.

Станіслаў Лысы стварыў для гэтага асобны сэрвіс — “Генератар арфаэпічнага слоўніка”. Спачатку яго тэсціравалі лінгвісты, якія вышуквалі памылкі і перадавалі іх у лабараторыю на выпраўленне. У выніку сэрвіс навучыўся генерыраваць транскрыпцыі амаль бездакорна — з дакладнасцю ў 98 %.

— Нам удалося дамагчыся гэтага, дзякуючы правілам, якія прапісалі ў машынным алгарытме загадчык лабараторыі распазнавання і сінтэзу маўлення Юрый Гецэвіч, я і некаторыя іншыя яе супрацоўнікі, — кажа Станіслаў Лысы. — А самая цяжкая праца была над выключэннямі з правілаў: як, напрыклад, перадаць з дапамогай машыннага алгарытму “г” выбухное ў словах “гузік”, “гонты”, “глузд” і падобных? Падвесці пад гэтае выключэнне нейкі алгарытм надзвычай складана, так што часам прыходзілася дзейнічаць “уручную”.

У выніку праграмісты змаглі зрабіць чарнавы варыянт слоўніка і перадаць яго на вычытку экспертам з Інстытута мовазнаўства. А з такім матэрыялам лінгвістам — Валянціне Русак і навуковаму супрацоўніку аддзела сучаснай беларускай мовы Інстытута мовазнаўства Вераніцы Мандзік — было працаваць нашмат лягчэй, чым распісваць кожнае са слоў паасобку. Вось таму і атрымалася, што замест сямі гадоў праца над слоўнікам была скончана ўсяго за адзін.

З прыцэлам на будучыню

Дарэчы, як сцвярджае Станіслаў Лысы, гэты праект дапамог не толькі мовазнаўцам, але і праграмістам.

— Дзякуючы супрацоўніцтву з Інстытутам мовазнаўства, мы змаглі ўдасканаліць сваю аўтаматычную сістэму сінтэзу маўлення, і цяпер яна перадае транскрыпцыю самых розных беларускіх слоў з дакладнасцю ў 99 %, — адзначыў суразмоўца. — Невялічкі працэнт памылак — гэта, зазвычай, словы-выключэнні, для якіх алгарытм прапісваць даволі складана і не заўсёды патрэбна.

Ужо сёння ў лабараторыі распазнавання і сінтэзу маўлення разглядаюць іншыя праекты, якія яны маглі б зрабіць разам з лінгвістамі.

— Адзін з іх — праца над агучваннем арфаэпічнага слоўніка, — кажа Станіслаў Лысы. — Думаю, кожнаму будзе цікава не толькі прачытаць у транскрыпцыі тое ці іншае беларускае слова, але і паслухаць з дапамогай сінтэзатара маўлення, як яно гучыць.

Таксама, па словах візаві, плануецца стварэнне на аснове ўжо наяўнага сэрвісу www.corpus.by цэнтральнай граматычнай электроннай базы беларускай мовы. Тут можна будзе праверыць напісанне любога беларускага слова па ўсіх наяўных слоўніках.

Ужо цяпер на названым сэрвісе можна выбраць пункт “Праверка правапісу”. Праграма “прагоніць” тэкст і па беларускіх слоўніках, і па слоўніках на замежных мовах. Як кажа Станіслаў Лысы, сэрвісы Corpus.by ўвесь час паляпшаюцца, дзеля чаго ствараюцца новыя машынныя алгарытмы, а таксама наладжана зваротная сувязь з усімі зацікаўленымі асобамі, якія дасылаюць свае прапановы і заўвагі аўтарам праекта.

Так што ў хуткім часе можна будзе чакаць новых цікавых дасягненняў на памежжы інфарматыкі і лінгвістыкі. А вядомае супрацьстаянне “фізікаў” і “лірыкаў” цяпер можна лічыць завершаным — на карысць абодвух бакоў.


Меркаванне экспертаў

Слоўнік, які патрэбны кожнаму

Не так даўно беларуская навука, культура, ды і грамадства наогул атрымалі доўгачаканае грунтоўнае навуковае даследаванне — “Арфаэпічны слоўнік беларускай мовы”, у якім упершыню даецца апісанне літаратурнага вымаўлення больш за 117 тысяч слоў, у тым ліку і новых запазычанняў.

Слова як адзінка мовы, якое прагучала, мае націск, графічнае ўвасабленне, пэўную арфаграфію, адпаведную граматычную форму, семантыку, а таксама валентнасць, дзякуючы якой будуюцца словазлучэнні і сказы. Слова як сродак зносін, якое прагучала з вуснаў чалавека, прываблівае да яго ці, наадварот, адварочвае суразмоўцу. Значыць, фанетыка і арфаэпія — гэта пачатак лінгвістыкі, пачатак жыцця слова, а таксама і стасункаў асобы. Менавіта гэтая выснова яшчэ раз пацвярджае навуковую значнасць і практычную вартасць слоўніка. Ён аўтаматычна становіцца даведнікам амаль па ўсіх раздзелах мовазнаўства: фанетыцы і арфаэпіі, словаўтварэнні і марфалогіі, лексікалогіі і акцэнталогіі.

Спадзяёмся, слоўнік стане настольнай кнігай кожнага лінгвіста сучаснай фармацыі навукоўцаў, паколькі ў ім шырока прадстаўлена даўнозапазычаная і новая запазычаная лекcіка, а таксама глыбінны пласт спрадвечна беларускіх слоў, якія немагчыма вымаўляць без замілавання: вятрак, вятох, вясёлка, жытка, мацунак, мроіва, муляцца, катушок, слодыч, смага, слушны, залоўка, дзевер, шурын, шчадрэц… Слоўнік з поспехам выкарыстаюць выкладчыкі і студэнты ВНУ Беларусі (асабліва няпрофільных — тэхнічных, эканамічных, тэхналагічных і гэтак далей) для выпрацоўкі ўменняў і навыкаў беларускага літаратурнага прафесійнага маўлення.

Такія лінгвістычныя даведнікі заўсёды запатрабаваныя настаўнікамі і выкладчыкамі, пісьменнікамі і журналістамі, дыктарамі радыё і тэлебачання, акцёрамі і рэжысёрамі вядучых драматычных тэатраў Рэспублікі Беларусь, эстраднымі выканаўцамі, супрацоўнікамі сферы рэкламы.

…Карацей, такі слоўнік патрэбны ўсім!

Ніна ГАЎРОШ,
Алена БАГАМОЛАВА

Аўтар: Юрый ЧАРНЯКЕВІЧ

аглядальнік газеты “Культура”

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.