Універсітэт: Кадры БДУ для АІПІ: у трэндзе электронныя гуманітарыі


У топе месцаў для размеркавання сярод выпускнікоў БДУ – Нацыянальная акадэмія навук Беларусі. Аб’яднаны інстытут праблем інфарматыкі НАН – адна з найлепшых устаноў для тых, хто абраў сваім лёсам навуку і хоча бачыць практычнае прымяненне ўласных распрацовак.


Загадчык лабараторыі распазнавання і сінтэза маўлення Юрась Гецэвіч (выпускнік ФПМІ БДУ 2007 г.)

Беларуская мова – актуальна і запатрабавана

Лабараторыя распазнавання і сінтэзу маўлення – адна з 21, адметная сваёй працай з рознымі мовамі. Яна займаецца аўтаматызацыяй бізнес­працэсаў з выкарыс­таннем штучнага інтэлекту і аўтаматызаванай апрацоўкай тэксту і маўлення. За амаль 60-­гадовую гісторыю мае мноства ўласных распрацовак і міжнародных кантактаў. Сёння прыярытэтны кірунак працы – пашырэнне прысутнасці сістэм апрацовак беларускай мовы як у навуковай прасторы, так і для паўсядзённага ўжытку.

Напрыклад, вядомая мабільная праграмма з аўдыягідам KrokApp дапамагае даведацца пра будынкі, вуліцы і культурныя аб’екты Беларусі. Сэрвіс Corpus.by змяшчае для тэсціравання розныя часткі сістэм распазнавання і сінтэзу маўлення, а таксама сістэм камунікацыі. Загадчык лабарато­рыі Юрась ГЕЦЭВІЧ (выпускнік ФПМІ БДУ 2007 г.) падкрэслівае:

– Любы чалавек, выкарыстоў­ваючы сэрвісы для сваіх патрэб, можа даслаць нам заўвагі і пра­ пановы, і разам з намі зрабіць іх больш дасканалымі. Нашы кліенты – грама­дзяне, навукоўцы, інжынеры і нават цэлыя кампаніі, якіх цікавяць разнастайныя задачы ў ­галіне апрацоўкі тэкставай ці гукавой інфармацыі. Таму зараз мы шмат з кім супрацоўнічаем. Напрыклад, наша сістэма сінтэзу маўлення зараз ­убудоўваецца ў інтэрнэт­сайты, парталы – у тым ліку для ­таго, каб агучваць версіі тым, хто мае пра­блемы са зрокам. Так мы папуля­рызуем беларускую мову.


Будынак АІПІ

Рабіць тое, што важна зараз і што падабаецца

Па словах Юрася Станіслававіча, у лабараторыі ад 10 да 20 праектаў у рознай фазе. Яны не проста займаюцца аўтсорсам, а бяруць складаныя задачы, звязаныя з мовай, культурай, гісторыяй. Часта ў іх ­можа не быць замоўцы, яны распрацоўваюцца таму, што задача новая, актуальная і падабаецца ­калектыву. Дарэчы, у штаце ­зараз працуе 15 спецыялістаў, 30 % з якіх – выпускнікі БДУ. Пытанне развіцця электронных рэсурсаў для беларускай мовы – задача № 1 для навуковага свету, і яе вырашаюць у лабараторыі.

– Сумесна з Інстытутам мова­знаўства імя Якуба Коласа мы зрабілі «Арфаэпічны слоўнік белару­скай мовы». Лінгвісты пераправе­рылі абноўленую версію сістэмы і выслалі заўвагі. У выніку мы дамагліся таго, што сістэма генерацыі фанетыкі пачатковых форм слоў беларускай мовы працуе ­правільна на 98 %, гэта высокі паказчык.

Супрацоўніцтва з БДУ

Лабараторыя плённа супрацоўні­чае з факультэтам сацыякультурных камунікацый, філалагічным факуль­тэтам і ФПМІ. З першым падпісана дамова аб стварэнні філіяла кафедры на базе лабараторыі.

– Мы абменьваемся досведам, публікацыямі, вучэбнымі курсамі, – кажа Юрась Гецэвіч. – У нас ёсць агульныя студэнты і нават у пэўным сэнсе агульныя супрацоўнікі. Са студэнтамі з беларускай, рускай, славянскай, рамана­германскай філалогіі пішам курсавыя і дыпломныя, потым бяром на працу. На ФПМІ курс «Распазнаванне і сінтэз маўлення» праходзіць зусім па­іншаму, чым для лінгвістаў. Праграмісты больш падкаваныя з тэхнічнага боку, яны звяртаюць увагу на некаторыя дэталі, якіх лінгвісты не заўважаюць, – асабліва гэта ты­чыцца пытанняў бяспекі працы ­сэрвісаў, парталаў. Дзякуючы ім, мы пастаянна паляпшаем плат­форму Corpus.by.

Лабараторыя з’яўляецца лагічным працягам курсаў, якія мы чытаем на факультэтах. Напрыклад, «Аналіз і сінтэз маўлення», «Праблемы штучнага інтэлекту», «Камп’ютарныя тэхналогіі ў лінгвістыцы». Студэнты звычайна хо­чуць працягваць. Калі ім спадабаўся нейкі праект, мы запрашаем на практыку ці напісаць курсавыя і дыпломныя праекты. Мы заўсёды шукаем месцы на размеркаванне для перспектыўных людзей.

А як жа навука?

Лабараторыя зараз уваходзіць у міжнародную асацыяцыю NooJ, у міжнародны цэнтр ведаў CLARIN па апрацоўцы беларускіх тэкстаў і маўлення, еўрапейскую тэхнічную супольнасць Europeana.

Зацікаўленыя маладыя навукоўцы распрацоўваюць у лабараторыі свае тэмы па дыпломных, магістарскіх, кандыдацкіх працах. Штатныя супрацоўнікі рыхтуюць публікацыі па спецыяльнай сістэ­ме якая дазваляе атрымаць ад 10 да 30 артыкулаў у год.

– Мы больш з IT, чым з гуманітарнага боку, таму дапускаецца, калі ў артыкуле некалькі суаўтараў. Складана, а часам нават немагчыма, каб адзін чалавек зрабіў усё. Напрыклад, мы распрацоўваем нейкі сэрвіс, далей пішам для яго «хэлп» – вельмі разгорнутую даведку, пра тое, як ён працуе, яго практычную каштоўнасць. Ён становіцца падмуркам для будучага навуковага артыкула. Стараемся знаёміць з усімі партнёрамі моладзь, яны набываюць аўтарытэт, удзельнічаюць у канферэнцыях. Кожны месяц лабараторыя збіраецца ­на навуковы семінар. Тут абмяркоўваюцца зробленыя праекты, планы на наступны месяц. Калектыў розны: тут ёсць кандыдаты тэхнічных, філалагічных і гіста­рычных навук, ёсць людзі без ступеняў і на перакрыжаванні навук.

Калектыў маладых геніяў

Лабараторыя – гэта найперш ­людзі, якія робяць свой унёсак у супольную працу. Іх вельмі скрупулёзная праца у выніку ­паказвае, якія алгарытмы ­можна сабраць у нейкі сэрвіс, ­каб по­тым даць яго ў карыстанне ўсім ахвочым.

У маладых ёсць выдатная магчымасць павучыцца ў легенды беларускай навукі і старэй­шага супрацоўніка Барыса Лабанава. Уся каманда дружная, а загадчык лічыць, што працуе з геніямі.


Барыс Мяфодзьевіч Лабанаў

Лінгвіст як кава 3 у 1?

Супрацоўнікі могуць змяняць профіль з праграмістаў у лінгвісты і наадварот. Па жаданні ім падбяруць новы праект. Можна перайсці і ў іншую лабараторыю АІПІ, тут іх каля 30, напрыклад, займацца біямедыцынскімі выявамі, картаграфіяй ці касмічнай тэматыкай.

– Лінгвісты зараз вельмі запатрабаваныя, бо яны людзі з ­камунікацыйнай сферы. Часта ўзні­кае задача: зрабіць мы мо­жам што заўгодна, але для ­каго? На гэта адказваюць якраз яны, ­у лабараторыі нават ёсць спецыяльная методыка, як знахо­дзіць патэнцыйных партнёраў, кантакты. Праз удалыя перагаворы гуманітарыяў і тэхнічных спецыялістаў можна значна пашырыць бюджэт праекта ў замоўцы.

Нават слова «лінгвіст» зараз мяняецца на digital humanities, г. зн. «электронны гуманітарый». Ён не баіцца ўключыць дыктафон, падрэдагаваць свае файлы, зрабіць транскрыбацыю. Ён здольны перакласці тэкст ці нават напісаць прапанову праекта патэнцыйнаму замоўцу. Патрэба ў такіх спецыялістах ёсць заўсёды. А ад праекта залежыць аплата, тое, што зарабілі, і размяркоўваем паміж удзельнікамі.

Каго чакае лабараторыя?

– БДУ дае студэнтам добрыя веды, якія можна накіраваць, куды патрэбна. Мы не ставім планку па hard і soft skills, калі калектыў пагаджаецца, мы бяром чалавека на ­працу, а далей прапаноўваем кірункі для навучання і развіцця ў канкрэтных сферах і праектах, – адказвае Юрась Гецэвіч.

Мы за тое, каб камп’ютарная ­лінгвістыка ўваходзіла ў шматлікія сферы народнай гаспадаркі – у ме­дыцыну, у юрыспрудэнцыю, у гісто­рыка­культурны дамен, у турызм ­і г. д. Таму спрыяем, каб да нас размяркоўваліся розныя спецыялісты: гіс­то­ры­кі, прадстаўнікі social scien­ces, іншыя гуманітарыі – перакладчыкі, юрысты. Але, канешне, праграмістам і лінгвістам у нас дарога адкрытая. І заўсёды стараемся ства­раць асяроддзі, дзе ёсць навукоўцы з розных сфер.

На Corpus.by ёсць 70 сэрвісаў, дзе можна праявіць сябе. Таксама там мы бясплатна выставілі курс, дзе кожны можа праверыць свае навыкі.

Водгукі маладых спецыялістаў

Сяргей МАЕЎСКІ, малодшы навуковы супрацоўнік, выпускнік фі­ла­лагічнага факультэта 2014 г.:

– На трэцім курсе філфака я трапіў на камп’ютарны семінар Вольгі Елісеевай. На пятым курсе захапіўся праграмаваннем і вэб-дызайнам, першы сайт прысвяціў любімай дзяўчыне. У 2019 г. скончыў аспірантуру па спецыяльнасці «Прыкладная і матэматычная лінгвістыка» і праграму перападрыхтоўкі ў Інстытуце бізнесу БДУ па спецыяльнасці «Праграмнае забеспячэнне інфармацыйных сістэм». З Юрыем Гецэвічам пазнаёміўся ў час, калі ён выкладаў на філфаку. Шкадую, што не патрапіў у лабараторыю значна раней: вопыт удзелу праектах на цяперашні момант быў бы значным. Пасля працаўладкавання па размеркаванні я спачатку займаўся перакладамі і вычыткай беларускай версіі сайтаў медыцынскіх устаноў Беларусі, тэкставых матэрыялаў для аудыягідаў, карыстальніцкіх інструкцый для сэрвісаў праекта Corpus.by. Зараз у маёй кампетэнцыі значна больш задач, звязаных з праграмаваннем – напрыклад,
з апрацоўкай тэкстаў на натуральнай мове з дапамогай Python.

Лабараторыя распазнання і сінтэзу маўлення падкупляе сваёй атмасферай. Яна падыходзіць для маладых людзей, якія маюць у прыярэтэце не меркантыльныя амбіцыі, а найбольш аптымальнае рашэнне складаных задач. Пачуццё запатрабаванасці і плённасці працы, відавочнасць практычнага выкарыстання вынікаў вельмі грэюць душу, і я рады, што здабыў усё гэта тут. Калі цвёрда вырашу звязаць жыццё з навукай, то інстытут
адкрые мноства перспектыў па ўкараненні распрацовак і атрыманні патэнтаў.

Яўгенія ЗЯНОЎКА, малодшы навуковы супрацоўнік, выпуск­ніца факультэта сацыякультурных камунікацый 2015 г.:

– Скончыла ФСК па спецыяльнасці «сучасныя замежныя мовы: камп’ютарны лінгвіст, выкладчык дзвюх замежных моў (англійскай і іспанскай)». Затым уладкавалася ў лабараторыю распазнання і сінтэзу маўлення АІПІ НАН Беларусі і паступіла ў магістратуру філалагічнага факультэта БДУ па спецыяльнасці «прыкладная і матэматычная лінгвістыка». У 2019 г. скончыла ­аспірантуру Цэнтра даследаванняў беларускай культуры, мовы і літаратуры па спецыяльнасці «сучасная беларуская мова».

Юрась Гецэвіч выкладаў нам прадмет «Камп’ютарныя тэхналогіі ў лінгвістыцы» і прапанаваў супрацоўніцтва. Цяпер сама выкладаю на факультэце сацыякультурных камунікацый БДУ па тым профілі.

Мяне прыцягвае малады і дружны калектыў, праца па спецыяль­насці. Мой асноўны інтарэс – распрацоўка фармальных правілаў і алгарытмаў рашэння дэлімітацыі сінтэзаванага маўлення. Таксама займаюся пошукам і распрацоўкай (падачай) новых праектаў, пішу артыкулы для ўдзелу ў розных канферэнцыях і навуковых часопісах, перакладаю публіцыстычныя ар­тыкулы на англійскую і беларускую мовы. Праца ў лабараторыі лічыцца добрым досведам для развіцця прагматычных навыкаў у камп’ю­тарнай лінгвістыцы. Неўзабаве планую абараніць дысертацыю на тэму «Аптымізацыя лінгваакустычных рэсурсаў для сістэм сінтэзу беларускага маўлення».

Для кожнага супрацоўніка падбіраюцца простыя задачы, якія паступова ўскладняюцца. Нават калі не засвоілі нейкія тэарэтычныя аспекты ва ўніверсітэце, у лабараторыі абавязкова навучаць усяму і дадуць паспрабаваць сябе ў розных напрамках.

Надзея МАРХЕЛЬ, Сяргей МАЕЎСКІ


Крыніца

Спампаваць (PDF, 1.98MB)

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.

Пакінуць каментарый

Your email address will not be published.