Юрась Гецэвіч. Інтэрв’ю для суполкі NLProc.by, частка 2/2


Другую частку размовы мы пачнем са спасылкі на некалькі прыкладаў працы сінтэзатара маўлення.

image

Спадар Юрась, у папярэдняй частцы Вы сказалі, што ваша лабараторыя адчынена для ўсіх, хто цікавіцца. У апошні год колькі да вас прыйшло людзей і падкажыце, куды ўвогуле звяртацца, каб трапіць у лабараторыю. Якія павінен быць узровень ведаў?

Людзей праз нас праходзіць вельмі шмат. Калі глядзець нашы справаздачы за год, ёсць нагрузкі па ВНУ: дыпломнікі – 7 чалавек за 2014 год, курсавыя – 2, практыканты – 13.

У сярэднім 30 чалавек – гэта людзі, якія па заданнях звязаны са сваімі ВНУ і праходзяць гэтыя заданні на практычным матэрыяле нашай лабараторыі. І сама лабараторыя – 15-18 чалавек.

Мы ездзім выступаць у розныя школы, выступаем на канферэнцыях. Спісы прыемна заўсёды паказаць, колькі людзей нас ведае. Кіеў, Талін, Беларусь, Украіна, Чэхія, Італія, Масква – спіс паездак за 2015 і мінулы год. Некаторы час назад да нас прыязджаў спецыяліст з Францыі, рабілі яму сустрэчы па ўсіх ВНУ, дзе ён меў магчымасць прачытаць лекцыі і правесці майстар-класы.

Усё больш нас запрашаюць. Мерапрыемстваў дастаткова, нават, бывае, складана планаваць, цяжка сказаць, што будзе на наступным тыдні: магчымыя сустрэчы, запрашэнні могуць узнікнуць у любы час. Мы стараемся быць вельмі адчыненымі.

Так, гэта вельмі добра. Тым больш гэта супадае з мэтай нашай суполкі NLProc.by: распаўсюд ведаў і развіццё галіны ў Беларусі. 

Хто яшчэ ў нашай краіне займаецца камп’ютарнай лінгвістыкай?

Так, ёсць такія людзі. Напрыклад, наш кіраўнік, Барыс Мяфодзьевіч Лабанаў вырасціў цэлую школу ў Беларусі, яго вучнямі з’яўляюцца А.Б.Карнеўская, Б.В.Панчанка, А.С.Рылоў, Т.В.Леўкоўская, Г.В.Лосік, Л.І.Цырульнік, А.Г.Давыдаў, І.Э.Хейдараў, М.П.Дзегцяроў, В.У.Кісялёў і многія іншыя. Мы ўжо пятае пакаленне школы. Хтосьці з іх мае адносіны да вядомай кампаніі Сакрамент; хтосьці – да філіялу цэнтру маўленчай інфармацыі. Нашае адрозненне ў тым, што мы працуем пастаянна, улічваючы нашую адукацыйную мэту.

Мы займаемся кампіляцыйным метадам сінтэзу ў адрозненне ад вядомага unit selection метада на аснове алафонаў, па скарочанай базе агучкі (да 10 хвілін). З аднаго боку атрымоўваецца танней, каштуе 1-2 чалавекі-год на першую версію, і паляпшаць яго можна да бясконцасці. Метад на аснове Unit Selection каштуе каля 10 чалавека-год. Акрамя сінтэзу мы займаемся і распазнаваннем маўлення. Таксама зараз дадаем яго да мабільных робатаў.

Вельмі цікава, раскажыце.

Разам з сектарам робататэхнікі мы працуем над робатамі, якія размаўляюць па-беларуску. Адзін з іх быў прадэманстраваны на TIBO некалькі год таму.

image

Дзе можна іх выкарыстоўваць?

Напрыклад, для адукацыі, ці хатнія робаты, якія могуць распазнаваць каманды ад чалавека і ад іншых робатаў.

На якім этапе зараз праца?

Працуючы разам з сектарам робататэхнікі, мы дадалі першую версію сінтэзу. Здаецца, робата зараз разабралі, але ёсць відэафайл яго працы. Стараемся дабавіць маўленне і слых. Асабліва прапрацоўваем праблему электроннага слыху, таму што падчас руху робата ёсць гукі ад асяроддзя, якія не з’яўляюцца камандамі.

Дзякую, гэта вельмі цікава, чакаем дэманстрацыі робата, які размаўляе па-беларуску на якой-небудзь з сустрэч нашай суполкі. Наступнае пытанне будзе такое: якія, на Ваш погляд, зараз трэнды развіцця ў камп’ютарнай лінгвістыцы ў нашай краіне і свеце?

Так, гэта трэба размяжоўваць, таму што ў Беларусі шмат робіцца для свету, але пра гэта самі беларусы ня ведаюць. Недаўна даведаўся, што некаторыя кампаніі тут робяць прадукты для Samsung па разпазнаванні, вылучэнні прозвішчаў, імёнаў – гэта добры вынік.

Канешне, у нас рынак малы.

Напрыклад, IHS (раней Invention Machine), Сакрамент, некалькі іншых афшорных кампаній, Яндэкс можна назваць, таму што займаецца пошукам і іnformation retrieval.

Дарэчы, нядаўна, апошняя кампанія зрабіла сваю рэалізацыю tomita parser open source. І апошняе пытанне: з чаго пачынаць тым, хто пачынае цікавіцца галіною?

У нас ёсць напрацаваная база лабараторных працаў, у тым ліку па сінтэзе. Таксама па NooJ, шмат матэрыялаў можна знайсці на нашым сайце прататыпаў ці сайце лабараторыі, на якіх шмат адкрытых кавалкаў. Але ж толькі практыка – самы надзейны шлях. Раю шукаць нейкі open source праект, над якім дапамогуць працаваць тыя, у каго ёсць вопыт. Наконт кніг: тут іх вельмі шмат, адна горшая, другая лепшая. Але ж практыка лепш за ўсё!

Дзякую за інтэрв’ю. Да сустрэчы.

Дзякую Вам.

Крыніца тэксту: http://nlproc.by/post/120085283115

Спампаваць (PDF, 307KB)

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.