Стань часткай стварэння сістэмы распазнавання беларускага маўлення!


Мы — лабараторыя распазнавання і сінтэзу маўлення АІПІ НАН Беларусі. Мы распрацоўваем сістэму распазнавання беларускага маўлення. Спосаб, якім мы гэта робім, дазваляе кожнаму зацікаўленаму паўдзельнічаць, каб гэта быў народны праект!

 

Навошта патрэбная сістэма распазнавання беларускага маўлення?

Сістэмы распазнавання пераўтвараюць маўленне ў тэкст.

Напрыклад, журналіст запісаў на дыктафон інтэрв’ю, і праз праграму распазнавання парай клікаў атрымае з гуказапісу тэкст. З дапамогай распазнавання магчыма кіраваць тэхнікай голасам — святлом, тэмпературай, мікрахвалёўкай, мабільным тэлефонам і інш. замест націскання кнопак.

І ніводная з існуючых сістэм не распазнае беларускую мову! У спісе моў распазнавання маўлення Google таксама няма беларускай.

 

Як паўдзельнічаць?

Для стварэння такой сістэмы патрэбная база матэрыялаў на беларускай мове, якая складаецца з пар «аўдыяфайл + адпаведны яму тэкставы файл». Напрыклад, аўдыязапіс верша і сам тэкст верша. Падыходзяць любы начытаны Вамі тэкст, агучка да фільмаў, аўдыякнігі, прамовы на радыё і г.д. у любым фармаце.

Паўдзельнічаць можна некалькімі спосабамі:

1 спосаб. Калі ў Вас ёсць гукавыя запісы на беларускай мове і адпаведныя ім тэкставыя файлы — можаце даслаць іх (ці спасылкі на іх) на ssrlab.recognition@gmail.com.

2 спосаб. Калі Вы маеце больш матэрыялаў, чым дазваляе пераслаць Ваш інтэрнэт-трафік, запрашаем сустрэцца па адрасе ніжэй, каб мы скапіравалі Вашы дадзеныя.

3 спосаб. Запрашаем Вас у лабараторыю начытаць тэкст на беларускай мове памерам 2–3 старонкі. Гэта займе не больш за 1 гадзіну Вашага часу. Запісацца на зручны для Вас час можна па кантактах ніжэй ці праз vk.me/ssrlab.

У адказ на Ваш удзел мы:
  • дашлем Вам дату пачатку трэніроўкі на Вашых дадзеных;
  • упішам Вашае імя як фундатара праекта;
  • дадзім спасылку на дэма-версію праграмы распазнавання беларускага маўлення;
  • паведамім Вам, калі ўся сістэма распазнавання будзе гатовая, і Вы адным з першых зможаце ёй скарыстацца!

Кантакты

Аб’яднаны інстытут праблем інфарматыкі НАН Беларусі

Лабараторыя распазнавання і сінтэзу маўлення

г. Мінск, вул. Сурганава, 6, пакой 430

+375 (17) 284-21-26 (Анастасія)

ssrlab221@gmail.com

Пішыце, мы анлайн: vk.me/ssrlab


Пытанні і адказы

Магчыма, у Вас з’явіліся пытанні па праекце? Задавайце іх па пазначаных кантактах, а ніжэй ёсць адказы на некаторыя з іх.

 

Што патрэбна, каб зрабіць сістэму распазнавання беларускага маўлення?

Рашэнне праблемы стварэння сістэмы распазнавання дыктаранезалежнага беларускага маўлення патрабуе распрацоўкі спецыяльна размечанага аўдыякорпуса (маўленне з адпаведным яму тэкстам), які мае прадстаўнічы аб’ём гукавых дадзеных і які грунтаваўся б на адпаведных тэкстах, што пакрываюць усе алафоны беларускай мовы. Далей аўдыякорпус перадаецца на перадапрацоўку і на трэніроўку акустычнай мадэлі распазнавання маўлення.

Стварэнне аўдыякорпуса ўключае ў сябе наступныя этапы:

  1. Збор акустычных і тэкставых дадзеных.
  2. Апрацоўка сабраных акустычных і тэкставых дадзеных — экспертная (фактычна ручная) праверка на магчымасць выкарыстання.
  3. Апрацоўка сабраных акустычных і тэкставых дадзеных спецыяльнымі праграмамі.

 

Чаму мы запрашаем ахвочых да ўдзелу?

Для добрай якасці распазнавання маўлення на трэніроўку патрэбны аўдыякорпус не менш за 50 гадзін, а лепш 200-500 гадзін. Таму мы самастойна працуем над папаўненнем аўдыябазы, а таксама звяртаемся да ахвочых па дапамогу ў стварэнні аўдыякорпуса беларускага маўлення. Тады сістэма распазнавання беларускага маўлення будзе створана ў перспектыве 1 года, а не за 3-10 гадоў.

Таксама ўдзел многіх зацікаўленых асоб дазволіць назваць гэты праект сапраўды народным. Імя кожнага ўдзельніка старанна дадаецца ў спіс, які Вы можаце пабачыць унізе гэтай старонкі — спіс фундатараў праекта.

 

Што ёсць на дадзены момант?

Для стварэння маўленчых матэрыялаў на базе тэкставых было запрошана 20 дыктараў. З іх 10 мужчын і 10 жанчын. Толькі трое з іх з’яўляліся прафесійнымі дыктарамі або акторамі (2 мужчыны і 1 жанчына). Астатнія не з’яўляліся прафесійнымі дыктарамі або акторамі, а таксама не мелі вопыту ў мастацтве чытання. Дыктары не выбіраліся з пункту гледжання разнастайнасці дыялектаў. Усе тэксты прамаўляліся з захаваннем інтанацыйных асаблівасцяў. Запіс адбываўся ў асобным кабінеце, спецыяльна абсталяваным для запісу голасу з адсутнасцю знешніх шумоў, але з прысутнасцю натуральнага шумавога фону.

Усе запісаныя голасам тэксты праходзілі спецыяльную апрацоўку перад тым, як быць адпраўленымі на трэніроўку сістэмы распазнавання маўлення. Яны былі падзеленыя на часткі працягласцю ад 5 да 30 секунд, а потым пераведзеныя ў гукавы wav-фармат. У выніку праведзенай працы мы (Лабараторыя распазнавання і сінтэзу маўлення АІПІ НАН Беларусі) маем фанетыка-акустычную базу агульнай працягласцю каля 8 гадзін агучанага рознымі дыктарамі і спецыяльна апрацаванага тэксту. Гэтая праца заняла прыкладна 3 месяцы.

 

Якія аўдыязапісы падыходзяць для стварэння аўдыякорпуса?

Для стварэння аўдыякорпуса патрэбныя беларускамоўныя аўдыязапісы маўлення і адпаведныя тэксты таго, што запісана ў гукавой форме. Напрыклад:

  • тэксты агучак і сама агучка для фільмаў;
  • студыйныя запісы аўдыякніг;
  • дыктарскія прамовы на радыё;
  • дэкламацыя вершаў;
  • начытаны Вамі галасавы запіс з тэкставым адпаведнікам і г.д.

Напрыклад, адпаведны матэрыял — тэкст прамовы дакладчыка. Звычайна дакладчык прачытвае загадзя напісаны тэкст, які перад аўдыторыяй ён прамаўляе голасам. Запісаны аўдыяфайл (голас) і адпаведны тэкставы дакумент (тэкст) — і ёсць патрэбны аўдыякорпус.

Калі ёсць толькі запісы маўлення (без адпаведнага тэкставага файла), спецыяліст паслухае запіс і ўручную перавядзе яго ў тэкст.

 

Якія аўдыязапісы не падыходзяць для стварэння аўдыякорпуса?

Амаль усё падыходзіць, калі ёсць беларускае маўленне. Калі нешта не падыходзіць — гэта вызначыць эксперт і не прыменіць для трэніроўкі сістэмы. Але нават тыя матэрыялы, якія не могуць быць выкарыстаныя для трэніроўкі сістэмы, могуць выкарыстоўвацца для яе тэставання.

Напрыклад, непадыходзячымі матэрыяламі з’яўляюцца аўдыякнігі з фонавай музыкай. Але такі матэрыял можа быць выкарыстаны для тэставання дакладнасці працы выніковай сістэмы распазнавання, бо ў рэальным жыцці заўсёды ёсць шумы ці фонавыя гукі.

 

Ці будуць даступныя мае дадзеныя трэцім асобам пасля стварэння сістэмы распазнавання маўлення?

Не. Гэтыя дадзеныя выкарыстоўваюцца толькі для трэніроўкі мадэлі сістэмы. Натрэніраваная мадэль уяўляе сабой складаную матэматычную формулу з вялікай колькасцю каэфіцыентаў, якая не змяшчае тэкставых і гукавых дадзеных.

 

Што будзе з аўтарскімі правамі на мае дадзеныя?

Усе аўтарскія правы застаюцца ў аўтара, як на тэкставыя дадзеныя, так і на гукавыя дадзеныя. Распрацоўшчыкі сістэмы распазнавання маўлення не выкарыстоўваюць іх для перадачы трэцім асобам пасля трэніроўкі.

 

Як будзе выглядаць сістэма распазнавання маўлення? Ці магчыма з ёй ужо азнаёміцца?

Дэма-версія сістэмы распазнавання беларускага маўлення пакуль увасоблена ў выглядзе інтэрнэт-сэрвіса і мабільнай праграмы. Асаблівасць дэма-версіі ў тым, што на цяперашні момант яна распазнае словы толькі пэўных даменаў (тэматыкі). Распазнаванне беларускага маўлення ў цэлым будзе магчымым пасля стварэння ўсёй сістэмы.

Вы можаце патэставаць дэма-версію распазнавання проста зараз!

Інтэрнэт-сэрвіс «Тэматычнае распазнаванне маўлення»

Гэты сэрвіс (малюнак 1) даступны анлайн і дазваляе карыстальніку пераўтварыць маўленне ў электронны тэкст анлайн. На ўваход сэрвісу можа падавацца фанаграма маўленчых слоў тэматычных даменаў памерам не больш за 20 MB, на выхадзе сэрвіс дае распазнаны электронны тэкст фанаграмы. Фанаграма можа быць загружана на сэрвіс з цвёрдага дыску камп’ютара ў фармаце .wav ці запісана праз магчымасці аўдыязапісу сэрвісу. На дадзены момант сэрвіс распазнае беларускамоўнае маўленне наступных тэматычных даменаў: вопратка, гарады, лікі, спантаннае маўленне. Спіс даменаў будзе папаўняцца.

Малюнак 1. Інтэрфейс сэрвісу «Тэматычнае распазнаванне маўлення»

Мабільная праграма для Android — Thematic Speech Recognizer

Гэта дэма-версія мабільнай праграмы, якая выкарыстоўвае натрэніраваную мадэль распазнавання маўлення. Пасля запуску праграма адразу запускае модуль распазнавання і апрацоўвае ўваходнае маўленне. Атрыманыя вынікі выводзяцца ў рэальным часе ў выглядзе тэксту распазнаных слоў (малюнак 2). Пры спыненні маўлення праграма спыняе распазнаванне і чакае аднаўлення гукавых сігналаў. Для распазнання можна выбраць адзін з трох даменаў: адзенне, лічбы або іншае.

 

Малюнак 2. Вывад вынікаў распазнавання мабільнай праграмай для тэматычнага дамену «Вопратка».


Фундатары праекта

Свае аўдыядадзеныя запісалі і перадалі для трэніроўкі:

  • Паліна Дударава
  • Аляксандра Цынцова
  • Людміла Ліфанава
  • Сяргей Сіняк
  • Уладзіслаў Кацура
  • Ігар Пісарэвіч
  • Анастасія Калеснікава
  • Арцём Панкевіч
  • Дзмітрый Мындыкану
  • Настасся Сцепчанкова
  • Юрый Шумскі
  • Павал Гусціновіч
  • Дар’я Бондар
  • Аляксандр Кірын
  • Максім Галаўчак
  • Антон Мартысевіч
  • Антон Мазур
  • Настасся Лапцінская
  • Лабанаў Барыс
  • Гецэвіч Юрый
  • Гецэвіч Святлана
  • Лысы Станіслаў
  • Дзенісюк Дзмітрый
  • Нікалаенка Кірыл
  • Кайгародава Леся
  • Рэентовіч Іван
  • Захар’еў Вадзім
  • Русецкая Эвеліна
  • Станіславенка Ганна
  • Зяноўка Яўгенія
  • Карпенка Ганна
  • Крывальцэвіч Алена
  • Бабкоў Андрэй
  • Казлоўская Настасся
  • Марчык Марына
  • Пратасеня Аляксандр
  • Шыбко Міхась
  • Драгун Наста
  • Хіневіч Лізавета
  • Скрыпская Ганна
  • Кунцэвіч Яўген
  • Чараўхін Уладзімір
  • Арцёмаў Аляксей

Спіс будзе папаўняцца! Чакаем усіх!


Кантакты

Аб’яднаны інстытут праблем інфарматыкі НАН Беларусі

Лабараторыя распазнавання і сінтэзу маўлення

г. Мінск, вул. Сурганава, 6, пакой 430

+375 (17) 284-21-26 (Анастасія)

ssrlab221@gmail.com

Пішыце, мы анлайн: vk.me/ssrlab

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.