У межах працы над удасканаленнем сістэм сінтэзу маўлення па тэксце і сістэмы машыннага перакладу тэкстаў з мэтай падрыхтоўкі аўтаматызаванага працоўнага месца слабабачачага дзіцяці было вырашана ўзяць за аснову корпус юрыдычных тэкстаў – Кодэксы Рэспублікі Беларусь.
У этапы прац па ўдасканаленні сістэм сінтэзу маўлення па тэксце ўключана:
- Сінтэзаванне маўлення тэкстаў на беларускай і рускай мовах.
- Стварэнне спісаў слоў для папаўнення слоўнікаў націскаў.
- Стварэнне рэкамендацый па ўдасканаленні акустычных мадэляў сінтэзатараў маўлення па тэксце.
У этапы прац па распрацоўцы і ўдасканаленні сістэм машыннага перакладу ўключана:
- Стварэнне паралельных корпусаў тэкстаў юрыдычнай тэматыкі на беларускай і рускай мовах.
- Стварэнне кантэкстных спісаў-прапаноў ад лінгвістаў для паляпшэнняў перакладу фраз наяўнымі машыннымі перакладчыкамі (etalonline.by, google, yandex).
- Удасканаленне сэрвісаў і методыкі вычыткі тэкстаў вялікага памеру.
- Распрацоўка сістэм машыннага перакладу.
Праграмнае забеспячэнне, якое выкарыстоўвацца і распрацоўваецца
- Сістэмы машыннага перакладу
- Перакладчык па тэкстах юрыдычнай тэматыкі (версія 1)
- Перакладчык па тэкстах медыцынскай і юрыдычнай тэматыкі (версія 2), старонка распрацоўкі праекта (зыходныя дадзеныя і праграмны код).
- Сістэмы вычыткі тэкстаў вялікага памеру
- Сістэма агучкі тэкстаў
Корпус тэкстаў і прамежкавыя вынікі
Прывядзем крыніцы для стварэння корпуса тэкстаў юрыдычнай тэматыкі са спасылкамі на адпаведныя рэсурсы і папярэднія вынікі. Заўважым, што на дадзены момант застаецца 8 тэкстаў без адпаведнікаў на беларускай мове:
Сабраныя важныя матэрыялы і публікацыі
- Состоялось заседание экспертного совета по вопросам перевода законодательных актов на белорусский язык
- Кодексы Республики Беларусь
- Помнікі гісторыі права Беларусі
- Выкарыстанне сістэм машыннага перакладу і сістэмы сінтэзу маўлення для забеспячэння даступнасці заканадаўчых тэкстаў для людзей з інваліднасцю па зроку / Ю.С. Гецэвіч, В.В. Варановіч, А.У. Бабкоў // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2019) : доклады XVIII Международной конференции, Минск, 21 ноября 2019 г. / ОИПИ НАН Беларуси ; под науч. ред. А.В. Тузиков, Р.Б. Григянец, В.Н. Венгеров. – Минск : ОИПИ НАН Беларуси, 2019. – C. 190-193.
- Выкарыстанне сістэм машыннага перакладу і сінтэзу маўлення для забеспячэння даступнасці заканадаўчых тэкстаў на розных мовах у Рэспубліцы Беларусь / Ю.С. Гецэвіч, А.А. Кірдун // Информационные технологии и право : Правовая информатизация — 2018 : сб. материалов VI Междунар. науч.-практ. конф. (г. Минск, 17 мая 2018 г.) / Нац. центр правовой информ. Респ. Беларусь ; под общ. ред. Е. И. Коваленко. — Минск : Нац. центр правовой информ. Респ. Беларусь, 2018. — C. 123-128.
- Вычытка тэксту вялікага памеру на беларускай мове / М.У. Марчык, С.І. Лысы, Ю.С. Гецэвіч // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития : материалы II Междунар. науч.-практ. конф., Минск, 1–2 марта 2018 г. / редкол. : О. Г. Прохоренко (отв. ред.) [и др.]. — Минск : Издательский центр БГУ, 2018. — C. 58-63.
- Вычытка і генерацыя тэкстаў вялікага памеру на беларускай мове / М.У. Марчык, Г.Р. Станіславенка, С.І. Лысы, Ю.С. Гецэвіч // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2017) : доклады XVI Международной конференции, Минск, 16 ноября 2017 г. / ОИПИ НАН Беларуси ; под науч. ред. А.В. Тузиков, Р.Б. Григянец, В.Н. Венгеров. — Минск : ОИПИ НАН Беларуси, 2017. — C. 305-310.
- Hetsevich, Yu. Creation of a legal domain corpus for the Belarusian NooJ module: texts, dictionaries, grammars / Yu. Hetsevich, Ya. Zianouka, V. Varanovich, M. Suprunchuk, Ts. Prakapenka, Dm. Dzenisiuk // 15th International Conference NooJ 2021: Book of Abstracts / Virtual conference Besançon ; ed. Magali Bigey, Annabel Richton, Max Silberztein, Izabella Thomas. – France June 9-11, 2021. – P. 36-37.
Падзякі
Выказваем падзяку
- Нацыянальнаму цэнтру прававой інфармацыі Рэспублікі Беларусь за прадстаўлены доступ да Інфармацыйна-пошукавай сістэмы «ЭТАЛОН-ONLINE»
- Беларускаму дзяржаўнаму ўніверсітэту за стварэнне і выкарыстанне напрацовак праекта ў навучальных працэсах і ў напісанні курсавых і дыпломных прац
- Усім, хто даслаў свае заўвагі і прапановы для праекта
Планы праекта
- Зрабіць да 09.2021 г. паралельныя корпусы тэкстаў і маўленьня юрыдычнай тэматыкі на беларускай і рускай мовах.
- Распрацаваць мадэль корпуса тэкстаў юрыдычнай тэматыкі для зручнага пошуку тэрмінаў (слоў) у тэкстах і іх адпаведных кантэкстаў у сістэме NooJ.
- Дадаць слоўнікі рускіх і беларускіх тэрмінаў юрыдычнай тэматыкі ў спіс напрацаваных рэсурсаў.
- Дадаць агучаныя версіі тэкстаў юрыдычнай тэматыкі ў спіс напрацаваных рэсурсаў.
- Распрацаваць сістэму распазнавання маўлення па тэкстах юрыдычнай тэматыкі.
- Распрацаваць інтэлектуальную сістэму пошуку інфармацыі па неструктураваных тэкставых і маўленчых запытах.
Хто і як можа далучыцца?
У межах усіх частак праекту (рэалізацыі і планаў) магчымае напісанне навуковых праектаў, артыкулаў, курсавых, дыпломных, магістарскіх і аспіранцкіх прац. Да ўдзелу ў праекце запрашаюцца ўсе зацікаўленыя ў навуковых даследаваннях па стварэнні і тэставанні сістэм па апрацоўцы тэксту і маўлення.
Кантакт
Просім ліставаць з прапановамі паляпшэнняў і жаданнем далучыцца да праекта праз старонку кантактаў – https://ssrlab.by/kantakty