У межах удасканалення сістэмы сінтэзу маўлення па тэксце і сістэмы машыннага перакладу было вырашана ўзяць за аснову корпус юрыдычных тэкстаў – кодэксы Рэспублікі Беларусь.
У этапы прац над удасканаленнем сістэмы сінтэзу маўлення па тэксце ўключана:
- Сінтэзаванне маўлення тэкстаў на беларускай і рускай мовах.
- Стварэнне спісаў слоў для папаўнення слоўнікаў націскаў.
- Стварэнне рэкамендацый для ўдасканалення акустычных мадэляў сінтэзатараў маўлення па тэксце.
У этапы прац над распрацоўкай і ўдасканаленнем сістэм машыннага перакладу ўключана:
- Стварэнне паралельных корпусаў тэкстаў юрыдычнай тэматыкі на беларускай і рускай мовах.
- Стварэнне кантэкстных спісаў-прапаноў ад лінгвістаў для паляпшэнняў перакладу фраз наяўнымі машыннымі перакладчыкамі (etalonline.by, google, yandex).
- Удасканаленне сэрвісаў і методыкі вычыткі тэкстаў вялікага памеру.
- Распрацоўка сістэм машыннага перакладу.
Праграмнае забеспячэнне, якое выкарыстоўвацца і распрацоўваецца
- Сістэмы машыннага перакладу
- Перакладчык па тэкстах юрыдычнай тэматыкі (версія 1)
- Перакладчык па тэкстах медыцынскай і юрыдычнай тэматыкі (версія 2), старонка распрацоўкі праекта (зыходныя дадзеныя і праграмны код).
- Сістэмы вычыткі тэкстаў вялікага памеру
- Сістэма агучкі тэкстаў
Корпус тэкстаў і прамежкавыя вынікі
Прывядзём крыніцы для стварэння корпуса тэкстаў юрыдычнай тэматыкі са спасылкамі на адпаведныя рэсурсы і папярэднія вынікі.
Важныя матэрыялы і публікацыі
- Состоялось заседание экспертного совета по вопросам перевода законодательных актов на белорусский язык
- Кодексы Республики Беларусь
- Помнікі гісторыі права Беларусі
- Вычытка і генерацыя тэкстаў вялікага памеру на беларускай мове / М.У. Марчык, Г.Р. Станіславенка, С.І. Лысы, Ю.С. Гецэвіч // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2017) : доклады XVI Международной конференции, Минск, 16 ноября 2017 г. / ОИПИ НАН Беларуси ; под науч. ред. А.В. Тузиков, Р.Б. Григянец, В.Н. Венгеров. — Минск : ОИПИ НАН Беларуси, 2017. — C. 305-310.
- Выкарыстанне сістэм машыннага перакладу і сінтэзу маўлення для забеспячэння даступнасці заканадаўчых тэкстаў на розных мовах у Рэспубліцы Беларусь / Ю.С. Гецэвіч, А.А. Кірдун // Информационные технологии и право : Правовая информатизация — 2018 : сб. материалов VI Междунар. науч.-практ. конф. (г. Минск, 17 мая 2018 г.) / Нац. центр правовой информ. Респ. Беларусь ; под общ. ред. Е. И. Коваленко. — Минск : Нац. центр правовой информ. Респ. Беларусь, 2018. — C. 123-128.
- Вычытка тэксту вялікага памеру на беларускай мове / М.У. Марчык, С.І. Лысы, Ю.С. Гецэвіч // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития : материалы II Междунар. науч.-практ. конф., Минск, 1–2 марта 2018 г. / редкол. : О. Г. Прохоренко (отв. ред.) [и др.]. — Минск : Издательский центр БГУ, 2018. — C. 58-63.
- Выкарыстанне сістэм машыннага перакладу і сістэмы сінтэзу маўлення для забеспячэння даступнасці заканадаўчых тэкстаў для людзей з інваліднасцю па зроку / Ю.С. Гецэвіч, В.В. Варановіч, А.У. Бабкоў // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2019) : доклады XVIII Международной конференции, Минск, 21 ноября 2019 г. / ОИПИ НАН Беларуси ; под науч. ред. А.В. Тузиков, Р.Б. Григянец, В.Н. Венгеров. – Минск : ОИПИ НАН Беларуси, 2019. – C. 190-193.
- Гецэвіч, Ю. С. Выкарыстанне камп’ютарна-лінгвістычных сэрвісаў для забеспячэння даступнасці заканадаўчых тэкстаў на розных мовах у маўленчай форме / Ю. С. Гецэвіч, В. В. Варановіч, А. У. Бабкоў, С. С. Маеўскі, Дз. А. Дзенісюк // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития : материалы IV Междунар. науч.-практ. конф., Минск, 19–20 марта 2020 г. / редкол.: О. Г. Прохоренко (отв. ред.) [и др.]. – Минск : БГУ, 2020. – С. 451-456.
- Пракапенка, Ц. Практычныя аспекты стварэння паралельнага беларуска-рускага корпуса даных / Ц. Пракапенка // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития : материалы V Междунар. науч.-практ. конф., Минск, 18-19 марта 2021 г. / Белорус. гос. ун-т ; редкол.: О. Г. Прохоренко (гл. ред.) [и др.]. – Минск : БГУ, 2021. – С. 327-332.
- Hetsevich, Yu. Creation of a legal domain corpus for the Belarusian NooJ module: texts, dictionaries, grammars / Yu. Hetsevich, Ya. Zianouka, V. Varanovich, M. Suprunchuk, Ts. Prakapenka, Dm. Dzenisiuk // 15th International Conference NooJ 2021: Book of Abstracts / Virtual conference Besançon ; ed. Magali Bigey, Annabel Richton, Max Silberztein, Izabella Thomas. – France June 9-11, 2021. – P. 36-37.
- Гецэвіч, Ю.С. Распрацоўка і развіццё лінгвістычнай базы ведаў юрыдычнай тэматыкі для сістэм машыннага перакладу і сінтэзу вуснага маўлення / Ю.С. Гецэвіч, М.В. Супрунчук, В.В. Варановіч, А.У. Бабкоў // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2021) / Минск ; под науч. ред. А. В. Тузикова и др.. – Минск : ОИПИ НАН Беларуси, 2021. – С. 184-188.
- Suprunchuk, M. Creation of parallel medical and social corpora for the machine translation and speech synthesis / M. Suprunchuk, N. Yarash, Y. Hetsevich, V. Varanovich, S. Gaidurau, Y. Zianouka, P. Sakava // 16th International NooJ 2022 Conference / ECU ; S.S. Reyes, A. Rodrigo, M. Silberztein, C. Tramallino (Eds.). – Rosario, 2022. – P. 33.
Падзякі
Выказваем падзяку:
- Нацыянальнаму цэнтру прававой інфармацыі Рэспублікі Беларусь за доступ да Інфармацыйна-пошукавай сістэмы «ЭТАЛОН-ONLINE»;
- Беларускаму дзяржаўнаму ўніверсітэту за стварэнне і выкарыстанне напрацовак праекта ў навучальных працэсах і ў напісанні курсавых і дыпломных прац;
- усім, хто даслаў свае заўвагі і прапановы для праекта.
Планы праекта
- Зрабіць паралельныя корпусы тэкстаў і маўлення юрыдычнай тэматыкі на беларускай і рускай мовах.
- Распрацаваць мадэль корпуса тэкстаў юрыдычнай тэматыкі для зручнага пошуку тэрмінаў (слоў) у тэкстах і іх адпаведных кантэкстаў у сістэме NooJ.
- Дадаць слоўнікі рускіх і беларускіх тэрмінаў юрыдычнай тэматыкі ў спіс напрацаваных рэсурсаў.
- Дадаць агучаныя версіі тэкстаў юрыдычнай тэматыкі ў спіс напрацаваных рэсурсаў.
- Распрацаваць сістэму распазнавання маўлення па тэкстах юрыдычнай тэматыкі.
- Распрацаваць інтэлектуальную сістэму пошуку інфармацыі па неструктураваных тэкставых і маўленчых запытах.
Хто і як можа далучыцца?
У межах усіх частак праекту (рэалізацыі і планаў) магчымае напісанне навуковых прац, артыкулаў, курсавых, дыпломных, магістарскіх і аспіранцкіх прац. Да ўдзелу ў праекце запрашаюцца ўсе зацікаўленыя ў навуковых даследаваннях па стварэнні і тэставанні сістэм апрацоўкі тэксту і маўлення.
Кантакты
Просім ліставаць з прапановамі паляпшэнняў і жаданнем далучыцца да праекта праз старонку кантактаў: https://ssrlab.by/kantakty
Старонка праекта ў Facebook: https://www.facebook.com/groups/belkodeksy/