Удасканаленне працы аўтаматызаваных сістэм па тэкстах юрыдычнай тэматыкі


У межах удасканалення сістэмы сінтэзу маўлення па тэксце і сістэмы машыннага перакладу з мэтай падрыхтоўкі аўтаматызаванага працоўнага месца дзіцяці са слабым зрокам было вырашана ўзяць за аснову корпус юрыдычных тэкстаў – кодэксы Рэспублікі Беларусь.

У этапы прац над удасканаленнем сістэмы сінтэзу маўлення па тэксце ўключана:

  • Сінтэзаванне маўлення тэкстаў на беларускай і рускай мовах.
  • Стварэнне спісаў слоў для папаўнення слоўнікаў націскаў.
  • Стварэнне рэкамендацый для ўдасканалення акустычных мадэляў сінтэзатараў маўлення па тэксце.

У этапы прац над распрацоўкай і ўдасканаленнем сістэм машыннага перакладу ўключана:

  • Стварэнне паралельных корпусаў тэкстаў юрыдычнай тэматыкі на беларускай і рускай мовах.
  • Стварэнне кантэкстных спісаў-прапаноў ад лінгвістаў для паляпшэнняў перакладу фраз наяўнымі машыннымі перакладчыкамі (etalonline.by, google, yandex).
  • Удасканаленне сэрвісаў і методыкі вычыткі тэкстаў вялікага памеру.
  • Распрацоўка сістэм машыннага перакладу.

 

Праграмнае забеспячэнне, якое выкарыстоўвацца і распрацоўваецца

 

Корпус тэкстаў і прамежкавыя вынікі

Прывядзем крыніцы для стварэння корпуса тэкстаў юрыдычнай тэматыкі са спасылкамі на адпаведныя рэсурсы і папярэднія вынікі. Заўважым, што на гэты момант застаецца 4 тэксты без адпаведнікаў на беларускай мове:

 

Назва тэксту і крыніца Пераклады тэксту Слоўнікі і дадатковыя матэрыялы Агучаныя матэрыялы сінтэзатарам маўлення
Банковский кодекс Республики Беларусь БАНКАЎСКІ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ
(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Слоўнік замен Банкаўскі кодэкс на беларускай мове

Банкаўскі кодэкс на рускай мове

Бюджетный кодекс Республики Беларусь БЮДЖЭТНЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ
(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Слоўнік замен Бюджэтны кодэкс на беларускай мове

Бюджэтны кодэкс на рускай мове

Водный кодекс Республики Беларусь
  1. Пераклад на беларускую мову
  2. ВОДНЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ

(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)

Слоўнік замен
Воздушный кодекс Республики Беларусь ПАВЕТРАНЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ
(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Слоўнік замен
Гражданский кодекс Республики Беларусь
  1. Пераклад на беларускую мову
  2.  ГРАМАДЗЯНСКІ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ

(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)

 

Слоўнік замен Грамадзянскі кодэкс на беларускай мове

Грамадзянскі кодэкс на рускай мове

Гражданский процессуальный кодекс Республики Беларусь
  1. Пераклад на беларускую мову 
  2. ГРАМАДЗЯНСКІ ПРАЦЭСУАЛЬНЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ

(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)

Слоўнік замен Грамадзянскі працэсуальны кодэкс на беларускай мове

Грамадзянскі працэсуальны кодэкс на рускай мове

Жилищный кодекс Республики Беларусь Пераклад на беларускую мову
Избирательный кодекс Республики Беларусь
  1. Пераклад на беларускую мову
  2. ВЫБАРЧЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ
    (апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Слоўнік замен Выбарчы кодэкс на беларускай мове

Выбарчы кодэкс на рускай мове

Кодекс внутреннего водного транспорта Республики Беларусь КОДЭКС УНУТРАНАГА ВОДНАГА ТРАНСПАРТУ РЭСПУБЛІКІ БЕЛАРУСЬ (апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту) Слоўнік замен Кодэкс унутранага воднага транспарту на беларускай мове

Кодэкс унутранага воднага транспарту на рускай мове

Кодекс Республики Беларусь о браке и семье
  1. Пераклад на беларускую мову
  2. КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ АБ ШЛЮБЕ І СЯМ’І
    (
    апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Кодекс Республики Беларусь о земле
  1. Пераклад на беларускую мову
  2. КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ АБ ЗЯМЛІ
    (апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Слоўнік замен
Кодекс Республики Беларусь о недрах
  1. Пераклад на беларускую мову
  2. КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ АБ НЕТРАХ 
    (апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Слоўнік замен Кодэкс аб нетрах на беларускай мове

Кодэкс аб нетрах на рускай мове

Кодекс Республики Беларусь о судоустройстве и статусе судей
  1. Пераклад на беларускую мову
  2. КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ АБ СУДОВЫМ ЛАДЗЕ І СТАТУСЕ СУДДЗЯЎ 

(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)

Слоўнік замен Кодэкс аб судовым ладзе і статусе суддзяў на беларускай мове

Кодэкс аб судовым ладзе і статусе суддзяў на рускай мове

Кодекс Республики Беларусь об административных правонарушениях
  1. Пераклад на беларускую мову
  2. КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ АБ АДМІНІСТРАЦЫЙНЫХ ПРАВАПАРУШЭННЯХ

(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)

Слоўнік замен Кодэкс аб адміністрацыйных правапарушэннях на беларускай мове

Кодэкс аб адміністрацыйных правапарушэннях на рускай мове

Процессуально-исполнительный кодекс Республики Беларусь об административных правонарушениях
  1. Пераклад на беларускую мову 
  2. ПРАЦЭСУАЛЬНА-ВЫКАНАЎЧЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ АБ АДМІНІСТРАЦЫЙНЫХ ПРАВАПАРУШЭННЯХ

(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)

Працэсуальна-выканаўчы кодэкс аб адміністрацыйных правапарушэннях на беларускай мове

Працэсуальна-выканаўчы кодэкс аб адміністрацыйных правапарушэннях на рускай мове

Кодекс Республики Беларусь об образовании
Кодекс торгового мореплавания Республики Беларусь
  1. Пераклад на беларускую мову
  2. КОДЭКС ГАНДЛЁВАГА МАРАПЛАЎСТВА РЭСПУБЛІКІ БЕЛАРУСЬ (апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Слоўнік замен Кодэкс гандлёвага мараплаўства на беларускай мове

Кодэкс гандлёвага мараплаўства на рускай мове

Кодэкс Рэспублiкi Беларусь аб культуры
Лесной кодекс Республики Беларусь
  1. Пераклад на беларускую мову
  2. ЛЯСНЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ

(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)

Слоўнік замен
Налоговый кодекс Республики Беларусь (Общая часть) ПАДАТКОВЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ (АГУЛЬНАЯ ЧАСТКА)

(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)

Слоўнік замен Падатковы кодэкс (агульная частка) на беларускай мове

Падатковы кодэкс (агульная частка) на рускай мове

Налоговый кодекс Республики Беларусь (Особенная часть)
Трудовой кодекс Республики Беларусь
  1. Пераклад на беларускую мову
  2. ПРАЦОЎНЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ 
    (апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Уголовно-исполнительный кодекс Республики Беларусь
  1. Пераклад на беларускую мову
  2. КРЫМІНАЛЬНА-ВЫКАНАЎЧЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ

(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)

Слоўнік замен (word, pdf) Крымінальна-выканаўчы кодэкс на беларускай мове

Крымінальна-выканаўчы кодэкс на рускай мове

Уголовно-процессуальный кодекс Республики Беларусь КРЫМІНАЛЬНА-ПРАЦЭСУАЛЬНЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ
(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Слоўнік замен
Уголовный кодекс Республики Беларусь Пераклад на беларускую мову
Хозяйственный процессуальный кодекс Республики Беларусь ГАСПАДАРЧЫ ПРАЦЭСУАЛЬНЫ КОДЭКС РЭСПУБЛІКІ БЕЛАРУСЬ
(апрацаваны методыкай вычыткі неафіцыйны пераклад тэксту)
Слоўнік замен (word, pdf) Гаспадарчы працэсуальны кодэкс на беларускай мове

Гаспадарчы працэсуальны кодэкс на рускай мове

Памылкі сінтэзу на беларускай мове

Памылкі сінтэзу на рускай мове

  1. Состоялось заседание экспертного совета по вопросам перевода законодательных актов на белорусский язык
  2. Кодексы Республики Беларусь
  3. Помнікі гісторыі права Беларусі
  4. Вычытка і генерацыя тэкстаў вялікага памеру на беларускай мове / М.У. Марчык, Г.Р. Станіславенка, С.І. Лысы, Ю.С. Гецэвіч // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2017) : доклады XVI Международной конференции, Минск, 16 ноября 2017 г. / ОИПИ НАН Беларуси ; под науч. ред. А.В. Тузиков, Р.Б. Григянец, В.Н. Венгеров. — Минск : ОИПИ НАН Беларуси, 2017. — C. 305-310.
  5. Выкарыстанне сістэм машыннага перакладу і сінтэзу маўлення для забеспячэння даступнасці заканадаўчых тэкстаў на розных мовах у Рэспубліцы Беларусь / Ю.С. Гецэвіч, А.А. Кірдун // Информационные технологии и право : Правовая информатизация — 2018 : сб. материалов VI Междунар. науч.-практ. конф. (г. Минск, 17 мая 2018 г.) / Нац. центр правовой информ. Респ. Беларусь ; под общ. ред. Е. И. Коваленко. — Минск : Нац. центр правовой информ. Респ. Беларусь, 2018. — C. 123-128.
  6. Вычытка тэксту вялікага памеру на беларускай мове / М.У. Марчык, С.І. Лысы, Ю.С. Гецэвіч // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития : материалы II Междунар. науч.-практ. конф., Минск, 1–2 марта 2018 г. / редкол. : О. Г. Прохоренко (отв. ред.) [и др.]. — Минск : Издательский центр БГУ, 2018. — C. 58-63.
  7. Выкарыстанне сістэм машыннага перакладу і сістэмы сінтэзу маўлення для забеспячэння даступнасці заканадаўчых тэкстаў для людзей з інваліднасцю па зроку / Ю.С. Гецэвіч, В.В. Варановіч, А.У. Бабкоў // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2019) : доклады XVIII Международной конференции, Минск, 21 ноября 2019 г. / ОИПИ НАН Беларуси ; под науч. ред. А.В. Тузиков, Р.Б. Григянец, В.Н. Венгеров. – Минск : ОИПИ НАН Беларуси, 2019. – C. 190-193.
  8. Гецэвіч, Ю. С. Выкарыстанне камп’ютарна-лінгвістычных сэрвісаў для забеспячэння даступнасці заканадаўчых тэкстаў на розных мовах у маўленчай форме / Ю. С. Гецэвіч, В. В. Варановіч, А. У. Бабкоў, С. С. Маеўскі, Дз. А. Дзенісюк // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития : материалы IV Междунар. науч.-практ. конф., Минск, 19–20 марта 2020 г. / редкол.: О. Г. Прохоренко (отв. ред.) [и др.]. – Минск : БГУ, 2020. – С. 451-456.
  9. Пракапенка, Ц. Практычныя аспекты стварэння паралельнага беларуска-рускага корпуса даных / Ц. Пракапенка // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития : материалы V Междунар. науч.-практ. конф., Минск, 18-19 марта 2021 г. / Белорус. гос. ун-т ; редкол.: О. Г. Прохоренко (гл. ред.) [и др.]. – Минск : БГУ, 2021. – С. 327-332.
  10. Hetsevich, Yu. Creation of a legal domain corpus for the Belarusian NooJ module: texts, dictionaries, grammars / Yu. Hetsevich, Ya. Zianouka, V. Varanovich, M. Suprunchuk, Ts. Prakapenka, Dm. Dzenisiuk // 15th International Conference NooJ 2021: Book of Abstracts / Virtual conference Besançon ; ed. Magali Bigey, Annabel Richton, Max Silberztein, Izabella Thomas. – France June 9-11, 2021. – P. 36-37.
  11. Гецэвіч, Ю.С. Распрацоўка і развіццё лінгвістычнай базы ведаў юрыдычнай тэматыкі для сістэм машыннага перакладу і сінтэзу вуснага маўлення / Ю.С. Гецэвіч, М.В. Супрунчук, В.В. Варановіч, А.У. Бабкоў // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2021) / Минск ; под науч. ред. А. В. Тузикова и др.. – Минск : ОИПИ НАН Беларуси, 2021. – С. 184-188.
  12. Suprunchuk, M. Creation of parallel medical and social corpora for the machine translation and speech synthesis / M. Suprunchuk, N. Yarash, Y. Hetsevich, V. Varanovich, S. Gaidurau, Y. Zianouka, P. Sakava // 16th International NooJ 2022 Conference / ECU ; S.S. Reyes, A. Rodrigo, M. Silberztein, C. Tramallino (Eds.). – Rosario, 2022. – P. 33.
Падзякі
Выказваем падзяку:
  • Нацыянальнаму цэнтру прававой інфармацыі Рэспублікі Беларусь за доступ да Інфармацыйна-пошукавай сістэмы «ЭТАЛОН-ONLINE»;
  • Беларускаму дзяржаўнаму ўніверсітэту за стварэнне і выкарыстанне напрацовак праекта ў навучальных працэсах і ў напісанні курсавых і дыпломных прац;
  • усім, хто даслаў свае заўвагі і прапановы для праекта.
Планы праекта
  1. Зрабіць паралельныя корпусы тэкстаў і маўленьня юрыдычнай тэматыкі на беларускай і рускай мовах.
  2. Распрацаваць мадэль корпуса тэкстаў юрыдычнай тэматыкі для зручнага пошуку тэрмінаў (слоў) у тэкстах і іх адпаведных кантэкстаў у сістэме NooJ.
  3. Дадаць слоўнікі рускіх і беларускіх тэрмінаў юрыдычнай тэматыкі ў спіс напрацаваных рэсурсаў.
  4. Дадаць агучаныя версіі тэкстаў юрыдычнай тэматыкі ў спіс напрацаваных рэсурсаў.
  5. Распрацаваць сістэму распазнавання маўлення па тэкстах юрыдычнай тэматыкі.
  6. Распрацаваць інтэлектуальную сістэму пошуку інфармацыі па неструктураваных тэкставых і маўленчых запытах.
Хто і як можа далучыцца?
У межах усіх частак праекту (рэалізацыі і планаў) магчымае напісанне навуковых прац, артыкулаў, курсавых, дыпломных, магістарскіх і аспіранцкіх прац. Да ўдзелу ў праекце запрашаюцца ўсе зацікаўленыя ў навуковых даследаваннях па стварэнні і тэставанні сістэм апрацоўкі тэксту і маўлення.
Кантакты
Просім ліставаць з прапановамі паляпшэнняў і жаданнем далучыцца да праекта праз старонку кантактаў: https://ssrlab.by/kantakty
Старонка праекта ў Facebook: https://www.facebook.com/groups/belkodeksy/

 

 

 

 

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.