Text, speech and other data processing on the Internet platform www.Corpus.by


The platform www.corpus.by has been developed and is being constantly developed further to provide users with a set of tools (services) for text, voice and other data processing. The developed services are grouped into thematic domains for more convenient use in specific fields of application.

The approach to the development of each service lies in allowing a user to run the service with one button using the input test data and see the results. Then a user is offered to use the service at their own risk and input their own data and adjust settings. It is, however, recommended to read the description of the service (?).

The description of services (?) is aimed at describing the task to be solved by the service, and also giving a cue to a user how the service can be used for their own purposes. The description of a service is added as the service is improved and put into practice. Additional comments and feedback are collected through the contacts on the platform in order to draw up more objective technical requirements for improving the services. Pretty complete service descriptions are https://ssrlab.by/4039, https://ssrlab.by/5047, https://ssrlab.by/6684, https://ssrlab.by/8071.

New services can be developed on demand through the use of the template service “Service Demonstrator”. One can download it in the selected programming language, give a name to the new service X, adjust it for the task. If the task has been solved successfully, if the accuracy of the service X is higher than 1%, then it can be uploaded on the platform through contacting the developers.

Technology stack which is used for the platform – php, MySql, Python, JavaScript, Html, Css. More than 90% of the services are programmed in php, Python has been introduced through the “Service Demonstrator”. All the services are being converted to Python, but we are looking for an additional developer to speed up the process. Other programming languages ​​can be used for the services development through contacting the developers directly.

Reuse of the platform services in your projects is welcome. For the majority of services an API has been developed, and the use of the services via the API has been demonstrated. Please send a simple email with a note “We used the service Y in the project Z :)”. That inspires us to pursue the platform development plan!

Plans

  • To develop new thematic domains and services for them;
  • Create user accounts so that users can save the results of their experiments and share them with others;
  • Develop a rating system for the services;
  • Develop a system for statistics collection in order to improve the performance of the most popular services;
  • Expand the platform development team;
  • Write (expand) the descriptions of the services that have been put into practice, tested, upgraded; translate fixed descriptions into English and other languages;
  • Develop new services for processing of new electronic resources for different languages, thematic domains and tasks;
  • Continue using the following approaches in the development of services: “everything has already been installed”, “ready to use”, “1 click on start – 1 instant result”, “everything has been saved”;
  • Develop versions of the platform and services for Android, IPhone, Promobot v4.

 

We would be grateful for additional plans, comments from you
and online or offline meetings with you!

E-mail: corpusby.contacts@gmail.com
A leaflet in the Belarusian and English languages.

Cross references

  1. Дзенісюк, Д. А. Платформа для апрацоўкі тэкставай і гукавой інфармацыі для розных тэматычных даменаў беларускай мовы / Д. А. Дзенісюк, Я. С. Зяноўка, А. Е. Драгун [і інш.] // Языковая личность и эффективная коммуникация в современном поликультурном мире : материалы VI Междунар. науч.-практ. конф., посвящ. 100-летию Белорус. гос. ун-та, Минск, 29–30 окт. 2020 г. / Белорус. гос. ун-т ; редкол.: С. В. Воробьева (гл. ред.) [и др.]. – Минск : БГУ, 2011. – С. 69-74.
  2. Казлоўская, Н.Д. Выкарыстанне камп’ютарна-лінгвістычных рэсурсаў платформы corpus.by пры перакладзе Кодэкса аб шлюбу і сям’і / Н.Д. Казлоўская, Г.Р. Станіславенка, А.В. Крывальцэвіч, М.У. Марчык, А.У. Бабкоў, І.В. Рэентовіч, Ю.С. Гецэвіч // Межкультурная коммуникация и проблемы обучения иностранному языку и переводу : сб. науч. ст. / редкол. : М.Г. Богова (отв. ред), Т.В. Бусел, Н.П. Грицкевич [и др.]. — Минск : РИВШ, 2017. — C. 137-142.
  3. Гецэвіч, Ю.С. Камп’ютарна-лінгвістычныя сэрвісы www.corpus.by для аўтаматычнай апрацоўкі тэкстаў / Я.С. Качан, С.І. Лысы, Ю.С. Гецэвіч, Г.Р. Станіславенка, А.В. Гюнтар // Нацыянальна-культурны кампанент у літаратурнай і дыялектнай мове : зб. навук. арт. / Брэсц. дзярж. ун-т імя А. С. Пушкіна ; рэдкал.: С. Ф. Бут-Гусаім [і інш.]. – Брэст : БрДУ, 2016. — C. 93-104.
  4. Казлоўская, Н.Д. Этапы і асаблівасці перакладу юрыдычнай лексікі на прыкладзе Кодэкса аб шлюбе і сям’і з выкарыстаннем камп’ютарна-лінгвістычных рэсурсаў / Н.Д. Казлоўская, А.У. Бабкоў, Ю.С. Гецэвіч, А.В. Крывальцэвіч, Г.Р. Станіславенка, М.У. Марчык, І.В. Рэентовіч // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития : материалы I Респ. науч.-практ. конф. с междунар. участием, Минск, 23–24 февр. 2017 г. / БГУ, факультет социокультурных коммуникаций ; редкол. : О.Г. Прохоренко (отв. ред.) [и др.]. — Минск : Изд. центр БГУ, 2017. — C. 189-191.
  5. Drahun, A. Semi-Automatic Proofreading of Belarusian and English texts / A. Drahun, Yu. Hetsevich, A. Bakunovich, Dz. Dzenisiuk, J. Shynkevich // International Conference NooJ 2019: Book of Abstracts. – Hammamet, Tunisia, 2019.
  6. Станіславенка, Г.Р. Рэдагаванне электронных масіваў тэкстаў на беларускай мове з выкарыстаннем камп’ютарна-лінгвістычных сэрвісаў платформы www.corpus.by / Г.Р. Станіславенка, С.І. Лысы, Ю.С. Гецэвіч // Карповские научные чтения / БГУ ; под ред. А.И. Головня [и др.]. — Минск : ИВЦ Минфина, 2016. — C. 262-267.
  7. Гецэвіч, Ю.С. Праектаванне інтэрнэт-сервісаў для працэсараў сінтэзатара маўлення па тэксце з магчымасцю прадстаўлення бясплатных электронных паслуг насельніцтву / Ю.С. Гецэвіч, С.І. Лысы // Развитие информатизации и государственной системы научно-технической информации (РИНТИ-2014) : доклады XIII Международной конференции (Минск, 20 ноября 2014 г.). – Минск : ОИПИ НАН Беларуси, 2014. — C. 265-269.
  8. Станіславенка, Г.Р. Выкарыстанне камп’ютарна-лінгвістычных сродкаў для перакладу ўніверсальнай дзесятковай класіфікацыі дамена “тэатр” з англійскай на беларускую мову і генерацыя алфавітна-прадметнага паказальніка / Г.Р. Станіславенка, Ю.С. Гецэвіч, С.І. Лысы // Актуальные вопросы германской филологии и лингводидактики: материалы XX Междунар. науч.-практ. конф. / Брест. гос. ун-т  имени А.С. Пушкина; редкол.: Е. Г. Сальникова [и др.]. — Брест : Альтернатива, 2016. — C. 264-266.
  9. Русак, В.П. Программная обработка фонетических особенностей белорусских говоров центрального региона / В.П. Русак, Ю.С. Гецевич // Исследования по славянской диалектологии 19–20. Славянские диалекты в современной языковой ситуации. Диалектный словарь как способ исследования славянских диалектов / отв. редактор выпуска: д. ф. н. Л. Э. Калнынь. — Москва : Институт славяноведения РАН, 2018. — C. 87-94.
  10. Русак, В.П. Программная обработка фонетических особенностей белорусских говоров центрального региона / В.П. Русак, Ю.С. Гецевич // Исследования по славянской диалектологии 19–20. Славянские диалекты в современной языковой ситуации. Диалектный словарь как способ исследования славянских диалектов / отв. редактор выпуска: д. ф. н. Л. Э. Калнынь. — Москва : Институт славяноведения РАН, 2018. — C. 87-94.

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.