Праверка правапісу


Сэрвіс Праверка правапісу прызначаны для праверкі правільнасці напісання слоў. На ўваход сэрвісу падаецца электронны тэкст, які патрабуе праверкі. Па націсканні кнопкі “Праверыць” сэрвіс параўноўвае словы тэксту са словамі ў падключаных слоўніках. Знойдзеныя ў слоўніку ўваходныя словы сэрвіс кваліфікуе як напісаныя правільна і адкідае. Не знойдзеныя ў слоўніку ўваходныя словы (г. зн. невядомыя сэрвісу) сэрвіс кваліфікуе як напісаныя няправільна, і выводзіць у выглядзе спіса ў алфавітным парадку. Такім чынам на выхадзе карыстальнік атрымлівае спіс невядомых сэрвісу слоў, адпаведнікаў якім не было знойдзена ў слоўніках, і якія, верагодна, і змяшчаюць памылкі.

 

Асноўныя тэрміны і паняцці

Арфаграфія, правапіс – аднастайнасць перадачы слоў і граматычных формаў пісьмовага маўлення. Таксама гэта збор правілаў, які забяспечвае гэтую аднастайнасць.

Вычытка – праверка напісанага тэксту перад адпраўкай замоўцы, публікацыяй ці іншым спосабам выкарыстання.

 

Практычная каштоўнасць

Сэрвіс мае шырокае кола прымянення і надзвычайную актуальнасць. Якасна вычытаныя тэксты – на цяперашні момант гэта неад’емны складнік працы і патрабаванне для многіх сфер заняткаў і камунікацыі паміж людзьмі і ўстановамі. Таксама арфаграфічна правільны электронны тэкст – патрабаванне да правільнага функцыянавання камп’ютарных сістэм чалавека-машынных камунікацый. Актуальнасць развіцця дадзенага сэрвісу абумоўліваецца таксама ўскладненым доступам да сродкаў апрацоўкі беларускамоўнага тэксту. Так, існуе аматарскі пакет праверкі правапісу для MS Office Word, але ён патрабуе адмысловага пошуку, спампоўвання і ўсталявання [1]. Вычытка электроннага тэксту машыннымі сродкамі застаецца заўсёды актуальнай, паколькі праверка тэкстаў карыстальнікам уручную амаль гарантавана дапускае пропуск памылак.

 

Асаблівасці сэрвісу

Сэрвіс ажыццяўляе праверку шляхам параўнання слоў ва ўваходным тэксце са словамі ў слоўнікавай базе. Гэтая слоўнікавая база на цяперашні момант уключае наступныя слоўнікі, пералічаныя ў табліцы 1.

Табліца 1 – Характарыстыка слоўнікаў, якімі карыстаецца сэрвіс “Праверка правапісу”

Уключаны па змаўчанні Назва слоўніка Каментары Мова слоўніка
Так SBM1987 Паводле публікацыі “Слоўнік беларускай мовы. Арфаграфія. Арфаэпія. Акцэнтуацыя. Словазмяненне / пад рэд. М.В. Бірылы. – Мінск, 1987.” беларуская
Так SBM2008 Слоўнік беларускай мовы паводле Belarusian Grammar Database (bnkorpus.info). Authors: Symon Kakora, Aleś Bułojčyk, Uladź Koščanka. На ўмовах ліцэнзіі CC BY-SA 4.0 беларуская
Так SBM2012initial Пачатковыя формы паводле публікацыі “Слоўнік беларускай мовы. / навук. рэд. А.А. Лукашанец, В.П. Русак. – Мінск : Беларус. навука, 2012.” беларуская
Так ZALIZNIAK Паводле публікацыі “Грамматический словарь русского языка: Словоизменение / А.А. Зализняк. — Москва : Русский язык, 1980. — 880 c.” руская
Так CMU Паводле “Carnegie Mellon University Pronouncing Dictionary англійская
Не NEW Новыя словы для сэрвісу “Сінтэзатар маўлення па тэксце беларуская
Не S2016_01 Слоўнік даступны па спасылцы беларуская
Не S2016_02 Слоўнік даступны па спасылцы руская
Так S2016_03 Слоўнік даступны па спасылцы беларуская

Некаторыя з пералічаных слоўнікаў знаходзяцца ў працэсе пастаяннага папаўнення і развіцця.

Сярод некалькіх існуючых на цяперашні момант сэрвісаў праверкі беларускага правапісу толькі сэрвіс “Праверка правапісу” створаны на аснове праведзенай папярэдне сур’ёзнай навуковай працы, паколькі быў распрацаваны як адзін з этапаў папярэдняй апрацоўкі і нармалізацыі тэксту для сінтэзатара маўлення.

Варта зазначыць, што дадзены сэрвіс ахоплівае арфаграфічны, але не пунктуацыйны раздзел правапісу. Правільнасць дапасавання слоў і расстаноўкі знакаў прыпынку знаходзіцца па-за кампетэнцыяй дадзенага сэрвісу і застаецца за карыстальнікам або іншымі сэрвісамі, якія таксама задзейнічаныя ў Методыцы вычыткі электронных тэкстаў вялікага памеру пры дапамозе сэрвісаў платформы www.corpus.by. Праца дадзеных сэрвісу і методыкі апрабаваная ў шматлікіх праектах Лабараторыі распазнавання і сінтэзу маўлення і знаходзіцца ў стане пастаяннага развіцця і ўдасканальвання.

Сэрвіс “Праверка правапісу” здольны апрацоўваць як невялікія тэксты ад аднаго ці некалькіх слоў, так і тэксты вялікага памеру. Напрыклад, сэрвісам быў паспяхова правераны правапіс заканадаўчых кодэксаў і літаратурных твораў аб’ёмам каля 470 000 сімвалаў з прабеламі.

Першапачаткова дадзены сэрвіс быў распрацаваны як адзін з этапаў папярэдняй апрацоўкі і нармалізацыі тэксту для беларуска- і рускамоўнага сэрвісу “Сінтэзатар маўлення па тэксце”.

Апісанне інтэрфейсу карыстальніка

Знешні інтэрфейс сэрвісу прадстаўлены на малюнку 1.

Малюнак 1 – Графічны інтэрфейс сэрвісу “Праверка правапісу”

Інтэрфейс змяшчае наступныя вобласці:

  • поле ўводу электроннага тэксту;
  • поле “Ігнараваць словы” – поле ўводу слоў, якія павінны ігнаравацца пры праверцы;
  • поле “Максімум кантэкстаў” – задаць максімальную колькасць кантэкстаў невядомых слоў;
  • поле выбару слоўнікаў;
  • кнопка “Праверыць”, якая запускае апрацоўку і дае магчымасць атрымаць вынікі ў полі іх вываду.

Пасля апрацоўкі тэксту сэрвісам у полі вываду вынікаў карыстальнік атрымлівае наступныя спісы інфармацыі (малюнак 2):

  • “Словы і з кірылічнымі, і з лацінскімі сімваламі (колькасць)” – змяшчае словы, у якіх адначасова ўжытыя і кірылічныя, і лацінскія сімвалы, што верагодней за ўсё з’яўляецца памылковым напісаннем;
  • “Пазначце словы без памылак і клікніце «Пераправерыць!»” – змяшчае невядомыя сэрвісу словы, у якіх, верагодна, змяшчаецца памылка, што з’яўляецца асноўнымі вынікамі працы сэрвісу, патрэбнымі карыстальніку;
  • “Знойдзена ўнікальных напісанняў слоў (колькасць)” – колькасць слоў ва ўваходным электронным тэксце.

У правай калонцы выдзеленыя лацінскія сімвалы ў словах з кірылічнымі і лацінскімі сімваламі, а таксама даюцца прапановы па правільным напісанні невядомых сэрвісу слоў.

Карыстальніцкі сцэнар працы з сэрвісам

Заўвага: для большай якасці праверкі беларускамоўнага тэксту сэрвісам “Праверка правапісу” рэкамендавана напачатку праверыць тэкст праз сэрвіс “Праверка правапісу «Ў»”, прачытаўшы даведку па карыстанні ім.

  1. На старонцы сэрвісу ўвесці ў поле ўводу тэкст, які патрабуе праверкі.
  2. У поле “Ігнараваць словы” па жаданні ўвесці словы, якія не маюць патрэбы ў праверцы і будуць ігнаравацца сэрвісам. Напрыклад, гэта загадзя невядомыя сэрвісу спецыфічныя словы, якія часта выкарыстоўваюцца ў вузкаспецыяльным тэксце: абрэвіятуры, тэрміналогія і г.д., такія як УДК.
  3. У поле “Максімум кантэкстаў” увесці пажаданую колькасць кантэкстаў альбо пакінуць значэнне 10, якое стаіць па змаўчанні.
  4. У полі выбару слоўнікаў абраць патрэбныя слоўнікі, ставячы ці здымаючы значок насупраць слоўніка, альбо пакінуць пазнакі па змаўчанні.
  5. Націснуць кнопку “Праверыць!” і атрымаць вынік у полі вываду, якое з’явіцца ніжэй (малюнак 2).
  6. Праглядзець спіс “Словы і з кірылічнымі, і з лацінскімі сімваламі (колькасць)”, калі такі з’явіўся, і пры патрэбе ўнесці ў зыходны тэкст (напрыклад, у .doc-файл ці старонку) праўкі, а менавіта замяніць няправільна ўжытыя лацінскія сімвалы кірылічнымі;
  7. Праглядзець спіс “Пазначце словы без памылак і клікніце «Пераправерыць!»”, знайсці словы з памылкамі і ўнесці ў зыходны тэкст праўкі.
  8. Захаваць зыходны тэкст.

Малюнак 2 – Вынік праверкі правапісу ўваходнага электроннага тэксту

 

Спасылкі на крыніцы

Старонка сэрвісу: http://corpus.by/SpellChecker/?lang=be

Старонка сэрвісу “Праверка правапісу «Ў»”: http://corpus.by/ShortUSpellChecker/?lang=be

Старонка сэрвісу “Сінтэзатар маўлення па тэксце”: http://corpus.by/TextToSpeechSynthesizer/?lang=be

Перакрыжаваныя спасылкі

  1. Праверка арфаграфіі // Беларускі N-корпус [Электронны рэсурс]. — 2017. Рэжым доступу : http://bnkorpus.info/download.html. — Дата доступу : 07.03.2017.

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.