(Беларуская) Методыка вычыткі электронных тэкстаў вялікага памеру пры дапамозе сэрвісаў платформы www.corpus.by


Sorry, this entry is only available in Беларуская. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

Пра методыку

Ніжэй прыведзена методыка вычыткі электроннага тэксту праз праграмнае забеспячэнне, распрацаванае супрацоўнікамі Лабараторыі распазнавання і сінтэзу маўлення Аб’яднанага інстытута праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі. Выкананне дадзенай методыкі дазваляе атрымаць вычытаны, арфаграфічна правільны тэкст на беларускай, англійскай і рускай мовах.

Прапанаваным праграмным забеспячэннем з’яўляюцца сэрвісы апрацоўкі электроннай тэкставай інфармацыі, якія размешчаны на Інтэрнэт-платформе для апрацоўкі тэксту і маўлення www.corpus.by. Дадзенае праграмнае забеспячэнне працуе ў рэжыме анлайн і не патрабуе ўсталявання на камп’ютар.

Сутнасць методыкі вычыткі палягае ў апрацоўцы тэксту наступнымі анлайн-сэрвісамі: «Падлік частотнасці сімвалаў», «Падлік частотнасці слоў», «Праверка правапісу “Ў”», «Праверка правапісу», «Ідэнтыфікатар амографаў».

Па выніках апрацоўкі тэксту кожным сэрвісам карыстальнік можа праглядаць атрыманыя вынікі і па жаданні ўносіць у тэкст адпаведныя праўкі. Таксама вынікі можна скапіраваць, уставіць у файл *.doc і захаваць.

Дадзеная методыка вычыткі ахоплівае арфаграфічны, але не пунктуацыйны раздзел правапісу. Правільнасць дапасавання слоў і расстаноўкі знакаў прыпынку знаходзіцца па-за кампетэнцыяй дадзенай методыкі. Таксама методыка апрабаваная ў шматлікіх праектах Лабараторыі распазнавання і сінтэзу маўлення АІПІ НАН Беларусі, таму рэкамендавана ажыццяўляць апрацоўку сэрвісамі ў прыведзеным ніжэй парадку, які змяшчае 6 паслядоўных этапаў.

Усе прыведзеныя ніжэй этапы аналагічна датычаць і вычыткі тэкстаў на англійскай і рускай мовах, за выключэннем этапу 3 (апрацоўка тэксту сэрвісам «Праверка правапісу “Ў”»).

 

Працэс вычыткі

Для атрымання арфаграфічна правільнага тэксту неабходна прайсці 6 этапаў вычыткі праз сэрвісы платформы www.corpus.by (малюнак 1). Перад пачаткам унясення правак рэкамендавана зрабіць копію правяраемага тэксту.

Малюнак 1. Галоўная старонка камп’ютарна-лінгвістычнай платформы www.corpus.by

На галоўнай старонцы платформы для большай зручнасці працы трэба націснуць кнопкі: фільтр «Вычытка» і парадак «Лагічны» (малюнак 2). Застануцца толькі сэрвісы, задзейнічаныя ў працэсе вычыткі тэкстаў.

Малюнак 2. Сэрвісы вычыткі на платформе www.corpus.by

Этап 1. Вычытка праз сэрвіс «Падлік частотнасці сімвалаў»

Сэрвіс «Падлік частотнасці сімвалаў» прадэманструе спіс усіх сімвалаў, выкарыстаных у тэксце, і дазволіць выявіць і выправіць іх памылковае выкарыстанне. Інтэрфейс сэрвісу прадстаўлены на малюнку 3.

Малюнак 3. Інтэрфейс сэрвісу «Падлік частотнасці сімвалаў»

Для атрымання вынікаў неабходна скапіраваць і ўставіць тэкст у поле ўводу, пасля чаго націснуць кнопку «Атрымаць інфармацыю пра частотнасць сімвалаў!». Адлюструюцца вынікі ў выглядзе, як на малюнку 4.

Малюнак 4. Вынікі працы сэрвісу «Падлік частотнасці сімвалаў»

Сэрвіс «Падлік частотнасці сімвалаў» паказвае колькасць выкарыстаных дужак, і калі колькасць левых і правых дужак не супадае, то, хутчэй за ўсё, у тэксце ёсць пунктуацыйныя памылкі. Таксама праз сэрвіс можна праверыць факты выкарыстання дэфісаў, слэшаў, розных відаў двукоссяў і працяжнікаў.

Неабходна прагледзець спіс і праверыць у ім наступныя моманты:

  • ці аднолькавая колькасць круглых дужак ( ), [];
  • ці аднолькавая колькасць падвоеных двукоссяў “ ” і « »;
  • ці прысутнічаюць у тэксце адзіночныя двукоссі , якія не павінны прысутнічаць, калі ўжо выкарыстоўваюцца падвоеныя двукоссі “ ” і « »;
  • ці правільна выкарыстоўваецца злучок -, кароткі, доўгі працяжнікі –, —;
  • ці прысутнічаюць лацінскія літары ў кірылічным тэксце.

Па знойдзеных памылковых ужываннях сімвалаў неабходна ўнесці праўкі ў тэкст, пераправерыць сэрвісам яшчэ раз скарэктаваны тэкст, і перайсці да наступнага этапу вычыткі.

Сэрвіс «Падлік частотнасці сімвалаў» даступны па спасылцы: http://corpus.by/CharacterFrequencyCounter/?lang=be

Падрабязная інструкцыя па карыстанні сэрвісам: http://ssrlab.by/3323

Этап 2. Вычытка праз сэрвіс «Падлік частотнасці слоў»

Сэрвіс «Падлік частотнасці слоў» дазваляе выявіць словы з лацінскімі сімваламі і іх кантэкст – месцы ў тэксце, дзе словы з лацінскімі сімваламі знаходзяцца (малюнак 5).

Малюнак 5. Інтэрфейс сэрвісу «Падлік частотнасці слоў»

Калі ў словах кірылічнага напісання ёсць візуальна аднолькавыя лацінскія сімвалы (а, і, с і г.д.), то падчас вычыткі наступнымі сэрвісамі тэкст будзе апрацаваны недакладна, таму такія сімвалы павінны быць выяўлены і заменены кірылічнымі.
Напрыклад, у тэксце «Грушa цвiлa апoшнi гoд» у некаторых словах выкарыстаны лацінскія сімвалы і, о, а (падкрэсленыя). Каб іх выявіць, трэба ўставіць гэты тэкст у поле ўводу, а ў полі «Сімвалы, з якіх можа складацца слова» трэба пакінуць толькі сімвалы лацінскага алфавіту (малюнак 6).

Малюнак 6. Поле «Сімвалы, з якіх можа складацца слова» з сімваламі толькі лацінскага алфавіту

Для зручнасці прагляду вынікаў працы сэрвісу рэкамендуецца адключыць значок «Выводзіць асобна левыя і правыя кантэксты», пасля чаго націснуць кнопку «Атрымаць частату слоў!». Адлюструюцца вынікі, прадстаўленыя на малюнку 7.

Малюнак 7. Вынікі працы сэрвісу «Падлік частотнасці слоў»

Неабходна прагледзець спіс знойдзеных слоў. Калі частата ўжывання памылковага сімвала/слова перавышае колькасць атрыманых кантэкстаў, трэба ўвесці лічбу максімальнай частаты ў поле “Колькасць кантэкстаў» і зноў націснуць кнопку «Атрымаць частату слоў!».

Па знойдзеных сярод вынікаў памылковых ужываннях лацінскіх сімвалаў неабходна ўнесці праўкі ў асноўны тэкст, замяняючы лацінскія сімвалы кірылічнымі, пераправерыць сэрвісам яшчэ раз скарэктаваны тэкст, і перайсці да наступнага этапу вычыткі.

Сэрвіс «Падлік частотнасці слоў» даступны па спасылцы: http://corpus.by/WordFrequencyCounter/?lang=be

Падрабязная інструкцыя па карыстанні сэрвісам: http://ssrlab.by/1457

 

Этап 3. Вычытка праз сэрвіс «Праверка правапісу “Ў”»

Сэрвіс «Праверка правапісу “Ў”» правярае правільнасць ужывання ў тэксце літар «у» і «ў» (малюнак 8).

Алгарытм сэрвісу шукае «у», «ў» і «Ў», глядзіць на папярэднюю літару ці знакі прыпынку, і правярае правільнасць ужывання «у», «ў» і «Ў».
Сэрвіс мае поле «Выключэнні», дзе змяшчаюцца актуальныя на гэты момант выключэнні з правілаў правапісу літары «ў». Поле можна рэдагаваць: выдаляць уведзеныя па змаўчанні і дадаваць неабходныя карыстальніку выключэнні.

Малюнак 8. Інтэрфейс сэрвісу «Праверка правапісу “Ў”»

Для атрымання вынікаў неабходна скапіраваць і ўставіць тэкст у поле ўводу, пасля чаго націснуць кнопку «Праверыць!». Адлюструюцца вынікі, прадстаўленыя на малюнку 9.

Малюнак 9. Вынікі працы сэрвісу «Праверка правапісу “Ў”»

Неабходна прагледзець спіс месцаў, дзе сэрвіс знайшоў выпадкі няправільнага ўжывання «у» і «ў». Па знойдзеных памылках трэба ўнесці праўкі ў тэкст, пераправерыць сэрвісам яшчэ раз скарэктаваны тэкст, і перайсці да наступнага этапу вычыткі.

Сэрвіс «Праверка правапісу “Ў”» даступны па спасылцы: http://corpus.by/ShortUSpellChecker/?lang=be

Падрабязная інструкцыя па карыстанні сэрвісам: http://ssrlab.by/1404

 

Этап 4. Вычытка праз сэрвіс «Праверка правапісу»

Сэрвіс «Праверка правапісу» выяўляе словы з памылкамі, а менавіта правярае тэкст на словы, якія адсутнічаюць у слоўніках сэрвісу. Інтэрфейс сэрвісу прадстаўлены на малюнку 10.

Малюнак 10. Інтэрфейс сэрвісу “Праверка правапісу»

Слова, напісанае з памылкай, адсутнічае ў слоўніках і будзе пазначана сэрвісам як невядомае. У спіс невядомых слоў таксама трапляюць словы, якія не змяшчаюць памылку, але адсутнічаюць у слоўніку. Таксама сэрвіс дае магчымасць ігнараваць пэўныя словы. Гэтая магчымасць можа спатрэбіцца пры вычытцы карыстальнікам вузкаспецыяльнага тэксту, каб выключыць пападанне загадзя невядомага сэрвісу слова ў спіс невядомых і паскорыць прагляд гэтага спісу.

Каб атрымаць спіс слоў, у якіх, верагодна, знаходзяцца памылкі, трэба ўставіць тэкст у поле ўводу і націснуць кнопку «Праверыць!». Невядомыя словы выводзяцца ў выглядзе спісу з магчымасцю адзначыць правільнасць напісання таго ці іншага слова і пабачыць кантэкст яго выкарыстання (малюнак 11).

Малюнак 11. Вынікі працы сэрвісу «Праверка правапісу»

Неабходна прагледзець спіс невядомых сэрвісу слоў і знайсці сярод іх словы, напісаныя з памылкамі. Па знойдзеных памылках неабходна ўнесці праўкі ў тэкст, пераправерыць сэрвісам яшчэ раз скарэктаваны тэкст, і перайсці да наступнага этапу вычыткі.

Сэрвіс «Праверка правапісу» даступны па спасылцы: http://corpus.by/SpellChecker/?lang=be

Больш падрабязная інструкцыя па карыстанні сэрвісам: http://ssrlab.by/3334

 

Этап 5. Вычытка праз сэрвіс «Ідэнтыфікатар амографаў»

Сэрвіс «Ідэнтыфікатар амографаў» паказвае карыстальніку амографы — словы, якія маюць аднолькавае напісанне і рознае вымаўленне, напрыклад, му́зыка і музы́ка (малюнак 12).

Малюнак 12. Інтэрфейс сэрвісу «Ідэнтыфікатар амографаў»

Каб атрымаць спіс выкарыстаных у тэксце амографаў, трэба ўставіць тэкст у поле ўводу і націснуць кнопку «Шукаць амографы!». За адзін раз сэрвіс можа апрацаваць тэкст аб’ёмам каля 20-30 старонак. Для зручнасці таксама пададзены кантэксты, у якіх знаходзяцца амографы (малюнак 13).

Малюнак 13. Вынікі працы сэрвісу «Ідэнтыфікатар амографаў»

Неабходна ўважліва прагледзець спіс знойдзеных амографаў і прыняць рашэнне, у якіх словах-амографах і на якіх складах у тэксце трэба пазначыць націскі, і ўнесці гэтыя націскі ў тэкст.

Націск у праграме Microsoft Office Word дадаецца наступным чынам: трэба паставіць курсор пасля літары, на якой неабходны націск, заціснуць клавішу Alt і набраць на лічбавай клавіятуры справа паслядоўнасць лічбаў 0769.

Сэрвіс «Ідэнтыфікатар амографаў» даступны па спасылцы: http://corpus.by/HomographIdentifier/?lang=be

Больш падрабязная інструкцыя па карыстанні сэрвісам: http://ssrlab.by/4218

 

Этап 6. Вычытка праз сэрвіс «Падлік частотнасці слоў»

Сэрвіс «Падлік частотнасці слоў», інтэрфейс якога быў прадстаўлены на малюнку 5, таксама складае слоўнік-частотнік з кантэкстамі. У слоўніку-частотніку можна будзе пабачыць усе ўжытыя ў тэксце словы з частатой іх з’яўлення і кантэкстамі ўжывання. Гэты слоўнік дапаможа ажыццявіць стылістычную вычытку, паколькі дае магчымасць пабачыць, ці ў правільным значэнні выкарыстоўваецца тое ці іншае слова. Можна таксама скарыстацца полем «Шукаць толькі наступныя словы», па якім сэрвіс прадэманструе частату і кантэкст ужывання канкрэтных слоў.
Для зручнасці прагляду вынікаў працы сэрвісу рэкамендуецца адключыць значок «Выводзіць асобна левыя і правыя кантэксты», а ў полі «Колькасць кантэкстаў» увесці лік 100 (малюнак 14).

Малюнак 14. Налады сэрвіса «Падлік частотнасці слоў» для складання слоўніка-частотніка

Пасля трэба націснуць кнопку «Атрымаць частату слоў!». Адлюструюцца вынікі, прадстаўленыя на малюнку 15.

Малюнак 15. Вынікі працы сэрвісу «Падлік частотнасці слоў»

Далей трэба выявіць найбольшы лік у калонцы «Частата” і ўвесці яго ў полі «Колькасць кантэкстаў», пасля чаго зноў націснуць «Атрымаць частату слоў!». Тады можна атрымаць дакладна ўсе магчымыя кантэксты ўжывання слоў.

Неабходна ўважліва прагледзець спіс частотнасці слоў, разглядаючы кантэкст іх выкарыстання, і пры неабходнасці ўнесці праўкі ў тэкст.

Выкананне ўсіх этапаў дадзенай методыкі дазваляе атрымаць вычытаны, арфаграфічна правільны тэкст на беларускай мове.

Пералічаныя ў гэтай метадычцы сэрвісы і апісаны алгарытм вычыткі знаходзяцца ў стане пастаяннай дапрацоўкі і ўдасканалення. Лабараторыя распазнавання і сінтэзу маўлення вітае ўсе заўвагі і прапановы па паляпшэнні працы сэрвісаў і дадзенай методыкі.

 

Кантактныя дадзеныя для зваротнай сувязі:

Лабараторыя распазнавання і сінтэзу маўлення

Адрас: вул. Сурганава, 6, пакоі 422, 430 і 432

220012, г. Мінск, Беларусь

Тэл.: +375 (17) 284-27-73 (пакой 422)

Факс: +375 17 284-21-75 (прыёмная Інстытута)

E-mail: yuras.hetsevich@newman.bas-net.by, ssrlab221@gmail.com

Нацыянальнай акадэміі навук Беларусі

Аб’яднаны інстытут праблем інфарматыкі

If you have found a spelling error, please, notify us by selecting that text and pressing Ctrl+Enter.

Leave a comment

Your email address will not be published. Required fields are marked *