Такенізатар


Сэрвіс «Такенізатар» прызначаны для вылучэнне ў тэксце токенаў. На ўваход сэрвісу падаецца тэкст, які патрабуе такенізацыі. Пасля апрацоўкі тэксту на выхадзе карыстальнік атрымлівае спіс вылучаных токенаў.

 

Асноўныя тэрміны і паняцці

Такенізацыя (англ. tokenizing, лексічны аналіз) — вылучэнне ў тэксце токенаў спецыяльнай камп’ютарнай праграмай. Гэта працэс аналітычнага разбору ўваходнай паслядоўнасці знакаў на распазнаныя групы — лексемы, з мэтай атрымання на выхадзе ідэнтыфікаваных паслядоўнасцяў, так званых «токенаў». Лексічны аналіз выкарыстоўваецца ў кампілятарах і інтэрпрэтатарах зыходнага коду моў праграмавання, і ў розных парсерах слоў натуральных моў.

Токен (лексічны аналіз) — паслядоўнасць знакаў у лексічным аналізе ў інфарматыцы, адпаведны лексеме. Аб’ект, які ствараецца з лексемы ў працэсе лексічнага аналізу (такенізацыі).

Шаблон токена — фармальнае апісанне класу лексем, якія могуць стварыць дадзены тып токена.

 

Апісанне карыстальніцкага інтэрфейсу

Карыстальніцкі інтэрфейс сэрвісу прадстаўлены на малюнку 1.

Малюнак 1. Графічны інтэрфейс сэрвісу «Такенізатар»

Малюнак 1. Графічны інтэрфейс сэрвісу «Такенізатар»

  • поле ўводу тэксту, які патрабуе такенізацыі;
  • меню выбару мэтавай мовы;
  • кнопка «Атрымаць спіс токенаў!», якая запускае такенізацыю;
  • поле вываду, дзе адлюстроўваюцца вылучаныя токены.

 

Карыстальніцкі сцэнар працы з сэрвісам

  1. Увесці ў поле ўводу тэкст, які патрабуе такенізацыі.
  2. Выбраць мэтавую мову.
  3. Націснуць кнопку «Атрымаць спіс токенаў!».
  4. Праглядзець вылучаныя токены (малюнак 2).
Малюнак 2. Вынікі працы сэрвіса «Такенізатар»: вылучаныя токены

Малюнак 2. Вынікі працы сэрвіса «Такенізатар»: вылучаныя токены

Калі Вы знайшлі ў тэксце памылку правапісу, калі ласка, выдзеліце гэты тэкст і націсніце Ctrl+Enter.

Пакінуць каментарый

Your email address will not be published. Required fields are marked *