close

DEV Community

Cover image for Український лематизатор тепер вбудовано в Manticore Search
Sergey Nikolaev
Sergey Nikolaev

Posted on • Originally published at manticoresearch.com

Український лематизатор тепер вбудовано в Manticore Search

Коротко

починаючи з релізу 27.1.5 український лематизатор більше не потребує окремого Python-стека.
Раніше потрібно було встановлювати окремий пакет, Python 3.9, pymorphy2 і українські словники.
Гарна новина - тепер словник уже входить до Manticore.

Достатньо лише ввімкнути явно морфологію:

morphology='lemmatize_uk_all'
Enter fullscreen mode Exit fullscreen mode

Окремо додавати українські символи до charset_table також вже не потрібно: стандартний non_cont містить мапінги для є, і, ї, ґ.
А от апостроф для української мови важливий, але тут є один важливий нюанс. Якщо просто додати його в charset_table це може зачепити данні на англійській мові, де апостроф також використовується.

Саме тому для українських текстів ми рекомендуємо використовувати окрему таблицю з власним charset_table та апострофом, а не змішувати українську з англійською чи іншими мовами в одній таблиці.

Це все що потрібно урахувати для повноцінної підтримки Української в ManticoreSearch. Ніяких словників, пакетів чи скриптів. Тепер все працює прямо "з коробки"

Що таке лематизатор

У повнотекстовому пошуку часто потрібно знайти слово не лише в тій формі, яку ввів користувач. У документі може бути мрії, а користувач шукає мрія. Або в тексті є інтернет-магазину, а в запиті приходить інтернет-магазин. Людина легко бачить, що це форми того самого слова. Для пошукового рушія без морфології це різні токени.

Для цього в пошукових рушіях використовують стемінг і лематизацію.

Стемер зазвичай працює за правилами: відкидає або замінює закінчення. Це швидко, але результат буває грубим і не завжди схожим на справжнє слово.

Лематизатор спирається на словник і морфологію, щоб отримати нормальну форму слова. Для української мови це особливо помітно через відмінки, рід і число.

Що змінилося

Якщо ви вже пробували українську лематизацію в Manticore, то проблема могла бути не в самому пошуку, а у встановленні:

  • окремий manticore-lemmatizer-uk;
  • Python 3.9 з --enable-shared;
  • pymorphy2 і pymorphy2-dicts-uk;
  • додаткові системні залежності.

Тепер український словник постачається як звичайний мовний файл uk.pak, а Manticore завантажує його напряму. Вам залишається налаштувати таблицю: вказати потрібну morphology і працювати далі.

Мінімальна конфігурація

Створимо таблицю для українських текстів:

CREATE TABLE uk_docs(title text)
  morphology='lemmatize_uk_all'
  charset_table='non_cont,U+0027';
Enter fullscreen mode Exit fullscreen mode

Тут важливо ввімкнути морфологію:

  • morphology='lemmatize_uk_all' вмикає український лематизатор та індексує усі знайдені нормальні форми.

Для української мови додаємо лише апостроф (U+0027), щоб слова на кшталт обов'язковим індексувалися як один токен.

Для однієї нормальної форми підійде lemmatize_uk. Щоб індексувати усі можливі форми, виберіть lemmatize_uk_all.

Перевіримо на прикладі

Додамо кілька документів:

INSERT INTO uk_docs VALUES
  (1, 'мрії про червону сукню'),
  (2, 'каталог інтернет-магазину'),
  (3, 'команд-учасниць запросили на зустріч');
Enter fullscreen mode Exit fullscreen mode

Запит мрія знаходить документ, де слово записано як мрії:

SELECT id, title FROM uk_docs WHERE MATCH('мрія') ORDER BY id ASC;
Enter fullscreen mode Exit fullscreen mode
+------+---------------------------+
| id   | title                     |
+------+---------------------------+
|    1 | мрії про червону сукню    |
+------+---------------------------+
Enter fullscreen mode Exit fullscreen mode

Запит червоний знаходить червону:

SELECT id, title FROM uk_docs WHERE MATCH('червоний') ORDER BY id ASC;
Enter fullscreen mode Exit fullscreen mode
+------+---------------------------+
| id   | title                     |
+------+---------------------------+
|    1 | мрії про червону сукню    |
+------+---------------------------+
Enter fullscreen mode Exit fullscreen mode

А інтернет-магазин знаходить інтернет-магазину:

SELECT id, title FROM uk_docs WHERE MATCH('інтернет-магазин') ORDER BY id ASC;
Enter fullscreen mode Exit fullscreen mode
+------+---------------------------+
| id   | title                     |
+------+---------------------------+
|    2 | каталог інтернет-магазину |
+------+---------------------------+
Enter fullscreen mode Exit fullscreen mode

Що відбувається з токенами

Якщо хочете побачити не лише результат пошуку, а й саму нормалізацію, використовуйте CALL KEYWORDS:

CALL KEYWORDS(
  'мрії червона інтернет-магазину команд-учасниць',
  'uk_docs'
);
Enter fullscreen mode Exit fullscreen mode
+------+--------------------+--------------+
| qpos | tokenized          | normalized   |
+------+--------------------+--------------+
| 1    | мрії               | мрія         |
| 2    | червона            | червоний     |
| 3    | інтернет           | інтернет     |
| 4    | магазину           | магазин      |
| 5    | команд             | команда      |
| 6    | учасниць           | учасниця     |
+------+--------------------+--------------+
Enter fullscreen mode Exit fullscreen mode

Тут добре видно різницю з простим обрізанням закінчень: на виході маємо нормальні форми слів, за якими вже можна шукати. мрії перетворюється на мрія, червона на червоний, магазину на магазин.

Що варто пам'ятати

Користуватися українським лематизатором стало простіше, але для кожної таблиці його все одно треба ввімкнути явно через morphology.

Стандартний charset_table=non_cont уже покриває українські символи є, і, ї, ґ. Якщо ви задаєте таблицю саме для українських текстів, достатньо додати до нього апостроф: charset_table='non_cont,U+0027'.

Якщо ви використовуєте офіційні пакети або образи Manticore Search актуальних версій, український uk.pak уже має бути на місці. Якщо у вас власна збірка або нестандартне розташування файлів, перевірте, що lemmatizer_base вказує на каталог, де лежить uk.pak.

Докладніше про налаштування морфології можна прочитати в документації: morphology.

Top comments (0)