Український лематизатор тепер вбудовано в Manticore Search

#database #news #nlp #sql

Коротко

починаючи з релізу 27.1.5 український лематизатор більше не потребує окремого Python-стека.
Раніше потрібно було встановлювати окремий пакет, Python 3.9, pymorphy2 і українські словники.
Гарна новина - тепер словник уже входить до Manticore.

Достатньо лише ввімкнути явно морфологію:

morphology='lemmatize_uk_all'

Окремо додавати українські символи до charset_table також вже не потрібно: стандартний non_cont містить мапінги для є, і, ї, ґ.
А от апостроф для української мови важливий, але тут є один важливий нюанс. Якщо просто додати його в charset_table це може зачепити данні на англійській мові, де апостроф також використовується.

Саме тому для українських текстів ми рекомендуємо використовувати окрему таблицю з власним charset_table та апострофом, а не змішувати українську з англійською чи іншими мовами в одній таблиці.

Це все що потрібно урахувати для повноцінної підтримки Української в ManticoreSearch. Ніяких словників, пакетів чи скриптів. Тепер все працює прямо "з коробки"

Що таке лематизатор

У повнотекстовому пошуку часто потрібно знайти слово не лише в тій формі, яку ввів користувач. У документі може бути мрії, а користувач шукає мрія. Або в тексті є інтернет-магазину, а в запиті приходить інтернет-магазин. Людина легко бачить, що це форми того самого слова. Для пошукового рушія без морфології це різні токени.

Для цього в пошукових рушіях використовують стемінг і лематизацію.

Стемер зазвичай працює за правилами: відкидає або замінює закінчення. Це швидко, але результат буває грубим і не завжди схожим на справжнє слово.

Лематизатор спирається на словник і морфологію, щоб отримати нормальну форму слова. Для української мови це особливо помітно через відмінки, рід і число.

Що змінилося

Якщо ви вже пробували українську лематизацію в Manticore, то проблема могла бути не в самому пошуку, а у встановленні:

окремий manticore-lemmatizer-uk;
Python 3.9 з --enable-shared;
pymorphy2 і pymorphy2-dicts-uk;
додаткові системні залежності.

Тепер український словник постачається як звичайний мовний файл uk.pak, а Manticore завантажує його напряму. Вам залишається налаштувати таблицю: вказати потрібну morphology і працювати далі.

Мінімальна конфігурація

Створимо таблицю для українських текстів:

CREATE TABLE uk_docs(title text)
  morphology='lemmatize_uk_all'
  charset_table='non_cont,U+0027';

Тут важливо ввімкнути морфологію:

morphology='lemmatize_uk_all' вмикає український лематизатор та індексує усі знайдені нормальні форми.

Для української мови додаємо лише апостроф (U+0027), щоб слова на кшталт обов'язковим індексувалися як один токен.

Для однієї нормальної форми підійде lemmatize_uk. Щоб індексувати усі можливі форми, виберіть lemmatize_uk_all.

Перевіримо на прикладі

Додамо кілька документів:

INSERT INTO uk_docs VALUES
  (1, 'мрії про червону сукню'),
  (2, 'каталог інтернет-магазину'),
  (3, 'команд-учасниць запросили на зустріч');

Запит мрія знаходить документ, де слово записано як мрії:

SELECT id, title FROM uk_docs WHERE MATCH('мрія') ORDER BY id ASC;

+------+---------------------------+
| id   | title                     |
+------+---------------------------+
|    1 | мрії про червону сукню    |
+------+---------------------------+

Запит червоний знаходить червону:

SELECT id, title FROM uk_docs WHERE MATCH('червоний') ORDER BY id ASC;

+------+---------------------------+
| id   | title                     |
+------+---------------------------+
|    1 | мрії про червону сукню    |
+------+---------------------------+

А інтернет-магазин знаходить інтернет-магазину:

SELECT id, title FROM uk_docs WHERE MATCH('інтернет-магазин') ORDER BY id ASC;

+------+---------------------------+
| id   | title                     |
+------+---------------------------+
|    2 | каталог інтернет-магазину |
+------+---------------------------+

Що відбувається з токенами

Якщо хочете побачити не лише результат пошуку, а й саму нормалізацію, використовуйте CALL KEYWORDS:

CALL KEYWORDS(
  'мрії червона інтернет-магазину команд-учасниць',
  'uk_docs'
);

+------+--------------------+--------------+
| qpos | tokenized          | normalized   |
+------+--------------------+--------------+
| 1    | мрії               | мрія         |
| 2    | червона            | червоний     |
| 3    | інтернет           | інтернет     |
| 4    | магазину           | магазин      |
| 5    | команд             | команда      |
| 6    | учасниць           | учасниця     |
+------+--------------------+--------------+

Тут добре видно різницю з простим обрізанням закінчень: на виході маємо нормальні форми слів, за якими вже можна шукати. мрії перетворюється на мрія, червона на червоний, магазину на магазин.

Що варто пам'ятати

Користуватися українським лематизатором стало простіше, але для кожної таблиці його все одно треба ввімкнути явно через morphology.

Стандартний charset_table=non_cont уже покриває українські символи є, і, ї, ґ. Якщо ви задаєте таблицю саме для українських текстів, достатньо додати до нього апостроф: charset_table='non_cont,U+0027'.

Якщо ви використовуєте офіційні пакети або образи Manticore Search актуальних версій, український uk.pak уже має бути на місці. Якщо у вас власна збірка або нестандартне розташування файлів, перевірте, що lemmatizer_base вказує на каталог, де лежить uk.pak.

Докладніше про налаштування морфології можна прочитати в документації: morphology.