
Кратко
bigram_index можно использовать для разных задач, но в этой статье мы говорим именно о производительности поиска фраз: в приведённом ниже бенчмарке на 1 млн документов bigram_index='all' повысил QPS примерно в 2.9x и сократил среднее время ответа фразовых запросов примерно в 3.2x.
Если ваша основная проблема — сопоставление xt850 с xt 850, а не ускорение поиска фраз, см. Как заставить xt850 совпадать с xt 850 .
Поиск по фразам бывает дорогим. Даже если запрос короткий, движку всё равно нужно проверять порядок слов и стоят ли они рядом, и это особенно заметно, когда:
отдельные слова сами по себе очень частотны
объём данных большой
фразовые запросы часто встречаются в вашей нагрузке
Именно для этого предназначен bigram_index .
Что на самом деле делает индексация биграмм
Обычно фраза вроде "noise cancelling headphones" обрабатывается как набор отдельных токенов, которые при этом должны идти в правильном порядке и стоять рядом друг с другом. Индексация биграмм позволяет Manticore заранее сохранять пары соседних токенов, например:
noise cancellingcancelling headphones
Это даёт движку более быстрый способ сузить набор документов-кандидатов при поиске по фразе.
Здесь мы говорим именно про ускорение поиска по фразам.
Важное замечание: биграммы работают на уровне токенизации
Этот момент легко упустить, если смотреть только на историю про ускорение в идеальном сценарии.
bigram_index работает только на уровне токенизации. Он не учитывает последующие преобразования, такие как морфология, словоформы или стоп-слова, и из-за этого ожидания от поиска по фразам могут не совпасть с реальным поведением.
Практический вывод простой: биграммы могут отлично ускорять поиск фраз, но если ваш индекс сильно опирается на морфологию, словоформы или стоп-слова, сначала проверьте на своих данных, как у вас реально работает поиск по фразам.
Режим 1: Поведение по умолчанию
Это базовый режим. Явная индексация биграмм не включена, поэтому списки постингов для биграмм не хранятся.
Используйте его, когда:
поиск фраз редок
документы короткие
вам нужна самая быстрая индексация
Пример
DROP TABLE IF EXISTS bi_none_demo; CREATE TABLE bi_none_demo(title text); INSERT INTO bi_none_demo VALUES (1,'wireless noise cancelling headphones'), (2,'noise cancelling microphone'), (3,'wireless gaming headset'); SELECT id, title FROM bi_none_demo WHERE MATCH('"noise cancelling"');
Это базовое поведение. Запрос возвращает ожидаемые строки, но у Manticore нет предвычисленных списков постингов биграмм, которые помогали бы обрабатывать фразу эффективнее.
Режим 2: all
bigram_index = all
Это самый сильный режим ускорения поиска по фразам. Каждая пара соседних токенов индексируется как биграмма.
Используйте его, когда:
точный поиск фраз является основной функцией
фразовые запросы часто включают общие слова и дают много кандидатов
вам нужно максимальное ускорение поиска по фразам
вы не хотите настраивать список часто встречающихся слов
Пример
DROP TABLE IF EXISTS bi_all_demo; CREATE TABLE bi_all_demo(title text) bigram_index='all'; INSERT INTO bi_all_demo VALUES (1,'lord of the rings trilogy'), (2,'house of the dragon season 2'), (3,'made for iphone charger'); SELECT id, title FROM bi_all_demo WHERE MATCH('"house of the dragon"'); SELECT id, title FROM bi_all_demo WHERE MATCH('"made for iphone"');
Суть здесь не в том, какие строки совпадут, а в другой стратегии индексации: all сохраняет каждую соседнюю пару, поэтому во время поиска фраз движок получает максимальную помощь от биграмм.
Режим all стоит выбирать, когда поиск по фразам становится тяжелее из-за того, что отдельные слова совпадают во множестве документов и Manticore приходится делать больше позиционных проверок, чтобы подтвердить точную фразу. all помогает раньше сузить круг кандидатов.
Режим 3: first_freq
bigram_index = first_freq bigram_freq_words = for, of, the, with
В этом режиме пара сохраняется только в том случае, если первый токен входит в ваш список часто встречающихся слов.
Используйте его, когда:
поиск фраз важен
вы хотите более лёгкую альтернативу
allмногие фразы в ваших данных содержат слова, которые действительно часто встречаются
С приведённым выше списком:
for iphoneподходитof theподходитthe dragonподходитmade forне подходитlord ofне подходит
Для продакшн-использования не подбирайте bigram_freq_words наугад. Вы можете автоматически получить список из собственных данных. Практический способ — выгрузить статистику словаря с помощью indextool через --dumpdict ... --stats, посмотреть самые частые токены и затем собрать по этим результатам небольшой список bigram_freq_words.
Пример
DROP TABLE IF EXISTS bi_first_freq_demo; CREATE TABLE bi_first_freq_demo(title text) bigram_index='first_freq' bigram_freq_words='for,of,the,with'; INSERT INTO bi_first_freq_demo VALUES (1,'made for iphone charger'), (2,'lord of the rings trilogy'), (3,'house of the dragon season 2'); SELECT id, title FROM bi_first_freq_demo WHERE MATCH('"made for iphone"'); SELECT id, title FROM bi_first_freq_demo WHERE MATCH('"lord of the"');
Запросы по-прежнему возвращают ожидаемые строки. Меняется только то, какие пары индексируются:
"made for iphone"ускоряется за счётfor iphone"lord of the"ускоряется за счётof the
Это делает first_freq более лёгкой альтернативой all, когда многие полезные фразы включают часто встречающиеся связующие слова.
Режим 4: both_freq
bigram_index = both_freq bigram_freq_words = for, of, the, with
Это самый точечный режим из тех, что основаны на частоте. Пара сохраняется только тогда, когда оба токена входят в список часто встречающихся слов.
Используйте его, когда:
вам нужен минимальный объём биграмм
вам в основном важны пары из слов, которые часто встречаются в ваших данных
вы работаете с большим корпусом и не хотите индексировать каждую соседнюю пару
С тем же списком:
of theподходитfor iphoneне подходитthe dragonне подходит
Пример
DROP TABLE IF EXISTS bi_both_freq_demo; CREATE TABLE bi_both_freq_demo(title text) bigram_index='both_freq' bigram_freq_words='for,of,the,with'; INSERT INTO bi_both_freq_demo VALUES (1,'lord of the rings trilogy'), (2,'house of the dragon season 2'), (3,'made for iphone charger'); SELECT id, title FROM bi_both_freq_demo WHERE MATCH('"lord of the"'); SELECT id, title FROM bi_both_freq_demo WHERE MATCH('"made for iphone"');
Запросы по-прежнему совпадают, но внутренняя логика отбора здесь другая:
"lord of the"включаетof the, которыйboth_freqготов хранить"made for iphone"включаетfor iphone, который покрываетсяfirst_freq, ноboth_freqне хранит
Какой режим выбрать?
Бенчмарк в этой статье показывает, что all может дать заметное ускорение, но это всё равно только один бенчмарк на одном типе нагрузки.
В документации Manticore сказано, что для большинства сценариев лучшим режимом является both_freq. Это разумный выбор по умолчанию, потому что он даёт более сбалансированный компромисс между ускорением фраз и стоимостью индексации.
Используйте режимы так:
both_freq— исходная точка по умолчанию для общих задач поиска по фразамall— когда поиск фраз особенно важен и вам нужно максимальное ускорение, если более высокая стоимость индексации приемлемаfirst_freq— когда многие полезные фразы в ваших данных содержат частые служебные слова и вам нужен вариант шире, чемboth_freqповедение по умолчанию — когда ускорение фраз не важно
Бенчмарк: действительно ли индексация биграмм ускоряет поиск фраз?
Да. В простом локальном бенчмарке разница хорошо видна.
Мы использовали manticore-load, чтобы создать две таблицы по 1 млн документов на одном и том же инстансе Manticore:
одна без явной настройки
bigram_indexдругая с
bigram_index='all'
Документы представляли собой случайные тексты длиной 60–80 слов, а тест многократно выполнял случайные фразовые запросы из 2 слов.
Для наглядности и индексация, и поиск запускались с --threads=1. В многопоточных режимах показатели, конечно, будут выше, но однопоточные запуски позволяют проще увидеть, как эта настройка влияет на работу одного ядра процессора.
SELECT COUNT(*) FROM bench_bigram_* WHERE MATCH('"<text/2/2>"')
Настройка теста
Загрузка данных без биграмм:
manticore-load \ --drop \ --wait \ --threads=1 \ --batch-size=1000 \ --total=1000000 \ --init="CREATE TABLE bench_bigram_none_rand(title text)" \ --load="INSERT INTO bench_bigram_none_rand(id,title) VALUES(<increment>,'<text/60/80>')"
Загрузка данных с bigram_index='all':
manticore-load \ --drop \ --wait \ --threads=1 \ --batch-size=1000 \ --total=1000000 \ --init="CREATE TABLE bench_bigram_all_rand(title text) bigram_index='all'" \ --load="INSERT INTO bench_bigram_all_rand(id,title) VALUES(<increment>,'<text/60/80>')"
Тест поиска без биграмм:
manticore-load \ --threads=1 \ --total=5000 \ --load="SELECT COUNT(*) FROM bench_bigram_none_rand WHERE MATCH('\\\"<text/2/2>\\\"')"
Тест поиска с bigram_index='all':
manticore-load \ --threads=1 \ --total=5000 \ --load="SELECT COUNT(*) FROM bench_bigram_all_rand WHERE MATCH('\\\"<text/2/2>\\\"')"
Что мы увидели
В этом локальном запуске результаты были такими:
Table | QPS | Avg latency |
|---|---|---|
|
|
|
|
|
|
Это примерно 2.9x прироста QPS и около 3.2x снижения среднего времени ответа при той же нагрузке в 1 млн документов.
Индексация была медленнее с bigram_index='all', что ожидаемо:
без биграмм: около
45k docs/secс
all: около17k docs/sec
Именно этот компромисс объясняет, почему существует несколько режимов.
Итоговый вывод
Если ваша главная проблема — производительность поиска фраз, считайте bigram_index прежде всего функцией ускорения.
Для большинства реальных нагрузок начните с both_freq и измерьте результат. Переходите к all, если нужен более сильный эффект и вы можете позволить себе дополнительные затраты на индексацию. first_freq имеет смысл, если на поиск по фразам у вас сильно влияют частые служебные слова.
