Обновить
1

Пользователь

Отправить сообщение

Да, я ошибся. Я подумал, что этот метод прикольно решает такой кейс:

  1. Есть какой-то семантический поиск на векторах в проде;

  2. Вот пользователь по запросу «Корова» нашёл «Отличное молоко»;

  3. Мы это заметили в логах и добавили токен «корова» к айтемам, вектора которых близки к «Отличному молоку»;

  4. После этого векторный поиск можно убрать.

Ну и в этой схеме казалось, что без векторного поиска она не имеет смысла: «корова» найдётся только там, где этот токен уже есть. Но я не учёл, что будут айтемы, похожие по эмбедингу на «коровьи», но без самого слова — и их мы как раз добавим через логи.

Спасибо за статью и ответ :)

Прикольно, интересно, что прирост «самый большой» за 4 года.

Типа, если бы раньше был только текстовый поиск (с бизнес-правилами), то никаких новых токенов QP бы не сгенерила, т.к. все токены, по которым мы документ находили, уже являются токенами документа. А получается, что все новые токены — это попытка тыкнуть в ретро и сказать: «На самом деле семантический ANN просто "находил" эти слова, давайте добавим их в индекс».

При этом понятно, что находил он дофига слов, и не все из них к клику/добавлению в корзину приводили, т.е. мы как бы так дообучаемся + интерпретируем одновременно.

P.S. Когда я начинал писать этот комментарий, я обратил внимание только на «интерпретируем»-часть, мне показалось странным, что прирост получился самый большой. Пока писал — понял, что мы ещё и дообучаемся всё-таки, ведь выбираем только те слова запроса, где часто кликали. И из странного оно стало просто интересным.

Получается, QP — способ избавиться от ANN в проде, сохранив его семантику, но только ту часть, которая реально работала

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность