Да, я ошибся. Я подумал, что этот метод прикольно решает такой кейс:
Есть какой-то семантический поиск на векторах в проде;
Вот пользователь по запросу «Корова» нашёл «Отличное молоко»;
Мы это заметили в логах и добавили токен «корова» к айтемам, вектора которых близки к «Отличному молоку»;
После этого векторный поиск можно убрать.
Ну и в этой схеме казалось, что без векторного поиска она не имеет смысла: «корова» найдётся только там, где этот токен уже есть. Но я не учёл, что будут айтемы, похожие по эмбедингу на «коровьи», но без самого слова — и их мы как раз добавим через логи.
Прикольно, интересно, что прирост «самый большой» за 4 года.
Типа, если бы раньше был только текстовый поиск (с бизнес-правилами), то никаких новых токенов QP бы не сгенерила, т.к. все токены, по которым мы документ находили, уже являются токенами документа. А получается, что все новые токены — это попытка тыкнуть в ретро и сказать: «На самом деле семантический ANN просто "находил" эти слова, давайте добавим их в индекс».
При этом понятно, что находил он дофига слов, и не все из них к клику/добавлению в корзину приводили, т.е. мы как бы так дообучаемся + интерпретируем одновременно.
P.S. Когда я начинал писать этот комментарий, я обратил внимание только на «интерпретируем»-часть, мне показалось странным, что прирост получился самый большой. Пока писал — понял, что мы ещё и дообучаемся всё-таки, ведь выбираем только те слова запроса, где часто кликали. И из странного оно стало просто интересным.
Получается, QP — способ избавиться от ANN в проде, сохранив его семантику, но только ту часть, которая реально работала
Да, я ошибся. Я подумал, что этот метод прикольно решает такой кейс:
Есть какой-то семантический поиск на векторах в проде;
Вот пользователь по запросу «Корова» нашёл «Отличное молоко»;
Мы это заметили в логах и добавили токен «корова» к айтемам, вектора которых близки к «Отличному молоку»;
После этого векторный поиск можно убрать.
Ну и в этой схеме казалось, что без векторного поиска она не имеет смысла: «корова» найдётся только там, где этот токен уже есть. Но я не учёл, что будут айтемы, похожие по эмбедингу на «коровьи», но без самого слова — и их мы как раз добавим через логи.
Спасибо за статью и ответ :)
Прикольно, интересно, что прирост «самый большой» за 4 года.
Типа, если бы раньше был только текстовый поиск (с бизнес-правилами), то никаких новых токенов QP бы не сгенерила, т.к. все токены, по которым мы документ находили, уже являются токенами документа. А получается, что все новые токены — это попытка тыкнуть в ретро и сказать: «На самом деле семантический ANN просто "находил" эти слова, давайте добавим их в индекс».
При этом понятно, что находил он дофига слов, и не все из них к клику/добавлению в корзину приводили, т.е. мы как бы так дообучаемся + интерпретируем одновременно.
P.S. Когда я начинал писать этот комментарий, я обратил внимание только на «интерпретируем»-часть, мне показалось странным, что прирост получился самый большой. Пока писал — понял, что мы ещё и дообучаемся всё-таки, ведь выбираем только те слова запроса, где часто кликали. И из странного оно стало просто интересным.
Получается, QP — способ избавиться от ANN в проде, сохранив его семантику, но только ту часть, которая реально работала