Bright_Translate 22 июн в 09:01

Простой механизм поиска с нуля

14 мин

5.3K

Блог компании RUVDS.comМашинное обучение*Поисковая оптимизация*Поисковые технологии*Браузеры

Туториал

Перевод

+56

Комментарии 6

ialexander 22 июн в 09:46

Неожиданно видеть такие статьи в 2025 году, а не в 2015. Я проверил оригинал, вдруг перевод безнадежно запоздал, но нет.

Собственно идея similarity search очень стара. К примеру, статья о Vantage-Point Tree, позволяющей эффективный поиск в n-мерном пространстве была опубликована в 1993 году. Когда Google опубликовал статью о word2vec в 2023 году тогда же люди начали эксперементировать c semantic search, используя word embeddings. Собственно сама эта статья напрямую об этом говорила

”What is the word that is similar to small in the same sense as biggest is similar to big?” Somewhat surprisingly, these questions can be answered by performing simple algebraic operations with the vector representation of words. To find a word that is similar to small in the same sense as biggest is similar to big, we can simply compute vector X = vector(”biggest”)−vector(”big”) + vector(”small”). Then, we search in the vector space for the word closest to X measured by cosine distance, and use it as the answer to the question (we discard the input question words during this search).

К 2025 году это идея уже давно стала mainstream, многие базы данных предлагают такой функционал в том или ином виде (MongoDB, Redis, SQL Server, Oracle). Это основа RAG.

И тут внезапно появляется статья, которая чуть ли не претендует на новизну этой идеи.

avdosev 22 июн в 11:14

И тут внезапно появляется статья, которая чуть ли не претендует на новизну этой идеи.

Да вроде и нет, автор явно с первого абзаца говорит, что он не эксперт в теме (цитата: "так как до этого с word2vec я был знаком лишь отдалённо"), а скорее пишет по фану.

Есть правда нюанс, что вот такая статья очень легко привлечет новичка, но поведет по сложному пути велосипедов и устаревших методов, и даже какой-нибудь ChatGPT даст в этом плане на такой вопрос более содержательный и полезный ответ.

Но в целом статья — приятный пример велосипедостроительства.

ialexander 22 июн в 11:36

Да, автор скорее отдает авторство Крису.

Но для меня эта статья выглядит примерно как если кто-то написал: "смотрите как просто реализовать самобалансирующееся дерево поиска" и дальше описал алгоритмы красно-черного дерева, без указания, что это лишь одна из реализаций известной и хорошо описанной структуры данных.

И тут тоже не помешало бы указать, что это очередная реализация семантического поиска, известная и хорошо описанная концепция, предлагаемая из коробки во многих сервисах.

PS в своем первом комментарии я опечался и указазал, что word2vec появился в 2023 году, хотя на самом деле в 2013.

ris58h 22 июн в 17:22

Когда Google опубликовал статью о word2vec в 2023 году

В 2013ом.

KMiNT21 24 июн в 12:44

Неожиданно видеть такие статьи в 2025 году, а не в 2015

Я тоже с недоумением листал статью, вспоминая, как давным-давным-давно такое пилил (и TF–IDF, и кластеризацию по тематикам). А тут прям ажжжж "Идеи на будущее".

apcs660 22 июн в 18:28

RAG в первобытном виде, с внешним набором семантических векторов, если для обучения, то почему бы и нет?

Недавно расковыривал формат документов IBM COLD - был заказ на миграцию древнего репозитория, прикоснулся к истории.

В COLD оказалась архивация со статическим внешним словарем (некое подобие алгоритма Хаффмана, только маппинг текстовых кусков, так что сразу не поймешь) и пробелы заменялись как в GIF формате (если символ больше чем ASCII 127 - то разница с 127 это количество пробелов в строке). Тексты строго АSCII 127.

Понятно отчего такие ужимки - времена мейнфреймов, память дорогая, внутрь архива словарь всовывать дорого.

Подобное же впечатление от этой статьи.

Недавно попалась другая крайность - обучали для lucene на DL4J модель для word2vec и затем мучались с тем что Люсин тормозит (беспощадно), поиск по фразам не работает нормально и тд - потому что применение векторного поиска в этом движке неуместно. Лучше искать в специализированной векторной базе, каждому овощу свое время,как говорится...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий