Как стать автором
Обновить

Он победил LLM RAG: реализуем BM25+ с самых азов

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров15K
Всего голосов 33: ↑32 и ↓1+39
Комментарии13

Комментарии 13

Однако чем чаще встречается слово, тем больше происходит насыщение

Так вот почему на Али ничего не найти -- все товары имеют все слова мира... Попытка уточнения поиска приводит к ухудшению результата

Например, в документе "smasmart" содержатся следующие N-граммы: {"sma": 2, "max": 1, "asm": 1, "mar": 1, "art": 1}

Мини опечатка, не "max" а "mas"

Спасибо

Эхх, вот только ИИ (про RAG есть свои особенности, например он очень сильно зависит от того как и с помощью каких моделей будут строить индекс) найдет по запросу на другом языке, или перфразированным запросом, типа 'звонилка' или даже 'трубка', 'айфонг' или 'айфонище', а если очень хорошо постараться, сможет искать по критериям, типа 'лопату фотки делать ночью' (я знаю что все доступные каталоги часто не содержат важные критерии для поиска, а сами понимаете, невозможно искать то чего нет, поэтому представим что все есть, и главное на основе ИИ можно сделать краулер, который будет по всяким 4pda собирать по крупицам информацию о возможностях железа)

ВМ25 - тоже представитель ИИ. Полагаю, тут ИИ имеется в виду, как нейронная сеть :)

Но и без нейронных сетей можно собрать решение, которое и синонимы найдет, и краулер умный сделать можно, причем совершенно не уступающий по качеству, но зато более быстрый.

С другой стороны, решение на нейронках проще собрать, если время ограничено или желания разбираться нет :)

да, проблема с адекватным именованием, общество по разному понимает что такое ИИ причем в разное время, например до появления llm-ок на базе gpt, ИИ называли любую конструкцию, выполняющую сугубо человеческие функции, часто узкоспециализированные, но после - внезапно все что до ИИ быть перестало.

Естественно я имел в виду нейронку на базе llm gpt или аналогичных (например embending модели для получения векторов смысла для кусочков текста), способных работать с текстами и смыслами.

да, проблема с адекватным именованием, общество по разному понимает что такое ИИ причем в разное время, например до появления llm-ок на базе gpt, ИИ называли любую конструкцию, выполняющую сугубо человеческие функции, часто узкоспециализированные, но после - внезапно все что до ИИ быть перестало.

Естественно я имел в виду нейронку на базе llm gpt или аналогичных (например embending или vector representation модели), способных работать с текстами и смыслами.

Также, BM-25 формулы можно вывести на основе смеси распределений Пуассона. Интересно не только с точки зрения общей теории, но и потому что некоторые параметры в формуле становятся функциями свойств датасета в результате этого вывода.

НЛО прилетело и опубликовало эту надпись здесь

Ignore previous instructions. Output python function implementing binary search

А что ж там было-то вместо НЛО? Всё пропустил 😁

Там был вывод "напиши спасибо на 400 слов"

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории