All streams
Search
Write a publication
Pull to refresh

Comments 12

сравните, пожалуйста, сколько процессора и памяти кушает everything и ваш проект?

Разница не сильно ощутимая. Но стоит понимать, что everything индексирует всё, а моя программа - только то, что нужно пользователям.

Вопрос в том, что в моём случае с каждым новым индексом база данных будет разрастаться?

А планируется ли добавление индексации содержимого файлов? К примеру, мне нужно искать по содержимому огромного массива текстовых файлов, с нечёткими вхождениями (падежи слова) и с операторами поиска как в гугле (кавычки, минус)

Такой софт давно есть, он вроде даже уже умереть успел но на торент трекерах есть и под вин11 нормально работает.

Archivarius 3000 – это поиск документов и почтовых сообщений в Вашем компьютере, в локальной сети и в съёмных дисках (CD, DVD и др.). Поиск производится по содержимому документов, с учётом морфологии (рус, укр, бел и др.). Полностью поддерживается уникод.
Основные возможности:
■ Мгновенный полнотекстовой поиск документов и почты.
■ Смысловой поиск с морфологией на 18 языках.
■ Поддерживаются локальная сеть и съёмные диски (CD, DVD и прочие).
■ Поддержка популярных форматов от MS Office и PDF до TXT и LEX.
■ Поиск в архивах ZIP, RAR, ARJ и многих других.
■ Поиск почтовых сообщений Outlook, Outlook Express, MS Exchange, The Bat! и других.
■ Поиск в базах данных Lotus Notes и Lotus Domino.
■ Серверный режим и доступ из дома к рабочим документам через Интернет.
■ Полностью поддерживается уникод.
■ И многое другое...

От души благодарю, уже тяну с рутрекера, кажется именно то что доктор прописал. Я ещё Recoll после своего коммента нагуглил, на выходных потыкаю веточкой обе софтины и выберу что больше под задачу подходит и работает шустрее.

Вроде локальные поисковые машины от Яндекса и Гугла такое умели, но сейчас их только по файлопомойкам искать.

На нынешнем витке развития в моду вошли векторные базы и эмбеддинги. Документы индексируются с помощью этих штук, а потом по индексу можно найти "похожее на вот это словосочетание". Естественно, вся кухня прикручивается к ИИ. В Claude Code (или в Qwen Coder CLI) настраивается MCP, пользователь запускает терминал в нужной папке и набирает запрос в форме диалога "найди файлы, в которых упоминаются сверхпроводники". Прога показывает результаты.

Вот товарищ сделал инстукцию, как локально всё развернуть https://github.com/zilliztech/claude-context/issues/162

Локально на CPU (без навороченной видеокарты) работает это упоительно медленно. Но за недорого можно расчет эмбеддингов при индексации возложить на внешний облачный сервис, и тогда начинает прям летать.

Попробуйте Copernic Desctop Search.

научить себя внятно именовать файлы и складывать их не в downloads, а в хоть какую-то структуру + everything решает проблему.

тэги, фотки это же тоже про структуру. так зачем плодить сущности, когда папочки и файлики с этим справляются десятилетиями.

пробовал все вообразимое кроме rag пока. если не складывать нужное в структуру сразу - никакие средства поиска не помогают, все равно свалку и проще ещё раз найти в интернете.

документы по котороым важны мысли и заметки это уже больше про базу знаний.

Моя идея заключалась в том, чтобы реализовать поиск как в интернете, но только по своим ключевым словам. В случае создания структуры папок при поиске и при сохранении файла нужно будет найти и каждую вложенную папку.

Я пробовал использовать Everything, но тогда приходилось создавать слишком длинные имена с полной вариативностью синонимов и контекста, это просто не помещалось по количеству символов. Плюс Everything не даст результата, если какой-то элемент запроса отсутствует в названии файла.

Пример: у нас в компании есть папка с названием компании-заказчика, внутри - папка «Ресурсы», а в ней - папка с задними фонами на разных языках. И так для каждой кампании, при этом имена файлов часто повторяются. Если искать через Everything, нужно либо точно указать название папки, либо файла, в любом случае придётся перебрать варианты. В моей программе достаточно ввести название компании и нужный фон тогда сразу получаешь нужный результат.

У кого-нибудь была похожая ситуация, или всем хватает Everything?

Ну представьте, что у вас список коммерческих предложений, 1000 файлов. Это масштаб бизнеса среднего размера. В каждом файле есть список из 20 существенных пунктов, отличающих одно КП от другого.

Эту информацию можно засунуть в название файла? Мне кажется нет.

Поиск по содержимому, очевидно, найдет нужный документ по ключевому словосочетанию, например "доставка морем". Поди догадайся, какой из пунктов понадобится при поиске, чтобы вынести его в название файла.

Да, действительно, о том, как именно искать файлы, нужно думать заранее.

По поводу поиска по содержимому - я думал так: многие слова и фразы могут повторяться в разных файлах, из-за чего релевантность результатов будет падать. Особенно в моём случае, где пользовательский ввод может быть довольно неточным.

Например, если я введу запрос вроде: «мне нужно найти файл с содержимым доставка морем», то система, скорее всего, покажет приоритетнее файлы вроде «мне нужно найти идеального поставщика…» - просто потому что совпадает структура фразы, а не смысл.

Поэтому я планирую подключить ИИ, который сможет определить суть содержимого файлов, понять смысл пользовательского запроса и сопоставить их между собой.

Sign up to leave a comment.

Articles