Обновить
128K+

Поисковые технологии *

От AltaVista до Яндекса

16,13
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Предварительная фильтрация KNN в Manticore Search

Время на прочтение6 мин
Охват и читатели7.2K

Векторный поиск редко используется сам по себе. Почти всегда есть фильтры — диапазон цен, категория, временное окно, географическая граница. Вопрос в том, когда именно эти фильтры применяются.

Ответ оказывает неожиданно большое влияние на качество результатов.

Предварительная фильтрация KNN доступна в Manticore Search начиная с версии 19.0.1.

Читать далее

Новости

MCP-Manticore: Позвольте вашему AI-ассистенту писать запросы к Manticore за вас

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5.8K

Вы слышали, что Manticore Search быстрый. Вы слышали, что он объединяет полнотекстовый, векторный и нечеткий поиск в одном движке. Но когда вы начинаете реально работать с ним, вы сидите перед документацией, угадываете синтаксис SQL и надеетесь, что CREATE TABLE не выдаст непонятную ошибку.

MCP-Manticore меняет правила игры.

Это сервер Model Context Protocol (MCP), который подключает Cursor, Claude Code, Codex CLI или любой другой MCP-совместимый AI-ассистент напрямую к вашему экземпляру Manticore. AI может:

Читать далее

Agentis Memory — Redis-совместимое хранилище со встроенным векторным поиском и локальными эмбеддингами

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.5K


В наше время уже никого не удивишь разработкой агентов, очередной оптимизацией, новой моделью или новой инфраструктурой для нейронок. Всё это в порядке вещей. Однако одно дело читать в Twitter «мы написали агента X и он оптимизировал нам процессы на 300000%», и совсем другое — начать копать чуть глубже. Копнёшь — а «агентом» называют скилл с одним промптом.

Разработка настоящих агентов — задача не тривиальная. Достаточно посмотреть на утёкшие исходники Claude CLI — это не просто CLI, а целая инфраструктура бизнес-логики вокруг LLM. Я бы сравнил разработку агентов с разработкой типичных бэкенд-компонентов. Аналогия такая: если вы пишете каноничный бэкенд-сервис — вам нужна СУБД. Если Web3-сервис — блокчейн. Но на СУБД или блокчейне происходит в лучшем случае 50% всей логики. Вся магия крутится именно на бэкенде. С агентами то же самое: подключаешь AI SDK, конфигурируешь мыслительное ядро и пишешь вокруг него всю обвязку — мониторинги, AIOps, оркестрацию, memory management.

Вот про memory management и пойдёт речь.

Читать далее

Гибридный поиск в Manticore Search

Время на прочтение7 мин
Охват и читатели5.5K

Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать.

В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском. Разные термины, одна идея: точное совпадение плюс смысл.

Читать далее

Как продвигать сайт в 2026 году. SEO и GEO

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.9K

Я запустил сайт. Не шаблон на Tilda, не одностраничник на Notion - полноценный статический сайт на Astro, с блогом, лендингом продукта и двумя языками. И прежде чем написать первую статью в блог, я потратил непропорционально много времени на то, чтобы этот сайт правильно видели поисковики - и, что важнее, языковые модели.

Эта статья - о том, что я настраивал, зачем, и почему в 2026 году одного SEO уже недостаточно.

Читать далее

Ultra Deep Research: триангуляция AI-поиска через три нейросети

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.7K

Вы спрашиваете нейросеть — она идёт в интернет и возвращает ответ. Но в какой именно интернет?

Claude ищет через Brave. ChatGPT — через Bing. Gemini — через Google. Три разных поисковых движка, три разных среза, совпадение результатов около 20%.

Я выстроил подход к AI-ресёрчу вокруг этого факта: три уровня, от быстрого вопроса до триангуляции через все три движка. И всё равно нарвался: два AI синхронно соврали.

Плюс бонус-левел: что делать, когда весь интернет врёт и нужен хирургический скальпель вместо широкого поиска.

Читать далее

Разработка агентов в AI Studio Yandex Cloud

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.2K

Сегодня обсудим развёртывание агентов, созданных в Yandex Cloud AI Studio Agent Atelier. Atelier — это такой очевидный UI для настройки PromptTemplate для Responses API.

Читать далее

Убейте это немедленно: делаем худший поиск на рынке

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели6.6K

За последние шесть лет я прошёл через дюжину проектов, связанных с поиском. Роднило их немногое, кроме того, что практически в каждом я обнаруживал одни и те же ошибки. Не сговариваясь, разные команды спотыкались в одних и тех же местах. Эта статья — каталог самых живучих ошибок при проектировании поиска, кочующих из проекта в проект. Примеры построены на ElasticSearch, но большинство пунктов применимы к любому поисковому стеку.

Статья будет полезна как тем, кто еще не делал поисковых систем и столкнулся с проблемой “чистого листа”, так и тем, кто уже имеет какой-то поиск и нутром чует неладное, но не может понять, что не так.

А чтобы было интереснее и веселее, разбирать ошибки мы будем в формате вредных советов, следование которым гарантированно испортит UX ваших пользователей и сделает поиск по вашему ресурсу бесполезным, ненадежным и ужасно дорогим.

Поехали!

Тайны рекламного аукциона в Ozon и как мы приручали VCG

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели5.3K

Привет! Меня зовут Дмитрий, я ведущий разработчик в команде рекламного рантайма. Наша команда, как вы уже могли догадаться, занимается разработкой аукционов в поисковой рекламе Ozon.

В этой статье я хочу познакомить вас с механикой аукционов и рассказать, как мы делаем это в Ozon. Сначала мы разберёмся, что такое рекламный аукцион, что он имеет общего с аукционом в обычном понимании и как используется в контексте поисковой рекламы. А ещё подробно разберём аукцион типа VCG (аукцион Викри — Кларка — Гровса), вместе выведем формулы для него и посмотрим, какие результаты мы получили на практике.

Читать далее

Топ нейросетей для поиска в интернете и анализа документов: DuckDuckGo, BotHub, “ГигаЧат”

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7.9K

Лавинообразный рост информации превратил привычный Ctrl+F в артефакт прошлого. Мы открываем тяжёлые PDF-файлы, зарываемся в десятки вкладок, пытаясь выудить одну нужную строчку, и тратим на это часы, которых и так вечно не хватает.

Но времена меняются. На смену ручному поиску приходят умные сервисы, которые умеют не просто искать, а анализировать, обобщать и выдавать готовую выжимку по запросу. Они работают с веб-страницами, документами, научными статьями, а иногда и с тем и другим одновременно.

В этом обзоре мы собрали самых интересных игроков на этом поле:
• BotHub,
• Brave Search,
• ChatPDF,
• “ГигаЧат”,
• Felo AI,
• iAsk,
• Komo,
• Perplexity
• и DuckDuckGo –

Всё, чтобы вы могли выбрать идеальный инструмент для своей задачи – будь то быстрый ответ или глубокое исследование. Готовьте свои самые сложные документы и вопросы – сейчас будем разбираться, кто из них действительно умеет искать иголку в стоге сена. Узнайте, как превратить хаос информации в стройную систему с помощью ИИ.

Читать далее

Рубрикатор клинических рекомендаций Минздрава РФ: почему врачу неудобно работать с PDF

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели8.6K

Когда врач ищет клинические рекомендации, ему обычно нужен не весь PDF, а конкретный фрагмент: схема лечения, критерии диагностики, раздел для детей или взрослых, связь с МКБ-10.

На этом месте официальный рубрикатор и обычный поиск по документам начинают проигрывать реальному сценарию. В статье разбираю задачу с инженерной точки зрения: почему одного каталога недостаточно, зачем нужны нормализация, версионирование, гибридный поиск, офлайн-кэш и ссылки на источник. На примере клинических рекомендаций Минздрава РФ показываю, как медицинская задача превращается в вполне классическую IT-проблему: парсинг, индексирование, поиск по сущностям и объяснимый UX.

С инженерной точки зрения это важное наблюдение: перед нами не одна задача поиска, а сразу несколько разных сценариев, которые нельзя нормально закрыть одним полем search над набором документов.

Официальный источник, от которого все начинается, существует: это электронный рубрикатор клинических рекомендаций Минздрава. На ресурс Минздрава публикуются клинические рекомендации, разработанные и утвержденные медицинскими профессиональными некоммерческими организациями; сам Минздрав отдельно указывает, что этот контент предназначен для медицинских и фармацевтических работников. Кроме того, в инфраструктуре Минздрава есть отдельная автоматизированная подсистема, связанная с разработкой стандартов медпомощи и электронным рубрикатором клинических рекомендаций.

Читать далее

GEO‑оптимизация сайтов под ИИ‑выдачу или как нейроответы убивают поиск

Время на прочтение11 мин
Охват и читатели5.5K

В конце 2024 года мы на собственной шкуре почувствовали, как нейронки начали вмешиваться в нашу работу. И дело не в том, что SEO-спецов заменили ИИ. Они начали ломать саму механику поиска, которая работала годами: оптимизировал сайт, вышел в топ, получил трафик. Теперь человек всё чаще получает готовый ответ прямо в поиске, без перехода на сайт. Для пользователей эта фича только во благо. Но что делать бизнесу, который годами вкладывался в SEO?

Читать далее

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.4K

Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например.

Но, внезапно, мне в личку постучались с таким проектом.

Читать далее

Ближайшие события

Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon

Время на прочтение10 мин
Охват и читатели8.9K

Сравнил полнотекстовый поиск PostgreSQL (tsvector/tsquery + GIN-индекс) с семантическим поиском через pgvector (cosine distance) на датасете из 10 019 товарных категорий Ozon.

Три embedding-модели:

GigaChat EmbeddingsGigaR (Сбер, 2560-мерные векторы, API)

Qwen3-Embedding-0.6B (Alibaba, 1024-мерные, локальный инференс через HF Text Embeddings Inference на GPU)

text-embedding-3-small (OpenAI, 1536-мерные, API)

Прогнал 18 запросов в пяти категориях: синонимы и сленг, intent-запросы в свободной форме, подарочная тематика, cross-lingual (EN-запросы к RU-данным), абстрактные формулировки. Замерил латентность и top-5 с cosine similarity score.

Разбор каждого запроса, таблицы и код — под катом.

Читать далее

Google Search Console неожиданно стал инструментом исследования клиентов

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.5K

Всем привет! Меня зовут Андрей Попов, я SEO-специалист в AGIMA. В SEO редко происходят настоящие переломы. Обычно всё меняется медленно: новый фактор ранжирования, очередное обновление алгоритма, небольшая перестройка выдачи. Но сейчас происходит куда более глубокая вещь — меняется сама природа поиска. Люди перестают «искать» и начинают разговаривать.

Читать далее

Дорога к звездам начинается на Земле

Время на прочтение5 мин
Охват и читатели11K

Девятого марта исполнилось бы 92 года со дня рождения человека, который сказал: «Поехали!» - и навсегда изменил историю. В преддверии дня рождения Юрия Алексеевича Гагарина студенты, преподаватели и сотрудники Российского нового университета отправились в Музей космонавтики, чтобы узнать, что привлекает современных молодых людей в эпохе первых полетов.

Читать далее

Дешевле Perplexity, но локально — и с любым агентом: Agent Browser Workspace

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели12K

Дешевле Perplexity: на DeepResearch Bench получили 44.37 (RACE overall) на Claude Haiku 4.5 — модель заметно дешевле типичных "фронтирных" стэков.

Локально и прозрачно: реальный Chrome перед глазами — можно остановить, залогиниться, закрыть баннер, перезапустить шаг, расширить сбор, уточнить запрос. Итераций — сколько угодно.

Не только deep research: ещё и инструмент для браузерной автоматизации + извлечения контента, форм, HTML-данных.

Расширяемо: новые сайты добавляются профилями в scripts/sites/*.json — селекторы и «контролы» живут отдельно от кода и промптов.

Читать далее

Как за сутки обойти миллиард веб-страниц

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели8.1K

TL;DR:

1,005 миллиарда веб-страниц

25,5 часа

$462

По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1].

Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер1 в условиях похожих ограничений.

Читать далее

Оптимизация стоимости владения K8s-кластерами в AWS и YC

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели4.6K

Облака обещают магическую экономию и бесконечное масштабирование. На практике Kubernetes‑кластеры в AWS и Яндекс.Облаке легко превращаются в бездонную чёрную дыру для бюджета. Мы в «Антиплагиате» научились готовить споты, научили шедулер и дешедулер работать правильно и выжали из кубов максимум надежности и производительности при минимуме затрат. В этой статье — конкретные шаги, которые позволили сэкономить миллионы рублей.

Казалось бы, задай вопрос любой популярной LLM, она выдаст набор рецептов на любой вкус. То, что будет в этой статье, LLM не расскажут. Я проверял. В этой статье, только реализованные и действительно работающие рецепты с плюсами, минусами и подводными камнями.

Без галлюцинаций и смс, погнали!

Стоп-слова, исключения и словоформы в Manticore

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели3.9K

Теперь Manticore Search поддерживает прямое указание настроек токенизации непосредственно в команде CREATE TABLE. Таким образом, исчезает необходимость создавать внешние файлы при настройке стоп-слов, исключений, словоформ и слов без позиции, делая создание таблиц проще и удобнее для развертывания.

Читать далее
1
23 ...