Обновить
128K+

Поисковые технологии *

От AltaVista до Яндекса

31,21
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

Время на прочтение4 мин
Охват и читатели18K

Согласно статистическому отчёту State of AI Traffic от Human Security, за последний год резко увеличилась активность ИИ-агентов, ботов и ИИ-инструментов в интернете.

Например, трафик от ИИ-агентов увеличился почти в 80 раз (на 7851%), трафик от ИИ-скраперов — на 597%. Весь ИИ-трафик за последний год увеличился на 187%, а в целом он растёт в восемь раз быстрее, чем человеческий.

Читать далее

Новости

llms.txt в 2026: что это, как написать, и почему вашему сайту это нужно

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели12K

llms.txt - это файл в корне сайта, который говорит языковым моделям, что у вас за сайт, какие источники канонические и что цитировать. ChatGPT, Perplexity и Claude уже его читают. Большинство сайтов в Рунете его не имеют, поэтому AI-краулеры цитируют их или плохо, или никак. Файл пишется за 30 минут, эффект на цитируемость в AI-выдаче появляется в течение 1–4 недель.

В статье разбираю: что такое llms.txt, чем отличается от robots.txt, какие 5 блоков должны быть внутри, как написать свой за час, и показываю живой пример с production-сайта.

Читать далее

Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям в браузере (llama.cpp в WebAssembly)

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели10K

Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому.

Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме.

Зачем может пригодиться эта программа и подход со структурированием текстовой информации:

Если нужна своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска

Аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп.

Разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами.

Поиск по информации статей реализован в виде веб-приложения на llama.cpp в WebAssembly (wllama) для расчета эмбеддингов и Wasm сборке колоночной базы данных DuckDB. Получился статический веб сайт с JavaScript которому для работы не нужен бэкэнд для поиска данных и запуска embeddinggemma, полный serverless!

Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…

Читать далее

Ask.com закрылся. Что это был за сервис? Вспоминаем 90-е

Время на прочтение6 мин
Охват и читатели13K

На главной странице Ask.com недавно появилось короткое уведомление: сервис официально прекратил работу 1 мая 2026 года. Компания-владелец решила закрыть проект и сосредоточиться на других направлениях бизнеса. Жаль, конечно, ведь этот портал — один из столпов современной глобальной сети.

Он появился, когда интернет только начинал входить в повседневную жизнь. Медленный модем, характерный звук соединения, страницы, которые открывались по несколько минут. Информации в сети было гораздо меньше, и каждая удачная находка воспринималась почти как маленькое открытие. Среди первых поисковых систем Ask Jeeves занимал особое место: вместо обычного списка ссылок он предлагал задавать вопросы естественным языком и пытался отвечать так, словно пользователю помогает вежливый дворецкий. Что ж, давайте вспомним, как все начиналось.

Читать далее

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели12K

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов.

В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.

Читать далее

Ваш копирайтер — динозавр, если он еще вписывает ключи. Добро пожаловать в эру AEO

Время на прочтение6 мин
Охват и читатели8.8K

Бизнес продолжает вливать бюджеты в тексты для сайтов, хотя они больше не приносят ни одного клиента. В 2026 году поисковики перестали делиться трафиком: теперь умные роботы сами читают статьи и выдают людям готовую выжимку прямо на стартовой странице. Но попасть в эту бесплатную выдачу случайно невозможно. Нейросеть забракует даже самый полезный и дорогой материал, если при его написании нарушен один неочевидный структурный закон.

Этот закон полностью ломает привычные школьные правила написания статей. Машины не понимают красивых вступлений и ищут на странице только «съедобные» куски: прямые ответы в первых строках, жесткие списки и точные цифры. Если не перестроить свои тексты под такой строгий машинный стандарт, ваш сайт превратится в невидимую свалку слов. Робот просто не сможет прочитать вашу статью и молча отдаст всех покупателей конкурентам.

Читать далее

Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки

Время на прочтение7 мин
Охват и читатели7.8K

Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом.

В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production.

С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.

Читать далее

Как сделать так, чтобы xt850 находил xt 850

Время на прочтение7 мин
Охват и читатели6.3K

С версии 23.0.0 Manticore может делать так, чтобы запрос xt850 находил xt 850, используя bigram_delimiter вместе с режимами bigram_index , учитывающими цифры.

Это решает типичную проблему токенизации в поиске по товарам: пользователи убирают пробелы из названий моделей, а данные в индексе хранятся как отдельные токены.

Читать далее

Как ускорить поиск фраз в Manticore Search

Время на прочтение7 мин
Охват и читатели7.4K

bigram_index можно использовать для разных задач, но в этой статье мы говорим именно о производительности поиска фраз: в приведённом ниже бенчмарке на 1 млн документов bigram_index='all' повысил QPS примерно в 2.9x и сократил среднее время ответа фразовых запросов примерно в 3.2x.

Если ваша основная проблема — сопоставление xt850 с xt 850, а не ускорение поиска фраз, см. Как заставить xt850 совпадать с xt 850 .

Поиск по фразам бывает дорогим. Даже если запрос короткий, движку всё равно нужно проверять порядок слов и стоят ли они рядом, и это особенно заметно, когда:

Читать далее

Как сделать каталог с поиском, фильтрами, фасетами и семантическим поиском

Время на прочтение7 мин
Охват и читатели7.2K

Сделать поиск по каталогу легко. Гораздо сложнее — сделать каталог, который полезен не только на первом запросе.

Это демо как раз об этом. Здесь мы используем небольшой каталог настольных игр, но сам сценарий знаком многим: пользователь вводит что-то полузабытое, ошибается в написании, сужает выдачу по ограничениям, листает дальше, открывает карточку, а потом хочет увидеть «что-то похожее», не начиная всё заново. Если в вашем продукте есть такой сценарий, основная работа — не в полировке интерфейса. Важнее добиться правильного поведения поиска и не переусложнить весь стек.

В этой статье мы делаем каталог с автодополнением, работой с опечатками, фильтрами, фасетами, глубокой пагинацией, семантическим поиском и рекомендациями похожих документов.

Сначала можно попробовать уже развёрнутую версию:

https://catalog.manticoresearch.com

Читать далее

Русская рулетка с поиском: почему каждый десятый ответ в AI-выдаче — ложь

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.6K

ИИ все активнее в повседневных задачах, например стал частью поиска. Google и другие системы генерируют сверху LLM-сводку. Не надо тратить время на выбор ссылок и анализ информации — получаешь всё на блюдечке, даже с понятной версткой. 

Но все мы знаем, что ИИ выдает несуществующие факты, путает источники и делает некорректные выводы. Насколько часты эти ошибки? И критичны ли?

Рассмотрю, откуда они в поиске, на примере Google — только потому, что под руку попалось исследование его точности. Так-то поисковые ИИ-агенты чудят примерно одинаково.

Читать далее

Хронология запретов и ограничений в цифровой среде России с 2022 года

Время на прочтение5 мин
Охват и читатели13K

Хронология цифровых ограничений в России: от заблокированных платформ до новых правил для техники и связи.

Читать далее

Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9.7K

Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе.

Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе. Веду договорную работу (поставка, подряд, услуги), сопровождаю сделки, закрываю претензионку и представляю компанию в арбитражных судах и спорах по защите прав потребителей - на стороне производителя и поставщика. К коду пришёл через вайбкодинг: захотелось автоматизировать некоторые процессы, начал ковыряться в VS Code, Trae, Cursor и Claude Code, втянулся - и теперь это параллельное хобби рядом с основной практикой.

Последние несколько месяцев пилю IP Agent - телеграм-бота, который по запросу находит релевантную судебную практику и даёт прогноз по размеру компенсации в делах об интеллектуальной собственности. Работает на RAG-пайплайне.

Когда строишь поиск по узкому домену, рано или поздно встаёт вопрос: какой эмбеддинг брать и нужен ли вообще реранкер. Готовых ответов под русскую судебную практику я не нашёл, поэтому собрал свой бенчмарк. В посте - что меряли, как меряли, что получилось и что в итоге поставил в бота.

Читать далее

Ближайшие события

GEO-продвижение в нейросетях: Bing на SEO Week 2026 анонсировал очень полезные изменения в Bing Webmaster

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6.5K

Bing Webmaster Tools постепенно прокачивает отчет AI Performance. На SEO Week в Нью-Йорке Кришна Мадхаван показал новые функции, часть которых Microsoft уже начала выкатывать. 

Bing — слишком крупный игрок, чтобы отмахиваться от его продуктовой логики. По официальным данным Microsoft, Bing имеет около 155 млн среднемесячных пользователей в ЕС. Глобальные оценки с учетом интеграций в Windows и AI-инструменты показывают аудиторию на уровне 0,9-1 млрд. пользователей в месяц. По данным Яндекса, озвученным на конференции «День Поиска 2026», на сервис приходится 70% поисковых запросов в России, поиском ежемесячно пользуются более 110 млн уникальных пользователей, а быстрые ответы Алисы AI в Поиске получают 46,5 млн пользователей в месяц. 

Вывод очевиден: Bing достаточно велик, чтобы его подход к GEO и AI-выдаче внимательно разбирать, а Яндексу стоило бы быстрее приходить к такой же прозрачной аналитике для вебмастеров. 

На самих слайдах интересно не то, что Bing сказал слово GEO (и они признали вслед за Google). Интересно, в какой форме он это показывает. Там уже виден каркас будущей аналитики: рекомендации, темы, намерения, доля цитирования. Ровно вокруг этих сущностей и будет строиться нормальная работа с присутствием в AI-ответах.

Читать далее

Фейковый бренд в AI‑поиске и 2 000 AI‑статей: что эксперименты SE Ranking говорят нам о будущем SEO

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.3K

AI‑поиск всё сильнее меняет правила игры. Раньше мы боролись за позиции в Google, теперь всё чаще боремся за то, чтобы бренд попал в ответ ChatGPT, Perplexity, Gemini или Google AI Overviews.

И здесь у SEO‑специалиста возникает неприятный, но важный вопрос:
AI‑системы действительно выбирают лучшие источники — или просто те, которые чаще, понятнее и удобнее подсовывают им информацию?

Два эксперимента SE Ranking дают на это очень интересный ответ.

В первом исследовании команда проверяла, как AI‑generated контент работает в обычном Google‑поиске. Во втором — создала полностью фейковый бренд и посмотрела, сможет ли он получить видимость в AI‑ответах.

Спойлер: да, сможет. Но не всё так просто.

Читать далее

Факторы ранжирования Google в 2026 году

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели13K

В этой статье разберём, почему разговор о факторах ранжирования Google всё чаще заходит в тупик, если представлять их как список из title, ссылок, скорости, контента и поведенческих сигналов.

Современный поиск работает сложнее. Страница проходит не один фильтр, а несколько слоёв оценки: доступность, индексирование, понимание запроса, понимание документа, качество, спам‑фильтры, сниппеты, медиа, ссылки, локальный контекст и пользовательское взаимодействие.

Читать далее

Как проектировать SEO‑страницы под скрытую декомпозицию интента

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели11K

SEO давно привыкло работать через семантику, интенты, структуру H1-H2, FAQ и анализ конкурентов. Это всё ещё нужно. Но для сложных запросов этого всё чаще недостаточно.

Причина простая: пользователь вводит одну фразу, но за ней часто стоит не один вопрос, а цепочка подзадач. Поисковая система пытается понять не только буквальный запрос, но и то, какие уточнения, сравнения, ограничения, риски и доказательства нужны человеку для нормального ответа.

Google прямо описывает AI Mode как режим для сложных и многочастных вопросов, а в материалах о AI Mode говорится о query fan‑out — подходе, при котором система запускает несколько связанных поисков по подтемам, чтобы собрать более полный ответ. Google также указывает, что специальных требований для попадания в AI Overviews и AI Mode нет: базовые SEO‑практики остаются актуальными, но формат потребления контента меняется.

У Яндекса похожий сдвиг виден через качество контента и новые поисковые интерфейсы. В марте 2025 Яндекс сообщил, что обновил алгоритмы определения качественного контента и снизил количество низкокачественных источников на первой странице выдачи, включая материалы, созданные с помощью ИИ. В мае 2025 в Поиске появился режим рассуждений и развёрнутые ответы с изображениями, видео и ссылками на источники на базе технологий Алисы.

Читать далее

Как мы улучшали качество поиска с помощью графа знаний и что из этого вышло

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5.5K

Привет! Меня зовут Александр, я из Сбера. Ниже будет сказ про то, как мы творчески посмотрели на задачу улучшения качества поиска. Если вас не пугают термины вроде эмбеддинги, реранкеры, RAG и GraphRAG, то добро пожаловать под кат.

Читать далее

Как я сделал SEO-дружелюбный поиск в React через History API и React Helmet

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.5K

Я фронтенд-разработчик, и в одном из своих пет-проектов на React-сервисе с цветовыми палитрами мне нужно было сделать функционал фильтров, токенов поиска и поиска по названию, где пользователь мог бы выбрать цвет, задать стиль палитры, отфильтровать по количеству цветов и вводить текстовый запрос.

Получилось создать удобный интерфейс, в котором всё меняется мгновенно и без перезагрузок, как и ожидается от современного приложения.

Читать далее

Как выбирать площадки для GEO-продвижения: источники как основа роста в ответах нейросетей

Время на прочтение20 мин
Охват и читатели6.7K

Пользовательское поведение в поиске меняется. Раньше человек открывал Google или Яндекс, вводил запрос, видел список ссылок и переходил на сайт. Сейчас всё чаще сценарий выглядит иначе: пользователь задаёт вопрос нейросети, получает готовый структурированный ответ и может вообще никуда не переходить.

Для бизнеса это создаёт новую задачу: важно быть не только в поисковой выдаче, но и в ответах AI-сервисов. Если нейросеть рекомендует конкурента, а ваш бренд не упоминает, часть спроса проходит мимо вас.

Именно эту задачу решает GEO — Generative Engine Optimization, то есть оптимизация контента и присутствия бренда под генеративные поисковые системы и нейросети.

Эта статья подготовлена по мотивам доклада Владимира Назарова — руководителя агентства поискового маркетинга Head Promo и эксперта в GEO-продвижении. Доклад прошёл в рамках конференции GEO 2026 и был посвящён тому, как бизнесу попасть в ответы ИИ, какие источники используют нейросети и почему продвижение сайта в ИИ уже становится важной частью поискового маркетинга. В презентации доклада отдельно разобраны формула GEO, исследования по источникам, различия между AI-системами и практический кейс продвижения вымышленного автодилера в ответах нейросетей.

Читать далее
1
23 ...