Все потоки
Поиск
Написать публикацию
Обновить
27.46

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Всё-в-одном: Чек-лист по работе с ИИ и ChatGPT

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров19K

ИИ-инструменты вроде ChatGPT всё прочнее входят в повседневную работу специалистов самых разных профессий. Будь то аналитик, копирайтер или инженер, сегодня любой может повысить продуктивность, если знает, как правильно взаимодействовать с языковой моделью. Однако эффективное использование ИИ требует не только понимания его возможностей, но и знания правильных методов коммуникации с ним. В этой статье - полный и лаконичный гайд: техники, шаблоны, инструменты и лучшие практики, проверенные сообществом и на практике.

Читать далее

ИИ Детокс: DuckDuckGo запускает фильтр для удаления изображений, сгенерированных ИИ

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров2.3K

Поисковик DuckDuckGo представил новую функцию, позволяющую пользователям скрывать изображения, созданные с помощью искусственного интеллекта, из результатов поиска. Это решение направлено на борьбу с "ИИ-мусором" — навязчивым, некачественным синтетическим контентом, всё чаще появляющимся в выдаче.

Читать далее

Perplexity запускает Comet — собственный AI-браузер, бросающий вызов Google

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров5K

9 июля 2025 года компания Perplexity представила свой первый AI-браузер Comet, который объединяет возможности фирменного поисковика и умного ассистента. Новый продукт напрямую конкурирует с Google Chrome и привычными способами работы в интернете.

Читать далее

Разбираем на запчасти поисковый сервис в Яндекс Лавке

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров4.8K

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: 

— Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей. 

— Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них. 

— Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать. 

А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей.

В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали!

Читать далее

Статус: в неточном поиске (fuzzy match)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.4K

Задача нахождения неточных дубликатов текстовых строк - удивительно часто встречается на практике.

Нахождение неточных дубликатов позволяет лучше понять структуру списка, повысить его качество (удаление дубликатов), провести техническую кластеризацию (выделить группы похожих). Всё это видно на графе выше.

Но приключения начинаются, когда список становится размером несколько миллионов строк. В статье разберем что с этим можно сделать.

Читать далее

MUVERA и June 2025 Core Update: Разбиваю SEO мифы о реальность

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.2K

Как нейросети создают убедительную дезинформацию в SEO, почему June 2025 Core Update не имеет отношения к MUVERA, и зачем "эксперты" пугают революциями там, где их нет.

Спойлер: MUVERA — реальный исследовательский алгоритм Google, но он НЕ внедрен в поиск. А вирусный пост об этом написан ИИ по классическим шаблонам AI-контента.

Читать далее

Малоиспользуемые возможности ES: векторный поиск

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.7K

Всем привет! Хочу поделиться опытом применения одной из редко используемых, но полезных функций Elasticsearch, которую успешно применили в одном из проектов. Речь пойдет о векторном поиске...

Читать далее

Делаем простой Telegram-бот с интеграцией AnythingLLM + LM Studio за 30 минут

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.8K

В этом проекте создаем Telegram-бота, который взаимодействует с AnythingLLM — инструментом для работы с языковыми моделями (LLM) и LM Studio (используется как инструмент для загрузки документов и создания RAG архива). Покажу как использовать API AnythingLLM для бота и настроим взаимодействие с LM Studio, через которую предоставляется доступ к общению с ИИ-моделью. Самое главное в этой связке, что все отрабатывается локально без передачи файлов сторонним сервисам, что делает решение удобным для команд, которые хотят использовать ИИ в своих рабочих процессах, но не отправлять файлы во вне.

Полистать...

Простой механизм поиска с нуля

Время на прочтение14 мин
Количество просмотров5.5K

Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо.

Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве.

Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства, мы ранжируем статьи по их релевантности запросу.

Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta), определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.

Читать далее

Почему Tesla не видит смысла в лидарах на своих роботакси

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.5K

Большинство производителей автономных машин вооружают свои автомобили лидарами, радарами и HD-картами. Tesla идёт против течения: только камеры, никакого лазера. В июне 2025 её роботакси выходят на дороги Остина — без карт, без подстраховки. Почему Маск уверен, что этого достаточно? И к чему приведёт этот технологический азарт?

Читать далее

Я сделал поисковик хуже Elasticsearch

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров6.1K

В этой статье я хочу поделиться своим стыдом, вызванным попыткой создания библиотеки поиска. В этом стыде и вы можете прочувствовать смирение и осознание того, что реальный качественный поисковый движок, а не создаваемый как хобби-проект, должен делаться для того, чтобы лексический поиск был быстрым.

BEIR — это бенчмарки поиска информации, ориентированные на сценарии использования в формате «вопрос-ответ».

Мой хобби-проект SearchArray добавляет в Pandas полнотекстовый поиск. Поэтому естественно, чтобы ощутить трепет от моих потрясающих навыков разработчика, я решил использовать BEIR для сравнения SearchArray с Elasticsearch (с тем же запросом + токенизацией). Поэтому я потратил субботу на интеграцию SearchArray в BEIR и измерение релевантности и производительности с корпусом MSMarco Passage Retrieval (8 миллионов документов).

Барабанная дробь...

Читать далее

Сравнительный обзор: Shodan, ZoomEye, Netlas, Censys, FOFA и Criminal IP. Часть 2

Время на прочтение11 мин
Количество просмотров1.9K

Во второй части сравнительного обзора продолжается анализ ведущих интернет-сканеров и OSINT-платформ. На этот раз внимание сосредоточено на Censys и FOFA — двух мощных инструментах, каждый из которых предлагает уникальные подходы к сбору и структурированию данных об открытых сервисах в интернете. В статье рассматриваются архитектура платформ, синтаксис запросов, охват портов, возможности поиска по сертификатам и телу веб-страниц, а также примеры реального применения.

Читать далее

Как измерить сезонность в SEO: пошаговая инструкция

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5K

Измерение сезонности в SEO — один из ключевых аспектов продвижения в поисковых системах. Оно позволяет составить представление о том, как сезонные колебания спроса могут влиять на поведение пользователей и показатели сайта, и на основе этого выстроить грамотную стратегию продвижения и оптимизации.

Чтобы понять, как сильно сезонка влияет на показатели сайта, необходимо определить ключевые запросы, проанализировать динамику запросов и позиций, а затем сравнить показатели разных сезонов. На каждом шаге можно использовать свои инструменты.

Привет! Я Миша, младший специалист по продвижению сайтов в Selectel. В этой статье я расскажу, как определить тенденции роста и снижения трафика в зависимости от сезона, чтобы на основе этих данных выстроить стратегию продвижения сайта. Подробности — под катом.
Читать дальше →

Ближайшие события

Как генеративная оптимизация (GEO) меняет SEO рынок

Время на прочтение8 мин
Количество просмотров5.1K

Аналитика от Andreessen Horowitz про влияние Generative Engine Optimization (GEO) на SEO, маркетинг и брендинг.

Читать далее

Тиндер для работодателей и соискателей: как мы разработали алгоритм мэтчинга на Авито

Время на прочтение10 мин
Количество просмотров15K

Всем привет! Я Владислав Урих, работаю продуктовым аналитиком в Авито, сейчас занимаюсь построением алгоритмов мэтчинга в новом транзакционном продукте — Авито Подработка. В статье рассказываю, как мы построили алгоритм мэтчинга — инструмент подбора оптимальной выдачи для каждого конкретного покупателя.

Вы узнаете, почему алгоритмы поиска в категориях Авито работают по-разному, как собрать и использовать больше данных о пользователях без анкет, легко проверить гипотезу в офлайн-тестах и получить значимые продуктовые улучшения. 

Текст будет полезен всем продуктовым аналитикам, ML-инженерам и продакт-менеджерам, которые работают с алгоритмическими продуктами.

Читать далее

Сравнительный обзор: Shodan, ZoomEye, Netlas, Censys, FOFA и Criminal IP

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.5K

В современном интернете всё, что подключено к сети, может быть найдено — было бы желание и подходящий инструмент. Сканеры вроде Shodan, ZoomEye, Netlas, Censys, FOFA и Criminal IP давно вышли за рамки «поисковиков для хакеров» и стали рабочими лошадками для специалистов по кибербезопасности, Red Team, SOC‑аналитиков и OSINT‑энтузиастов. Они позволяют буквально заглянуть в «техническое подбрюшье» интернета: найти уязвимые камеры, забытые базы данных, тестовые серверы без авторизации и промышленное оборудование, случайно выставленное наружу.

В этой статье приводится сравнение шести наиболее популярных и полезных поисковых систем открытых хостов. Рассматриваются особенности архитектуры, синтаксис запросов, доступность функций, а также возможности каждой платформы — включая API, интеграции с другими решениями, систему алертов, поиск по сертификатам, изображениями и т. д. Отдельное внимание уделено примерам практического применения и оценке релевантности данных. Это первая часть серии, посвящённой сравнительному обзору. В ней подробно рассматриваются возможности Shodan и ZoomEye. В следующих частях будет проведён анализ Censys, FOFA, Netlas и Criminal IP.

Читать далее

Хаус-кипер 2.0: Как создать ИИ, к которому пользователи привяжутся

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров581

В статье рассказываем, почему современные ИИ остаются безликими утилитами и как вдохновение образом хаус-кипера XIX века помогает строить эмоционально близких цифровых спутников. Делимся принципами: персонализация через контекст, прозрачная логика, эмоциональный UX и интеграция в экосистему. Для разработчиков, UX-дизайнеров и всех, кто хочет сделать ИИ частью жизни, а не временным инструментом.

Читать далее

Простое объяснение AI-поиска

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.4K

AI-native search меняет правила игры. Теперь системы не просто ищут страницы по словам, а понимают запросы и дают готовые ответы, ссылаясь на источники. Это переворачивает классическое SEO и открывает новые возможности для быстрого поиска знаний в любой сфере.

В статье описывается как работает AI-поиск без сложных деталей.

Читать далее

Интеграция Kafka с Manticore Search: пошаговое руководство по обработке данных в реальном времени

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.8K

Kafka — это популярный брокер сообщений, который используется в самых разных проектах: от обработки логов и управления очередями задач до персонализации контента и аналитики в реальном времени. Например, его можно использовать для индексирования изменений в Википедии или поиска товаров в интернет-магазинах. Manticore Search, в свою очередь, поддерживает интеграцию с Kafka, что позволяет автоматически импортировать данные и использовать их для полнотекстового поиска, аналитики, векторного поиска и многого другого.

При импорте данных в Manticore вы можете гибко их обрабатывать:

Читать далее

Gemini 2.5 Pro возглавил все ИИ-бенчмарки: Google возвращает корону технологического лидера

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров20K

Лучший в мире ИИ уже встроен в ваш телефон, почту и поиск, а вы даже не заметили?

Gemini 2.5 Pro занимает первое место на всех ИИ-бенчмарках и предлагается пользователям бесплатно

Узнаете, почему интеграция с семью платформами-миллиардниками делает позиции Google неуязвимыми

Читать далее

Вклад авторов