Обновить
14.59

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.1K

Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например.

Но, внезапно, мне в личку постучались с таким проектом.

Читать далее

Новости

Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon

Время на прочтение10 мин
Охват и читатели8.6K

Сравнил полнотекстовый поиск PostgreSQL (tsvector/tsquery + GIN-индекс) с семантическим поиском через pgvector (cosine distance) на датасете из 10 019 товарных категорий Ozon.

Три embedding-модели:

GigaChat EmbeddingsGigaR (Сбер, 2560-мерные векторы, API)

Qwen3-Embedding-0.6B (Alibaba, 1024-мерные, локальный инференс через HF Text Embeddings Inference на GPU)

text-embedding-3-small (OpenAI, 1536-мерные, API)

Прогнал 18 запросов в пяти категориях: синонимы и сленг, intent-запросы в свободной форме, подарочная тематика, cross-lingual (EN-запросы к RU-данным), абстрактные формулировки. Замерил латентность и top-5 с cosine similarity score.

Разбор каждого запроса, таблицы и код — под катом.

Читать далее

Google Search Console неожиданно стал инструментом исследования клиентов

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.3K

Всем привет! Меня зовут Андрей Попов, я SEO-специалист в AGIMA. В SEO редко происходят настоящие переломы. Обычно всё меняется медленно: новый фактор ранжирования, очередное обновление алгоритма, небольшая перестройка выдачи. Но сейчас происходит куда более глубокая вещь — меняется сама природа поиска. Люди перестают «искать» и начинают разговаривать.

Читать далее

Дорога к звездам начинается на Земле

Время на прочтение5 мин
Охват и читатели11K

Девятого марта исполнилось бы 92 года со дня рождения человека, который сказал: «Поехали!» - и навсегда изменил историю. В преддверии дня рождения Юрия Алексеевича Гагарина студенты, преподаватели и сотрудники Российского нового университета отправились в Музей космонавтики, чтобы узнать, что привлекает современных молодых людей в эпохе первых полетов.

Читать далее

Дешевле Perplexity, но локально — и с любым агентом: Agent Browser Workspace

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели12K

Дешевле Perplexity: на DeepResearch Bench получили 44.37 (RACE overall) на Claude Haiku 4.5 — модель заметно дешевле типичных "фронтирных" стэков.

Локально и прозрачно: реальный Chrome перед глазами — можно остановить, залогиниться, закрыть баннер, перезапустить шаг, расширить сбор, уточнить запрос. Итераций — сколько угодно.

Не только deep research: ещё и инструмент для браузерной автоматизации + извлечения контента, форм, HTML-данных.

Расширяемо: новые сайты добавляются профилями в scripts/sites/*.json — селекторы и «контролы» живут отдельно от кода и промптов.

Читать далее

Как за сутки обойти миллиард веб-страниц

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели7.9K

TL;DR:

1,005 миллиарда веб-страниц

25,5 часа

$462

По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1].

Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер1 в условиях похожих ограничений.

Читать далее

Оптимизация стоимости владения K8s-кластерами в AWS и YC

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели4.5K

Облака обещают магическую экономию и бесконечное масштабирование. На практике Kubernetes‑кластеры в AWS и Яндекс.Облаке легко превращаются в бездонную чёрную дыру для бюджета. Мы в «Антиплагиате» научились готовить споты, научили шедулер и дешедулер работать правильно и выжали из кубов максимум надежности и производительности при минимуме затрат. В этой статье — конкретные шаги, которые позволили сэкономить миллионы рублей.

Казалось бы, задай вопрос любой популярной LLM, она выдаст набор рецептов на любой вкус. То, что будет в этой статье, LLM не расскажут. Я проверял. В этой статье, только реализованные и действительно работающие рецепты с плюсами, минусами и подводными камнями.

Без галлюцинаций и смс, погнали!

Стоп-слова, исключения и словоформы в Manticore

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели3.8K

Теперь Manticore Search поддерживает прямое указание настроек токенизации непосредственно в команде CREATE TABLE. Таким образом, исчезает необходимость создавать внешние файлы при настройке стоп-слов, исключений, словоформ и слов без позиции, делая создание таблиц проще и удобнее для развертывания.

Читать далее

Как я построил Graph RAG систему с точностью 96.7% за 5 дней: от научных статей до production-ready пайплайна

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели14K

Я реализовал Graph RAG систему, которая комбинирует 5 техник из свежих научных статей (KET-RAG, HippoRAG 2, VectorCypher) в единый пайплайн с декларативным Datalog reasoning-движком, полной провенансной трассировкой и типизированным API. Результат: 174/180 (96.7%) на билингвальном бенчмарке из 30 вопросов, оценённых в 6 режимах retrieval. Три режима достигли 100%. В статье — архитектура, 10 уроков оптимизации и эволюция от 38% до 96.7% за 10 итераций.

Читать далее

Из «песочницы» в Production: как мы масштабировали RAG-систему для эксперта по охране труда

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели5.5K

Привет, Habr! Наша команда LLM-разработки подготовила статью о реальном практическом опыте тюнинга и тонкой настройке RAG-системы в области охраны труда. Каждый, кто начинал работать с LLM, проходил через этот «медовый месяц»: вы берете LangChain, загружаете с десяток PDF-файлов в ChromaDB, пишете простенький промпт — и происходит магия. Бот отвечает, эксперты в восторге, MVP готов за выходные.

Но магия исчезает ровно в тот момент, когда в базу знаний прилетает тысяча документов, а цена ошибки из «просто забавной галлюцинации» превращается в юридические риски и штрафы. В нашем проекте «Марк» (протестировать тут: @AI_assistantOT_bot)  — ИИ-эксперте по охране труда — мы столкнулись именно с этим: наивный RAG на больших данных не просто работает хуже, он разваливается.

Мы заглянем под капот системы, которая прошла путь от локального скрипта до сложной архитектуры на LangGraph.

Мы подробно разберем:

Читать далее

Генеративная выдача повышает требования к источникам: обзор ключевых новостей и исследований GEO 2026

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.3K

Генеративный поиск быстро эволюционирует: он предъявляет более высокие требования к надежности источников, использует ограниченный объем текста и при этом остается заметно вариативным в рекомендациях. Это меняет фокус GEO: вместо попыток добиться разовых упоминаний важнее обеспечить устойчивое присутствие бренда в ответах и AI-блоках поиска. Для этого нужны доказательные материалы, четкая структура страниц, понятные метрики присутствия и понимание того, как AI-поиск использует информацию с сайта.

Ниже – мой разбор 4 недавних публикаций, которые дополняют друг друга и дают цельную картину изменений в генеративной выдаче на начало 2026 года. 

Читать далее

Geo — это обман? Seo будет жить? Как продвигаться в AI-выдаче: GEO без просадок и иллюзий

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели6.6K

Скажите честно: вы до конца понимаете что есть GEO и что оно вам даёт?

Есть ощущение, что не хватает информации, чтобы оценить объективно. На наш 2026 мы видим всё те же 2 лагеря: для кого-то GEO волшебная пилюля, а для кого-то плацебо. Скажу вам как SEO/GEO специалист — ни одно, ни другое. Оптимизация под ИИ — это тоже инструмент со своими плюсами, минусами и особенностями. А ещё это, скорее, надстройка над SEO, а не замена. Сейчас объяснюсь.

В статье разберём:

- при каких условиях GEO эффективен;

- какие НО есть у GEO и чего они вам будут стоить;

- как эксперту строить устойчивое AI-цитирование с умом и рассудительностью.

Читать далее

Откликаться на всё подряд — новая норма? Почему AI-помощники стали must-have в поиске работы на hh.ru

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.8K

Привет, Хабр!

Если вы хотя бы раз в последний год искали работу на hh.ru, вы точно знакомы с этим чувством: листаешь ленту, откликаешься на десятки вакансий, а в ответ — тишина. Конкуренция за место выросла почти в два раза, а HR тонут в море шаблонных откликов. Стратегия «распыляться и надеяться» больше не работает. Она просто выжигает время и мотивацию.

Гораздо эффективнее другая тактика — умный, сфокусированный поиск. Не больше откликов, а релевантнее. И здесь на помощь приходят AI-инструменты, которые перестали быть просто игрушкой. Они становятся рабочим стеклом соискателя.

Давайте разберем, как именно AI может спасти ваши нервы и повысить КПД поиска, и как встроить это прямо в ваш текущий процесс — без танцев с бубном.

Читать далее

Ближайшие события

HeadHunter виноват в сломанном найме

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели87K

Все мы знаем, что сейчас найти работу — особенно в IT — стало заметно сложнее.

Но что, если я скажу, что в этой ситуации частично виноват HeadHunter — доминирующая площадка на рынке поиска работы?

Казалось бы, всё предельно просто: есть люди, которые ищут работу, и есть работодатели, которым нужны специалисты. Нужно всего лишь свести одних с другими — и готово.

Но каким образом на таком, казалось бы, элементарном процессе можно умудриться всё испортить?

Да очень просто — сделать работу сервиса максимально непрозрачной. Настолько, что попадёт ли твоя анкета в выдачу у работодателя, порой кажется зависящим от фазы Луны.

Но обо всем по порядку.

Читать далее

Не «AI-SEO», а нормальный текст: исследование Рунити как ИИ читает сайты и что это меняет в SEO

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4.5K

Привет, Хабр! На связи команда отдела поисковой оптимизации и продвижения интернет-ресурсов Рунити. Мы занимаемся SEO-продвижением сайтов: работаем с органическим трафиком, анализируем данные, проверяем гипотезы и смотрим, как изменения в поиске отражаются на реальных показателях проектов.

За последний год SEO заметно изменилось. Дело не в новых факторах ранжирования и не в очередном апдейте алгоритмов, а в том, как теперь работает поиск. Пользователь получает ответ на запрос прямо в выдаче, а наличие сайта в топе больше не гарантирует переход и стабильный органический трафик. Мы видим эти изменения не только на уровне рынка, но и в данных по собственным проектам. Поэтому решили самостоятельно проверить, как именно ИИ-ответы в поиске влияют на клики, CTR и поведение пользователей по информационным запросам. В этой статье поделимся результатами и выводами.

Читать далее

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели20K

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это.

Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так

curl -fsSL https://ollama.com/install.sh | sh

а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так

curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh

Представлено 2 версии qwen3-coder-next

Читать далее

Пошаговый запуск собственного LLM сервера от А до Я

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели14K

Введение

В сети сейчас полно «гуру» и коучей, которые обещают запустить собственную LLM почти на ноутбуке. Да, это технически возможно, но обычно речь идёт о моделях в диапазоне от млн до млрд параметров. Такая модель будет работать, однако — медленно, и её практическая ценность будет ограничена. В результате многие пользователи разочаровываются в локальных LLM.

 В этой статье я расскажу, как пошагово развернуть собственный сервер для инференса LLM, чтобы получить действительно полезный инструмент.

 Зачем нужен локальный сервер LLM?

Читать далее

Боязнь и недоверие к нейросетям: почему мы так реагируем на LLM технологии

Время на прочтение5 мин
Охват и читатели9.2K

Вводные данные: год назад я, как и многие, скептически относился к искусственному интеллекту, считая его лишь набором «умных» запросов к интернету. После нескольких разговоров с публичной нейросетью меня поразили её способности, но мои коллеги по‑прежнему уверенно утверждали, что ИИ – это просто огромная база данных. Я собрал собственный сервер, запустил локальную нейросеть без доступа к сети, но даже предложение протестировать её на моём GPU‑сервере никого не заинтересовало. Что скрывается за этим скептицизмом? Почему люди отрицают возможности ИИ, хотя внутри уже чувствуют тревогу перед неизвестным?

Читать далее

Как на потоке получать продуктовые инсайты из звонков в службу поддержки

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.5K

Привет, Хабр! Продуктовая аналитика хорошо работает с событиями и метриками, но ломается на живых коммуникациях. Звонки зачастую остаются неохваченными анализом, хотя именно там слышно как клиент злится или сомневается, но эти сигналы доходят до менеджера продукта хаотично, а не в системном виде.

В этом гайде разберём, как превратить записи звонков в продуктовые инсайты без ручного прослушивания — с помощью Python, звонков от МТС Exolve, интерфейса на Streamlit и нейронкой MWS GPT от МТС.

Читать далее

Тихая смерть robots.txt

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели37K

Десятки лет robots.txt управлял поведением веб-краулеров. Но сегодня, когда беспринципные ИИ-компании стремятся к получению всё больших объёмов данных, базовый общественный договор веба начинает разваливаться на части.

В течение трёх десятков лет крошечный текстовый файл удерживал Интернет от падения в хаос. Этот файл не имел никакого конкретного юридического или технического веса, и даже был не особо сложным. Он представляет собой скреплённый рукопожатием договор между первопроходцами Интернета о том, что они уважают пожелания друг друга и строят Интернет так, чтобы от этого выигрывали все. Это мини-конституция Интернета, записанная в коде.

Файл называется robots.txt; обычно он находится по адресу вашвебсайт.com/robots.txt. Этот файл позволяет любому, кто владеет сайтом, будь то мелкий кулинарный блог или многонациональная корпорация, сообщить вебу, что на нём разрешено, а что нет. Какие поисковые движки могут индексировать ваш сайт? Какие архивные проекты могут скачивать и сохранять версии страницы? Могут ли конкуренты отслеживать ваши страницы? Вы сами решаете и объявляете об этом вебу.

Эта система неидеальна, но она работает. Ну, или, по крайней мере, работала. Десятки лет основной целью robots.txt были поисковые движки; владелец позволял выполнять скрейпинг, а в ответ они обещали привести на сайт пользователей. Сегодня это уравнение изменилось из-за ИИ: компании всего мира используют сайты и их данные для коллекционирования огромных датасетов обучающих данных, чтобы создавать модели и продукты, которые могут вообще не признавать существование первоисточников.

Файл robots.txt работает по принципу «ты — мне, я — тебе», но у очень многих людей сложилось впечатление, что ИИ-компании любят только брать. Cегодня в ИИ вбухано так много денег, а технологический прогресс идёт вперёд так быстро, что многие владельцы сайтов за ним не поспевают. И фундаментальный договор, лежащий в основе robots.txt и веба в целом, возможно, тоже утрачивает свою силу.

Читать далее
1
23 ...