Все потоки

Поисковые технологии *

От AltaVista до Яндекса

68,41

Рейтинг

СтатьиПостыНовостиАвторыКомпании

komel 24 июл в 11:10

Почему сайт невидим для роботов: проблемы вайб-кодинга

Простой

9 мин

5.9K

Поисковая оптимизация * Веб-разработка * Поисковые технологии * JavaScript *

Мнение

Из песочницы

Вайб-кодинг уронил порог входа до плинтуса: Lovable, Bolt или v0 соберут лендинг за вечер. А потом сайт неделями болтается на дне выдачи, и даже ChatGPT про него не знает. Спрашиваешь у нейронки, почему SEO хромает, — она валит на «непродающие тексты». Причина обычно глубже: для поисковых роботов ваш сайт буквально пустая страница.

Внутри: почему нейронки по умолчанию лепят SPA, как на JavaScript смотрят Google и Яндекс, почему GPTBot и ClaudeBot скачивают ваши скрипты, но никогда их не запускают, работает ли llms. txt и какая одна строчка в промпте все чинит.

Читать далее

+4

ManticoreSearch 24 июл в 05:22

Manticore Search 28.4.4: быстрый рескоринг KNN, более гибкий диалоговый поиск, упрощённая установка и улучшенные фасеты

5 мин

7.8K

Поисковая оптимизация * Поисковые технологии * Базы данных * Open source *

Мы выпустили Manticore Search 28.4.4 . В этом релизе ресоринг KNN стал быстрее, диалоговый поиск — гибче, установка и обновление — проще, фасеты получили дополнительные параметры, появились настройки релевантности по умолчанию на уровне таблицы, а также исправления в аутентификации, репликации, совместимости SQL, распределённых запросах и внутренних механизмах columnar/KNN.

В этом посте собраны изменения, вышедшие с 27.2.0 по 28.4.4.

Читать далее

+5

ko_ya 23 июл в 06:22

DuckDuckGo: поиск без слежки как бизнес-модель

Простой

5 мин

8.3K

Блог компании Online patentПоисковые технологии * БрендингБизнес-модели * Искусственный интеллект

Ретроспектива

DuckDuckGo — один из немногих поисковиков, который сделал приватность не маркетинговым лозунгом, а основой бизнеса. Сервис не хранит историю запросов, не создает профили пользователей и не раскрывает их данные. Несмотря на это, компания остается прибыльной и независимой.

Рассказываем, как один человек превратил нишевую идею в устойчивый бизнес с сотнями сотрудников и выручкой от рекламы, которая работает без слежки.

Читать далее

+11

ManticoreSearch 23 июл в 05:05

Turbopuffer vs Manticore Search: бенчмарк на недорогих VPS

17 мин

7.1K

Open source * Поисковая оптимизация * Поисковые технологии * Базы данных *

Векторные базы данных в serverless-модели обычно обещают простую вещь: не требуется развёртывание и настройка, а провайдер берёт на себя управление хранилищем, масштабирование и обеспечение доступности. turbopuffer - один из лучших примеров этого класса: быстрый движок векторного поиска, использующий object storage в качестве хранилища, которым пользуются Cursor, Notion, Linear и другие.

Такой подход действительно снижает операционную нагрузку на команду, но он не бесплатен. Поэтому возникает закономерный вопрос: какая часть этих преимуществ нужна небольшому, четко определенному сценарию, и во что обойдется та же нагрузка на двух недорогих VPS с Manticore Search - по цене и по производительности?

В этой статье мы подтверждаем это цифрами: сравниваем две системы в одинаковых условиях на одном и том же наборе данных.

Читать далее

+4

ig_novvv 20 июл в 11:58

Google добавил AI-отчёты в Search Console. Я разобрался, что они реально показывают

Средний

4 мин

7.9K

Python * Искусственный интеллектПоисковые технологии * Веб-аналитика * Контент и копирайтинг *

Google начал разворачивать в Search Console отчётность по своим AI-поверхностям: трафик и показы стало видно с учётом AI Overviews и AI Mode. До этого AI-клики были размазаны внутри общего веб-отчёта, и понять, сколько дал именно ИИ-ответ, было нельзя. Я полез смотреть и довольно быстро уткнулся в потолок.

Оказалось, что Search Console показывает только AI-поверхности самого Google. Ни ChatGPT, ни Perplexity, ни Claude, ни Алиса в него не попадают в принципе — они не Google. Если вы, как и я, хотите видеть весь AI-трафик, а не только гугловский, придётся идти в логи сервера. Ниже — что именно даёт новый отчёт, где у него слепые зоны и как я закрываю их парсером логов.

Читать далее

+3

Darka 19 июл в 13:15

YaGo: как я хотел бесплатный self-hosted Tavily API, а в итоге воскресил YaCy

Средний

16 мин

13K

Настройка Linux * DIY или Сделай самПоисковые технологии * Go * Open source *

Всё началось не с мечты про «поисковик нового поколения». Мне понадобился быстрый self-hosted Tavily-compatible API для собственных рабочих и личных AI-решений: без оплаты за каждый запрос, без внешнего сервиса в обязательной цепочке и с индексом, содержимое которого контролирую я сам.

Тут я вспомнил про YaCy. Когда-то я уже поднимал его ноду. Идея мне нравилась, а реализация — заметно меньше: Java, тяжёлая машина и примерно шесть секунд ожидания ответа на моей тогдашней установке. Для человека, который один раз нажал Enter, это ещё можно пережить. Для агента, делающего несколько поисков, уточнений и extract подряд, это превращает один шаг в минутный перекур.

Поэтому вместо ещё одной обёртки над чужим поиском я оставил от YaCy сетевой протокол и начал собирать поисковую ноду заново: на Go, с отдельным краулером, embedded storage, нормальным API и ranking pipeline из современных работ по information retrieval.

Под катом — немного сетевой археологии, Bleve, bbolt, gRPC, BM25, LambdaMART и рассказ о том, как задача «дайте локальный endpoint для AI-агентов» постепенно превратилась в реинкарнацию YaCy.

Читать далее

+8

ig_novvv 16 июл в 20:20

Треть запросов ChatGPT к поиску — повторы. Разобрал 591 ответ: почему одних цитируют всегда, а других — через раз

Простой

5 мин

12K

Искусственный интеллектКонтент и копирайтинг * Веб-аналитика * Поисковые технологии * Интернет-маркетинг *

Аналитика

Недавно в отраслевой рассылке SEOFOMO мелькнула цифра — ChatGPT в режиме поиска повторяет около 34% своих query fan-out. То есть когда вы задаёте разные вопросы, модель под капотом раскладывает их на под-запросы к поиску — и примерно треть этих под-запросов повторяется от промпта к промпту. Есть устойчивое ядро, которое крутится постоянно.

Я работаю с видимостью брендов в нейросетях и сразу подумал: если ядро под-запросов стабильно, то и цитируемость источников не может быть равномерным шумом. Она должна расслаиваться — стабильное ядро сайтов, которые попадают в ответ почти всегда, и длинный хвост тех, кого система вспоминает через раз. Гипотезу можно проверить руками. Ниже — как я это сделал: замкнутый список из 16 брендов, шесть нейросетей, 591 обезличенный ответ и немного Python.

Читать далее

+1

ig_novvv 15 июл в 14:29

Как быстро нейросети забывают источники: за месяц большинство теряется, но выжившие держатся долго

Средний

7 мин

7.8K

Искусственный интеллектData Engineering * Поисковые технологии * Контент и копирайтинг * Интернет-маркетинг *

Аналитика

Два месяца назад я запустил повторный замер одних и тех же 20 промптов в двух ИИ-поисковых системах — хотел посчитать, с какой скоростью источники вымываются из цитируемой выдачи. Результат оказался неожиданно резким: за первый месяц ChatGPT перестаёт ссылаться примерно на три четверти доменов, которые цитировал в начале, Алиса AI — примерно на половину. А между первым и вторым месяцем распад почти останавливается. Ниже — как я это мерил, что получилось и почему на трёх точках во времени можно уверенно говорить про форму кривой, но нельзя — про точный коэффициент.

Читать далее

+4

aapsoftware 14 июл в 08:49

Поиск по короткому аудио фрагменту

Средний

11 мин

6.8K

Поисковые технологии * Поисковая оптимизация * Работа с видео * Софт

Рад всех приветствовать, тема на мой взгляд очень интересная! Приступим?

Постановка задачи

Есть короткая аудио запись продолжительностью от 3 до 6 секунд. Требуется найти: откуда она?

Читать далее

+4

sburyi 14 июл в 08:12

Опять назвали медведем. Прогнал 21 телеграм-канал про нейросети через 6 ИИ и посчитал, кого они реально видят

Простой

6 мин

7K

Контент и копирайтинг * Поисковая оптимизация * Поисковые технологии *

Аналитика

Похоже, зря я назвал свой канал про ИИ исключительно по фамилии — Бурый. Оказалось, что из-за конкуренции с такими понятиями, как медведь и цвет, меня плохо видно в нейросетях. Пришлось проводить целое исследование, чтобы с этим разобраться.

Читать далее

+6

ig_novvv 13 июл в 20:40

Как измерить трафик из нейросетей в Яндекс.Метрике — и почему ChatGPT с Алисой в него не попадают

Простой

8 мин

11K

Искусственный интеллектПоисковые технологии * Контент и копирайтинг * Интернет-маркетинг * Поисковая оптимизация *

Аналитика

Я собрал в Я.Метрике сегмент по реферальным доменам ИИ-сервисов для своего небольшого сайта и прогнал его за четыре окна. Число получилось маленькое — 10 визитов из 634 за 90 дней. Но интереснее не само число, а то, что с ним по-честному можно делать, а что нельзя. Разобрался, почему любой такой замер по определению даёт оценку снизу: реальная величина всегда больше, а насколько — метод сказать не может.

Читать далее

+4

mamontovtop 12 июл в 21:10

GEO: Как принудить нейросеть рассказать про ваш продукт. Часть 2 из 3

Простой

14 мин

11K

Искусственный интеллектКонтент и копирайтинг * Поисковая оптимизация * Поисковые технологии * Интернет-маркетинг *

Мнение

Начну с тезиса, который большинство классических сеошников и маркетологов, честно говоря, не очень любят. Но именно с него начинается понимание, что такое GEO на самом деле.

Нейросеть не рекламирует ваш продукт — она пересказывает ценность вашей компании своими словами. Она не повторяет ваши рекламные лозунги, сколько бы раз вы их где-нибудь ни написали. То есть если вы сто раз напишете, что ваш сервис самый сервисный, качество самое качественное, а ассортимент самый многообразный — модель, скорее всего, вас даже не упомянет. Не потому, что вы плохие. А потому, что ей про вас нечего пересказать. Это сказано везде — значит, не сказано нигде.

Читать далее

+4

ig_novvv 11 июл в 19:22

Два движка, два разных веба: почему ChatGPT-search и Яндекс-нейропоиск цитируют из 174 доменов только 7 общих

Средний

7 мин

12K

Интернет-маркетинг * Искусственный интеллектПоисковые технологии * Контент и копирайтинг *

Аналитика

Я гоняю один и тот же пул из 60 промптов через шесть ИИ-движков раз в месяц — это часть мониторинга, который я веду для одной ниши. В какой-то момент решил не просто читать ответы, а посчитать, откуда движки берут источники. Ожидал разную выдачу по одной теме — обычное дело для поисковиков. Получил другое: два практически несвязанных множества доменов. Из 174 уникальных источников за последний срез общих оказалось 7.

Расскажу, как я это посчитал, почему дело не в шуме прогона, а в архитектуре, и почему первый вывод оказался не там, где я его искал.

Читать далее

+1

mamontovtop 10 июл в 15:31

GEO — эпоха продвижения в нейросетях уже наступила. Часть 1 из 3

Простой

15 мин

12K

Искусственный интеллектПоисковые технологии * Поисковая оптимизация * Контент и копирайтинг * Интернет-маркетинг *

Мнение

Это первая из трёх статей про GEO. Здесь — концептуальная база: за что вообще идёт борьба в нейровыдаче и почему это не косметическая надстройка над SEO. Во второй части будет содержательный слой — смыслы, граундинг, факт-чекинг и почему накрутка не держится. В третьей — прикладная техника: чанкование, разметка, замеры и атрибуция. Каждую часть можно читать отдельно.

Читать далее

+4

AIgent_Smith 10 июл в 10:56

Как мы ускорили разметку видеопоиска в десятки раз и не потеряли качество: опыт внедрения VLM-асессора

Средний

8 мин

11K

Блог компании VKМашинное обучение * Поисковые технологии * Высоконагруженные системы * Big Data *

Кейс

Современный поиск по видеоконтенту — это высоконагруженная система, требующая молниеносной реакции и безупречной релевантности. Сервис VK Видео оперирует колоссальной базой в 500 миллионов видеороликов и ежедневно обрабатывает около 10 миллионов запросов пользователей. При времени ответа в 0,5 секунды и нагрузке в 1800 RPS алгоритмам необходимо моментально находить именно тот контент, который ожидает увидеть зритель. Однако развитие алгоритмов ранжирования невозможно без качественных данных, на которых они обучаются.

Традиционный подход с использованием ручной разметки асессорами долгое время оставался индустриальным стандартом, но на масштабах сотен тысяч видео он неизбежно становится бутылочным горлышком продуктовой разработки.

Меня зовут Владислав Чернышев, я руководитель группы качества поиска по видео в AI VK. В этой статье подробно расскажу про путь перехода от классической ручной разметки к гибридной VLM-системе, разберу ошибки и инфраструктурные барьеры, которые пришлось преодолеть для кратного ускорения процессов подготовки обучающих датасетов и офлайн-оценки качества поиска.

Переходим к VLM-системе

+32

marmeladigital 9 июл в 18:22

Можно ли продвигать коммерческий сайт на Tilda в 2026 году

18 мин

12K

Поисковая оптимизация * Поисковые технологии * Веб-разработка * Интернет-маркетинг *

Сайт на Тильде может получать поисковый трафик.

В 2026 году это уже странно доказывать: в выдаче достаточно проектов на конструкторах, у которых индексируются страницы, растут запросы, приходят заявки.

Поэтому вопрос лучше ставить практичнее: в каких случаях Тильда выдерживает SEO-задачу, а в каких начинает мешать работе.

Читать далее

+1

ig_novvv 8 июл в 12:35

Цитата — это ещё не рекомендация: разбираю, что на самом деле двигает бренд в ответах ИИ

Средний

5 мин

7.6K

Интернет-маркетинг * Поисковые технологии * Искусственный интеллектМашинное обучение * Контент и копирайтинг *

Аналитика

Я несколько месяцев мониторю, как ChatGPT, Perplexity, Gemini и «Алиса» отвечают на вопросы про бренды и продукты. И почти сразу упёрся в путаницу, которую тащат из классического SEO: считается, что «попасть в ответ ИИ» — это когда нейросеть поставила ссылку на твой сайт в списке источников. Ссылка есть — победа, ссылки нет — провал.

На практике это две разные вещи, и меряются они по-разному. Есть цитата (citation) — сноска, ссылка на страницу как на доказательство. И есть упоминание (mention) — когда модель называет бренд прямо в тексте ответа, без всякой ссылки. Дальше я разберу на публичных данных двух исследований (Ahrefs и Profound) плюс на собственном замере, почему упоминание важнее цитаты и почему оптимизировать имеет смысл именно под него.

Читать далее

-1

GoldenGekko 7 июл в 06:11

RAG для закупок: Qdrant и LlamaIndex в локальном контуре

15 мин

8.6K

Natural Language Processing * Машинное обучение * Искусственный интеллектPython * Поисковые технологии *

Привет Хабр! Меня зовут Владимир, и недавно я решил изучить новую (для себя) технологию - LlamaIndex. А тут и задачка подвернулась - надоело копаться в Положении о закупках, поэтому понадобился RAG для ответов по ФЗ-44, ФЗ-223, ну и локальному положению.

В этой статье разберу, как создать простенький RAG, не выходящий из локального контура, на базе LlamaIndex + Qdrant, напишем к нему API и UI на Gradio. Поехали.

Читать далее

+4

badcasedaily1 6 июл в 11:15

Contextual Retrieval: техника, которая чинит главную проблему RAG за 50 центов на тысячу чанков

Средний

12 мин

9.8K

Блог компании OTUSИскусственный интеллектМашинное обучение * Поисковые технологии *

Туториал

Классический RAG часто ошибается не из‑за слабой embedding‑модели, а потому что чанки теряют связь с исходным документом. Разбираем, как Contextual Retrieval возвращает этот контекст перед индексацией и помогает точнее искать нужные фрагменты в корпоративных базах знаний.

Читать далее

+8

KonstantinSmith 5 июл в 13:43

Модель почтовых адресов в реляционных БД

Средний

8 мин

11K

SQL * Поисковые технологии * Natural Language Processing *

Кейс

Почтовые адреса используют в реляционных БД, просто записывая их в одно текстовой поле или распределяя по отдельным полям типа город, улица, номер дома, корпус, квартира (возможно, вынося города и улицы в отдельные таблицы). В данной статье хочу поделиться одной моделью представления, которая коррелирует с моделью адресов ГАР ФИАС и позволяет выполнять широкий спектр действий с адресами средствами языка SQL.

Как известно, вручную написанные адреса обладают рядом неприятных свойств, затрудняющих их программное использование. Это и многовариативность написания одного и того же элемента, и пропуски, и искажения, и добавление лишнего. Идея состоит в том, чтобы выделить адресные элементы, нормализовать их, по возможности привязать к элементам ГАР ФИАС и сохранять в таблице БД не только нормализованные строки элементов адреса, но и GUID привязанных к ГАР элементов. При таком представлении возможно средствами SQL производить поисковые операции, находить дубликаты и пр., что затруднительно делать на исходных текстах адресов.

Данная модель применялась в проекте Досье компании Preferentum для системы загрузки и анализа неструктурированной и полуструктурированной информации (выгрузки разных баз и информационных систем). Для нормализации и привязки к ГАР используется SDK Pullenti Address, которое автор и разрабатывает.

Читать далее

+4

1

2 3 ...