Наконец, научное обоснование (или разоблачение?) про GEO/Generative Engine Optimization. Статья-этакий бенчмарк...

Видимость в generative engines: как её нормально измерять (забываем привычные ключи/тон)

Что именно меняется по сравнению с SEO — на уровне модели системы

В GEO авторы сразу задают контенту нужные параметры, формализуют generative engine (GE) как систему из двух частей:

  1. поиск/ретривал источников (через поиск/индексацию/ранжирование/векто��ный поиск — неважно);

  2. генерация ответа LLM на основе этих источников с inline-атрибуцией (цитаты прямо внутри ответа).

Путём махинаций алгоритмов - пользователь получает один связный ответ, который система сама собрала из нескольких источников. Это, надеюсь, все понимают. 

“На первом этапе извлекаются релевантные источники для входного запроса, а на втором этапе большая языковая модель генерирует ответ на основе извлечённых источников. Из-за ограничений по длине контекста и квадратичной зависимости стоимости масштабирования от размера контекста в моделях из поисковой системы Google извлекаются только 5 лучших источников для каждого запроса”

— во всех научных подробностях можете почитать о работе алгоритмов и GEO-воздействия вот тут. Как раз технически нагруженный текст с математикой подхода (алгоритмы как функции) — его я использовал как источник для написания статьи, но кто любит прям погрузится, советую к прочтению. 

И поэтому видимость источника определяется не тем, попал ли он в топ-10, а тем, как он встроен в этот текст. Отсюда и начинаются вопросы.

До/после GEO: один и тот же запрос, но после оптимизации ИИ опирается на источники более явно и раньше.
До/после GEO: один и тот же запрос, но после оптимизации ИИ опирается на источники более явно и раньше.

Итак, источники:

1) Появляются на разных позициях

В ответе источники обычно проставляются внутри текста: после предложения/абзаца стоят ссылки (как сноски). 

Если ваш источник появляется:

  • в первом абзаце — влияет на то, как пользователь поймёт тему;

  • в середине — он поддерживает детализацию;

  • в конце — он часто становится той доп литературой, которую многие не увидят/не дойдут.

Одно и то же количество “цитируемых слов” ценится выше, если оно стоит раньше в ответе.

2) Имеют разную длину при использовании 

В GE источник может быть:

  • Упомянут одним коротким предложением (“есть мнение…”),

  • или использован как основа для 3–6 предложений (определение + шаги + цифры + исключения).

В SEO эти два случая могли бы выглядеть одинаково (=вы в выдаче).
В GE надо скормить более существенный ответ алгоритмам. 

3) Могут делить одно предложение — в таком случае, вы не в плюсе

Очень частый сценарий: одно предложение подкреплено несколькими источниками (вы авторитетны, но и конкуренты хороши). Примерно так:

“Сильнее всего GEO дают прирост стратегии со статистикой и цитатами.” [Источник A] [Источник B]

В таком случае вклад каждого источника в метрику “доли ответа” (вес) логично делится.

Дальше детально про аналитику и стратегию в связи с ней (обзорных статей на тему того, что такое GEO/какая его ценность в 2026 для бизнеса/а правда, что GEO новое SEO — уже достаточно даже у меня, особенно в тг-канале). Сегодня бы я обратился к науке и к многомерности видимости для GEO. 

Позиций как в SERP не существует — нужна другая система измерения.
Позиций как в SERP не существует — нужна другая система измерения.

Скажите, все ведь понимают, что ИИ теперь никуда не денется, а владельцы сайтов каждый день теряют трафик? В статье о том, как повысить видимость по различным запросам на 40%.

С какими данными в исследовании мы имеем дело

Итак, GEO-bench (бенчмарк), изучающий объект для Arxiv и изучаемый для нас. Набор данных состоит из 10 000 запросов, разделённых на 8000, 1000 и 1000 для обучения, проверки и тестирования соответственно. Спецы сохранили +- реальное распределение запросов: 80% информационных, 10% транзакционных и навигационных запросов. К каждому запросу добавлялся очищенный текст из пяти лучших результатов поиска в Google. 

Запросы также были поделены по категориям — нельзя же исключить различные факторы такие, как ниша, намерения пользователя и характер запроса.

А чтобы чтобы уменьшить разброс результатов, спецы экспериментировали с пятью разными случайными начальными значениями и приравнивали к среднему.

Две объективные метрики “impressions”, которые можно считать руками (и как)

Инструменты есть (писал тут), но даже с прочими решениями приходится работать ручками и головой (а так ведь много где). 

Word Count (WC) = сколько ответов реально связано с вашим источником

Они определяют WC как но��мализованное количество слов в тех предложениях ответа, где стоит цитата на ваш домен/страницу. Я напомню, что вес будет делится между вами и конкурентами.

Упоминание в 3–4 предложения делает WC заметным. 

Position-Adjusted Word Count (PA-WC) = Word Count только про позднее появление в ответе

То, что в начале читают, гарантированно, больше и внимательнее. Идея: одно и то же количество слов “стоит дороже”, если оно в начале ответа, а не внизу.

Попробуйте:

  1. фиксируете набор промптов;

  2. прогоняете их в GE (Perplexity/AI Overviews/и т.д.);

  3. парсите ответ: предложения + какие источники стоят на каждом;

  4. считаете WC и PA-WC для своего домена по каждому промпту (к примеру, в ответе 200 слов, ваш источник используется на 60 слов — это поздновато, чтобы получить достаточно веса);

  5. смотрите медиану/распределение по теме.

Субъективная метрика (больше текста — не равно больше влияния)

Проблема WC/PA-WC: они считают объём, но игнорируют “вес” цитаты в смысле доверия/уникальности/кликабельности.

Поэтому авторы добавляют Subjective Impression: она включает факторы вроде:

  • релевантность материала к запросу,

  • влияние на ответ,

  • уникальность (не повторяет ли то же, что дали другие),

  • субъективная позиция/количество,

  • вероятность клика,

  • разнообразие материала. 

Технически важно вот что:

  1. Это “мультикритериальная” оценка, а не один показатель.
    Она ближе к инженерному понятию utility (полезность источника для ответа), чем к SEO-логике “место → трафик”.

  2. Оценка делается через G-Eval (структуру LLMок, где они же и выставляют баллы по под-метрикам). Это не идеальный вариант, но это воспроизводимый протокол: при одинаковых входах можно повторять сравнение стратегий и источников.

  3. Практический смысл Subjective Impression — отфильтровать контент с низкой уникальностью, низким доверием или полезностью для синтеза).

Какие изменения в контенте доказуемо дают прирост (и насколько)

Теперь самое прикладное: авторы активно экспериментируют на GEO-bench и сравнивают стратегии оптимизации. Результат супер-неприятный для старпёрского SEO:

  • Keyword stuffing (классическое “добавим больше ключей”) даёт мало или ноль улучшений для GE — то есть перенос SEO-приёма не работает. 

  • “Authoritative/persuasive tone” (сделаем тон экспретнее и увереннее) тоже не дал значимого улучшения, и это после всех то разговоров про E-E-A-T. Спешу заверить, что здесь нет ничего разоблачающего — просто, если вы только переписываете тон, но не работаете над доказательностью (не приводите статистику, источники, цитаты, проверяемые факты), то в generative engines это почти не улучшает видимость.

А что работает лучше всего, так это:

  • Statistics Addition — переводите качественные утверждения в количественные, где это возможно. Это снижает неопределённость ответа (для алгоритмов безопаснее) + цифры легче вставить в начало ответа. 

  • Quotation Addition — добавляйте цитаты, подкрепляющие основной тезис. Во-первых, это готовый доказательный фрагмент, чтобы его вставить + поднимает источник по тексту выше (PA-WC) + рост доверия (Subjective Impression). 

Авторы фиксируют: методы улучшают baseline на 41% по PA-WC и на 28% по Subjective Impression.

Сравнение методов оптимизации по PA-WC и Subjective Impression — видно, какие правки реально дают прирост. До 40%  по PA-WC и до 30% по Subjective Impression, между прочим, при лучшем выборе методов!
Сравнение методов оптимизации по PA-WC и Subjective Impression — видно, какие правки реально дают прирост. До 40%  по PA-WC и до 30% по Subjective Impression, между прочим, при лучшем выборе методов!
Комбинации GEO-правок: средний прирост видимости при сочетании методов (например, readability/fluency + statistics/quotes/citations). Эффективность именно сочетания превосходит любую отдельную стратегию более чем на 5,5%.
Комбинации GEO-правок: средний прирост видимости при сочетании методов (например, readability/fluency + statistics/quotes/citations). Эффективность именно сочетания превосходит любую отдельную стратегию более чем на 5,5%.

Поэтому, если вы можете прямо сейчас на каждый ключевой тезис добавить 1 измеримый факт (число/диапазон/сравнение) + источник/дата. А в каждом разделе 1–2 цитаты (короткое предложение с цифрой/цитатой) ближе к началу, чтобы поднять PA-WC.

Сделайте это)

Если вас всё ещё это не убедило, посмотрите как изменилось состояние исходного сайта от GEO-внедрений:

Дополнения — зелёный. Удаления — красным. И это без дополнения существенной информацией — просто изменение формулировок. 
Дополнения — зелёный. Удаления — красным. И это без дополнения существенной информацией — просто изменение формулировок. 

Демократичная выдача (и как это использовать в стратегии)

Один из самых сильных аналитических выводов для GEO — независимость эффекта от “классического SERP-ранга”:

В таблице показано, что GEO-методы особенно помогают низкоранговым сайтам; более того, некоторые методы дают, наоборот, огромные приросты в выдаче Rank-5, например у “Cite Sources” указано +115.1% видимости для сайтов, стоящих 5-ми в SERP, при одновременном падении видимости у Rank-1.

Видно, что стратегию можно выбирать по целевому домену (не новость, что для разных ниш — она разная). Что более интересно: прирост видимости зависит от стартового ранга в SERP и типа запросов (теги).
Видно, что стратегию можно выбирать по целевому домену (не новость, что для разных ниш — она разная). Что более интересно: прирост видимости зависит от стартового ранга в SERP и типа запросов (теги).

Конечно, это не касается сайтов, у которых нет даже базовой оптимизации (такие и прочитать невозможно). 

Как эта наука стыкуется с прикладным фреймворком (и какие бенчмарки брать)

Profound в своём 10-шаговом фреймворке по сути переводит academic-логику “impressions/visibility” в операционные KPI:

  • вместо “позиции” — Visibility score (насколько видно в ответах ИИ + как часто + насколько заметно); AI citations (ссылка на источник + сколько раз); Share of voice (присутствие в конкретных тематиках). Это всё наши PA-WC и WC. 

  • вместо “ключей” — “conversational prompts”, которые отвечать на реальные пользовательские вопросы — эту историю маппить прямо по воронке (awareness/consideration/decision). Допустим, мы чуть меняем парадигму со “страницы под кластер” на “набор вопросов под аудиторию”;

  • вместо “backlinks” — citation authority (ваш контент цитируют?). Вам нужны не рандомные ссылки, но упоминания с авторитетных доменов. Profound советует получать ссылки минимум с 20 авторитетных доменов за квартал.

Абсолютные показатели эффективность SEO/GEO. Например, статистика и цитаты дают прирост по PA-WC и субъективной видимости, keyword stuffing — нет.
Абсолютные показатели эффективность SEO/GEO. Например, статистика и цитаты дают прирост по PA-WC и субъективной видимости, keyword stuffing — нет.

А тут поподробнее про конкретные бенчмарки, которые можно зашить в процесс:

  • цель по узнаваемости: Visibility score Top 3 по списку приоритетных промптов;

  • доверие: positive sentiment ≥ 90% favorable (позитивно/нейтрально упоминают ибез галлюцинаций);

  • техничка: mobile speed < 1.8s, HTTPS, полное покрытие structured data;

  • контент-структура: TL;DR, списки, таблицы, FAQPage/HowTo schema.

Как внедрять GEO (целый инженерный процесс): промпты → матрица контента → правки → измерение (с бенчмарками)

Выше мы говорили про то, как измерять видимость (PA-WC / Subjective Impression) и какие типы правок реально дают прирост. А сейчас мы обсудим, как превратить это в повторяемый процесс.

Единица работы в GEO — промпты (проблематики)

Почему: мы уже говорили, что результаты зависят от домена/типа запросов, значит оптимизация должна тестироваться на наборе вопросов, а не по одной странице.

Как делать:

  • собираете 30–80 вопросов, как их задаёт человек (ещё мы называем их проблематиками, чтобы отличать типы запросов).

  • группируете по интенту: объяснить / сравнить / выбрать / решить проблему / проверить миф.

  • фиксируете 10–15 ключевых, на которых меряете прогресс каждую итерацию. В разных нейр��сетях. 

Для каждого промпта делаем “скелет ответа” (и отсюда вытекают требования к странице)

Чтобы попасть в начало ответа (PA-WC), нужно понимать: какие блоки почти всегда стоят первыми в хорошем ответе:

  1. определение (что это)

  2. критерии выбора / рамки (как оценивать)

  3. шаги / алгоритм (что делать)

  4. исключения / ограничения (когда не подходит)

  5. примеры/таблица/FAQ

Это и есть “контент под генерацию”: вы даёте алгоритму готовые фрагменты, которые он может вставить без исправления.

Максимизация PA-WC и Subjective Impression

Для PA-WC (чтобы выше показался источник):

  • короткие определения (1–2 предложения)

  • списки критериев 

  • “если-то” правила (“подходит если…, не подходит если…”)

  • мини-алгоритмы (3–7 шагов)

Для Subjective Impression (полезно/уникально):

  • цифра/диапазон + контекст + источник (Statistics Addition)

  • цитата/позиция эксперта + ссылка на первоисточник (Quotation Addition)

  • сравнение в таблице (условия/ограничения/риски)

  • FAQ (для извлечения)

Правило размещения: самые цитируемые вещи — в начале, иначе вы теряете PA-WC из-за position-penalty.

Процедура GEO-редактуры статьи

  1. Выделите 8–12 ключевых тезисов статьи.

  2. Для каждого тезиса задайте вопрос:

    - где можно заменить на конкретику (число/диапазон/сравнение)?

    - где просится цитата/первоисточник, чтобы тезис был подкреплён чем-то?

  3. Примените 1 такое изменение на каждые ~300–500 слов:

    - факт/цифра + источник

    - или цитата + источник

  4. Добавьте TL;DR, таблицу или FAQ — как удобный шаблон для извлечения.

Техничка как часть GEO (для доступности)

Напомню:

  • mobile speed < 1.8s

  • HTTPS

  • полное покрытие structured data

  • структурированные блоки: TL;DR, списки, таблицы, FAQPage/HowTo schema

Меряем GEO 

WC и PA-WC

Для каждого ответа фиксируете:

  1. First cite position: на каком по счёту предложении вы появились (1…N).

  2. Cited sentences count: сколько предложений в ответе ссылаются на вас.

  3. Early-screen share: сколько из них попало в первые 5–7 предложений (первый экран).

  4. Split factor: сколько раз вы делили предложение с другими источниками (1/2/3…).

Subjective Impression

Можно сделать проще — 5-балльная ручная шкала на 3 критериях:

  • Uniqueness: есть ли у вас уникальный факт/таблица/метод, которого нет у других?

  • Verifiability: есть ли рядом источник/цифра/цитата (то, что алгоритм ловко цитирует)?

  • Actionability: даёт ли фрагмент конкретное действие/правило/шаги?

KPI

  • Brand awareness: Visibility score Top 3

  • Trust: Positive sentiment ≥ 90% favorable

  • Tech GEO: Mobile speed < 1.8s, HTTPS, structured data coverage

  • Thought leadership: “заработать цитирования ≥ 20 авторитетных доменов за квартал”

Перевод в операционку:

  • еженедельно: прогон выбранных вами промптов (проблематик) и фиксация (first cite position / cited sentences / early-screen share)

  • ежемесячно: citations + share of voice + ручной quality-скоринг

  • ежеквартально: отчёт по бенчмаркам (Top-3 visibility, ≥90% favorable, ≥20 high-authority citations) 

GEO меняет механику выдачи

А вы можете менять лидеров ниши. Лучше сразу метьте в одного из них)

GEO пока один большой эксперимент, но факт влияния на выдачу и пользовательское поведени�� уже подтверждает статистика.

Начните уже сейчас изучать и делать хоть что-то, чтобы в том числе, дать модель обучиться на своём бренде.

Impressions (вроде WC и position-adjusted варианта), есть субъективная оценка полезности источника, и есть сравнительные результаты по стратегиям. И у всех у них одно ключевое свойство — повторяемость. 

И важнее всего — что именно оказалось драйвером роста. Не сильный тон, не добавим ключи. А то, что делает источник безопасным для цитирования: статистика, цитаты, ссылки на первоисточники, ясные формулировки, которые можно вставить в ответ без риска.

Сводные значения PA-WC и Subjective Impression по методам оптимизации (для тех, кто хочет посмотреть на сырые цифры ещё раз).
Сводные значения PA-WC и Subjective Impression по методам оптимизации (для тех, кто хочет посмотреть на сырые цифры ещё раз).

Я приложил вам исследование Arxiv и Profound не как чьё-то субъективное мнение, а как перевод академической логики в операционные KPI — то, что уже можно начинать отслеживать в отчётах и планировать как продуктовую метрику. Есть уже даже сравнительные KPI (очень условные, но ведь Москва тоже не сразу строилась).

Сам подход, в первую очередь, фокусируется на повышении узнаваемости продукта с помощью конкурентного текста, хотя методология стратегии не кажется очевидно состязательной. 

SEO есть и никуда не денется — это всё такой же фундамент, но в связи с тем, что SEO не закрывает мультимодальность и диалоговые настройки ИИ, например, — ему нужна надстройка. И этой надстройкой становиться GEO.

В общем, пробуйте, задавайтесь вопросами, изучайте, советуйтесь (можно со мной — личка тг @myatov_assistent). Удачи!