Алгоритмы ранжирования Google основываются на наборе внутренних параметров, которые вручную определяются его инженерами.
Другими словами, это фиксированные параметры, которые не изменяются динамически и применяются как абсолютные правила.
В этой статье мы рассмотрим одно из таких значений — ключевой элемент, который проливает свет на то, как ведущий поисковик мира управляет фундаментальным аспектом своей системы ранжирования: индексированием.
Индексировать или не индексировать - вот в чем вопрос!
Для любого веб-сайта критически важная задача — попасть в индекс Google и оставаться в нём.
Если страница не индексируется, все остальные усилия, связанные с SEO — создание контента, покупка ссылок, оптимизация конверсии и многое другое — становятся бесполезными.
Тем не менее, индекс Google не безграничен. Или точнее, Google не хочет, чтобы он был безграничным.
В 2020 году индекс Google содержал 400 миллиардов документов (страниц). Эта цифра была раскрыта во время допроса Панду Найака, вице-президента Google по поиску, в антимонопольном деле против Google.
С точки зрения Google, как функционирующего и ориентированного на прибыль бизнеса, большее количество проиндексированных страниц означает больше места для хранения, больше вычислительных мощностей для их анализа, классификации и мониторинга.
Это ведет к увеличению операционных затрат — а это именно то, что каждая компания, включая Google, пытается сократить в наши дни.
Чтобы контролировать рост своего индекса, поисковая система Google использует широкий набор техник, включая каноникализацию (удаление дублирующих страниц), предсказательное сканирование, фильтры и многое другое.
Но что насчёт страниц, которые давно находятся в индексе? Возможно, не все из них заслуживают оставаться там.
Google имеет точный и чётко определённый механизм очистки своего индекса.
Давайте исследуем это вместе!
Подготовка инструмента для исследования
Для нашего исследования мы будем использовать Screaming Frog SEO Spider, чья платная версия позволяет дополнить данные сканирования информацией из Google Search Console API.
В меню выбираете: Configuration > API Access > Google Search Console.
Войдите в свой аккаунт.
Перейдите в вкладку «URL Inspection».
Отметьте оба поля, как показано на изображении ниже.

Этот инструмент, позволяет пользователям получать техническую информацию о статусе страниц, так как их видит поисковик, данные берутся напрямую из Google Search Console API.
Этот инструмент очень исключает необходимость проверять каждый URL напрямую в интерфейсе Search Console. Единственное ограничение — разрешено выгружать данные максимум 2 000 страниц в день на каждый ресурс, но это ограничение обходится созданием нескольких ресурсов.
Что ж, давайте начнем сканирование.
После того как начнете сканирование, переходите во вкладку «Google Search Console», где вы найдете множество полезных данных, прямо из индекса Google:

Мы видим 20 столбцов с разбросанными техническими показателями, и пока ничего не ясно.
Но как сказал Анри Бергсон 90 лет назад: «Беспорядок — это просто порядок, который мы не нашли».
Давайте сузим фокус до четырёх ключевых столбцов:
Summary (находится ли страница в индексе Google)
Coverage (причина, по которой страница не индексируется, если применимо)
Last crawl (дата последнего посещения страницы Google bot’ом)
Days Since Last Crawled (дни с момента последнего сканирования)
Здесь мы можем увидеть данные для каждого URL, проиндексирован ли он в Google и сколько времени прошло с последнего сканирования.

Давайте отсортируем данные по столбцу «Days Since Last Crawled» по возрастанию.
И вот мы уже начинаем видеть причинно-следственную связь.
Давайте исследуем ее на 5 реальных примерах разных видов сайтов.
Пример 1: Официальный сайт производителя шин (Португалия)
Это один из самых известных производителей шин на португальском рынке.
После применения описанного выше анализа, мы наблюдаем два возможных состояния в столбце «Summary»:
«URL is on Google»
«URL is not on Google»
Но самое интересное находится в столбце «Days Since Last Crawled».
Кажется, существует причинно-следственная связь между частотой сканирования и статусом индексирования страницы.
Более конкретно, URL, похоже, исключаются из индекса, если Googlebot не сканирует их в течение 130 дней.

Важное уточнение
При настройке Screaming Frog мы удостоверились, что данные собираются только для индексируемых URL.
Иными словами, данные, которые мы анализируем, включают только технически валидные страницы — без тегов noindex, без rel=canonical, указывающих на другие страницы, и без страниц, заблокированных с помощью robots.txt или без страниц, имеющих другие ограничения для индексации.
Чтобы избежать искажения результатов, рассмотрим ещё 4 реальных примера.
Пример 2: Спортивный новостной сайт (Франция)
Это совсем другой тип сайта, однако тут мы наблюдаем ту же самую тенденцию:
Страницы, которые не были просканированы в течение 130 дней, автоматически удаляются из индекса Google.
Они переходят из состояния «Submitted and indexed» в «Crawled – currently not indexed».

Пример 3: Fashion журнал (Италия)
Мы наблюдаем точно такую же тенденцию и на итальянском Fashion журнале:
Страницы, которые не были сканированы в течение 130 дней, постепенно переходят из состояния «Submitted and indexed» в «Crawled – currently not indexed».

Пример 4: Корпоративный сайт с форумом (ГЕО - весь мир)
Ещё один тип сайта — бизнес-сайт с интегрированным форумом для вопросов и ответов.
И снова то же самое: порог в 130 дней действует.
Страницы, которые не были просканированы в течение этого времени, склонны переходить из состояния «Submitted and indexed» в «Crawled – currently not indexed».

Пример 5: Официальный правительственный сайт (Франция)
Для пятого и последнего примера, французский .gov сайт — тот же паттерн:
Страницы, не сканированные в течение 130 дней, переходят из состояния «Submitted and indexed» в «Crawled – currently not indexed».

Правило 130 дней
Во всех рассмотренных примерах мы последовательно наблюдаем одну и ту же тенденцию:
Статус индексирования наших страниц зависит от частоты сканирования Google.
Похоже, что Google применяет статический порог сканирования в 130 дней. Каждая страница на сайте имеет свою собственную частоту сканирования, которая со временем изменяется. Если эта частота падает до такой степени, что Googlebot не сканирует страницу в течение 130 дней, страница исключается из индекса.
Следовательно, важно анализировать свои страницы в пределах окна сканирования от 130 дней и более, чтобы оптимизировать и улучшать их ценность.
Что делать с страницами, не сканированными в течение 130 дней?
Теперь закономерный вопрос: что делать с этой информацией?
Чтобы ответить на него, важно понять, как поисковая система распределяет свои ресурсы для сканирования.
Частота сканирования — это динамическое значение, которое поисковая система постоянно стремится оптимизировать, чтобы сканировать страницы, которые наиболее достойны этого.
«Если вы хотите увеличить частоту сканирования, вам нужно как-то убедить поисковик, что ваш контент стоит того, чтобы его забирали, и это, по сути, и есть то, что планировщик изучает.»
Гарри Иллиес, аналитик Google.
Расчёт частоты сканирования
С точки зрения сайта частота сканирования в первую очередь определяется двумя группами факторов:
Качество контента страницы
PageRank страницы
Теперь соберите страницы, которые не были просканированы в течение 130 дней, и попробуйте ответить на следующие вопросы:
С точки зрения качества:
Что общего у этих страниц?
Принадлежат ли они к определённому типу?
Например:
На сайте производителя шин (Пример 1): среди страниц, попавших под исследование, мы видим страницы категорий по брендам, которые не содержат продуктов или какого-либо отличительного контента.
На медиасайте (Пример 2): это страницы с очень похожими тегами, которые можно оптимизировать и улучшить.
На сайте модного журнала (Пример 3): это очень короткие материалы, изначально предназначенные для распространения в социальных сетях.
Улучшив качество этих страниц, вы сможете повысить их сканируемость и, следовательно, их индексирование.
«Планирование очень динамично. Как только мы получаем сигналы от поисковой индексации, что качество контента улучшилось на таком-то числе URL, мы просто начинаем увеличивать запросы».
Гарри Иллиес, аналитик Google.
С точки зрения PageRank
Кроме контента, частота, с которой страница сканируется Google, тесно связана с её авторитетом, который формализуется в концепции PageRank.
Чем глубже страница находится в структуре сайта, тем менее важной она считается.
Когда эта важность падает до минимального порога, именно до того момента, когда Googlebot считает, что нет необходимости сканировать страницу чаще, чем раз в 130 дней, она в конечном итоге исключается из индекса.
Это, по сути, процесс очистки, который выполняет Google, удаляя страницы, которые считаются неважными. Это также объясняет, почему некоторые страницы, которые долго были проиндексированы, могут быть неожиданно исключены.
Вопросы, которые следует учитывать относительно PageRank:
Где расположены страницы, исключённые из индекса, в структуре сайта?
Какой у них уровень вложенности?
Получают ли они достаточно внутренних и внешних ссылок?
Два последних совета:
Если вы хотите узнать, какие страницы считаются наиболее ценными для Google, частота сканирования — один из самых надёжных индикаторов.
Для проведения этого исследования на всём сайте можно проанализировать логи. Попросите хостера или разработчика экспортировать логи хотя бы за последние 130 дней. Сопоставьте их с данными о сканировании: страницы, которые были просканированы, но не появились в логах за последние 130 дней, почти наверняка не индексируются.