maybe_elf 29 мая 2024 в 11:17

Google отказалась комментировать утечку документации поискового алгоритма

4 мин

5.2K

Информационная безопасность*Поисковые технологии*Поисковая оптимизация*

Эксперт в области SEO Рэнд Фишкин рассказал, что сотрудники Google поделились с ним внутренней документацией, описывающей работу поискового алгоритма компании. Однако сам IT-гигант не намерен комментировать утечку.

Данные о «хороших» и «плохих» кликах, включая их продолжительность / sparktoro.com

Другой эксперт, Майк Кинг, опубликовал подробности утечки. По его мнению, кто-то из стажёров Google по ошибке автоматически опубликовал документацию на GitHub. Судя по истории коммитов, соответствующий код был добавлен в марте 2024 года.

Всего в документации описано более 14 тысяч атрибутов.

Фишкин утверждает, что источник передал ему 2500 страниц документов в надежде, что сообщение об утечке поможет опровергнуть «ложь», которой поделились сотрудники Google о работе алгоритма. По его словам, в документах описывается поисковый API Google и разбирается, какая информация доступна сотрудникам.

Детали, которыми поделился Фишкин, носят технический характер. Утечка описывает, какие данные Google собирает с веб-страниц, сайтов и поисковых систем, и даёт косвенные подсказки экспертам по SEO о том, на чём делает акцент компания.

Так, в ней описывается, как и какие данные собирает и использует Google, какие сайты по деликатным темам ранжируются лучше, как Google обрабатывает небольшие веб-сайты и многое другое. По словам экспертов, некоторые из этих данных противоречат публичным заявлениям представителей Google. Они также отмечают, что алгоритм Google — это, по сути, серия микросервисов, в которых многие функции предварительно обрабатываются и становятся доступными во время выполнения для формирования результатов поиска.

Один из примеров Фишкина демонстрирует, используются ли вообще данные Google Chrome для ранжирования. Представители компании неоднократно заявляли, что они не учитывают такие данные. Однако Chrome упоминается в разделах, посвящённых отображению веб-сайтов в поиске.

Кроме того, там упоминается система NavBoost, которая подсчитывает клики, сегментирует данные по странам и устройствам, оценивает отдельно домены, поддомены и URL-адреса. Также может применяться модификатор Panda, который оценивает сайты на основе нескольких показателей, связанных с поведением пользователей. Этот модификатор можно применять на уровне домена, поддомена или подкаталога. Суть в том, что для лучшей выдачи нужно получать больше кликов, используя более широкий набор запросов.

Ещё один вопрос заключается в том, какую роль играет E-E-A-T в ранжировании. E-E-A-T (опыт, знания, авторитетность и надёжность) — показатель Google, используемый для оценки качества результатов. Представители компании ранее заявляли, что E-E-A-T не является фактором ранжирования. Однако в документах он есть. E-E-A-T позволяет понижать выдачу при ссылках на нерелевантный сайту контент, отсутствие привязки по геолокации, а также при публикации сомнительного контента, например, порно.

Однако эксперты рассказали, как Google собирает данные об авторе со страницы и верифицирует его. В основном, это работает для новостных статей и научных публикаций. Не факт, что авторство играет роль в ранжировании, однако Google, по крайней мере, отслеживает этот атрибут. Представители компании ранее настаивали на том, что авторство не влияет на рейтинг. Атрибут «siteAuthority», очевидно, предназначен для ранжирования источников по авторитетности.

Кроме того, в работе алгоритма, похоже, используется, функция Twiddlers для переранжирования. Она работает аналогично тому, как фильтры и действия в WordPress. Twiddlers может предлагать ограничения по категориям и даже убирать из поиска небольшие сайты.

При этом файловая система Google способна сохранять версии страниц с течением времени подобно Wayback Machine. Вероятно, при обработке данных рассматриваются только 20 последних версий страницы.

Наконец, Google подсчитывает количество токенов и соотношение общего количества слов в тексте к количеству уникальных токенов. Существует максимальное количество токенов, поэтому авторам следует размещать наиболее важный контент как можно выше. Длинные заголовки страниц не подходят для увеличения количества кликов, но они работают для повышения рейтинга.

Фишкин указывает на проблему, связанную с тем, что многие издатели контента никогда не сомневались в поисковой политике Google: «Исторически сложилось так, что некоторые из самых громких голосов поисковой индустрии и наиболее плодовитые издатели были счастливы некритически повторять публичные заявления Google. Они пишут заголовки типа “Google утверждает, что XYZ — правда”, а не “Google утверждает, что XYZ”. Факты говорят об обратном».

Как отмечает Григорий Бакунов, в поисковике есть отдельная песочница для новых сайтов, а также напрямую используются данные из EWOK — системы, в которой пользователи за деньги оценивают, какой вариант выдачи в поиске лучше. Кроме того, по количеству кликов на странице сайты делятся на три категории с соответствующим рангом качества. По словам эксперта, именно клики и навигация по сайту играют главную роль в ранжировании ресурсов, поэтому для большинства мелких компаний и сайтов SEO почти не играет роли, если не выстроен бренд.

Google не ответила на запросы The Verge относительно документов и не стала опровергать их реальность. Фишкин сообщил, что компания не оспаривала достоверность утечки, но её сотрудник попросил его изменить некоторые формулировки.

Хабы:

Google отказалась комментировать утечку документации поискового алгоритма

Другие новости

Работа

Ближайшие события