Газета NY Times опубликовала огромную статью о том, как, кто и почему в компании Google изменяет алгоритмы ранжирования. В статье приведено множество интересных фактов о том, как работает отдел поискового качества (Search Quality). Засланный журналист провёл там целый день.
Как известно, тонкая настройка выдачи происходит в поисковой системе почти каждый день. Отдел поискового качества Google вносит в алгоритмы ранжирования около шести крупных и мелких изменений в неделю. Руководит процессом 39-летний программист индийского происхождения Амит Сингал (Amit Singhal). Как и другим элитарным программистам, ему присвоена почётная должность Google Fellow.
После своего прихода в Google в 2000 году, м-р Сингал разработал сложную систему ранжирования документов, учитывающую более 200 факторов, которые на профессиональном сленге называют «сигналами». Рейтинг PageRank — только один из таких сигналов.
Каждый из 10 000 сотрудников Google может воспользоваться специальной системой Buganizer, чтобы сообщить о той или иной ошибке в поисковой выдаче. Все эти сообщения (около сотни в день) рассматривают Амир Сингал и несколько других топ-менеджеров Google, в том числе Мэтт Каттс, руководитель антиспамерского отдела Google.
Некоторые проблемы вполне очевидны и их устраняют без размышлений. Например, недавно поиск по фразе [французская революция] выдавал больше результатов о последних президентских выборах во Франции, чем о реальной Французской революции времён Людовика XVI.
Другие проблемы бывают сложнее. Так, в 2005 году рассматривалась проблема, почему в выдаче по запросу [teak patio Palo Alto] нет местного магазина, который семантически на 100% совпадает с запросом. Это магазин Teak Patio в Пало-Альто (сайт Theteakpatio.com). Разбираясь в этой проблеме, Амир Сингал запустил «одну из самых секретных и закрытых внутренних программ» под названием Debug, чтобы проанализировать результаты выдачи по конкретному поисковому запросу. Стало понятно, что магазина нет в выдаче, потому что входящие ссылки имели недостаточный вес, ведь маленькие региональные сайты обычно имеют низкий PR. Чтобы исправить эту и аналогичные ситуации, Амир Сингал внёс коррективы в алгоритмы ранжирования. Эти изменения коснулись всех маленьких региональных интернет-магазинов в мире.
Во второй половине прошлого года очень многие жалобы в Buganizer были связаны с параметром «свежести». Это один из параметров, который влияет на результаты выдачи. Раньше более авторитетными считались те страницы, которые давно не обновлялись. Однако, после запуска сервиса Google Finance м-р Сингал обнаружил, что не может найти этот сайт на первой странице результатов поиска. Стало ясно, что алгоритмы надо менять и давать «свежим» страницам больший вес.
Такое глобальное изменение Амир Сингал не мог внести самовольно, так что этой весной он представил свои выкладки на еженедельном собрании ведущих специалистов по поиску компании Google. Он показал презентацию, посвящённую инициативе, которая получила название QDF (query deserves freshness). Главная идея QDF заключается в том, чтобы находить те страницы, которые упоминаются в блогах и форумах и, соответственно, считаются «горячими». Коллеги решили, что QDF заслуживает двухнедельного тестирования в одном из дата-центров.
Вот таким образом происходит настройка алгоритмов ранжирования в Google.
via NY Times
Как известно, тонкая настройка выдачи происходит в поисковой системе почти каждый день. Отдел поискового качества Google вносит в алгоритмы ранжирования около шести крупных и мелких изменений в неделю. Руководит процессом 39-летний программист индийского происхождения Амит Сингал (Amit Singhal). Как и другим элитарным программистам, ему присвоена почётная должность Google Fellow.
После своего прихода в Google в 2000 году, м-р Сингал разработал сложную систему ранжирования документов, учитывающую более 200 факторов, которые на профессиональном сленге называют «сигналами». Рейтинг PageRank — только один из таких сигналов.
Каждый из 10 000 сотрудников Google может воспользоваться специальной системой Buganizer, чтобы сообщить о той или иной ошибке в поисковой выдаче. Все эти сообщения (около сотни в день) рассматривают Амир Сингал и несколько других топ-менеджеров Google, в том числе Мэтт Каттс, руководитель антиспамерского отдела Google.
Некоторые проблемы вполне очевидны и их устраняют без размышлений. Например, недавно поиск по фразе [французская революция] выдавал больше результатов о последних президентских выборах во Франции, чем о реальной Французской революции времён Людовика XVI.
Другие проблемы бывают сложнее. Так, в 2005 году рассматривалась проблема, почему в выдаче по запросу [teak patio Palo Alto] нет местного магазина, который семантически на 100% совпадает с запросом. Это магазин Teak Patio в Пало-Альто (сайт Theteakpatio.com). Разбираясь в этой проблеме, Амир Сингал запустил «одну из самых секретных и закрытых внутренних программ» под названием Debug, чтобы проанализировать результаты выдачи по конкретному поисковому запросу. Стало понятно, что магазина нет в выдаче, потому что входящие ссылки имели недостаточный вес, ведь маленькие региональные сайты обычно имеют низкий PR. Чтобы исправить эту и аналогичные ситуации, Амир Сингал внёс коррективы в алгоритмы ранжирования. Эти изменения коснулись всех маленьких региональных интернет-магазинов в мире.
Во второй половине прошлого года очень многие жалобы в Buganizer были связаны с параметром «свежести». Это один из параметров, который влияет на результаты выдачи. Раньше более авторитетными считались те страницы, которые давно не обновлялись. Однако, после запуска сервиса Google Finance м-р Сингал обнаружил, что не может найти этот сайт на первой странице результатов поиска. Стало ясно, что алгоритмы надо менять и давать «свежим» страницам больший вес.
Такое глобальное изменение Амир Сингал не мог внести самовольно, так что этой весной он представил свои выкладки на еженедельном собрании ведущих специалистов по поиску компании Google. Он показал презентацию, посвящённую инициативе, которая получила название QDF (query deserves freshness). Главная идея QDF заключается в том, чтобы находить те страницы, которые упоминаются в блогах и форумах и, соответственно, считаются «горячими». Коллеги решили, что QDF заслуживает двухнедельного тестирования в одном из дата-центров.
Вот таким образом происходит настройка алгоритмов ранжирования в Google.
via NY Times