В течение долгого времени компания Google хранила в строгом секрете формулы своих поисковых алгоритмов. Причины понятны: во-первых, чтобы защититься от конкурентов; во-вторых, чтобы эту информацию не могли использовать в своих целях «чёрные» оптимизаторы. И вот, наконец, политика скрытности начинает меняться. Глава подразделения поискового качества (Search Quality) Уди Манбер опубликовал сообщение в корпоративном блоге, которое он сам называет первым шагом по открытию ранее секретной информации.
В первом сообщении Уди Манбер рассказывает об основах системы ранжирования поискового движка Google. Он объясняет, что всем известный алгоритм PageRank является частью гораздо более масштабной системы, которая включает в себя языковые модели (обработка фраз, синонимов, опечаток и т.д.), модели обработки запросов (это не лингвистика, а попытка понять суть поисковых запросов), временные модели (на некоторые запросы лучше выдавать самые свежие страницы, проиндексированные в последние 30 минут, а на другие — старые страницы с проверенным качеством), а также модели персонализации.
В первом сообщении Манбера мы не видим ничего «секретного», чего бы не знали раньше. Но это только начало, и в будущем Манбер может опубликовать новую интересную информацию, та что есть смысл внимательно следить за корпоративным блогом Google.
Независимые эксперты с иронией комментируют, что Google всегда была не менее закрытой компанией, чем Microsoft. Даже хуже, более лицемерной, потому что система работы Google такая: они заставляют людей открывать информацию в свободный доступ, собирают её в свой закрытый «чёрный ящик», с помощью которого зарабатывают деньги. Понятно, что такие действия вызывают некоторое недовольство у авторов контента, так что новая стратегия Google по открытию своих алгоритмов — это, в какой-то степени, вынужденный шаг.
В первом сообщении Уди Манбер рассказывает об основах системы ранжирования поискового движка Google. Он объясняет, что всем известный алгоритм PageRank является частью гораздо более масштабной системы, которая включает в себя языковые модели (обработка фраз, синонимов, опечаток и т.д.), модели обработки запросов (это не лингвистика, а попытка понять суть поисковых запросов), временные модели (на некоторые запросы лучше выдавать самые свежие страницы, проиндексированные в последние 30 минут, а на другие — старые страницы с проверенным качеством), а также модели персонализации.
В первом сообщении Манбера мы не видим ничего «секретного», чего бы не знали раньше. Но это только начало, и в будущем Манбер может опубликовать новую интересную информацию, та что есть смысл внимательно следить за корпоративным блогом Google.
Независимые эксперты с иронией комментируют, что Google всегда была не менее закрытой компанией, чем Microsoft. Даже хуже, более лицемерной, потому что система работы Google такая: они заставляют людей открывать информацию в свободный доступ, собирают её в свой закрытый «чёрный ящик», с помощью которого зарабатывают деньги. Понятно, что такие действия вызывают некоторое недовольство у авторов контента, так что новая стратегия Google по открытию своих алгоритмов — это, в какой-то степени, вынужденный шаг.