Там, где останавливаются боты

    Сообщество SEO'шников славится множеством различных мнений относительно обьема текста, индексируемого поисками на единичной web-странице.
    Вопрос в том, насколько большой должна быть оптимизированая страница и где баланс между «слишком маленькой» страницей, которую поисковики сочтут неинформативной, и «слишком большой» страницей, на которой потенциально важный контент может остаться без внимания поисковиков?
    Насколько я знаю, еще никто не пытался ответить на этот вопрос с помощью собственного эксперимента. Участники SEO форумов обычно ограничиваются цитированием рекоммендаций, опубликованых самими поисковиками.
    До сих пор, святая уверенность SEO сообщества в то, что лидирующие поисковики ограничивают обьем индексируемого текста пресловутой сотней килобайт, заставляет их клиентов чесать голову в попытках понять, что делать с текстом, который выходит за эти рамки.
    Эксперимент
    Когда я решил поставить эксперимент, чтобы ответить на этот вопрос опытным путем, моими целями были:
    • Определить объем текста на странице, фактически индексируемого и кешируемого поисковиками.
    • Вычислить объем индексируемого текста, в зависимости от общего размера страницы.


    Вот как проходил эксперимент. Я взял 25 страниц различного размера (от 45кб до 4151кб), ввел уникальные, несуществующие ключевые слова на каждую страницу с интервалами в 10кб (приблизительно через каждые 10000 символов (прим.пер.)). Ключевые слова генерировались автоматически, специально для эксперимента, и служили метками глубины индексации. Затем страницы были опубликованы, и я пошел сделать себе кофе, ибо ожидание прихода поисковиков обещало быть долгим (это же сколько надо было выпить кофе! (прим.пер.)).
    Наконец-то я увидел следы ботов Большой Тройки (Google, Yahoo, MSN) в логах сервера. Логи сервера дали мне искомую информацию для успешного проведения эксперемента.
    Важно заметить, что я использовал специальные, экспериментальные страницы для этого теста. Эти страницы находятся на домене, который я зарезервировал для подобных экспериментов, и содержат только текст с ключевыми словами, которые мне нужны для теста. Если человеку случится попасть на эти страницы, наполненые бессмысленой абракадаброй и ключевыми словами, то его брови немедленно поползут наверх, но люди — совсем нежеланная аудитория здесь.
    После того как я просмотрел логи и убедился в том, что боты поисковиков заглядывали, единственное что мне осталось сделать — это проверить ранжирование в выдаче для каждой экпериментальной страницы по каждому ключевому слову, использованому мной. Для этого я использовал Web CEO Ranking Checker. Как вы наверное догадались, если поисковики индексируют только часть страницы, то в выдаче она будет фигурировать только по тем ключевым словам, которые были выше сканируемого лимита.
    Результаты
    Этот график показывает где Большая Тройка перестала выдавать мои тестовые страницы:
    ranking
    Сейчас, когда у меня есть информация о количестве текста на странице, скачаного поисковыми ботами, я могу вычислить длину текста на
    странице, индексируемого поисковиками. Поверьте мне, результаты неожиданны — мягко говоря. Но тем более приятно поделиться ими со всеми, кто интересуется этими животрепещущеми вопросами поисковой оптимизации.

    yahoo
    Второе место принадлежит Великому (по качеству поиска) и Ужасному (по своему отношению к SEO) Google. Googlebot может утащить на свои бесчисленые сервера больше 600кб информации. Но в то же самое время в выдаче Google присутствуют только те страницы, на которых ключевые слова были расположены не далее чем 520кб от начала страницы. Это точный размер страницы, по мнению Google, являющейся наиболее информативной и дающей максимум полезной информации посетителям, не заставляя их углубляться в нескончаемые тексты.
    Этот график показывает сколько информации индексирует Google на тестовых страницах.
    google
    Абсолютный чемпион по глубине индексирования — MSN. MSNbot может скачать до 1.1МБ текста с одной страницы. Самое главное, что он индексирует весь этот текст и выдает его в результатах. Если размер страницы больше 1.1МБ, то контент, присутствующий ниже лимита, останется неиндексированым.
    Вот как MSN работает с тестовыми страницами:
    msn
    MSN повел себя удивительным образом во время первого визита на страницы. Если страница была меньше 170кб, она была отлично показана в выдаче. Любые другие страницы, превышающие этот барьер, не были представлены в выдаче вобще, несмотря на то что MSN скачать и полностью.
    Казалось, что если размер страницы превышает 170кб, то у нее фактически нет шансов появиться в выдаче. Однако через 4-5 недель большие страницы стали появляться в результатах, раскрывая возможность поисковика индексировать большие страницы со временем. Это заставляет меня думать, что скорость индексирования MSN зависит от размера страницы. Так что, если вы хотите чтобы часть информации на вашем сайте присутствовала в выдаче MSN как можно скорее — расположите ее на страницах с «весом» меньше чем 170кб.
    Суммарный график показывает сколько информации скачивают поисковики и сколько затем сохраняют в своих индексах.
    table
    Таким образом, эксперемент подтвердил факт того, что лидирующие поисковые системы значительно различаются в обьеме информации на странице, который они фактически могут просканировать. Для Yahoo лимит составляет 210кб, для Google 520кб, а для MSN — 1030кб. Страницы меньшего обьема индексируются полностью, большего же не индексируются вобще.

    Выходя за рамки

    Получается, что это плохо, располагать на своем сайте тексты, выходящие за лимит индексирования поисковиков?
    Конечно же нет! Если текста будет больше, чем поисковик может индексировать, это не повредит вашим позициям в выдаче. Но скорее всего и не поможет. Если информация важна и полезна вашим посетителям — не сомневайтесь и оставляйте ее на странице.
    Впрочем, существует широко распространенное мнение что поисковики уделяют больше внимания словам, расположеным в начале и в конце страницы. Другими словами, если на вашей странице есть фраза «теннисный мяч» и она расположена в первом и в последнем абзаце страницы, то у нее будет существенно больший вес для выдачи чем у той же фразы, написанной дважды где-нибудь по середине текста.
    Если вы хотите воспользоваться этой рекоммендацией, но размеры вашего текста выходят за рамки индексирования, важным моментом будет помнить что последним абзацем будет не то место, где вы закончили писать, а тот лимит, где поисковик закончил индексировать вашу страницу.
    Мой перевод статьи Serge Bondar — Search Engine Indexing Limit: Where Do the Bots Stop.

    Комментарии 45

      0
      Интересная статья, большая работа.
      Только дочитав до конца понял почему нет яндекса в списке, а жаль..
        +1
        согласен. был бы очень кстати. особенно сейчас, когда он так мило непредсказуем.
          0
          нет Яндекса, потому что это перевод.
            0
            Только дочитав до конца понял почему нет яндекса в списке, а жаль..


            Если человек понял, то зачем еще раз обьяснять?
              0
              Упс... действительно так, мне надо внимательней читать. Мои извинения.
        • НЛО прилетело и опубликовало эту надпись здесь
            0
            ну в бинарном плане может вы и правы :)
            0
            Вы бы перенесли это в профильный блог, например, в Поисковая оптимизация, статья-то хорошая, располагает к размышлениям.
              0
              Не подскажете как это сделать?
                0
                спасибо, разобрался сам.
                  0
                  к каким?
                    0
                    Действительно, что тут думать - работать надо! (с) не помню
                    :)
                  0
                  переводчику следует более внимательно относиться к оформлению текста и орфографии, опечатки и ошибки режут глаза
                  статья как эсперимент - забавная. но не более.
                    0
                    буду рад исправить ошибки если укажете на них.
                      +2
                      Вопрос в том, нАСколько...
                      НАСколько я знаю...
                      До сегодняшних пор (звучит криво, поменять на что-либо более удобочитаемое вроде "До сих пор")
                      чесать голову в попытках понять_,_ что
                      опытным путем_,_ моими
                      Определить обЪем текста
                      Вычислить обЪем индексируемого
                      ввел уникальные, нЕСуществующие
                      специально для эксперимента_,_ и служили
                      опубликованы_,_ и я пошел
                      НАКонец-то
                      Важно заметить_,_ что
                      экспериментов_,_ и содержат
                      совсем нЕЖеланная
                      убедился в том_,_ что
                      осталось сделать _-_ это проверить
                      страницы _ по каждому
                      Как вы наверноЕ
                      скачЕННого (вот тут я очень сомневаюсь правда ;) )
                      Но в тО Же самое
                      в выдаче Google Присутствуют
                      Самое главное_,_ что он индексирует
                      нЕСмотря на то_,_ что MSN
                      Казалось_,_ что если размер
                      меня думать_,_ что скорость
                      Сиречь (сомневаюсь, что в IT статье есть место для этого слова ;) )
                      Получается_,_ что это плохо_:_ располагать на своем сайте тексты
                      Если текста будет больше_,_ чем
                      а тот лимит_,_ где

                      ps: да, я понимаю, что в большинстве ошибки пунктуационные, но тем не менее... ;)
                        0
                        спасибо за внимательность, исправил.
                          0
                          если что - извиняюсь за нудность ;)
                            0
                            Да ну, что вы, я же сам попросил. :) Люблю грамотно писать.
                          +1
                          СкачАнного. Суффикс -ать переходит в -анн-, суффикс -ить - в -енн-. Там какие-то исключения были, но "скачать" к ним точно не относится.
                            0
                            мерси
                            а если говорить "скач(е|а)но"? е?
                              0
                              проверочное слово скачАл :)
                                0
                                * посыпает голову пеплом ;)
                              0
                              Неважно, как говорить, важно, от какого глагола образуется. "Скачано" от "скачать"; "скачено".. не знаю... скорее всего, от "скатить". Скаченный в трубочку ковер.
                                0
                                тогда уж "скатанный" ? ;)
                                  0
                                  Да. Разумеется. Торможу. :)
                                  0
                                  Слить :)
                                    0
                                    Скаченный вниз с холма автомобиль :)
                                      0
                                      Нее :) Максимум что можно сделать - это столкнуть :) Дальше он уж сам, скатывать его не придется :)
                                        0
                                        Так ведь силой притяжения :D
                              0
                              Еще бы расстояние между абзацами уменьшить.
                              Статья интересная, спасибо.
                                0
                                Пришлось все теги абзацев покромсать и юзать <br/%gt;

                                Дефолтные стили Хабрахабра немного странные.
                          0
                          хм, статья хороша,но, по сути, это палево темы.
                          тоесть такие исследования обычно остаются закрытыми, т.к.реальный их вес огромен. также не стоит забывать,что в тройке сидят умные люди (ну по крайней мере более способные зарабатывать деньги,чем мы), и глубина просмотра бота наверняка управляется при помощи одной переменной в его среде/коде/конфиг-файле.

                          но все-равно спасибо!
                            0
                            Думаю что глубина сканирования зависит еще от многих факторов, которые в меньшей мере поддаются внешнему анализу. Это может зависить от вместительности серверов того или иного дата-центра, с которого пришел бот, да много еще от чего.

                            Но по поводу палева темы соглашусь :) Если тема станет популярной, алгоритмы быстро изменятся, и все. Очередь нового эксперимента.
                              0
                              с другой стороны - методика укрывания информации - типично российская модель ведения бизнеса
                                0
                                Ну а поисковики вобще не любят делиться секретами :)
                              0
                              Я думаю, глубина сканирования может еще серьезно зависить от самого сайта. Например его PR.
                                0
                                в тесте все страницы, судя по котексту, не имели никакой ценности для поисковиков. Возможно если бы у всех страниц был другой/разный page rank то ирезультаты могли бы быть другими. Но пропала бы чистота эксперимента.
                              0
                              спасибо что не поленились провести эксперимент и поделились инфой
                            • НЛО прилетело и опубликовало эту надпись здесь
                              • НЛО прилетело и опубликовало эту надпись здесь
                                0
                                полезно. спасибо. учту)
                                • НЛО прилетело и опубликовало эту надпись здесь

                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                  Самое читаемое