Оптимизация сайта. Технологический фундамент. Часть 2

    В прошлой статье мы описали, что нужно сделать для того, чтобы обеспечить успешное продвижение веб-ресурсов в поисковых системах при помощи выполнения базовых требований поисковой оптимизации.

    Сегодня хочу обратить Ваше внимание на технологические особенности, которые необходимо соблюдать при разработке сайта. Проверьте свои ресурсы на соответствие им. Это поможет Вам, как сегодня помогает и нам. Мы постарались свести все к набору советов, что бы было легко и удобно с этим работать.

    Итак, помимо внешних факторов вашего сайта, видимых, что называется, невооруженным глазом (структура, тексты, дизайн) существует целый ряд технических мероприятий, которые нужно проделать с сайтом для его правильной настройки для лучшей индексации поисковиками. Перечислим наиболее важные из них.

    Точное определение главного хоста. Исключение зеркал.


    Необходимо определить главный адрес сайта, например www.site.ru. В этом случае нужно настроить сервер так, чтобы при запросе адреса без WWW сервер отдавал 301-й ответ и перенаправлял на основной адрес сайта (с WWW).

    Также необходимо исключить попадание в поисковый индекс синонимов главной страницы (www.site.ru/index.php и других подобных), так как, несмотря на полную идентичность, для поисковика это будут разные страницы и какую он посчитает самой главной только ему и известно.
    Убедитесь, что у вас нет других доменов, которые полностью копируют содержимое основного сайта. Для каждого из них необходимо обязательно использовать директиву в robots.txt, например:

    User-Agent: *
    Host: www.trubmaster.ru


    Корректные ответы серверов


    Основные ответы серверов, которые обычно используются при продвижении сайта – это 301 (страница переехала на другой адрес на постоянное место жительства) и 404 (нет страницы с таким адресом).

    Первый ответ используется в случае определения главного хоста (см.выше), а также для перенаправления пользователей и поисковых роботов со страниц, изменивших свой адрес, на новый. Например, если вы осуществили редизайн сайта и все страницы получили новые адреса, то целесообразно по старым адресам отдавать этот самый 301-й код ответа с указанием нового адреса жительства. В этом случае, к примеру, минимизируются потери того ссылочного веса, который набрала страница по старому адресу.

    Ответ 404 же необходимо использовать для несуществующих страниц. На такой странице можно выводить навигационные ссылки с предложением посетить другие важные разделы сайта вместо ошибочного. Наличие правильного ответа для таких страниц гарантирует непопадание в индекс поисковой системы заведомо несуществующих страниц.

    Настройка правильных адресов (URL)


    Каждая страница должна иметь свой уникальный адрес – URL. Современные алгоритмы поисковиков прекрасно распознают слова, содержащиеся в адресе, в том числе и набранные латиницей в транслите русские слова и также учитывают их при ранжировании сайтов в результатах поиска. Составляйте такие URL, из которых будет четко видно расположение документа в структуре сайта и понятно его содержание. Такие адреса называются человеко-понятными УРЛ (ЧПУ).

    Пример плохого URL: www.site.ru/page.php?id=12313&brid=1536
    Пример хорошего URL: www.site.ru/holodilniki/zanussi

    Robots.txt


    С помощью файла robots.txt возможна передача поисковому роботу директив о том, какие разделы сайта не нужно индексировать. Почему это важно? Дело в том, что очень часто, особенно в случаях наличия на сайте товарных каталогов (интернет-магазины), некоторые страницы дублируют один и тот же контент. Это могут быть страницы, возникающие при сортировке, включении различных фильтров. Также требуется закрывать от индексации страницы результатов поиска и страницы после уточнения выводимого на странице числа элементов различных списков.

    Дело в том, что каждая такая страница зачастую имеет свой собственный уникальный URL, а контент, формируемый на них дублирует информацию, размещенную на основных страницах каталога. В результате, на сайтах с большим количеством элементов каталога, к индексированию добавляются сотни и тысячи совершенно ненужных страниц, которые только лишь «сбивают» с толку поискового робота при выборе релевантных страниц и попросту замедляющих его работу по сбору информации обо всех страницах сайта.

    Наконец, в файле robots.txt необходимо запрещать к индексации различные служебные папки и папки системы управления сайтом.

    В результате, у вас должен сформироваться файл, подобный этому:

    User-Agent: *
    Host: www.site.ru
    Sitemap: www.site.ru/sitemap.xml
    Disallow: /katalog/tv/cost-sort/
    Disallow: /katalog/tv/name-sort/
    Disallow: /katalog/tv/50/
    Disallow: /admin/
    Disallow: /search/


    Sitemap


    Еще одним очень полезным инструментом, помогающим поисковой системе корректно проиндексировать ваш сайт, является создание файла sitemap.xml. В данном файле прописывается каждая страничка вашего сайта и рекомендации для поискового робота по ее индексации.

    Подробное описание принципов работы с элементом SITEMAP прописаны в помощи Яндекса: help.yandex.ru/webmaster/?id=1007070.

    В следующей таблице мы приводим расшифровку тегов, необходимых для перечисления простых URL в файле SITEMAP.



    И еще ряд небольших советов по работе с данным файлом:
    • Ссылка на файл (или файлы, если их несколько) должна быть прописана в robots.txt;
    • Желательно, чтобы в файл заносилась реальная дата последнего обновления (например, по факту нажатия кнопки «Сохранить», а для главной страницы и страниц каталога сигналом изменения даты обновления страницы дополнительно может служить факт обновления каталога. Также требуется обновлять дату изменения для страниц, у которых выдача формируется автоматически. Например, страница Ленты новостей автоматически обновится после добавления новостного сообщения или редактирования ранее внесенного;
    • В файл должны попадать только реально существующие страницы и должны быть исключены дубли одних и тех же страниц как по разным адресам (в т.ч. «техническим»), так и просто дублирование одинаковых URL в разных частях файла.

    HTML-код


    HTML – это язык гипертекстовой разметки веб-страниц. На нем «пишется» код сайта, который, в итоге, считывают поисковые роботы. Поэтому качество этого кода и то, что он передает, — это весьма важные пункты внутренней оптимизации сайта.

    HTML-код также можно отнести к технологическому фундаменту, но сам по себе вопрос корректного HTML-кодирования настолько объемен и серьезен, что имеет смысл говорить о нем отдельно. Хотя, нужно отметить, что многие оптимизаторы не придают коду слишком большого значения. В частности, это связано с тем, что сами поисковики стараются настроить свои поисковые роботы на возможность работы с любым кодом, даже самым непоследовательным и хаотичным и уж тем более с кодом популярных типовых CMS (Битрикс, Joomla, Drupal и другие). Однако, как показывает практика, сайты с качественно проработанным HTML-кодом имеют лучшие показатели в результатах поиска на протяжении долго времени.

    В общем случае, к HTML-коду можно сформулировать следующие требования:
    • Соответствие стандартам HTML
    • Компактность – для обеспечения минимального «веса» и повышения скорости индексации и загрузки
    Соответствие стандартам HTML гарантирует правильную индексацию кода и его расшифровку поисковыми роботами.

    Компактность кода обеспечивается технологичным дизайном (без излишних «наворотов») и его грамотной версткой под HTML. К сожалению, хорошая и корректная верстка – это до сих пор очень большая редкость. Лишь очень известные и крупные студии постоянно выпускают работы на достойном уровне качества.

    В данной главе мы приведем некоторые общие рекомендации по коду, по которым вы можете оценить и код вашего собственного ресурса.

    Методика верстки

    Верстать HTML-код сайта необходимо по методике DIV.
    Использование табличной верстки не допускается. Таблицы можно применять только для, собственно, оформления таблиц, либо для особых случаев.

    Общая структура построения контентной страницы в HTML

    Далее приводится общая схема построения HTML-кода для типовой страницы сайта. С помощью этой схемы должно быть понятно какую последовательность появления блоков в коде необходимо соблюдать при верстке HTML-кода с помощью метода DIV, если считать, что мы работаем с некоторыми блоками. Каждый блок – это определенный «кусок» HTML-кода:
    • Шапка
    • Меню (оформляется тегами ненумерованного списка LI)
    • Главный контентный блок (с заголовком H1 и текстами в тегах P + списки LI)
    • Вторичные контентные блоки (с заголовками H2-H6 и текстами в тегах P + списки LI)
    • Дополнительные меню и вспомогательные информационные блоки (реклама, анонсы других разделов, блоки ссылок на другие ресурсы и т.д.)
    • Подвал сайта (копирайт, счетчики)
    Компактность кода. CSS. JavaSript. Счетчики

    При написании HTML-кода необходимо добиваться максимальной его компактности и приближения непосредственного текстового контента как можно ближе к началу кода. Некомпактный код приводит к тому, что до того, как поисковый робот начинает индексировать действительно значимый текст, он «съедает» значительное количество ненужного кода. В результате:
    • расходуется квота робота, выделяемая в базе данных поисковой машины для хранения этой страницы;
    • уменьшается доля полезных ключевых слов от общего объема проиндексированного на странице текста.
    Как добиться компактности кода и вывода наверх текстовых блоков в общем случае:
    • использование верстки методом DIV;
    • не допускать возникновения в HTML-коде лишних «пустот» между строками и лишних пробелов;
    • минимизировать использование различных стилей и классов прямо в коде, все основные и стандартные элементы должны быть описаны в отдельных файлах CSS;
    • при использовании ссылок на стили и классы применять как можно более короткие и при этом понятные названия-идентификаторы.

    В отдельные файлы необходимо выносить и подключать по мере необходимости:
    • все стили элементов верстки – в виде файлов CSS;
    • все JavaScript-сценарии – в виде файлов JS;
    И, наконец, все счетчики необходимо обносить тегами NOINDEX, которые будут запрещать к индексированию данные фрагменты HTML-кода.

    Оформление текстов в HTML-коде

    Все тексты на сайте можно условно разделить на основной контент, блоки меню и вспомогательный текст (например, рекламные ссылки-баннеры, блок подвала с копирайтом компании и так далее). Правила оформления текстов для блоков основного контента и вспомогательного текста – одинаковые. У блоков меню свои особенности.
    Оформление блоков меню

    Все блоки меню необходимо оформлять в теги списка: UL, LI. Внутрь тега списка помещается ссылка. Стилистическое различие необходимо обеспечивать за счет задания различных стилей внутри тегов DIV, окружающих пункты меню.

    Итоговая конструкция:
    DIV UL LI A текст ссылки /A /LI /UL /DIV


    Оформление текстов основного контента и блоков вспомогательного меню

    A. При оформлении текстов не рекомендуется прямое размещение текстов в тегах:
    • DIV (например, DIV Здесь размещен текст /DIV)
    • FONT – данный тег необходимо вообще исключить из HTML-кода
    B. Необходимо, чтобы непосредственно вокруг текста располагался один из следующих тегов (как правило, все эти теги НЕ вкладываются друг в друга, за исключением возможности вложения тегов списков в теги таблиц):
    • H1-H6 – для оформления заголовков
    • P – основной тег для оформления практически всех текстов
    • UL, OL, LI – для оформления списков
    • TH, TR, TD – для табличных ячеек
    • PRE – дополнительный тег для вывода преформатированного текста, может использоваться в исключительных случаях

    Мета-описания страниц


    Каждая страница сайта может быть описана специальными мета-тегами (TITLE, DESCRIPTION, KEYWORDS), которые позволяют более точно идентифицировать ее в структуре веб-документов.

    Тег TITLE является самым весомым тегом из вообще каких-либо тегов, применяемых к текстам на сайте. В явном виде текст, внесенный в TITLE, виден в результатах поиска и как заголовок окна в некоторых интернет-браузерах. В тег TITLE необходимо вносить лаконичный текст, максимально точно описывающий содержимое страницы. Шаблон формирования TITLE для страниц веб-сайта по умолчанию: [Название текущего раздела]. [Название родительского раздела]. [Уникальный суффикс].

    Уникальный суффикс – это текст, который позволит поисковой системе выделить ваш документ как уникальный во всем множестве интернет-документов. Обычно он формируется как название компании плюс 2-3 слова с описанием основной деятельности.

    Теги DESCRIPTION и KEYWORDS давно утеряли свое влияние, которым обладали в конце 90-х и начале 2000-х годов, однако их использование и правильная проработка по-прежнему рекомендуется.

    В теге KEYWORDS необходимо перечислить ключевые слова, которые точно описывают содержимое страниц. Рекомендуется подбирать уникальный набор для каждой из страниц, не нужно писать ничего лишнего. Желательно ограничиться 15-20 словами, не более. И не нужно «таскать» со страницы на страницу какую-нибудь фразу, которая кажется вам самой-самой нужной для вашего продвижения, лучше определите для этой фразы свою единственную, но самую подходящую страницу.

    В теге DESCRIPTION нужно написать 3-5 связанных предложений о содержании страницы. Что-то вроде «Каталог рыболовных товаров. Список воблеров в категории Приманки. Рыболовный интернет-магазин ЛучшаяНаСветеРыбалка.Ру». Важно также составлять уникальные описания для каждой страницы, точно соответствующие ее содержимому. Необходимо учитывать также и то, что содержимое данного тега иногда выводится в качестве описания страницы в результатах поиска Google и Яндекса.

    Необходимо отметить, что проработка мета-описаний для сайтов с сотнями страниц – это крайне утомительное дело. Тем более, что желательно каким-то образом унифицировать эти описания. В этом случае на помощь приходят CMS, в которых возможно создание шаблонов таких мета-описаний. К сожалению, на сегодняшний день не каждая CMS позволяет просто править эти мета-теги и лишь единицы позволяют создавать шаблоны. Поэтому, на этапе создания сайта, если вы привлекаете сторонних разработчиков, желательно сразу оговорить с ними как именно будут формироваться мета-теги для ваших типовых страниц.

    Вышеописанные советы мы соблюдаем при разработке сайтов по технологии web-canape. Результатами довольны и мы и заказчики. Чего и Вам желаем!
    Отдельное спасибо нашему другу, партнеру и автору данных рекомендаций — Андрею Зайцеву (www.promo-icom.ru)

    В следующем, заключительном материале, мы расскажем про дополнительные инструменты продвижения и полезные сервисы для вебмастеров. А пока ждем комментариев и дополнений от специалистов.

    P.S. Первая часть советов
    WebCanape
    0,00
    Приводим клиентов малому бизнесу. Быстро и много.
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 32

      0
      Про правила вывода основного текста страниц не сказали.
      Очень важно заголовок основного текста оформлять тегами заголовка (лучше — H1), а его содержание должно соответствовать (полностью или частично) содержанию тега TITLE страницы. Так поисковые системы лучше будут «понимать» где основная смысловая часть документа.
        0
        Согласен, важно. Про это писали в первой части статьи. habrahabr.ru/blogs/webdev/119686/
          +1
          Во-первых там это есть вроде бы только в комментариях. Во-вторых тут ведь речь о технологических аспектах, а описанная связка — вопрос вёрстки и способа вывода информации CMS.
          У нас был такой случай, когда сайт клиента при прочих замечательных условиях постоянно неправильно индексировался, а всё из-за того, что вывод заголовков был размечен в шаблоне CMS в тег DIV и оформлен CSS как заголовок, кроме того TITLE страницы в большинстве случаев не был напрямую связан с заголовком, в результате — каша в индексе.
        +1
        Добавил бы микроформаты, валидность HTML и CSS, валидность WAI.
        • НЛО прилетело и опубликовало эту надпись здесь
          +10
          Да и вообще статья только чтобы в нее ссылки пихнуть. Удача таких студий только в том что народ еще пока не понимает важность качественного сайта. Нельзя сделать нормальный проект за 5 дней и 12000рублей. Это лирика.

          По делу: скорость загрузки сайта — попробуйте для начала объединять и минимизировать скрипты js на ваших сайтах. И если вы подключаете jquery, зачем используете конструкции вида document.getElementById().innerHTML=this.response;? Оптимизация картинок?

          Для того чтобы хорошо сверстать макет для поисковиков надо 4 инструмента: YSlow, PageSpeed, Анализатор контента (например, pr-cy.ru/analysis_content ), Web Developer (я использую для Mozilla) — чекать валидность.
            +1
            Кто-то когда-то хорошо сказал: «Лучший валидатор — это браузер». Даешь 100%-ую валидность — смешно. Посмотрите на большие и интересные проекты, они проходят 100% валидацию? Использование браузерных хаков при верстке исключает понятие валидности. Что касается валидности HTML, то грубые ошибки и ошибки приводящие к разной трактовке кода разными браузерами очевидно должы быть исправлены и вопрос о них не ставится.

            Нельзя сделать нормальный проект за 5 дней и 12000рублей — если читать сайт внимательно, то можно получить представление о том, что никто и не делает сайт за 5 дней с нуля, это шаблонное решение с быстроподкючаемым дизайном к шаблонной верстке с помощью внутреннего инструментария.

            document.getElementById().innerHTML=this.response — ну это наша проблема, избыточность библиотек. Старый код постепенно вычищиется — в сборке на которой собираются сайты сейчас этого добра на порядок меньше (в портфолио эти сайты пока не вывесили).
            +11
            Это не статья, а какой-то феерический пипец. То есть местами есть какие-то фразы, похожие на правду, но вместе из них получается комок слипшегося спагетти, описывающий какую-то другую реальность.
            Автор, вы не пробовали, прежде чем что-то писать, проверить свои утверждения хотя бы банальным поиском? Ну, вот например, про robots.txt. Ну совсем же все не так, как вы пишете! Вот, например, вы упоминаете Disallow внезапно как средство от дублируемого контента. Хотя для этого используются Clean-param и Canonical URL, о которых вы вообще, похоже, не знаете, — это если про robots.txt, а также мета индекс на странице.
            И так со всеми разделами статьи. Какие еще META Keywords? Ау, каменный век давно закончился! Или про разметку — ну плевали поисковики на html код, равно как и посетители, ну разве что кроме тегов заголовков и b/i. Стиль верстки — исключительно дело вкуса верстальщика и внутренних стандартов студии.
            Или вот нормальные урлы (ЧПУ) — они нужны не для поисковиков, которым пофиг, а для юзеров и программистов, ну еще для того чтобы в серпе подсвечивалось жирненьким… Но на ранжирование их влияние близко к нулю.
            Короче, если кто из новичков вдруг прочел эту статью — не верьте ни единому слову. Всё сказки и провокация, не выдерживающая простейшей проверки.
            +1
            А что вы думаете про ЧПУ кириллицей? По-моему, прикольно смотрелось бы, особенно для РФ доменов:
            магазин.рф/каталог/холодильники/
            Как вообще поисковики относятся к русским урлам и доменам.РФ?
              0
              У нас был проект, где использовались такие ЧПУ, правда домен был всё же латинский. Поисковики совершенно нормально относились к этому, не хуже чем к латинским ЧПУ.
                0
                К ЧПУ кириллицей плохо относятся старые браузеры. Хотя википедия вон использует — и ничего.
                  0
                  К доменам корилицей действительно плохо относятся, а вот пути кририлицей — это очень хорошо работает.
                  0
                  Хорошо относятся. Вот страница, вот запрос.
                    0
                    ЧПУрлами с кириллицей неудобно делиться. Вроде копируешь в буфер обмена текст, а вставляешь на форум сатанинские знаки.

                    В остальном всё хорошо.
                    0
                    Почему в первом исходнике не «site.ru», а во всех остальных «site.ru»?
                      +1
                      Спасибо КЭП. А что полезного есть в этой статье, чего нету в любом учебники для Dummies?

                      diff в студию пожалуйста.
                        +3
                        Легенды и мифы SEO на Хабре!
                          +2
                          Хватит пихать свои рекламные ссылки! Никакой полезности статья не несет. Кто хочет узнать про оптимизацию, лучше прочитайте книжку Ашманова «Оптимизация и продвижение сайтов в поисковых системах».
                            0
                            Читал, честно говоря — не очень понравилась. Уж слишком много воды. Я понимаю, что это книга, а не сборник советов, но все же. Та и пока на практике не попробуешь, пока собственным потом не добьешься — толку мало будет.
                            +1
                            Похоже на краткое изложение — help.yandex.ru/webmaster/

                            На хабре хочется читать умную аналитику, а не перечисление очевидных или сомнительных фактов.

                            Вы так безапелляционно пишете, что верстать надо только div'aми. А где подтверждение? Яндекс писал об этом?
                            Вот если бы вы написали, что провели эксперимент — сделали ХХ сайтов, с разными вариантами верстки и одинаковыми прочими условиями и в результате увидели, что такой-то процент сайтов с такой-то версткой ранжируется лучше, то это было бы интереснее и полезней.

                            Да и в существующей статье можно деталей добавить. Вот вы пишете про:
                            Также необходимо исключить попадание в поисковый индекс синонимов главной страницы (www.site.ru/index.php и других подобных)
                            По опыту, это не спасает от попадания в индекс страниц вида: www.site.ru/index.php, www.site.ru/index.htm
                            И в роботс их тоже желательно закрывать от индексации:
                            Disallow: /index.php
                            Disallow: /index.htm

                            А еще могут дубликаты страниц, содержащие GET-переменные попадать в индекс.
                            И т.д.

                              0
                              Поддержу.
                              «жи ши — пиши с и»…
                              Зачем переписывать прописные истины, которые указаны в webmaster-е любого поисковика? :(

                              Вся вода тут налита только, чтобы втоптать свою ссылку с web-canape?
                              0
                              Я конечно все понимаю, оптимизация там, и все такое, но зачем красоту предпочитать юзаблити? Я хочу кликать по ссылке емеила и сразу писать письмо, а не перепечатывать емеил руками. Если не хотите подключать шрифт на страницу, то хотя бы сделали изображение кликабельным. Хотя неизменяемые контакты на сайте — это вообще моветон.
                                0
                                это от спама защита и экономия на одной лишней мейл-форме
                                  0
                                  Там внизу продублированы контакты и можно нормально кликнуть по почте

                                  Но вообще бред, да
                                  0
                                  И, наконец, все счетчики необходимо обносить тегами NOINDEX, которые будут запрещать к индексированию данные фрагменты HTML-кода.

                                  Яндекс бот давно прекрасно понимает атрибут: rel="nofollow", отсюда использование тэгов noindex в коде теряет смысл
                                    0
                                    Безусловно, статья полезная, вещи корректно описаны претендуя на чёткость и правильность. Кто-то посчитает нужным и занесёт её к себе в избранное. Good job! От себя добавлю немного критики.

                                    На практике же всё не настолько идеально. Одним проектам это подойдёт, другим будет противопоказано. Прямо как в медицине.

                                    ЗЫ: Если уж бороться за корректность, то поправьте в иллюстрации к статье эту анти-семантику:

                                    h1--h2--h3--Супер сайт--h3--h2--h1
                                      –1
                                      СМО не прошел ) так как был заказан дешевый рерайт)

                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                      Самое читаемое