mrded20 мая 2016 в 15:09

Опыт перехода сайта на Single Page Application с упором на SEO

5 мин

56K

Angular * Drupal * JavaScript *

+38

Комментарии 93

mrded 20 мая 2016 в 15:55

Просьба к людям людям сливающим мне карму и минусующим топик, объяснить с чем связана такая реакция?

ivlis 20 мая 2016 в 20:37

Я не могу сказать за тех кто минусовал, я не минусовал. Но вот подумайте, о чём ваша статья. Вот мы тут делали, делали и у нас не получилось? Ну и что? В чём новизна и интерес-то?

mrded 20 мая 2016 в 23:18

Новизна в том, что Google официально отказались от SSR, а в интернете все еще нету никаких фидбэков на эту тему. Мы, как компания с относительно большим и серьезном сайтом, наступаем на эти грабли и даем вам фидбэк, бесплатно.

edogs 21 мая 2016 в 08:45

Не минусовали, но фидбэк все же хотелось бы видеть в виде «проверили, реально с яваскриптом проблема у гугла, доказано так-то так-то и так-то» или даже "(то же самое) + проблема решается так-то и так-то", а у Вас лишь «попробовали обойтись без SSR, появились некоторые проблемы, с чем связано непонятно»:)

artur_speaking 21 мая 2016 в 14:33

Спасибо за ссылку на вики, объясняющая нерадивым умам, что такое одностраничный сайт. Благодарен за полезную статью, как только будет необходимость обращаться к drupal как rest сервису..., сразу же обращусь к этой статье, прямо по шагам буду идти.

Levka9 20 мая 2016 в 23:19

Человек поделился своим опытом. Сегодня многие делают SPA, вот что бы они не делали таких ошибок он и написал.
Хотя согласен что не хватает продолжения и счастливого конца )

Phantaminuum 21 мая 2016 в 09:12

Вспомните ошибку выжившего, читать сплошные success-story не особо полезно, порой куда интересней взглянуть на тех у кого не взлетело.

Steinmar 23 мая 2016 в 07:58

Спасибо за интересный фидбек. Гугл вообще ведёт себя непонятно, сначала они выпускают фреймворк для того что бы на нём что то пилили, а потом своим алгоритмом индексирования — убивают весь смысл использовать его для создания сайтов требующих SЕО. Тоесть по факту дла SPA остаються только админки, приложения на phoneGap и какие то комерческие системы чисто для автоматизации внутренней кухни у коркретных заказчиков. Можно конечно не смотря ни на что — делать сайты на ангулялре, но я ещё не видел людей которые были готовы вот так вот пожертвовать SEO ради того, что бы сайт был SPA.

istinspring 26 мая 2016 в 02:53

Prerender.io наверное дешевле выйдет чем откат назад.

mrded 26 мая 2016 в 08:17

Откат назад, в нашем случае, это просто перемена адресов в DNS. Мы предполагали что надо будет откатываться назад.

mannaro 20 мая 2016 в 16:00

А, собственно, в чем проблема сделать SSR на NodeJS? Берем phantomjs, и если в адресе есть _escaped_fragment_=, то прогоняем текущий адрес через phantomjs, убираем оттуда все JS скрипты и выдаем гуглу/яндексу/etc. Это же работы на час, максимум?

mrded 20 мая 2016 в 16:03

У нас проблемы нету. Просто Google больше не рекомендует этот способ.

mannaro 20 мая 2016 в 16:06

Ну так можно же сделать SSR, а когда гугл научится окончательно хавать SPA, то убрать?

Или, как сделали мы, просто выдаем гуглу и компании голую страничку, со всеми данными, которые надо скормить поисковику. Да и вид можно сделать такой, чтобы поисковик доволен остался.

А рекомендует это гугл или нет, это не важно, пока это работает.

mrded 20 мая 2016 в 16:14

Google также штрафует за то что для клиента и для бота отдаются две разные версии страницы. Зная то что Google более не рекомендует способ отрисовки отдельных страниц для бота, он может в один день начать штрафовать за это.

Как я уже сказал ранее, мы решили не делать SSR не потому что мы не можем, а по тому что Google сам отказался это этого метода. И мы решили попробовать скормить наш сайт без SSR. И выяснили что на сегодняшний день лучше все-таки использовать SSR.

mannaro 20 мая 2016 в 18:10

Ну у нас задачи немного разные :) Мы делали это больше для соц. сетей, нежели для гугла. А так, да. Отдаем лендинг как HTML страничку, без всяких там SPA.

mrded 20 мая 2016 в 23:52

На сколько мне известно, Facebook не понимает JS, и для него нужно дополнительно отрисовывать странички.

miolini 20 мая 2016 в 19:46

Разве отдача разного контента для разных User-Agent не считается клоакингом?

vintage 20 мая 2016 в 21:36

Не для разных User-Agent, а для разных _escaped_fragment_=. Мы так делали, всё отлично индексируется разными поисковиками. Более того, сайт давно мёртв, а ссылки всё ещё в индексе :-)

PSDCoder 21 мая 2016 в 10:41

В статье упомянуто об этом способе, а заодно указана ссылка на спеку в которой говорится что данный метод deprecated.

vintage 21 мая 2016 в 10:58

И что? Он как работал так и будет работать. Причём работает он не только с гуглом. А если гугл когда-нибудь и выпилит его поддержку — ничего не сломается.

PSDCoder 21 мая 2016 в 11:06

Да собственно ничего)
У меня есть сайт на angular работающий на данном способе. Но сейчас, с приходом react'а, я предпочитаю пререндерить страницу не только для SEO, но и для пользователей (что имеет свои плюсы). При этом например метод с _escaped_fragment_ не понимали боты соц. сетей и для них приходилось городить определение по user-agent'у на уровне nginx'a и перенапрявлять на тот же _escaped_fragment_.
В общем я за простоту, особенно если спека помечена как deprecated)

J_K 20 мая 2016 в 22:19

Полезная, правильная статья. Человек описал свой опыт, явно неудачный. Тема важная. Очень хотелось бы получить комментарий от представителей гугла, иначе, к сожалению, так и остается непонятным, как же все-таки правильно отдавать результат поисковику.

vintage 20 мая 2016 в 23:05

https://webmasters.googleblog.com/2015/10/deprecating-our-ajax-crawling-scheme.html

Кроме того, не стоит забывать, что гугл — не единственный поисковик.

mrded 20 мая 2016 в 23:15

Для нас — единственный. Суммарный трафик со всех остальных поисковиков менее 1%.

vintage 21 мая 2016 в 07:18

Есть вы оптимизируете сайт исключительно под один поиск, то не удивительно, что через остальные вас попросту не находят. А после отказа от SSR вы и этих 4к пользователей в месяц потеряете.

mrded 21 мая 2016 в 09:13

400k

J_K 20 мая 2016 в 23:15

Спасибо за ссылку. Да, это верно насчет гугла. Но все-таки это какая-то, извините, лажа получается. Допустим, я делаю одностраничный сайт, наполнение которого в браузере происходит ТОЛЬКО за счет JS. Ну как с ангуляром, загружаем данные, обновляем модель. Но вот же ж — поисковики не могут все это прочитать. И что тогда, вся эта прекрасная технология MVVM псу под хвост, потому что надо чтобы сайт индексировался или же приделывать какие-то костыли в виде дополнительного рендеринга только для поисковиков?

mrded 20 мая 2016 в 23:30

Тут важно все разбить на страницы. Чтобы определенный контент показывался по определенным страницам.
Если все будет в одной куче — Google Crawler не поймет как это индексировать.

summerwind 20 мая 2016 в 23:50

{
«status»: 301,
…
}

Зачем этот костыль? Есть же стандартные коды состояний HTTP.

mrded 20 мая 2016 в 23:54

Это не костыль, а статус запрашиваемой страницы. Я у backend спрашиваю состояние страницы, и он мне отвечает. Если backend мне вернет 503 — это будет означать что backend мертв, а не запрашиваемая страничка мертва.

mrded 21 мая 2016 в 00:02

Если не понятно — могу подробнее объяснить.

summerwind 21 мая 2016 в 00:56

Если честно, больше всего мне непонятно, зачем вообще в этой схеме nodejs. Только для того, чтобы отдавать стартовый index.html и редиректить?

mrded 21 мая 2016 в 08:33

Для того чтобы отрабатывать редиректы, 404 и стримить недостающие файлы с бэкэнда.

Dreyk 21 мая 2016 в 08:34

все это может продолжать делать друпал в режиме апи

mrded 21 мая 2016 в 08:43

Нет, не может.

У друпала слишком медленная инициализация, для того чтобы просто вернуть статику.
Я не могу перегружать существующие адреса, т.к. они используются для модерации контента.

summerwind 21 мая 2016 в 13:14

Почему не делать отдачу статики и редирект со старых роутов на новые через nginx?

mrded 21 мая 2016 в 23:41

Я уже тут где-то отписал, по тому что у нас нету прямого доступа к серверам. Мы используем Heroku и Pantheon.

Dreyk 21 мая 2016 в 08:33

я вот тоже не понял, вначале подумал, что фронтенд полностью независим от друпала, у них просто общая база, но потом увидел, что весь контент все же отдает друпал через апи. В таком случае для Angular хватило бы просто статической странички в паблик-папке (не знаю, как точно в друпале это сделано, думаю, так же как и у всех остальных фреймворков)

offline15 21 мая 2016 в 06:06

Насколько я знаю, гугл хорошо умеет индексировать js сайты, но с одним условием, он не ждёт результатов ajax запросов. Поэтому если первичные данные для отрисовки любой страницы вы подтягиваете ajax'ом — гугл пройдёт мимо.

mrded 21 мая 2016 в 08:36

А как иначе, если не подгружать данные? Это уже не JS сайт получается.

offline15 21 мая 2016 в 13:20

данные уже нужно подгрузить вместе с хтмл и использовать в виде

<script>
window.initialData = {};
</script>

Но естественно на каждую страницу не хочется в бекэнде прописывать какие данные должны быть в хтмл. Я решил эту проблему путём проверки вида запроса при обращении к странице, если запрос ajax — значит это реальный пользователь ходит туда сюда по сайту, если запрос get — значит это поисковик, соотвественно когда это поисковик, я запускаю phantomjs он идёт по этому же адресу (по user agent исключаем рекурсию) и ждём скажем 3 секунды, после этого ответ отдаём гуглу. По идее за три секунды все ajax'ы должны были отработать.

offline15 21 мая 2016 в 13:24

Правда если обычный человек зайдёт сразу на внутреннюю страницу, ему придётся ждать 3 секунды. Можно попробовать по user agent гугл ботов такую логику делать.

mrded 21 мая 2016 в 13:25

Если данные передавать уже вшитыми в страницу, тогда эта страница будет очень долго отдаваться. Весь смысл перехода на JS пропадает.

offline15 21 мая 2016 в 13:27

Если оптимизируете SQL запросы, то оверхед не будет превышать 10мс.

mrded 21 мая 2016 в 13:30

А если все на ассемблере переписать, то ваще быстро будет.

offline15 21 мая 2016 в 13:40

Я описал варианты решения, вам выбирать. В любом случае я не вижу логики быстро отдавать хтмл без самих данных и ждать пока аяксом они подгрузятся. Ведь так будет ещё дольше.

mrded 21 мая 2016 в 13:47

Вовсе нет. Если данные отдельно подгружать, их можно закешировать как статику и положить в CDN. Что мы собственно и сделали.

В этом случае клиент практически мгновенно получает страницу, которая подгрузит данные с ближайшего географически распределенного кэша. Что также значительно снимает нагрузку с основного сервера.

offline15 21 мая 2016 в 13:49

В вашем случае тогда наверное побольше вариантов решить проблему, у меня все запросы были динамические и ничего закешировать было нельзя. Исхитрялся как мог.

mrded 21 мая 2016 в 13:57

Мы уже экспериментировали с тем методом, что Вы описали. Вот допустим здесь, одна из самых нагруженных наших страниц. Все комментарии загружаются прям в страницу, и потом отрисовываются через angularjs.

storuky 21 мая 2016 в 12:30

Он ждет. Но робот ограничен в этом ожидании, как и в оперативной памяти. Может часть высоконагруженной страницы просто недорендерить. Или не дождаться ответа от медленного АПИ. В общем черный ящик.

mrded 21 мая 2016 в 12:42

Да, очень может быть. Мы заметили что у нас некоторые страницы попали в индекс, а некоторые нет. Вы не вкурсе какие ограничения у бота?

arusakov 21 мая 2016 в 07:10

Интересный опыт. Не понял только зачем гонять картинки и sitemap.xml через node.js. У вас же наверняка наружу смотрит nginx, который может это делать лучше и с помощью конфигурации, без лишних строк кода.

mrded 21 мая 2016 в 08:50

К сожалению, у нас ни на backend ни на frontend нету прямого доступа к серверам. На frontend используется Heroku а на backend — Pantheon.

oe24 21 мая 2016 в 07:23

Что такое v1 в robots.txt?

mrded 21 мая 2016 в 08:52

Это разрешение поисковым роботам на доступ к адресам вида /v1/*
Этот префикс мы используем для REST API.

samizdam 22 мая 2016 в 17:47

А зачем индексировать api, это же программный интерфейс, а не человекочитаемый контент, за которым приходит гугл.

mrded 23 мая 2016 в 07:59

Если запретить api в robots.txt то Google бот не сможет загрузить данные для странички.

samizdam 23 мая 2016 в 19:58

Это проверенная информация или гипотеза?
Я вот, полагал, например, что сферический бот в вакууме, он да — при заходе на сайт ищет все ссылки и пытается их открыть, честно учитывая то что в robots.txt,
Но когда у поисковиков пошёл тренд на поведенческие факторы, SPA, AJAX и т.п. я представлял себе, что они со своей стороны открывают страницу неким юзер-агентом приближенным к полноценному, которому, разумеется до robots.txt нет дела, если часть контента получается через AJAX.

mrded 23 мая 2016 в 22:52

Да, это проверенная информация. Google Search Console ругается на это, если заблокировать, и страницу на предпросмотре показывает без данных.

fetis26 21 мая 2016 в 07:42

Вот мы тоже повелись на это сообщение Гугла и даже проверили в Search Console что он сайт полностью показывает. А по факту оказалось, что он все равно только голый HTML индексирует. Пришлось в срочном порядке прикручивать prerender.io

mrded 21 мая 2016 в 08:53

Да, он там нам тоже все красиво показывает :)

catanfa 21 мая 2016 в 07:51

На каждый запрос пользователя на новую версию вы внутри делаете https запрос на старую версию, чтобы вытянуть информацию по редиректам?
При этом у вас response time для PHP в районе 70ms. Сколько времени из этого занимает https-запрос к старому бекенду за редиректом?

mrded 21 мая 2016 в 09:08

Верно, каждый запрос пользователя посылает запрос на старый backend. Единственное что, первый запрос делается с node.js для того чтобы отработать HTTP status code. Остальные запросы будут уходить с клиента.

Сколько времени занимает https-запрос я сказать не могу, т.к. мы все это кэшируем в CloudFlare, и запрос на прямую не проходит. А он там уже по своему распределяет кэш по миру.

handymade 21 мая 2016 в 08:00

Статья свежая — значит самое время начать переписывать на Angular2, там с SEO в смысле сервер-сайд рендеринга все намного лучше

mrded 21 мая 2016 в 09:09

А angular 2 уже зарелизился?

soshnikov 21 мая 2016 в 23:44

Еще нет. Более того, там штатного SSR не было 2 месяца назад. Есть сторонее решение, но я его не проверял пока.

handymade 22 мая 2016 в 16:24

нет, пока в RC1. но если вы говорите что первую версию пол-года пилили, то сейчас как раз можно начинать

mrded 23 мая 2016 в 08:02

Мы ее делали на компонентах 1.5, так что мы готовимся к предстоящему обновлению. Как зарелизится 2.0 — так начнем, при условии что мы заставим Google индексировать наш контент.

Qird 21 мая 2016 в 09:10

У нас был API на php и фронтенд на ангуляре, то того момента пока это была исключительно админка для клиентов компании, вопроса о поисковиках вообще не стояло. А вот когда нужно было сделать публичный фронтенд к API, который бы индексировался поисковиками, решили сделать прототип с SSR на node.js + react.js. Суть в том что если юзер агент не может js, не зависимо от того краулер это или браузер, в котором отключили js, то все рендерится на сервере. Если же в браузере включен js, то пользователь работает с нормальным SPA.
Как результат, яндекс и гугл проиндексировали все страницы, которые предполагались. Сайтик, который строит сайтмап автоматом, тоже без проблем это прожевал.
За основу для прототипа брали вот эту репу github.com/erikras/react-redux-universal-hot-example

mrded 21 мая 2016 в 09:10

А как вы в версии без JS сделали авторизацию?

Qird 21 мая 2016 в 11:43

Вопрос интересный ) На самом деле в прототипе пока никак, и не уверен что мы это будем делать, т.к. все-таки не предполагается что юзер будет полноценно работать с выключенным JS. Но если это очень надо, то ведь сабмит формы работает и без JS, так что я думаю особых проблем тут не будет.

mrded 21 мая 2016 в 11:59

Тогда придётся поддерживать две версии сайта, с JS и без. Для сабмитов надо будет ещё второстепенные страницы создавать.

fetis26 23 мая 2016 в 10:59

А как вы определяли на уровне запроса идет он с js или без?

Qird 24 мая 2016 в 06:08

Если запрос пришел на бэк node.js, то значит у клиента нет js (или это первое обращение к сайту), рендерим все на сервере (используя нужные данные от API) и отдаем. Если же у клиента есть js, то все запросы будут уходить с фронта сразу к API, минуя бэкенд на node.js

vintage 24 мая 2016 в 06:42

NodeJS у вас выполняет презентационную функцию, а значит является фронтендом. А вот то, что вы называете "API" — и есть бэкенд.

Plazik 21 мая 2016 в 14:30

После недели тестирования трафик на сайт упал на 30%

После отката трафик вернулся?

mrded 21 мая 2016 в 15:27

Пока ещё нет. Но он перестал падать. Мы ещё следим за этим, на следующей неделе отпишу.

avolver 21 мая 2016 в 15:28

Как вариант — можно использовать вот эту разработку для поддержания SPA и HTML-static версии: prerender.io

questor 22 мая 2016 в 21:09

Тут стоит отметить, что если использовать CNAME записи, то замена сервера произойдет мгновенно. Запись A будет рассасываться по DNS до 48 часов.

С чего бы это? Сколько ни вдумываюсь — не понимаю, в чём эффект: у каждой записи свой TTL (который подействует при следующем обновлении), откуда же у вас уверенность, что CNAME обновляется быстрее?

mrded 23 мая 2016 в 08:20

На сколько показывает моя практика, при использовании cloudflare, CNAME изменения применяются практически мгновенно, по сравнению с ALIAS. При открытой консоли приложения, можно увидеть что пользователи перестают обращаться к сайту.

Если делать тоже самое с ALIAS, при том же TTL, то это занимает какое-то время.

yurist38 23 мая 2016 в 08:06

Лично мне статья показалась полезной в виду того, что информации по этой теме не так много. Веб приложения набирают популярность, а гугл не особо спешит их воспринимать. Сам столкнулся с этим, так пока и не нашел решения для себя. Пререндер выглядит уж больно временным решением, не хочется на нем концентрироваться. В идеале бы поторопить поисковики :) В общем спасибо за описание вашего опыта!

J_K 24 мая 2016 в 16:42

Если не секрет, какое решение вы нашли?

yurist38 25 мая 2016 в 02:32

Мой проект написан на MeteorJS (https://github.com/InstaPhobia/instaphobia.com), я поставил сео-плагин, который генерирует мета-данные для страниц. По описанию и отзывам он вроде бы должен читаться как минимум гуглом, но в итоге на данный момент гугл в поиске показывет title, а description пустой. Так что, можно сказать, что я не нашел пока решение… Но на своем опыте тоже убедился, что с обработкой поисковиками одностраничных приложений пока «все не так прозаично» (см. «Да Здравствует Цезарь»), как они утверждают…

J_K 25 мая 2016 в 02:33

Спасибо за ответ. Вот ведь фигня. Одностраничным приложениям сто лет в обед, а поисковики упорно их игнорируют.

yurist38 25 мая 2016 в 02:37

Получается, что так. Но по ощущениям, приложения должны быть еще популярнее со временем. Так что надеюсь, гугл тоже будет работать над этим. А там глядишь и Яндекс.

Steinmar 25 мая 2016 в 06:37

Учитывая тренды веб приложений, без SPA будет всё труднее обойтись, там глядишь и поисковики проснуться, начав решать нашу проблему более активно.

mrded 25 мая 2016 в 09:27

Мы тоже вставляем meta tags динамически через js. Попробуйте рисовать странички быстрее 5 секунд, я думаю это поможет.

У нас все странички рисуются одинаково, разница лишь во времени отрисовки. И какие-то страницы все-таки попали в индекс, во всеми meta tags.

yurist38 25 мая 2016 в 09:57

Спасибо, есть пища для размышлений. Буду экспериментировать.)

VGrabko 25 мая 2016 в 20:06

что же за спа у вас такой. За 5 секунд страницу не отрендить. Мда…

mrded 26 мая 2016 в 08:18

Это не только от фронтенда зависит.

maggg 30 июн 2017 в 15:34

Статья и комментарии кажутся очень любопытными даже спустя год. Расскажите, чем кончилась эта история? И какие лучшие практики для корректного индексирования SPA удалось сформулировать с тех пор? И в общем случае, и в случае конкретно вашей конфигурации?

NeXTs_od 3 дек 2017 в 16:20

и меня тоже эти вопросы интересуют

mrded 27 дек 2020 в 11:16

В конце концов мы добавили Prerender.io, и после того как убедились что трафик идёт как прежде и Гугл индексирует нас — заменили Drupal на nodejs.

К этому времени angularjs 1.6 устарел и мы переписали фронтенд на react.

Затем мы поняли что существует gatsbyjs и заменили REST бэкенд на простую генерацию статики.

Жить стало намного проще и я уволил себя с этой компании и пошёл работать в другую :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий