Pull to refresh

Comments 112

Нытье какоето, для этого есть специализированные форумы и службы поддержки яндекса.
Яндекс отстаёт от Гугла на лет пять по качеству работы. Индексации иногда приходится ждать неделями, так что выручает их только брэнд.
ну так давайте поможем ему стать лучше, другого пути нет, пользователи свой выбор сделали.
Я сделал другой выбор: Вообще стараюсь не обращать особого внимания на Яндекс )))

Поставил Google Analytics и стараюсь, чтобы сайты мои были удобно доступны именно для Гугла (он находит мои сайты в тот же день, когда я их создаю). Яндекс же — по остаточному принципу.
повезло вам, но у нас совсем другой случай, по крайней мере в российской версии сайта, здесь без Яндекса мы никуда :(
А я в этом смысле везучий.
Все мои сайты в разное время (чуть больше 10-ка) индексировались Яндексом сразу и на ура. После этого попадали в ТОПы по солидным запросам, и держались там достаточно долго.

То же самое и с нынешним проектом — удачно проиндексированы все страницы, в выдаче на хороших местах. Все хорошо :)

А вот с Google пока не так все радужно, но есть позитивные сдвиги
>Вообще стараюсь не обращать особого внимания на Яндекс )))
Как забавно порой слышать подобные заявления. А какой выбор сделали посетители Вашего сайта?
Вот не скажу… у меня нишевые сайты очень.

Но по GA — через поиск 8 из 10 пользователей, приходящих через поисковые системы, приходят через Гугл. 1 — через Яхо или Live, и 1 — через Яндекс etc.

Сайты русскоязычные.

P.S.: никакого SEO, кроме нормального построения ключевых слов и sitemaps, не делаю.
Вы ещё в соседней ветке объясните, что пользователи сделали свой выбор в пользу IE. Вместо этого там рекламируют Файрфокс :)
другие люди бы радовались что яндекс их сайт индексирует хорошо, а топикстартер жалуется ;)
У Яндекса есть свои преимущества перед Гуглом. Вы про них забываете.
Я их банально не знаю.

В своей реальной жизни я всегда ищу через Google.
Яндекс лучше ищет русский текст. В остальном я тоже пользуюсь только Гуглом.
Это заблуждение, факт устарел давно, Гугл давно уже нормально ищет по русскоязычным сайтам.
Проверить сложно, русское радио я не слушаю. Раньше Яндекс точно лучше искал.

Сейчас на пробу задал фразу из песни, Гугл первой ссылкой выдал сайт группы с текстом песни, второй — текст песни на каком-то сайте текстов песен, третьей — цитату из песни в каком-то бложике, дальше фигню.
Яндекс выдал ссылки на разные сайты совсем не по теме, и только предпоследней ссылкой выдал заданную фразу (в ссылках до этого только отдельные слова), но не в тексте песни, а цитату, хотя и по теме.
«Сегодня ночью наш сайт несколько раз перезагрузился именно по этой причине»

некорректная фраза.
Вместо того, чтобы писать столько простыни, потрудились бы прочитать мануалы по работе с поисковыми роботами Яндекса. Многие ваши проблемы отпали сами собой.
Например? Возможно бы отпала вторая проблема, но нужно было бы читать довольно внимательно, кроме того думаю было бы правильно позволить запрещать отдельно YandexBlog или YandexSomething учитывая их, порою черезмерный аппетит.
UFO just landed and posted this here
Всем домохозяйкам, которые сделали себе блоги на вордпрессе Вы тоже будете советовать читать мануалы яндекса?
Критика обоснована, боты должны корректно забирать информацию с подавляющей части сайтов.
Отдельно стоит отметить отзывчивость техподдержки. Единственный раз когда написал им получил ответ вида «мы не комментируем процесс индексирования сайтов». Впрочем, сайт и без Яндекса неплохо работал, так что обошлись без него.
Ну не знаю я иногда звоню в яндекс тех сапорт отвечают быстро ждать не застовляют, звоню по вопросам как раз индексации, банерной сети и нагрузок (хотя таковых не бывает)
В 3 из 5 пунктов упоминается Google. Может стоит кратенько сформулировать все пожелания — «Будьте как Google»?
«Будьте как Google» это не конструктивно, просто приводился пример другой системы которая, на мой взгляд, более правильно отрабатывает некоторые моменты.
Ах да, смайлик забыл в предыдущем комменте :)
Я лично как-то далек от проблем индексации сайтов, но полезые советы из вашего опыта лишними точно не будут.
Чтобы все как у соседа! :)
Как концепция похожа на правду, но надеюсь, все таки в качестве прикола.

В офисе яндекса наблюдал работу в google аккаунте, причем развитом
В офисе google — работу в яндекс сервисах
В общем приколы еще те. Все совпадения имен и названий случайны, персонажи вымышлены, ни одно животное не пострадало.
Пожелание по качеству — просто сделайте наконец то нормальную индексацию.
Мои сайты-блоги он не индексирует напрочь, видимо из религиозных соображений :)

А вообще, конечно, хотелось бы, чтобы самый успешный и известный российский проект соответствовал своей рекламе. На сколько он от гуглей или яхи отстает — на 5 или 3 года — в общем то неважно. Были бы задачи поставлены и идеи сформулированы

Из пожеланий развития — больше сервисов для умных. Дураков больше, и работать с ними выгоднее, от умных обычно дохода никакого. Но… а впрочем сами придумывайте мотивацию :)
> Да у нас не было сrawl-delay, но это не должно разрешать роботу поисковой системы делать так много запросов в секунду

12 запросов в секунду — это совсем не много. Поэтому если сайт падает от яндекса — то яндекс тут не виноват.
Справедливости ради — 12 запросов в секунду не такое уж запредельное значение. Во всяком случае сайт не должен «ложиться». Посмотрите, например в сторону nginx, он позволяет гибко лимитировать количество запросов в секунду с одного айпи с возможностью временной блокировки айпи инициализировавшего избыточную нагрузку.
Ключевые слова: limit_zone, limit_req_zone
12 в секунду, это скорость отдачи, сайт «ложился» от переполнения пула соединений с базой, так что видимо одновременно там было побольше запросов. Ну а по поводу должен/не должен. Сайт должен справляться с обычными нагрузками, с запасом, 12 запросов в секунду (не статика а динамический контент) это пока, к сожалению, для нас слишком ненормальная нагрузка, нормальная это 2-3.
В сторону limit_zone, limit_req_zone уже смотрим спасибо за совет.
UFO just landed and posted this here
нет ну я за вас рад, но нам не надо 4 тыс/секунду ну ни как, нет у нас столько пользователей пока что, а покупать дополнительно сервера, чтобы выдерживать атаки Яндекса это тупиковый ход, так как ресурсы Яндекса однозначно побольше наших.
UFO just landed and posted this here
ну мы постоянно работаем над этим, просто решаем проблему по мере поступления, докупаем оборудование, оптимизируем код. Да и пользователей есть немало, просто не 12 запросов в секунду динамики а 2-3 в среднем в пике но тоже неплохо.
UFO just landed and posted this here
пул есть но он не безразмерный (именно он и переполняется кстати), главную кешируем и основные трудозатратные запросы также. Просто с DoSом бороться невозможно, только административными мерами, вроде лимита соединений.
Вот нафига им ради одного бота докупать оборудование, если у них пользователей в пике меньше на полпорядка?)
UFO just landed and posted this here
Если ваш сайт не выдерживает 12 запросов в секунду, то либо побейте программиста, либо не используйте при разработке сайтов Zend framework, Drupal, или RubyOnRails.
Сервис написан на Python, и это не какой-то сайтик или еще что, а довольно таки большой и популярный проект UAprom.net (RUprom).
Понятно. Тогда могу посоветовать как-нибудь прересмотреть архитектуру проекта, может там убрать тяжелые неиндексируемые запросы, или кеша добавтить, и повниматльнее помсмотреть конфигурацию сервера, так как 12 запросов в секунду это очень мало, и падать в такой ситуации сервер не имеет никакого права.
повторюсь, но мы решаем проблемы по мере их поступления, Яндекс генерировал тогда очень тяжелые запросы, кажется к sitemap.xml файлам (их 15 000 для всех поддоменов) которые генерируются раз в неделю динамически, и это их вина что они не учитывают время ответа.
А что вы против Друпала имеете? 5 тыс. уников в сутки, 20-22 тыс. просмотров страниц вообще не проблема. Уверен, что и 10 тыс. уников выдержит. Возможно, вы просто не умеете его готовить либо просто модные фразы говорить любите?
маловато. 22 просмотра в сутки это один запрос в 4 секунды при равномерном распределении. если попытаться учесть неравномерность обращений в зависимости от времени суток и предположить что в пиковое время запросов в 10 раз больше, то все равно получим 2.5 запроса в секунду.
так что подобная статистика совсем не аргумент.
опечатался, естественно имелось ввиду «22 тысячи просмотров в сутки»
ну так это на VDS, а не на выделенном сервере. Можно Drupal.ru привести в пример. Они тоже на VDS сидят.
Много делает запросов к БД, перегруженный опциями интерфейс админки, в код смотрел, не понравилось.
То есть, ваше требование к Яндексу — наделить поисковых роботов телепатическими способностями, чтобы они заранее знали, что ваш сайт упадет при 12 запросах в секунду, а вот соседний выдержит и сто.
ну Google же умеет, думаю там не надо быть телепатом просто оценивать время ответа и не создавать десятки соединений паралельно. Google индексирует страниц столько же, но их в индексе в 3 раза больше и делает это он регулярно а не набрасывается как бешеный и уходит.
Ради чего столько геморроя? Проще в гугле задать тот или иной вопрос, чем столько запар.
Задать в Google вопрос по поводу настройки сайта под работу с Яндексом? :)
С тех пор как он локален у меня скорость до него, меньше чем, когда он не локален.
Для меня важнее вопрос стоимости трафика, а не его скорости
я бы предложил яндексу поднять скорость индексирования до 100 запросов в секунду — тогда некоторые лучше заботились бы о производительности своих сайтов.
У Вас действительно сайты спокойно отдают по сто страниц динамики в секунду? Можно ссылки (для оценки масштаба явления)?
приведу ссылки — скажут что хвастаюсь
да и яндекс бот — это не пользователь, у которого есть персонализированная часть. страницы, общие для всех пользователей должны хорошо кэшироваться
Это верно, конечно… для не-юзеров многое можно упростить.
Аналогично, есть проект который для гостей спокойно держит сотню запросов используя только кэширование запросов к СУБД, но если заюзать в nginx его ngx_http_memcached_module то можно вообще не доводить до php запросы, тогда там уже еще на порядок быстрее всё.
бедные пользователи шаред-хостинга…
С чего это вы взяли, что речь идет о шаред-хостинге? Уверяю, что нет!
Типа яндекс-бот чует различие?)
Причем здесь это?

Все сильно вцепились в фразу 12 запросов в секунду. Это ж не факт, что у них сервер падает при 12 запросах в секунду. Помимо яндекса туда еще и пользователи ходят.
И ввести это как дополнительную плату по двумя тарифами.
1) нагрузочное тестирование собственного сервера
2) нагрузочное тестирование сервера конкурента
UFO just landed and posted this here
ну прочитает это рядовой работник службы поддержки, ну ответит что-то стандартное, что от этого глобально изменится, а так есть шанс что кто-то заметит и постарается что-то сделать для того чтобы подобные вещи исправить (да я наивный и верю в чудеса :)). По крайней мере, если бы о моем сервисе такое написали я был бы благодарен и сделал бы все возможное чтобы воплотить улучшения в жизнь
Яндекс в упор не замечает новые сайты несколько месяцев. google давно индексирует, gogo от mail.ru индексирует, rambler индексирует, а яндекс «резвится» на таких бедолагах, как вышеупомянутый сайт. Почему он отправляет в песочницу?
Вот можно в nginx добавить:

if ($http_user_agent ~ Yandex/* ) {
limit_rate 20k;
break;
}
не сработает для YandexBlog и YandexSomething (лучше $http_user_agent ~ Yandex*) но в целом идея.
Кстати, а помешает ли это ему создавать одновременно 100 соединений, каждый из которых приводит к соединению с базой, что приводит к смерти пула?
ух, ещё не проверял, но хиленький веб-сервачок отпустило очень хорошо, надеюсь поможет и вашему
UFO just landed and posted this here
ну это совсем просто :)

User-agent: Yandex
Disallow: /

только стоит ли

UFO just landed and posted this here
боюсь что кроме вас эта акция никому не интересна, интернет это бизнес.
Интернет еще и культура и политика и искусство…
Ажиотаж на деньги — скорее специфика сегодняшнего монетаризма
Самый простой способ – поместить в robots.txt следующие строчки:
User-agent: *
Disallow: /
ну это забанит вообще все роботы, лучше так не делать :)
у меня такая проблема точнее у знакомого с выдачей яндекса адресов содержащих кириллицу

например вот проиндексировання страничка www.saloncardinal.ru/catalogue/countrie-Англия
а это она на выдаче яндексом yandex.ru/yandsearch?p=1&surl=saloncardinal.ru&text=*&clid=46510 (под номером 14)

так вот
в самой ссылке яндекс почему-то кириллицу кодирует в CP1251
а под ссылкой в UTF-8 (зеленым цветом строка)

на сайте тоже используется UTF-8, поэтому если кликать по ссылке яндекса то страничка открывается не корректно
пример
ссылка с яндекса — www.saloncardinal.ru/catalogue/countrie-%C0%ED%E3%EB%E8%FF (CP1251)
на сайте — www.saloncardinal.ru/catalogue/countrie-%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D1%8F (UTF-8)

я не особо силён в таких вещах
и не знаю с какой стороны косяк и как его исправить, факт в том что с гуглом таких проблем нет

… прошу прощения за активные ссылки, текстом не знаю как их тут сделать
В URI не может быть никакой кириллицы по определению (см. RFC 3986 `Uniform Resource Identifier (URI): Generic Syntax').
Вы пишете URI с кириллицей в Windows-1251? Хочете проблем — их есть у вас. При чем здесь Яндекс?
Гугль обрабатывает ваши некорректные URI так, как вы подразумевали, что их нужно обрабатывать? Вам не приходило в голову, что это просто совпадение?
>>В URI не может быть никакой кириллицы по определению
не может? тогда ещё раз гляньте на то что я написал выше

допустим такой URL ".../countrie-Англия" Яндекс видит при индексации в виде "/countrie-%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D1%8F" — именно так выдаёт этот адрес веб-сервер и если воспользоваться декодером будет ясно что это юникод

так зачем же яндекс перекодирует этот юникод в CP1251?
я хорошо понимаю что URL с буквами кириллицы выдает сам браузер автоматом
UFO just landed and posted this here
Я вот тоже не пойму почему они Сrawl-delay «по умолчанию» не могут сделать щадящим
Так как на сайт постоянно добавляется информация, у нас есть специальные страницы с последними обновлениями, с которых есть ссылки на новый контент. Понятно что заходя раз в 10-30 часов робот пропускает много чего, и это приводит к жалобам пользователей, что их сайты порой не появляются в индексе Яндекса месяцами.


Ипользуйте xml sitemap, помогает
sitemap есть, со всеми страничками, не помогает, может отдельно делать sitemap с недавним контентом?
Яндекс.Вебмастер что говорит? Что всё сожрал и ошибок нет?
да, правда ему месяца 3 потребовалось на то чтобы это сделать, мы даже вроде и не меняли ничего, я мудма это глюк Вебмасера, или он просто не хотел читать ссылки с файла.
Не надо. Сайтмап содержит даты модификации. просто Яндекс тупой, как буратино…
кстати, действительно, что им мешает отслеживать по дате модификации, которую мы правильно ставим? Можно прератить это в еще одно пожелание, наряду со скачиванием sitemap чаще чем раз в месяц.
UFO just landed and posted this here
Столкнулся с такой проблемой, связанной ЯндексАдресами. Любая фирма может зарегистрировать себя на сайте ЯндексАдреса, после чего в поиске будет показываться адрес фирмы и телефон, все это привязывается к карте и сайту компании. Вот так и случилось с моим продвинутым сайтом. Кто-то прописал свой адрес, к моему сайту и сейчас собирает клиентов. После письма в яндекс сказали, что нужно написать об ошибке на ЯндексАдресах. Как долго продлиться это удаление они не сказали, и даже если они удалят эти контакты, не поставят ли конкуренты снова на мой сайт свои контакты. Если кто-то сталкивался с таким, посоветуйте что делать? Заранее благодарен.
в случае Яндекса можно сделать валидацию сайта по аналогии как это сделано в инструментах вебмастера, без этого только писать в службу поддержки и надеться что им это надоест и они подкрутят функционал. Но вообще странно, легко ведь починить.
Используйте достаточно большой Сrawl-delay «по умолчанию»
извините, у меня весьма стандартный хостинг и 100к страниц в индексе того же яндекса, может стоит взять хостинг по проще? а вообще гугло, ой, яндекс карта сайта решает эти проблемы

Разделяйте User-agent:YandexSomething и Yandex/1.01.001
а это зря, они там покурят и разберуться, а вам минус бот, а слить бота, ну не мне вас учить

короче забил, унылое говно, не хочу это читать, топик зла
з.ы. проблемы бывают у всех — важно что вы найдете решение для себя или нет, а проблемы то никуда не уйдут, вы не рес номер один в рунете
UFO just landed and posted this here
К сожалению, у вас классический случай, я слышал подобное от блогеров не раз. Почему так происходит, непонятно, ведь массу других блогов ничем не особо не лучше и не хуже Яндекс индексирует. Может здесь есть какая-то случайная величина, или рядом хостится дорвей, или не нравится домен? Ответ на это могут дать только специалисты писавшие алгоритм работы робота.
UFO just landed and posted this here
> А как это — рядом дорвей хостится?
на том же айпишнике или в той же подсети. или просто у любимого дорвейщиками хостера.
UFO just landed and posted this here
не только пытается но и борется :) просто и дорвейщики не спят. вы просто не представляете сколько дорвеев отфильтровывается, а те что таки попадают в выдаючи составляют доли процента от общего количества скармливаемых ему.

а чтобы что-то конкретное сказать о конкретном блоге, не попадавшем в выдачу, нужно уже смотреть именно на него, исходя из опыта работы с яндексом — это проблемы блога.
Рядом — смешно звучит…

Ограничивать можно только по IP де-факто… у виртуальных серверов они разные де факто.

У меня сайты на мастерхостовом ВПС, дорвеев рядом даже в подсетке нет.
сайты добавил в Яндекс Вебмастер Тулз.

два месяца не было индексации… потом написал в техсаппорт, через несколько дней проиндексировали.

Сравните с Гуглом — проиндексировали в тот же день, хотя даже кода GA не было ещё на сайтах.
Спасибо за интересный тред и советы по политике обхода сайтов, мы постараемся их учесть. Данные о безобразном поведении нашего робота правдивые, но не отражают полной картины.

1. Робот Яндекса выкачал 19238 страниц с 8506 (восьми тысяч пятисот шести) поддоменов uaprom.net и с 6896 (шести тысяч восьмисот девяноста шести) поддоменов ruprom.net, а не с двух хостов, как может показаться из заметок.

2. На каждый хост (из ~ 15000) делалось не более одного обращения в 1,1 или 2 секунды (в зависимости от размера хоста).

Сейчас uaprom.net/robots.txt и ruprom.net/robots.txt установили Crawl-Delay в 0,5, благодаря чему увеличили нагрузку на своих хосты (по умолчанию Crawl-Delay 1,1 или 2 секунды).

3. Все поддомены ruprom.net и uaprom.net лежат на двух IP. Автоматические алгоритмы Яндекса определили ruprom.net и uaprom.net как хостинги (впрочем, сайты позиционируют себя как «надежный хостинг», см. ruprom.net/tour-4 и uaprom.net/tour-4).

Для надежного хостинга, на серверах которого находится много сайтов, мы создавали нагрузку, не превышающую 12 запросов в секунду на IP.

4. User-Agent отдавался «YandexSomething» и это наша вина. Это был не новостной, а один из поисковых роботов, у которого мы забыли изменить дефолтное представление. Ошибку исправили, спасибо, робота поставили в угол.

Резюме: нагрузка создаваемая на IP хостингов ruprom.net и uaprom.net не превышала лимиты, допустимые при обходе большинства хостингов. Мы понимаем, что она может быть избыточной для небольших хостингов и постараемся лучше дифференцировать нагрузку на большие и малые хостинги. Надеемся, что сервера рунета будут встречать перевоспитанного робота благосклонно.
Александр, спасибо за детальный отчет, нам очень приятно, что компания Яндекс конструктивно отвечает на конструктивные пожелания.

Я описывал ниже суть проблемы из которой было ясно что поддоменов много. Мы действительно пока не всегда готовы к нагрузке 12 запросов в секунду, так как у нас нормальной является нагрузка 2-3 запроса в пике, эту проблему мы постараемся решить с помощью nginx и ограничении количества запросов с одного IP в секунду. Стоит отметить что количество страниц в индексе (сумарно менее 200 000 страниц) не требует индексации со скоростью 12 запросов в секунду, тем более учитвая что есть актуальный sitemap с коректными last-modified датами для всех поддоменов. Google индексирует нас со скоростью 1-2 запроса в секунду сумарно и мы очень довольны качеством и актуальностью его индекса.

В связи с этим, особенно хотелось бы пожелать Вам исполнить последние два пожелания, это был бы качественный шаг.

Надеюсь, что выпадние из индекса из-за блокирования 7 дней YandexSomething временно и скоро разрешится, хотя пока за 5 дней прогрес только в том что скачались sitemap и главная.

Вам sitemap для галочки или мозг включаете?)
Sign up to leave a comment.

Articles