Pull to refresh

Comments 49

а потом забанят всякие яндексы с гуглами и никто не узнает что путин краб
«разработка должна начаться в течение трех месяцев, а заработать поисковик должен к концу 2011 г.»

Не соврали, заработал ведь. По крайней мере они знают что такое Web crawler.
Не уточняется, когда он начнёт зарабатывать.
Ни один гос.сайт не зарабатывает. Будет ли он себя позиционировать как государственный другой вопрос.
UFO just landed and posted this here
Наивный вы человек. Это же УЖАСНЫЙ поисковик путина.
По ходу, он реально ужасный (от слово «говно»), раз так грузит все сервера. Блин, в стране армия хороших программистов, но и тут находят самых выдающихся долбоебов и доверяют им самые важные проекты. Не, ну как так-то?
Так чинуши это своим детям и доверяют, чтоб деньги никуда не уходили из семьи.
В .htaccess не разбираюсь, это правильная настройка?

Order Allow,Deny
Allow from All
Deny from 109.207.0.0/20
Это неправильный подход. Надо при обращении с данных адресов отдавать 200. Но текст минимальный.

Поисковик ведет себя куда как агрессивно, кстати. Приходится его тормозить.
Новый дефолтный файл .htaccess для отечественных веб-разработчиков и админов.
UFO just landed and posted this here
Отпишитесь сюда через пару дней, я за вас боюсь
UFO just landed and posted this here
UFO just landed and posted this here
Здесь не о чем волноваться — поисковик-то ничего толком и не ищет. Например, я могу сказать, что Единая Россия — говно, и со мной ничего не слу
Дан банан. Не делайте из России Китай!
Да просто как-то…
С одной стороны — понятно — устоявшийся термин, принятый к употреблению во многих странах, вроде как не несущий в себе никакого негатива.
С другой:
descr: Electronic government of the Russian Federation
descr: Electronic-government
Как-то неуютно. Как будто кто-то много на себя берет и по какой-то причине считает себя главнее прочих.
Странно, я ничего такого не заметил.
Вероятно я просто параноик =)
Наличие паранойи вовсе не означает отсутствие слежки ;)
Отсутствие паранойи не означает отсутствие слежки, скорей так :)
Electronic Government Of Russia — EGOR. Знайте, Егор следит за вами!
Мне одному кажется, что в глаза бросается Electronic-govemment а не Electronic-government?
Тогда всё на своих местах.
Каждую пятницу ровно в полночь электронный паук электронного президента выползает на свободу… На службу электронному правительству…
Электронный краб, надо полагать )
«Контент есть? А если найду?»
это ДАМ со скоростью паука ищет, где продаётся самый дешёвый iPhone 4S.
Это намек на его питерское происхождение? :)
Лишь бы как с геопорталом не было. Деньги вложили. Запустили не пойми что не пойми с каким интерфейсом. При этом качество снимков не то, что с Яндекс не сравнится, с Космоснимками, но и с Google и Bing.
Осталось только нанять Чака чтобы в реалтайме осматривал все найденные сайты.
Сканер роскомнадзора в действии? У нас уже один сервер положил на прошлой неделе, в бан.
а хедеры запроса можно посмотреть от этого супер краулера?
Хедеров нет, но вот логи есть.
109.207.13.64 — хххххх.ru — - [03/Dec/2011:00:13:14 +0400] 200 «GET / HTTP/1.1» 44493 "-" «SearchBot» «http_x_forwarded_for»

С учетом того, что я смотрел на мордах, которые обслуживают хостинг с 5000 доменами, то могу сказать что за день он зашел всего на 3 сайта, т.е. 1 раз на один сайт и 2 раза на другой сайт и раз 10 на третий. Не особо активный, я бы даже сказал вопиюще пассивный, он для бота такого мегапроекта, как национальный поисковик.

Причем что удивительно, ходил по разным мордам сайтов (там 4 IP адреса на кажый сайт) и качал один и тот же контент с интервалом в 5 минут, хотя как правило поисковики выбирают одну из морд и с нее сосут уже сайты в течение нескольких часов.
Эта хрень заползла ко мне на 1 из сайтов ещё 3 сентября:
109.207.13.22 — - [03/Sep/2011:22:11:47 +0400] «GET /forum/forum_2 HTTP/1.1» 404 11458 "" «SearchBot»
Странно, что не на главную в первую очередь, хотя может куска лога нету, не уверен.
И судя по логу другого сайта, где дальше главной он не ушёл, с iframe он работать не умеет (а весь сайт построен из двух фреймов), так что бегом переделывать, у кого они используются, а то не проиндексируетесь ;)

Всего на первый сайт совершено 1443 запроса с [03/Sep/2011:22:11:47 +0400] по [25/Nov/2011:00:26:58 +0400]. Частота запросов в конце ~ раз в 3 секунды, что говорит о том, что бот торопится. Остальные поисковики гораздо спокойнее. Кому интересно — могу дать этот лог для анализа.
Сколько-сколько? 100 млн.$??? Ну-ну.
Если госпоисковик будет свободным (а он как всё государственное и сделанное на деньги налогоплательщиков должен быть по моральным причинам не защищаемым авторскими правами) как Wikia Search, то это будет ОЧЕНЬ ЗДОРОВО, но скорее всего нам такого не видать, поэтому нафиг такой поисковик.
ABBYY к этому отношения не имеет. Если б это был наш паук, он ползал бы быстрее и более ловко :)
Sign up to leave a comment.

Articles

Change theme settings