Как стать автором
Обновить

Комментарии 49

а потом забанят всякие яндексы с гуглами и никто не узнает что путин краб
«разработка должна начаться в течение трех месяцев, а заработать поисковик должен к концу 2011 г.»

Не соврали, заработал ведь. По крайней мере они знают что такое Web crawler.
Не уточняется, когда он начнёт зарабатывать.
Ни один гос.сайт не зарабатывает. Будет ли он себя позиционировать как государственный другой вопрос.
НЛО прилетело и опубликовало эту надпись здесь
Наивный вы человек. Это же УЖАСНЫЙ поисковик путина.
По ходу, он реально ужасный (от слово «говно»), раз так грузит все сервера. Блин, в стране армия хороших программистов, но и тут находят самых выдающихся долбоебов и доверяют им самые важные проекты. Не, ну как так-то?
Так чинуши это своим детям и доверяют, чтоб деньги никуда не уходили из семьи.
В .htaccess не разбираюсь, это правильная настройка?

Order Allow,Deny
Allow from All
Deny from 109.207.0.0/20
Это неправильный подход. Надо при обращении с данных адресов отдавать 200. Но текст минимальный.

Поисковик ведет себя куда как агрессивно, кстати. Приходится его тормозить.
Новый дефолтный файл .htaccess для отечественных веб-разработчиков и админов.
Внес подсеть в бан. Спасибо.
НЛО прилетело и опубликовало эту надпись здесь
Отпишитесь сюда через пару дней, я за вас боюсь
НЛО прилетело и опубликовало эту надпись здесь
«Путин бомба терроризм» из Google уже, кстати, указывает на Вас.
Нет, уже на вас :)
НЛО прилетело и опубликовало эту надпись здесь
Здесь не о чем волноваться — поисковик-то ничего толком и не ищет. Например, я могу сказать, что Единая Россия — говно, и со мной ничего не слу
Дан банан. Не делайте из России Китай!
«Electronic-government»
Хм.
Что не так?
Да просто как-то…
С одной стороны — понятно — устоявшийся термин, принятый к употреблению во многих странах, вроде как не несущий в себе никакого негатива.
С другой:
descr: Electronic government of the Russian Federation
descr: Electronic-government
Как-то неуютно. Как будто кто-то много на себя берет и по какой-то причине считает себя главнее прочих.
Странно, я ничего такого не заметил.
Вероятно я просто параноик =)
Наличие паранойи вовсе не означает отсутствие слежки ;)
Отсутствие паранойи не означает отсутствие слежки, скорей так :)
Electronic Government Of Russia — EGOR. Знайте, Егор следит за вами!
Мне одному кажется, что в глаза бросается Electronic-govemment а не Electronic-government?
Тогда всё на своих местах.
Каждую пятницу ровно в полночь электронный паук электронного президента выползает на свободу… На службу электронному правительству…
Электронный краб, надо полагать )
Заголовок звучит, как угроза.
«Контент есть? А если найду?»
это ДАМ со скоростью паука ищет, где продаётся самый дешёвый iPhone 4S.
812
Это намек на его питерское происхождение? :)
Лишь бы как с геопорталом не было. Деньги вложили. Запустили не пойми что не пойми с каким интерфейсом. При этом качество снимков не то, что с Яндекс не сравнится, с Космоснимками, но и с Google и Bing.
Встречайте Rambler 2 )
Осталось только нанять Чака чтобы в реалтайме осматривал все найденные сайты.
Сканер роскомнадзора в действии? У нас уже один сервер положил на прошлой неделе, в бан.
а хедеры запроса можно посмотреть от этого супер краулера?
Хедеров нет, но вот логи есть.
109.207.13.64 — хххххх.ru — - [03/Dec/2011:00:13:14 +0400] 200 «GET / HTTP/1.1» 44493 "-" «SearchBot» «http_x_forwarded_for»

С учетом того, что я смотрел на мордах, которые обслуживают хостинг с 5000 доменами, то могу сказать что за день он зашел всего на 3 сайта, т.е. 1 раз на один сайт и 2 раза на другой сайт и раз 10 на третий. Не особо активный, я бы даже сказал вопиюще пассивный, он для бота такого мегапроекта, как национальный поисковик.

Причем что удивительно, ходил по разным мордам сайтов (там 4 IP адреса на кажый сайт) и качал один и тот же контент с интервалом в 5 минут, хотя как правило поисковики выбирают одну из морд и с нее сосут уже сайты в течение нескольких часов.
Эта хрень заползла ко мне на 1 из сайтов ещё 3 сентября:
109.207.13.22 — - [03/Sep/2011:22:11:47 +0400] «GET /forum/forum_2 HTTP/1.1» 404 11458 "" «SearchBot»
Странно, что не на главную в первую очередь, хотя может куска лога нету, не уверен.
И судя по логу другого сайта, где дальше главной он не ушёл, с iframe он работать не умеет (а весь сайт построен из двух фреймов), так что бегом переделывать, у кого они используются, а то не проиндексируетесь ;)

Всего на первый сайт совершено 1443 запроса с [03/Sep/2011:22:11:47 +0400] по [25/Nov/2011:00:26:58 +0400]. Частота запросов в конце ~ раз в 3 секунды, что говорит о том, что бот торопится. Остальные поисковики гораздо спокойнее. Кому интересно — могу дать этот лог для анализа.
Сколько-сколько? 100 млн.$??? Ну-ну.
Если госпоисковик будет свободным (а он как всё государственное и сделанное на деньги налогоплательщиков должен быть по моральным причинам не защищаемым авторскими правами) как Wikia Search, то это будет ОЧЕНЬ ЗДОРОВО, но скорее всего нам такого не видать, поэтому нафиг такой поисковик.
ABBYY к этому отношения не имеет. Если б это был наш паук, он ползал бы быстрее и более ловко :)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории