Как стать автором
Обновить

Поисковые боты MS

Время на прочтение1 мин
Количество просмотров1.1K
Microsoft сообщает, что имена поисковых ботов Live остаётся прежним — MSNBot.

MSNBot — Main web crawler (www.live.com)
MSNBot-Media — Images & all other media (images.live.com)
MSNBot-NewsBlogs — News and blogs (search.live.com/news)
MSNBot-Products — Products & shopping (products.live.com)
MSNBot-Academic — Academic search (academic.live.com)

Host name для них всегда оканчивается на search.live.com (например, livebot-207-46-98-149.search.live.com).
Всего голосов 7: ↑6 и ↓1+5
Комментарии0

Файл Humans.txt от Google

Время на прочтение1 мин
Количество просмотров12K
У Google есть файл robots.txt, содержащий список всех путей, которые не могут быть проиндексированы веб-пауками. Но также есть файл humans.txt, которым они пытаются показать, что Google — это не только боты и алгоритмы.

image

«Google построен большой группой разработчиков, дизайнеров, исследователей, роботов и т.д. в разных местах по всему миру. Он непрерывно обновляется и построен с использованием большого количества инструментов и технологий. Если вы хотите помочь нам, посмотрите google.com/jobs».

Тим Брей из Google связал этот текстовый файл с twitter-аккаунтом Google Jobs, что сделало его более популярным.

В файл robots.txt для Youtube недавно был добавлен юмористический комментарий: «Создано в далеком будущем (2000 год), после восстания роботов в середине 90-х, которое уничтожило всё человечество».
Всего голосов 113: ↑84 и ↓29+55
Комментарии44

X (Twitter) начал блокировать поиск Bing

Время на прочтение1 мин
Количество просмотров3.2K

Профильные сетевые эксперты обнаружили, что соцсеть X (Twitter) начала блокировать поисковый сервис Bing. Сайт Twitter.com теперь блокирует Bing Search, в частности Bingbot, от сканирования и доступа к контенту, размещённому на Twitter.com, на платформе X. Twitter специально добавил в свой файл robots.txt директиву, запрещающую Bingbot сканировать контент на своей социальной платформе.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии4

Google представила токен Google-Extended для файла robots.txt, который отключает использование сайта для обучения ИИ

Время на прочтение1 мин
Количество просмотров4.3K

Google представила токен Google-Extended для файла robots.txt, который указывает сканерам Google включить сайт в поиск, но не разрешает использовать сайт для обучения системам ИИ, подобным тем, которые лежат в основе чат-бота Bard и Vertex AI, в том числе и для будущих поколений ИИ-моделей компании.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии41

Разработчики веб-сайтов теперь могут запретить боту GPTBot от OpenAI посещать сайт

Время на прочтение1 мин
Количество просмотров4.7K

OpenAI рассказала в своём блоге, что сторонние веб-разработчики могут явно запретить боту GPTBot посещать сайт. Таким образом, OpenAI не сможет использовать контент на сайте для обучения своих моделей.

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии16

Взгляните на свою страницу глазами робота Googlebot

Время на прочтение2 мин
Количество просмотров94K
Уровень подготовки веб-мастера: любой

Функция «Просмотреть как Googlebot» в Инструментах для веб-мастеров позволяет понять, как ваша страница выглядит для роботов Googlebot. Заголовки серверов и код HTML помогают выявить ошибки и последствия взлома, но иногда разобраться в них бывает затруднительно. Веб-мастера обычно хватаются за голову, когда им приходится заниматься решением таких проблем. Чтобы помочь вам в подобных ситуациях, мы усовершенствовали эту функцию, и теперь она может показывать страницу с помощью того же алгоритма, который использует робот Googlebot.
Читать дальше →
Всего голосов 29: ↑21 и ↓8+13
Комментарии1

Динамическое создание robots.txt для сайтов ASP.NET Core

Время на прочтение3 мин
Количество просмотров4K

Сейчас я нахожусь в процессе переноса части старых WebForms моего сайта, которые пока работают на голом железе, в ASP.NET Core и службы приложений Azure. В процессе я понял, что хочу убедиться, что мои сайты не индексируются в Google, Яндекс, Bing и в других поисковых системах.


У меня уже есть файл robots.txt, но я хочу, чтобы один служил только для продакшена, а другие — для разработки. Я думал о нескольких способах решить эту проблему. Я мог бы иметь статический файл robots.txt, файл robots-staging.txt и условно скопировать один поверх другого в моем Azure DevOps CI/CD pipeline.


Затем я понял, что самое простое — сделать robots.txt динамичным. Я думал о написании собственного промежуточного ПО, но это казалось хлопотным занятием с большим количеством кода. Я хотел посмотреть, насколько просто это может быть.


Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии2

Dynamically generating robots.txt for ASP.NET Core sites based on environment

Время на прочтение3 мин
Количество просмотров1.8K

I'm putting part of older WebForms portions of my site that still run on bare metal to ASP.NET Core and Azure App Services, and while I'm doing that I realized that I want to make sure my staging sites don't get indexed by Google/Bing.


I already have a robots.txt, but I want one that's specific to production and others that are specific to development or staging. I thought about a number of ways to solve this. I could have a static robots.txt and another robots-staging.txt and conditionally copy one over the other during my Azure DevOps CI/CD pipeline.


Then I realized the simplest possible thing would be to just make robots.txt be dynamic. I thought about writing custom middleware but that sounded like a hassle and more code that needed. I wanted to see just how simple this could be.


Read more →
Всего голосов 9: ↑8 и ↓1+7
Комментарии0

Google открывает исходный код парсера robots.txt

Время на прочтение2 мин
Количество просмотров33K
image

Сегодня компания Google анонсировала черновик RFC стандарта Robots Exclusion Protocol (REP), попутно сделав доступным свой парсер файла robots.txt под лицензией Apache License 2.0. До сегодняшнего дня какого-либо официального стандарта для Robots Exclusion Protocol (REP) и robots.txt не существовало (ближайшим к нему было вот это), что позволяло разработчикам и пользователям интерпретировать его по-своему. Инициатива компании направлена на то, чтобы уменьшить различия между реализациями.

Черновик нового стандарта можно просмотреть на сайте IETF, а репозиторий доступен на Github по ссылке https://github.com/google/robotstxt.

Парсер представляет собой исходный код, который Google используют в составе своих продакшн-систем (за исключением мелких правок — вроде убранных заголовочных файлов, используемых только внутри компании) — парсинг файлов robots.txt осуществляется именно так, как это делает Googlebot (в том числе то, как он обращается с Юникод-символами в паттернах). Парсер написан на С++ и по сути состоит из двух файлов — вам потребуется компилятор, совместимый с C++11, хотя код библиотеки восходит к 90-ым, и вы встретите в ней «сырые» указатели и strbrk. Для того, чтобы его собрать, рекомендуется использовать Bazel (поддержка CMake планируется в ближайшем будущем).
Читать дальше →
Всего голосов 48: ↑47 и ↓1+46
Комментарии44

PVS-Studio wanted but couldn't find bugs in robots.txt

Время на прочтение3 мин
Количество просмотров2.1K
Picture 1

The other day Google revealed the sources of the robots.txt parser. Why not give a run for the already far and wide checked project using PVS-Studio and possibly find a bug. So said so done. But I wish we could find something meaningful. Well, then let it be just a reason to give full marks for Google developers.

robots.txt — is an index file that contains rules for search robots. It works for https, http and FTP protocols. Google made the parser of the robots.txt file available for everyone. Read more about this news here: Google opens the source code of the robots.txt parser
Read more →
Всего голосов 22: ↑20 и ↓2+18
Комментарии2

PVS-Studio хотел, но не смог найти баги в robots.txt

Время на прочтение3 мин
Количество просмотров15K
Picture 1

На днях Google опубликовал исходники парсера robots.txt. Почему бы не прогнать уже проверенный всеми вдоль и поперек проект через PVS-Studio и, возможно, найти ошибку. Сказано — сделано. Жаль, что ничего значимого найти не удалось. Ну что ж, тогда пусть это будет просто повод похвалить разработчиков Google.

robots.txt – индексный файл, который содержит правила для поисковых роботов. Он действует для протоколов https, http и FTP. Google сделала доступным для всех свой парсер файла robots.txt. Подробнее об этой новости можно почитать здесь: Google открывает исходный код парсера robots.txt
Читать дальше →
Всего голосов 61: ↑57 и ↓4+53
Комментарии15

25 шагов SEO-настройки для нового сайта: что учесть, чтобы не переделывать

Время на прочтение11 мин
Количество просмотров121K

Ольга Топал, Middle SEO specialist, Boosta

SEO - это не так страшно, как кажется. А базовое SEO – еще проще. Правильная базовая SEO-настройка молодого сайта уже принесет результаты. Не каждый ваш конкурент оптимизирует свой сайт на 100%. Поэтому, если вы оптимизируете сайт правильно, есть все шансы побороться за органический трафик спустя некоторые время.

На каком этапе можно начинать делать SEO? Чем раньше, тем лучше. В этой статье я собрала 25 пунктов, которые нужно учесть до запуска сайта, чтобы первое сканирование, а позже индексирование прошли гладко и принесли максимальную пользу.

Этот чек-лист составлен с учетом всех рекомендаций поисковой системы Google и подходит как для русскоязычных сайтов, так и проектов «на Запад».

Читать больше о SEO-настройке
Всего голосов 12: ↑10 и ↓2+8
Комментарии20

Принят стандарт Sitemaps Auto-Discovery

Время на прочтение1 мин
Количество просмотров1K
Крупнейшие поисковые сайты Google, Yahoo, Ask и MSN объявили о принятии единого стандарта для хранения файла Sitemap XML. Веб-мастерам рекомендуется добавить такую строчку в robots.txt:

Sitemap: www.example.com/sitemap.xml

Функция Auto-Discovery позволяет сэкономить время: поисковый робот теперь будет сам находить файл Sitemap на сайте, так что теперь не нужно его вручную закачивать в каждый поисковик.

Как объясняется на сайте Sitemaps.org, единый стандарт должен облегчить процесс индексации сайта поисковыми системами. С помощью этого XML-файла веб-мастер прямо указывает поисковику, какие страницы на сайте нужно индексировать. Таким образом можно существенно сэкономить исходящий трафик, а часто обновляемые страницы индексируются чаще.
Читать дальше →
Всего голосов 67: ↑67 и ↓0+67
Комментарии12

Получил сегодня письмо от Билла — просят открыть доступ поисковому боту

Время на прочтение2 мин
Количество просмотров1.1K
Вот пришло сегодня на почту. Думал сначало что спам. Прочитал. Если это спам — то непонятный. Ибо доступ у меня действительно закрыт для ихнего поискового бота. Так как траффика он жрет не по-детски, а посетителей не приводит. То ли дело гугль.

С другой стороны — с каких пор майкрософт волнует бедненький израильский сайт с посещаемостью в 5-6k в день? Да и гугля по поиску на текст и мыло из присланного письма ничего не выдал. Что бы это значило? Просто автоматом отсылают администраторам сайтов которые закрыли доступ их боту?

Может стоит открыть? Кто то имеет реальных посетителей с поисковика Билла?

Здравствуйте!

Обращаюсь к Вам от имени корпорации Майкрософт и ее подразделения по разработке поисковой системы Интернета Live Search (http://search.live.com) по поводу Вашего файла robots.txt ashdoda.net/robots.txt. Наши клиенты сообщили нам, что Ваш веб-узел не отображается в наших результатах поиска. Также мы обнаружили, что Вы скрываете свой веб-узел от нашего агента поисковой системы под названием msnbot с помощью файла robots.txt.

Мы будем благодарны Вам за внесение изменений в файл robots.txt для того, чтобы разрешить нашей поисковой системе осуществлять индексирование Вашего содержимого. Посредством выполнения индексирования будет увеличен трафик Вашего веб-узла через наши результаты поиска. С Вашей стороны требуется лишь одно — удалить указанное ниже ограничение для агента msnbot в файле robots.txt.

Агент пользователя: msnbot
Запретить: /

С помощью нашего веб-узла Webmaster Central (http://webmaster.live.com/) Вы сможете получить наилучшие результаты для развития Вашего бизнеса или веб-узла.
Свяжитесь со мной в случае возникновения дополнительных вопросов.

С уважением,

Amy Wilcox
Web Analyst, Microsoft Live Search
v-amwilc@microsoft.com
Всего голосов 21: ↑18 и ↓3+15
Комментарии5

Послать поисковик на permalink

Время на прочтение1 мин
Количество просмотров409
Довольно долго мучает этот вопрос, ответ на который, казалось бы, должен быть элементарным: дублирующееся содержимое.

Допустим, есть сайт, например, со статьями. Полная версия статьи отображается её личной ссылке example.com/article/hello-world, а уменьшенная версия только с текстом до ката — во всех остальных местах. Причём этих остальных мест может быть очень много: на страницах профилей пользователей (example.com/user/vasya), на страницах категорий, тегов, топов, различных параметров сортировки, в общем, есть множество вариантов показать краткую версию статьи (а иногда и полную, если ката нет).

На всякий случай уточню: меня не волнует, как это повлияет на рейтинг сайта, мне нужно, чтобы гугл не давал ссылок на все эти страницы, а только на одну: личную страницу статьи. Ведь если он даст, например, ссылку на категорию, в которой есть эта статья, то к моменту, когда пользователь туда придёт, статья может оказаться уже на следующей странице или же вообще быть убрана из этой категории. И если параметры сортировки я могу отсечь, вынеся их в HTTP GET параметры и потом запретив в robots.txt всё, что после знака вопроса (так советуют в справке для вебмастеров от Google), то закрыть в robots.txt страницу, например, example.com/user/vasya я не могу, так как он тогда вообще не посетит эту страницу. Как хабралюди борятся с этой проблемой, и делают ли они это вообще?
Всего голосов 3: ↑3 и ↓0+3
Комментарии10

И снова про robots.txt для WordPress (шпаргалка начинающим)

Время на прочтение3 мин
Количество просмотров4.9K
Перед каждым блогером (продвинутым, да) рано или поздно встает вопрос: «Чего бы такого написать в robots.txt, чтобы было все в шоколаде?»

Совершенно естественно встал данный вопрос и передо мной, а написать хотелось грамотно и с пользой. Полез гуглить и все что нашел, были неуклюжие примеры robots.txt стянутые с официального сайта, которые некоторыми авторами выдавались за собственные поделки, продиктованные редкой музой веб-строительства.

Думаю не стоит и говорить, что такие примеры слабо подходили под наши с вами реалии (читай ПС Яндекс — прим. автора).

Поэтому собрав воедино всю информацию найденную в сети, а также собственные мысли и понимание того «как должно быть» написал следующий вариант.
Читать дальше →
Всего голосов 25: ↑13 и ↓12+1
Комментарии8

Закрываем зеркало сайта от индексации правильно

Время на прочтение4 мин
Количество просмотров6.2K
Здравствуй, %habrauser%.
Сегодня я покажу как не надо закрывать от индексации зеркало сайта, и как закрыть его правильно.

Предыстория

Я работаю web-мастером в одной крупной для нашего города компании.
Мы сделали клиенту сайт, для рекламирования и продажи своей продукции.
Клиент выбрал доменное имя в зоне .RU, и сайт около года успешно работал. Сайт по настоящее время обслуживается и редактируется по мере необходимости у нас.
Через какое-то время клиент захотел второй домен для сайта, но в зоне .РФ.
Он самостоятельно нашёл «профессиональных seo-специалистов продвигальщиков», сайт которых стоял на первом месте в выдаче Яндекса по определенным запросам.
С ними он заключил договор, и ежемесячно отгружал немалую сумму денег в эту seo-конторку.
Спустя пару недель сеошники наконец проснулись, связались с нами и получили ftp доступы к сайту, а так же пароль от админки сайта.

Началась «оптимизация»

Всё началось с того, что они не разобрались в движке сайта PHPShop.
Отправили нам письмо, мы им сообщили где что редактируется, в каком файле находятся нужные им теги, а так же в довесок дали немного ссылок на официальную документацию.
Читать дальше →
Всего голосов 78: ↑60 и ↓18+42
Комментарии37

Инструкция Google по правильному отключению сайтов 18 января

Время на прочтение2 мин
Количество просмотров2.5K
Википедия (en), Reddit, Minecraft.net и другие сайты завтра уходят в офлайн в знак протеста против SOPA. Таким способом они надеются привлечь внимание аудитории к этому законопроекту, который фактически вводит цензуру в интернете. SOPA позволяет американским властям в досудебном порядке изымать доменные имена, удалять сайты из поисковой выдачи и блокировать их финансовые счета, в том числе в партнёрских программах вроде Google AdSense, а также фильтровать контент на уровне ISP-провайдеров.

Сотрудник Google Пьер Фар (Pierre Far) опубликовал рекомендации, как лучше отключать сайт, чтобы это не повредило ресурсу в поисковой выдаче Google.
Читать дальше →
Всего голосов 78: ↑68 и ↓10+58
Комментарии45

Как рассказать о сайте поисковой системе

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.9K

Сайт написан, домен куплен, так почему же я до сих пор не вижу его в Google/Yandex?

В этой статье Вы узнаете как поисковые системы определяют ваш сайт и как же его добавить в поиск.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии6