Результаты поиска по запросу «[robots.txt]» / Хабр

Публикации Хабы Компании Пользователи Комментарии

Mio 30 ноя 2006 в 01:04

Поисковые боты MS

1 мин

1.1K

Microsoft сообщает, что имена поисковых ботов Live остаётся прежним — MSNBot.

MSNBot — Main web crawler (www.live.com)
MSNBot-Media — Images & all other media (images.live.com)
MSNBot-NewsBlogs — News and blogs (search.live.com/news)
MSNBot-Products — Products & shopping (products.live.com)
MSNBot-Academic — Academic search (academic.live.com)

Host name для них всегда оканчивается на search.live.com (например, livebot-207-46-98-149.search.live.com).

Amper 9 мая 2011 в 13:41

Файл Humans.txt от Google

1 мин

12K

IT-компании

Перевод

У Google есть файл robots.txt, содержащий список всех путей, которые не могут быть проиндексированы веб-пауками. Но также есть файл humans.txt, которым они пытаются показать, что Google — это не только боты и алгоритмы.

«Google построен большой группой разработчиков, дизайнеров, исследователей, роботов и т.д. в разных местах по всему миру. Он непрерывно обновляется и построен с использованием большого количества инструментов и технологий. Если вы хотите помочь нам, посмотрите google.com/jobs».

Тим Брей из Google связал этот текстовый файл с twitter-аккаунтом Google Jobs, что сделало его более популярным.

В файл robots.txt для Youtube недавно был добавлен юмористический комментарий: «Создано в далеком будущем (2000 год), после восстания роботов в середине 90-х, которое уничтожило всё человечество».

+55

denis-19 19 окт 2023 в 19:09

X (Twitter) начал блокировать поиск Bing

1 мин

3.2K

Поисковые технологии*Управление проектами*Облачные сервисы*Социальные сети и сообщества

Профильные сетевые эксперты обнаружили, что соцсеть X (Twitter) начала блокировать поисковый сервис Bing. Сайт Twitter.com теперь блокирует Bing Search, в частности Bingbot, от сканирования и доступа к контенту, размещённому на Twitter.com, на платформе X. Twitter специально добавил в свой файл robots.txt директиву, запрещающую Bingbot сканировать контент на своей социальной платформе.

denis-19 1 окт 2023 в 07:40

Google представила токен Google-Extended для файла robots.txt, который отключает использование сайта для обучения ИИ

1 мин

4.3K

Веб-разработка*Поисковые технологии*Облачные вычисления*Искусственный интеллект

Google представила токен Google-Extended для файла robots.txt, который указывает сканерам Google включить сайт в поиск, но не разрешает использовать сайт для обучения системам ИИ, подобным тем, которые лежат в основе чат-бота Bard и Vertex AI, в том числе и для будущих поколений ИИ-моделей компании.

daniilshat 8 авг 2023 в 23:16

Разработчики веб-сайтов теперь могут запретить боту GPTBot от OpenAI посещать сайт

1 мин

4.7K

Веб-разработка*Искусственный интеллект

OpenAI рассказала в своём блоге, что сторонние веб-разработчики могут явно запретить боту GPTBot посещать сайт. Таким образом, OpenAI не сможет использовать контент на сайте для обучения своих моделей.

HabrAndrey 28 мая 2014 в 12:14

Взгляните на свою страницу глазами робота Googlebot

2 мин

94K

Блог компании Google DevelopersПоисковые технологии*

Перевод

Уровень подготовки веб-мастера: любой

Функция «Просмотреть как Googlebot» в Инструментах для веб-мастеров позволяет понять, как ваша страница выглядит для роботов Googlebot. Заголовки серверов и код HTML помогают выявить ошибки и последствия взлома, но иногда разобраться в них бывает затруднительно. Веб-мастера обычно хватаются за голову, когда им приходится заниматься решением таких проблем. Чтобы помочь вам в подобных ситуациях, мы усовершенствовали эту функцию, и теперь она может показывать страницу с помощью того же алгоритма, который использует робот Googlebot.

Читать дальше →

+13

Viistomin 26 июн 2019 в 10:00

Динамическое создание robots.txt для сайтов ASP.NET Core

3 мин

Блог компании MicrosoftOpen source*.NET*ASP*C#*

Перевод

Сейчас я нахожусь в процессе переноса части старых WebForms моего сайта, которые пока работают на голом железе, в ASP.NET Core и службы приложений Azure. В процессе я понял, что хочу убедиться, что мои сайты не индексируются в Google, Яндекс, Bing и в других поисковых системах.

У меня уже есть файл robots.txt, но я хочу, чтобы один служил только для продакшена, а другие — для разработки. Я думал о нескольких способах решить эту проблему. Я мог бы иметь статический файл robots.txt, файл robots-staging.txt и условно скопировать один поверх другого в моем Azure DevOps CI/CD pipeline.

Затем я понял, что самое простое — сделать robots.txt динамичным. Я думал о написании собственного промежуточного ПО, но это казалось хлопотным занятием с большим количеством кода. Я хотел посмотреть, насколько просто это может быть.

Читать дальше →

msgeek 26 июн 2019 в 10:00

Dynamically generating robots.txt for ASP.NET Core sites based on environment

3 мин

1.8K

Блог компании MicrosoftOpen source*.NET*ASP*C#*

I'm putting part of older WebForms portions of my site that still run on bare metal to ASP.NET Core and Azure App Services, and while I'm doing that I realized that I want to make sure my staging sites don't get indexed by Google/Bing.

I already have a robots.txt, but I want one that's specific to production and others that are specific to development or staging. I thought about a number of ways to solve this. I could have a static robots.txt and another robots-staging.txt and conditionally copy one over the other during my Azure DevOps CI/CD pipeline.

Then I realized the simplest possible thing would be to just make robots.txt be dynamic. I thought about writing custom middleware but that sounded like a hassle and more code that needed. I wanted to see just how simple this could be.

HotWaterMusic 1 июл 2019 в 20:48

Google открывает исходный код парсера robots.txt

2 мин

33K

Поисковые технологии*Open source*IT-стандарты*

Сегодня компания Google анонсировала черновик RFC стандарта Robots Exclusion Protocol (REP), попутно сделав доступным свой парсер файла robots.txt под лицензией Apache License 2.0. До сегодняшнего дня какого-либо официального стандарта для Robots Exclusion Protocol (REP) и robots.txt не существовало (ближайшим к нему было вот это), что позволяло разработчикам и пользователям интерпретировать его по-своему. Инициатива компании направлена на то, чтобы уменьшить различия между реализациями.

Черновик нового стандарта можно просмотреть на сайте IETF, а репозиторий доступен на Github по ссылке https://github.com/google/robotstxt.

Парсер представляет собой исходный код, который Google используют в составе своих продакшн-систем (за исключением мелких правок — вроде убранных заголовочных файлов, используемых только внутри компании) — парсинг файлов robots.txt осуществляется именно так, как это делает Googlebot (в том числе то, как он обращается с Юникод-символами в паттернах). Парсер написан на С++ и по сути состоит из двух файлов — вам потребуется компилятор, совместимый с C++11, хотя код библиотеки восходит к 90-ым, и вы встретите в ней «сырые» указатели и strbrk. Для того, чтобы его собрать, рекомендуется использовать Bazel (поддержка CMake планируется в ближайшем будущем).

Читать дальше →

+46

vkhanieva 11 июл 2019 в 16:52

PVS-Studio wanted but couldn't find bugs in robots.txt

3 мин

2.1K

Блог компании PVS-Studio

The other day Google revealed the sources of the robots.txt parser. Why not give a run for the already far and wide checked project using PVS-Studio and possibly find a bug. So said so done. But I wish we could find something meaningful. Well, then let it be just a reason to give full marks for Google developers.

robots.txt — is an index file that contains rules for search robots. It works for https, http and FTP protocols. Google made the parser of the robots.txt file available for everyone. Read more about this news here: Google opens the source code of the robots.txt parser

+18

vkhanieva 11 июл 2019 в 17:01

PVS-Studio хотел, но не смог найти баги в robots.txt

3 мин

15K

Блог компании PVS-Studio

На днях Google опубликовал исходники парсера robots.txt. Почему бы не прогнать уже проверенный всеми вдоль и поперек проект через PVS-Studio и, возможно, найти ошибку. Сказано — сделано. Жаль, что ничего значимого найти не удалось. Ну что ж, тогда пусть это будет просто повод похвалить разработчиков Google.

robots.txt – индексный файл, который содержит правила для поисковых роботов. Он действует для протоколов https, http и FTP. Google сделала доступным для всех свой парсер файла robots.txt. Подробнее об этой новости можно почитать здесь: Google открывает исходный код парсера robots.txt

Читать дальше →

+53

Topal-Olga 25 янв 2021 в 12:20

25 шагов SEO-настройки для нового сайта: что учесть, чтобы не переделывать

11 мин

121K

CMS*Веб-разработка*Usability*Веб-аналитика*Интернет-маркетинг*

Из песочницы

Ольга Топал, Middle SEO specialist, Boosta

SEO - это не так страшно, как кажется. А базовое SEO – еще проще. Правильная базовая SEO-настройка молодого сайта уже принесет результаты. Не каждый ваш конкурент оптимизирует свой сайт на 100%. Поэтому, если вы оптимизируете сайт правильно, есть все шансы побороться за органический трафик спустя некоторые время.

На каком этапе можно начинать делать SEO? Чем раньше, тем лучше. В этой статье я собрала 25 пунктов, которые нужно учесть до запуска сайта, чтобы первое сканирование, а позже индексирование прошли гладко и принесли максимальную пользу.

Этот чек-лист составлен с учетом всех рекомендаций поисковой системы Google и подходит как для русскоязычных сайтов, так и проектов «на Запад».

Читать больше о SEO-настройке

alizar 12 апр 2007 в 12:30

Принят стандарт Sitemaps Auto-Discovery

1 мин

Поисковые технологии*

Крупнейшие поисковые сайты Google, Yahoo, Ask и MSN объявили о принятии единого стандарта для хранения файла Sitemap XML. Веб-мастерам рекомендуется добавить такую строчку в robots.txt:

Sitemap: www.example.com/sitemap.xml

Функция Auto-Discovery позволяет сэкономить время: поисковый робот теперь будет сам находить файл Sitemap на сайте, так что теперь не нужно его вручную закачивать в каждый поисковик.

Как объясняется на сайте Sitemaps.org, единый стандарт должен облегчить процесс индексации сайта поисковыми системами. С помощью этого XML-файла веб-мастер прямо указывает поисковику, какие страницы на сайте нужно индексировать. Таким образом можно существенно сэкономить исходящий трафик, а часто обновляемые страницы индексируются чаще.

Читать дальше →

+67

Restorer 19 июн 2008 в 15:12

Убить всех людей :)

1 мин

933

Чулан

Нашёл такую шутку юмора (возможно и ретро, так что сильно не пинайте):
robots.txt

Читать дальше →

+34

AlexSpaizNet 1 июл 2008 в 22:36

Получил сегодня письмо от Билла — просят открыть доступ поисковому боту

2 мин

1.1K

Чулан

Вот пришло сегодня на почту. Думал сначало что спам. Прочитал. Если это спам — то непонятный. Ибо доступ у меня действительно закрыт для ихнего поискового бота. Так как траффика он жрет не по-детски, а посетителей не приводит. То ли дело гугль.

С другой стороны — с каких пор майкрософт волнует бедненький израильский сайт с посещаемостью в 5-6k в день? Да и гугля по поиску на текст и мыло из присланного письма ничего не выдал. Что бы это значило? Просто автоматом отсылают администраторам сайтов которые закрыли доступ их боту?

Может стоит открыть? Кто то имеет реальных посетителей с поисковика Билла?

Здравствуйте!

Обращаюсь к Вам от имени корпорации Майкрософт и ее подразделения по разработке поисковой системы Интернета Live Search (http://search.live.com) по поводу Вашего файла robots.txt ashdoda.net/robots.txt. Наши клиенты сообщили нам, что Ваш веб-узел не отображается в наших результатах поиска. Также мы обнаружили, что Вы скрываете свой веб-узел от нашего агента поисковой системы под названием msnbot с помощью файла robots.txt.

Мы будем благодарны Вам за внесение изменений в файл robots.txt для того, чтобы разрешить нашей поисковой системе осуществлять индексирование Вашего содержимого. Посредством выполнения индексирования будет увеличен трафик Вашего веб-узла через наши результаты поиска. С Вашей стороны требуется лишь одно — удалить указанное ниже ограничение для агента msnbot в файле robots.txt.

Агент пользователя: msnbot
Запретить: /

С помощью нашего веб-узла Webmaster Central (http://webmaster.live.com/) Вы сможете получить наилучшие результаты для развития Вашего бизнеса или веб-узла.
Свяжитесь со мной в случае возникновения дополнительных вопросов.

С уважением,

Amy Wilcox
Web Analyst, Microsoft Live Search
v-amwilc@microsoft.com

+15

RommeDeSerieux 18 мар 2009 в 13:23

Послать поисковик на permalink

1 мин

409

Чулан

Довольно долго мучает этот вопрос, ответ на который, казалось бы, должен быть элементарным: дублирующееся содержимое.

Допустим, есть сайт, например, со статьями. Полная версия статьи отображается её личной ссылке example.com/article/hello-world, а уменьшенная версия только с текстом до ката — во всех остальных местах. Причём этих остальных мест может быть очень много: на страницах профилей пользователей (example.com/user/vasya), на страницах категорий, тегов, топов, различных параметров сортировки, в общем, есть множество вариантов показать краткую версию статьи (а иногда и полную, если ката нет).

На всякий случай уточню: меня не волнует, как это повлияет на рейтинг сайта, мне нужно, чтобы гугл не давал ссылок на все эти страницы, а только на одну: личную страницу статьи. Ведь если он даст, например, ссылку на категорию, в которой есть эта статья, то к моменту, когда пользователь туда придёт, статья может оказаться уже на следующей странице или же вообще быть убрана из этой категории. И если параметры сортировки я могу отсечь, вынеся их в HTTP GET параметры и потом запретив в robots.txt всё, что после знака вопроса (так советуют в справке для вебмастеров от Google), то закрыть в robots.txt страницу, например, example.com/user/vasya я не могу, так как он тогда вообще не посетит эту страницу. Как хабралюди борятся с этой проблемой, и делают ли они это вообще?

Avdenago 28 июл 2009 в 14:22

И снова про robots.txt для WordPress (шпаргалка начинающим)

3 мин

4.9K

Чулан

Перед каждым блогером (продвинутым, да) рано или поздно встает вопрос: «Чего бы такого написать в robots.txt, чтобы было все в шоколаде?»

Совершенно естественно встал данный вопрос и передо мной, а написать хотелось грамотно и с пользой. Полез гуглить и все что нашел, были неуклюжие примеры robots.txt стянутые с официального сайта, которые некоторыми авторами выдавались за собственные поделки, продиктованные редкой музой веб-строительства.

Думаю не стоит и говорить, что такие примеры слабо подходили под наши с вами реалии (читай ПС Яндекс — прим. автора).

Поэтому собрав воедино всю информацию найденную в сети, а также собственные мысли и понимание того «как должно быть» написал следующий вариант.

Читать дальше →

ferym 9 янв 2012 в 23:46

Закрываем зеркало сайта от индексации правильно

4 мин

6.2K

Веб-разработка*PHP*Поисковая оптимизация*

Туториал

Здравствуй, %habrauser%.
Сегодня я покажу как не надо закрывать от индексации зеркало сайта, и как закрыть его правильно.

Предыстория

Я работаю web-мастером в одной крупной для нашего города компании.
Мы сделали клиенту сайт, для рекламирования и продажи своей продукции.
Клиент выбрал доменное имя в зоне .RU, и сайт около года успешно работал. Сайт по настоящее время обслуживается и редактируется по мере необходимости у нас.
Через какое-то время клиент захотел второй домен для сайта, но в зоне .РФ.
Он самостоятельно нашёл «профессиональных ~~seo-специалистов~~ продвигальщиков», сайт которых стоял на первом месте в выдаче Яндекса по определенным запросам.
С ними он заключил договор, и ежемесячно отгружал немалую сумму денег в эту seo-конторку.
Спустя пару недель сеошники наконец проснулись, связались с нами и получили ftp доступы к сайту, а так же пароль от админки сайта.

Началась «оптимизация»

Всё началось с того, что они не разобрались в движке сайта PHPShop.
Отправили нам письмо, мы им сообщили где что редактируется, в каком файле находятся нужные им теги, а так же в довесок дали немного ссылок на официальную документацию.

Читать дальше →

+42

alizar 17 янв 2012 в 15:24

Инструкция Google по правильному отключению сайтов 18 января

2 мин

2.5K

Веб-разработка*

Википедия (en), Reddit, Minecraft.net и другие сайты завтра уходят в офлайн в знак протеста против SOPA. Таким способом они надеются привлечь внимание аудитории к этому законопроекту, который фактически вводит цензуру в интернете. SOPA позволяет американским властям в досудебном порядке изымать доменные имена, удалять сайты из поисковой выдачи и блокировать их финансовые счета, в том числе в партнёрских программах вроде Google AdSense, а также фильтровать контент на уровне ISP-провайдеров.

Сотрудник Google Пьер Фар (Pierre Far) опубликовал рекомендации, как лучше отключать сайт, чтобы это не повредило ресурсу в поисковой выдаче Google.

Читать дальше →

+58

pavlusha311245 14 сен 2023 в 14:37

Как рассказать о сайте поисковой системе

Простой

5 мин

3.9K

Веб-разработка*Семантика*Поисковая оптимизация*

Туториал

Сайт написан, домен куплен, так почему же я до сих пор не вижу его в Google/Yandex?

В этой статье Вы узнаете как поисковые системы определяют ваш сайт и как же его добавить в поиск.