Pull to refresh

Comments 8

Больше всего понравился «Моральный аспект» =)
Смешно. Но все таки — robots.txt — де-факто стандарт в интернете, и про него все знают. И формат файла так же стандартен. (Это не злой Яндекс его выдумал и принуждает делать неочевидные вещи, чтоб защититься от него). И все «вежливые» роботы этот файл уважают. В том числе и Яндексовский поисковик.

https://informer.yandex.ru/robots.txt:
User-Agent: *
Disallow: /


по дефолту (нет файла) — разрешено. Но если создать — любой вежливый робот любого поисковика будет соблюдать.

А вот про xyu.txt никакого стандарта нет — это на самом деле выдумка для оправдания.
А где на сайте результат работы?
В результатах анализа сайта. Если в базе есть данные Метрики, то появится блок «Посещаемость». Пример.
зачем картинки метрики распознавать?
идем на https://metrika.yandex.ru/dashboard?group=dekaminute&period=2016-10-21%3A2016-10-21&id=_счетчик_ и парсим результаты. через API, думаю, еще проще
Эта страница доступна только у тех сайтов, которые в настройках информера выбрали «Расширенный» тип. Таких сайтов еще меньше, чем тех, у которых открыта хотя бы картинка.
И на какие только ухищрения люди не идут) Видимо придется скоро еще и яндексовую капчу распознавать.
Если можете, то поделитесь кодом реализации парсера на NodeJS. Интересно
Sign up to leave a comment.

Articles