Как стать автором
Обновить

Комментарии 12

Спасибо за репозиторий. Но было бы интересно почитать про проблемы парсинга, нюансы и прочее. А так вся статья заключается просто в ссылке на гитхаб.

И такой парсинг легален?

https://yandex.ru/legal/maps_api/ говорит:

2.3.11. ОГРАНИЧЕНИЯ. Используя Сервис, Пользователь не имеет права:

2.3.11.4. Сохранять, обрабатывать и видоизменять полученные через Сервис
Данные (включая результаты ответа на запросы Геокодирования и
Построения маршрута), за исключением случаев временного хранения
(кэширования) результатов ответа на запросы Геокодирования и Построения
маршрута исключительно для целей улучшения функциональности и
работоспособности Сервиса и только для использования в рамках
возможностей, предоставляемых Сервисом, на срок не более 30 дней.

https://yandex.ru/legal/maps_termsofuse/:

4.5. Любая информация, используемая в Сервисе, предназначена
исключительно для личного некоммерческого использования. При этом любое
копирование Данных, их воспроизведение, переработка, распространение,
доведение до всеобщего сведения (опубликование) в сети Интернет, любое
использование в средствах массовой информации и/или в коммерческих целях
без предварительного письменного разрешения правообладателя
запрещается, за исключением случаев, прямо предусмотренных
функциональными возможностями сервиса, настоящими Условиями, условиями
использования других сервисов Яндекса или документами, указанными в п.
1.2. настоящих Условий.

Граждане (физические лица) и организации (юридические лица) (далее - организации) вправе осуществлять поиск и получение любой информации в любых формах и из любых источников при условии соблюдения требований, установленных настоящим Федеральным законом и другими федеральными законами.

Мне кажется, этот 2.3.11.4. не имеет приоритета перед федеральным законом.

Не юрист - вопрос мне самому интересный. Уточните, какой закон вы имеете в виду? И точно ли он имеет силу в случае, когда, как здесь, авторские права на данные принадлежат Яндексу (или были предоставлены ему сторонними организациями из https://yandex.ru/legal/right_holders/)?

Федеральный закон от 27.07.2006 N 149-ФЗ (ред. от 14.07.2022) "Об информации, информационных технологиях и о защите информации"

Авторских прав у Яндекса никто не отбирает. Но если информация доступна к просмотру, то автоматически пользователю доступно и сохранение информации. И не важно, запомнит пользователь эту информацию, или запишет. Если Яндекс не хочет чтобы информацией пользовались, пусть не распространяет её "неограниченному кругу лиц".

Сам не юрист, потому и написал, что "кажется".

долго такой парсер не отработает, словит каптчу, а что дальше?

Видимо ничего. Дальше автор полезет в интернеты читать что такое капча и методы борьбы с ними, а потом напишет продолжение статьи)

Года три назад парсил один из проектов Яндекса - auto.ru.

Взял Gecko, реализовал обход каталога в естественном порядке, добавил случайных таймаутов между загрузками страниц. В итоге, капчи при парсинге замечено не было. Только на этапе разработки.

Вообще, с российскими компаниями творятся странные вещи. Лазаешь по сайту вручную - сайт подозревает, что запросы автоматические. Автоматизируешь обход сайта, и капча больше не появляется.

-driver открывает https://yandex.ru/maps, вводит нужный запрос, собирает все организации по запросу в регионе и сохраняет.

А где пагинация результатов? Или только собирается с первой страницы выдачи?

Ну такое себе...

Что то не понял по соцсети)) какой салон красоты имеет СВОЮ соцсеть и не имеет сайта??? Можно на примере что подразумевает автор говоря про соцсеть?)

Интересное исследование, спасибо.

Вы пишете, что «Бизнес со своим доменом с большой вероятностью не перейдет в Taplink», но это не так. Многие бьютики спокойно сидят на таплинк с привязанным собственным доменом. Да и на Тильду они же домен привязывают легко и непринуждённо. Есть целый пласт недорогих спецов, которые это для малого и микро-бизнеса регистрируют, оформляют и подключают.

Так что тут нужно открывать каждый линк, лезть в разметку и там смотреть, на чём написано. Вот только есть ли смысл так глубоко копать...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории