Pull to refresh

Comments 14

В первых числах января мне написал заказчик и попросил сделать для него масштабный парсер инстаграма, который был бы способен делать более 10.000 запросов в сутки

Если честно, я не очень понял, почему вы пишете "масштабный" о парсере, который делает всего 6-10 (!!!) запросов в минуту (исхожу из 10 000 - 15 000 запросов в сутки). Это ж крайне мало. Если я правильно посчитал, конечно. Даже если вы увеличите до 150 000 запросов в сутки (как вы пишете далее по тексту), то это всего около 100 запросов в минуту, что тоже смешные цифры. Или я что-то не так понял?

Инстаграм парсить достаточно трудно, так как приходится обходить предусмотренные разработчиками механизмы защиты, поэтому даже 10.000 запросов в сутки - это уже достаточно хороший результат. Также, я скорее имел ввиду "масштабный" по сравнению с пропускной возможностью одного аккаунта.

Скорость пролистывания ленты 1 пост в 5 секунд - легко. За 16 часов "залипания" уже набегает 11520 запросов.

Запросы на получение своей собственной ленты работают немного по-другому. Так например, за один запрос может быть получено N=10 постов, таким образом уже получается не 11520 запросов, а 1152.

Также, просто пролистывание своей ленты отличается от сбора данных по определенной группе пользователей.

Ну и в целом, моему стилю написания статей присущ некоторый гротеск, который разбавляет сухое техническое повествование. Взять тот же шрифт из Adventure Times на фоне пиксель арта.

Вся масштабность парсера кроется в обходе лимитов на запросы к Инстаграму к чувствительным данным.

А какой конечный обьем данных получился по заданию заказчика?

На данный момент в базе данных:

кластер из 2785 пользователей, который каждый день немного увеличивается,

23.248 постов,

Плюс, система в режиме реального времени отдаёт лайки по запросу к API.

" Чувствуете масштаб? "

Нет. Я несколько лет назад парсил рутрекер , у меня и то масштабней было ....

Я так понял, что тут "масштаб" заключается в сложности обхода блокировок со стороны Инстаграм. Ну, т.е. особо много запросов к нему не сделать.

Соглашусь с комментаторами выше - даже 150000 в день для Инстаграма это копейки. Посмотрите на решения с квотами по 1М+ запросов в день на RapidAPI

ссылка чет недоступна

Хорошая статья! Благодарю за информацию. Понравился структурированный подход к написанию и наличие своевременных ссылок на зависимые проекты.

Sign up to leave a comment.

Articles