Pull to refresh
5
0
Smerch @Smerch

User

Send message

Парсинг Instagram в промышленных масштабах

Reading time28 min
Views38K

В декабре 2020 года, завершив работать в научном институте, я увлёкся задачей добычи данных из соцсетей, в частности из Инстаграма. Прежде я работал только с готовыми данными, поэтому мне всегда было интересно, как эти данные можно добывать. За несколько дней до Нового Года я написал достаточно базовую статью про то как парсить Инст. В первых числах января мне написал заказчик и попросил сделать для него масштабный парсер инстаграма, который был бы способен делать более 10.000 запросов в сутки.

С тех пор прошло уже больше полугода, за которые я набил всевозможные шишки в данной области и написал промышленный парсер, который способен делать сотни тысяч, если не миллионы запросов в сутки.

В рамках данной статьи я хочу рассказать про путь развития своего Pet-Project в потенциально мощный и серьёзный инструмент. Впереди вас ждёт увлекательное путешествие от хранения данных в простых Json-ах на жестком диске сервера, до облачной базы данных и автоматической инициализации cron расписания запуска процессов внутри докер контейнера, поехали!

Поехали!
Total votes 20: ↑15 and ↓5+13
Comments14

Почтовая кухня #3: DNSBL — Что такое DNS blacklist и с чем их едят

Reading time3 min
Views8.2K
Продолжение цикла статей о работе электронной почты. На этот раз — списках блокировки.

Часть первая: DNS (Автор differentlocal)
Часть вторая: SMTP — (Автор seriyPS)

Часть третья: DNS blacklist
Total votes 21: ↑18 and ↓3+15
Comments30

Почтовая кухня #1: DNS

Reading time3 min
Views69K
Думаю, многим будет интересно наконец-то узнать, как работает почта. В нескольких статьях я попытаюсь максимально простым языком расписать все основные вопросы, связанные с работой электронной почты вообще и нужными настройками — в частности.

Часть 1 - DNS.
Total votes 97: ↑93 and ↓4+89
Comments76

Большой Брат по заказу

Reading time5 min
Views835
Новая система поведенческой рекламы, которая определяет интересы пользователей путем долговременной слежки, всколыхнула общественность.



Что это — очередное вторжение в личную жизнь Интернет-пользователей или же новая прибыльная бизнес-модель для онлайн-рекламы? Новый подход к «поведенческой» Интернет-рекламе, первопроходцами которого выступили такие компании, как Phorm, NebuAd и FrontPorch, можно назвать и тем и другим одновременно. Принцип действия этой рекламы заключается в том, что Интернет-провайдеры устанавливают в своих сетях специальный софт, который позволяет перехватывать запросы веб-страниц, которые исходят от Интернет-пользователей. Каждая запрашиваемая веб-страница доставляется пользователю, как и прежде, однако при этом её содержание тщательно сканируется на предмет разных ключевых слов, чтобы на каждого пользователя составить персональное досье интересов. Затем, эти досье можно использовать для высокоточной рекламы.

Читать дальше →
Total votes 27: ↑24 and ↓3+21
Comments109

30 советов, как эффективно трудиться и не сойти с ума, работая дома

Reading time5 min
Views17K
Тем, кому знакомы прелести работы дома (на себя, фрилансером или удаленно на ставку), также знаком соблазн поваляться на диване и затягивание сроков.

Я тоже люблю вздремнуть часок-другой, но это должно быть перерывом, а не постоянным рабочим режимом.

С другой стороны, работа дома приводит к размытию границ между работой и личной жизнью — если работать чересчур много, то не останется времени и сил на жизнь как таковую.

Так как же работать эффективно и в то же время не довести себя до нервного истощения? Я недавно уволился с постоянной работы и поэтому спросил совета у читателей своего блога. Они, как и всегда, откликнулись на мою просьбу, и я отобрал наиболее понравившиеся мне рекомендации, чтобы люди могли использовать их как руководство (ну, я тоже собираюсь руководствоваться этими советами).
Читать дальше →
Total votes 125: ↑123 and ↓2+121
Comments198

flash-видео на веб-страницах и PHP

Reading time8 min
Views6.1K
Эта статья — перепечатка статьи от 16 ноября 2007 г. с моего блога, ссылку на который можно найти в моем же профайле — но, поскольку так уж вышло, что тема эта, кажется, до сих пор многим интересна, к тому же не так давно я читал на эту тему доклад на конференции PHPConf… в общем — судите сами.

Вступление


В последнее время все большее распространение получает технология трансляции видео через веб – без необходимости скачивать медиа-контент на машину пользователя, с просмотром прямо из браузера. Таким образом можно просматривать довольно большое количество различных форматов видео, однако, это требует наличия определенных плагинов на стороне пользователя. Очевидно, самым распространенным подобным плагином является flash-player (ну хорошо, хорошо: если быть точным, то он, конечно же, не может сам по себе проигрывать видео – но позволяет легко создать приложение, способное воспроизводить видео-контент). Яркий пример такого подхода – youtube.com. Попытаюсь рассказать о том, как самостоятельно организовать трансляции флэш-видео на своей веб-странице и какие существуют подходы к этой проблеме.

Читать дальше →
Total votes 19: ↑19 and ↓0+19
Comments20

Виртуализация как средство распространения ПО

Reading time1 min
Views5.1K
Думаю, что большинство ITшников слышало о VirtualPC и VMware.

То, насколько этот рынок сейчас на пике лишний раз подтвердил уход одного из топ-сотрудников из MS в правящий состав VMware.
(уже не помню где читал, но было этой зимой)

Но совсем недавно обнаружил, что VMware Server абсолютно бесплатный!
VMware Server отличается от VMware Workstation тем, что устанавливается как сервис и может при включении автоматом поднимать все виртуальные машины.

Но VMware пошли дальше.
Читать дальше →
Total votes 33: ↑30 and ↓3+27
Comments46

Google AJAX Search API

Reading time1 min
Views30K
Возможно я идиот, и убейте меня кто-нибудь, но сегодня я совершенно случайно, перерыв бОльшую половину интернета, обнаружил, что у Google есть мощнейший и абсолютно бесплатный API для поиска. Который ну просто мега элементарно интегрировать со своим сайтом.
$url = "http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=".urlencode($query)";
$body = file_get_contents($url);
$json = json_decode($body);
foreach ($json->responseData->results as $resultjson) {
$result_google['urls']= $resultjson->url;
$result_google['contents'] = $resultjson->content;
}

а вот что из этого получилось
Total votes 65: ↑59 and ↓6+53
Comments71

Индия готовит кадры на free-lance.ru

Reading time1 min
Views800
Это видео, если вы его еще не смотрели, окончательно изменит ваше представление о нашем месте в эволюционной цепи планеты земля.



P.S. «Руками» он явно рисует лучше многих дизайнеров, представляете, что они делают с Ваккомоским планшетом?

И еще один ролик
Total votes 50: ↑42 and ↓8+34
Comments74

Масштабируемые и высокопроизводительные веб-приложения. Гл. 1. Протокол HTTP. Draft.

Reading time13 min
Views3K
Обсуждаемые темы: HTTP-запросы; HTTP-ответы; Оптимизация с помощью HTTP keep-alive; Оптимизация с помощью HTTP-pipelining; Оптимизация с помощью HTTP-кэширования: Кэширование в современных клиентах, Стратегии ревалидации, Отключение кэширования и интерактивные страницы; Оптимизация с помощью компрессии; Специфическая оптимизация отдаваемого содержимого; Комбинирование контента.

Комментарии приветствуются.

Читать дальше →
Total votes 51: ↑50 and ↓1+49
Comments11

Color Browser — программа позволяет дизайнерам подбирать приятные палитры для сайтов.

Reading time1 min
Views7.8K


Интересная программа на технологии Adobe AIR. Суть программы Color Browser заключается в приятном подборе палитр для сайта или дизайна. Сделана программа как приложения к сайту ColourLovers (где можно скачать чужие палитры)

Скачать программу Adobe AIR можно на сайте Adobe а Color Browser от сюда.
После установки Adobe AIR запустите файл ColorBrowser.air

Другие приложения работающие на Adobe AIR можно посмотреть здесь.
Источник: mmaxis.info
Total votes 59: ↑49 and ↓10+39
Comments49

IBM выпустила мощнейший UNIX-сервер и «гидро-кластер» с водяным охлаждением

Reading time1 min
Views2.2K
IBM собирается посрамить конкурентов по полной программе. Новый сервер-монстр Power 595 с 5-гигагерцовыми процессорами Power6 не просто мощнее конкурентов из той же ценовой категории, но он превосходит их в два раза. Компания приводит бенчмарки SPECint_rate2006 сходных по конфигурации 64-ядерных серверов IBM и HP. Модель Power 595 с 256 ГБ оперативной памяти и процессорами Power6 по 4,2 ГГц показала результат 1650, тогда как модель HP Integrity Superdome с процессорами по 1,6 ГГц показывает всего 824, то есть ровно в два раза меньше. Если учесть, на какой частоте работают новые процессоры Power6, то разница в производительности неудивительна.

Power 595 поставляется в конфигурации от 8 до 64 процессоров Power6 частотой от 4,2 до 5 ГГц, общий объём RAM может достигать 4 ТБ. Вся конструкция монтируется в двухметровый шкаф весом 1550 кг.

Кроме Power 595, компания представила новую версию серверного модуля для суперкомпьютеров Power 575, которую назвали «Гидро-кластер» (Hydro-Cluster). Название вполне логично, потому что в этой версии сервера реализовано водяное охлаждение: оно в последние годы снова входит в моду.
Total votes 24: ↑23 and ↓1+22
Comments21

Система Webmoney интегрируется в социальные сети

Reading time1 min
Views726
WebMoney Transfer объявила о запуске принципиально нового и уникального продукта под брендом Keeper Embedded. Это бизнес-платформа для блогов, социальных сетей, онлайн-игр, сообществ, web 2.0 проектов.

Участники любого сообщества и социальной сети, будь то «Хабрахабр», Facebook или World of Warcraft, теперь могут одним нажатием мышки связать свой существующий WM-кошелек с аккаунтом в нужной им социальной сети.

После этого становится возможным проведение микроплатежей и взаиморасчётов внутри коммьюнити. Например, таким образом владельца «Хабрахабра» или Livejournal могут наладить автоматические платежи в пользу самых активных участников коммьюнити на сайте или организовать систему взаиморасчётов за карму. Весь биллинг берёт на себя WebMoney Transfer. Размер денежной комиссии и технические вопросы решаются в договорном порядке. По умолчанию владельцы сообщества получают процент от всех исходящих платежей своих юзеров.

В качества образца уже создан первый плагин Webmoney для социальной сети Facebook.
Total votes 42: ↑39 and ↓3+36
Comments35

Новый офис Google в Цюрихе

Reading time1 min
Views11K
Совсем недавно состоялось открытие нового офиса Google, на этот раз в Цюрихе. Меня лично фотографии поразили до глубины души, работают же люди!
Вы бы хотели добираться с одного на другой этаж офиса соскальзывая по горке? Или по пожарному шесту? У Вас в офисе есть свой пингвин?
Наслаждайтесь и мечтайте, дорогие хабралюди…

Читать дальше →
Total votes 122: ↑117 and ↓5+112
Comments259

Battle City: ностальгия online

Reading time1 min
Views1.3K
Танчики онлайн

Этот проект не что иное, как проявление ностальгии — некий экскурс в далекое детство. Играть можно как набор классических уровней, так и уровни в случайном порядке из числа тех, которые создавались вами же (советую скипать те, которые содержат забронированный штаб — иначе какой интерес?).
Читать дальше →
Total votes 48: ↑46 and ↓2+44
Comments35
1
23 ...

Information

Rating
Does not participate
Location
Казахстан
Date of birth
Registered
Activity