Как стать автором
Обновить
5
0
Smerch @Smerch

Пользователь

Отправить сообщение

Парсинг Instagram в промышленных масштабах

Время на прочтение28 мин
Количество просмотров38K

В декабре 2020 года, завершив работать в научном институте, я увлёкся задачей добычи данных из соцсетей, в частности из Инстаграма. Прежде я работал только с готовыми данными, поэтому мне всегда было интересно, как эти данные можно добывать. За несколько дней до Нового Года я написал достаточно базовую статью про то как парсить Инст. В первых числах января мне написал заказчик и попросил сделать для него масштабный парсер инстаграма, который был бы способен делать более 10.000 запросов в сутки.

С тех пор прошло уже больше полугода, за которые я набил всевозможные шишки в данной области и написал промышленный парсер, который способен делать сотни тысяч, если не миллионы запросов в сутки.

В рамках данной статьи я хочу рассказать про путь развития своего Pet-Project в потенциально мощный и серьёзный инструмент. Впереди вас ждёт увлекательное путешествие от хранения данных в простых Json-ах на жестком диске сервера, до облачной базы данных и автоматической инициализации cron расписания запуска процессов внутри докер контейнера, поехали!

Поехали!
Всего голосов 20: ↑15 и ↓5+13
Комментарии14

Почтовая кухня #3: DNSBL — Что такое DNS blacklist и с чем их едят

Время на прочтение3 мин
Количество просмотров8.2K
Продолжение цикла статей о работе электронной почты. На этот раз — списках блокировки.

Часть первая: DNS (Автор differentlocal)
Часть вторая: SMTP — (Автор seriyPS)

Часть третья: DNS blacklist
Всего голосов 21: ↑18 и ↓3+15
Комментарии30

Почтовая кухня #1: DNS

Время на прочтение3 мин
Количество просмотров69K
Думаю, многим будет интересно наконец-то узнать, как работает почта. В нескольких статьях я попытаюсь максимально простым языком расписать все основные вопросы, связанные с работой электронной почты вообще и нужными настройками — в частности.

Часть 1 - DNS.
Всего голосов 97: ↑93 и ↓4+89
Комментарии76

Большой Брат по заказу

Время на прочтение5 мин
Количество просмотров835
Новая система поведенческой рекламы, которая определяет интересы пользователей путем долговременной слежки, всколыхнула общественность.



Что это — очередное вторжение в личную жизнь Интернет-пользователей или же новая прибыльная бизнес-модель для онлайн-рекламы? Новый подход к «поведенческой» Интернет-рекламе, первопроходцами которого выступили такие компании, как Phorm, NebuAd и FrontPorch, можно назвать и тем и другим одновременно. Принцип действия этой рекламы заключается в том, что Интернет-провайдеры устанавливают в своих сетях специальный софт, который позволяет перехватывать запросы веб-страниц, которые исходят от Интернет-пользователей. Каждая запрашиваемая веб-страница доставляется пользователю, как и прежде, однако при этом её содержание тщательно сканируется на предмет разных ключевых слов, чтобы на каждого пользователя составить персональное досье интересов. Затем, эти досье можно использовать для высокоточной рекламы.

Читать дальше →
Всего голосов 27: ↑24 и ↓3+21
Комментарии109

30 советов, как эффективно трудиться и не сойти с ума, работая дома

Время на прочтение5 мин
Количество просмотров17K
Тем, кому знакомы прелести работы дома (на себя, фрилансером или удаленно на ставку), также знаком соблазн поваляться на диване и затягивание сроков.

Я тоже люблю вздремнуть часок-другой, но это должно быть перерывом, а не постоянным рабочим режимом.

С другой стороны, работа дома приводит к размытию границ между работой и личной жизнью — если работать чересчур много, то не останется времени и сил на жизнь как таковую.

Так как же работать эффективно и в то же время не довести себя до нервного истощения? Я недавно уволился с постоянной работы и поэтому спросил совета у читателей своего блога. Они, как и всегда, откликнулись на мою просьбу, и я отобрал наиболее понравившиеся мне рекомендации, чтобы люди могли использовать их как руководство (ну, я тоже собираюсь руководствоваться этими советами).
Читать дальше →
Всего голосов 125: ↑123 и ↓2+121
Комментарии198

flash-видео на веб-страницах и PHP

Время на прочтение8 мин
Количество просмотров6.1K
Эта статья — перепечатка статьи от 16 ноября 2007 г. с моего блога, ссылку на который можно найти в моем же профайле — но, поскольку так уж вышло, что тема эта, кажется, до сих пор многим интересна, к тому же не так давно я читал на эту тему доклад на конференции PHPConf… в общем — судите сами.

Вступление


В последнее время все большее распространение получает технология трансляции видео через веб – без необходимости скачивать медиа-контент на машину пользователя, с просмотром прямо из браузера. Таким образом можно просматривать довольно большое количество различных форматов видео, однако, это требует наличия определенных плагинов на стороне пользователя. Очевидно, самым распространенным подобным плагином является flash-player (ну хорошо, хорошо: если быть точным, то он, конечно же, не может сам по себе проигрывать видео – но позволяет легко создать приложение, способное воспроизводить видео-контент). Яркий пример такого подхода – youtube.com. Попытаюсь рассказать о том, как самостоятельно организовать трансляции флэш-видео на своей веб-странице и какие существуют подходы к этой проблеме.

Читать дальше →
Всего голосов 19: ↑19 и ↓0+19
Комментарии20

Виртуализация как средство распространения ПО

Время на прочтение1 мин
Количество просмотров5.1K
Думаю, что большинство ITшников слышало о VirtualPC и VMware.

То, насколько этот рынок сейчас на пике лишний раз подтвердил уход одного из топ-сотрудников из MS в правящий состав VMware.
(уже не помню где читал, но было этой зимой)

Но совсем недавно обнаружил, что VMware Server абсолютно бесплатный!
VMware Server отличается от VMware Workstation тем, что устанавливается как сервис и может при включении автоматом поднимать все виртуальные машины.

Но VMware пошли дальше.
Читать дальше →
Всего голосов 33: ↑30 и ↓3+27
Комментарии46

Железные нервы у суппорта Стрима

Время на прочтение1 мин
Количество просмотров986
Стримом не пользуюсь, но дай боже любому провайдеру такой суппорт.

Скачать в mp3:
ru.fishki.net/picsw/052008/23/tech_po/tech_po.mp3
Читать дальше →
Всего голосов 141: ↑81 и ↓60+21
Комментарии285

Google AJAX Search API

Время на прочтение1 мин
Количество просмотров30K
Возможно я идиот, и убейте меня кто-нибудь, но сегодня я совершенно случайно, перерыв бОльшую половину интернета, обнаружил, что у Google есть мощнейший и абсолютно бесплатный API для поиска. Который ну просто мега элементарно интегрировать со своим сайтом.
$url = "http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=".urlencode($query)";
$body = file_get_contents($url);
$json = json_decode($body);
foreach ($json->responseData->results as $resultjson) {
$result_google['urls']= $resultjson->url;
$result_google['contents'] = $resultjson->content;
}

а вот что из этого получилось
Всего голосов 65: ↑59 и ↓6+53
Комментарии71

Индия готовит кадры на free-lance.ru

Время на прочтение1 мин
Количество просмотров800
Это видео, если вы его еще не смотрели, окончательно изменит ваше представление о нашем месте в эволюционной цепи планеты земля.



P.S. «Руками» он явно рисует лучше многих дизайнеров, представляете, что они делают с Ваккомоским планшетом?

И еще один ролик
Всего голосов 50: ↑42 и ↓8+34
Комментарии74

Масштабируемые и высокопроизводительные веб-приложения. Гл. 1. Протокол HTTP. Draft.

Время на прочтение13 мин
Количество просмотров3K
Обсуждаемые темы: HTTP-запросы; HTTP-ответы; Оптимизация с помощью HTTP keep-alive; Оптимизация с помощью HTTP-pipelining; Оптимизация с помощью HTTP-кэширования: Кэширование в современных клиентах, Стратегии ревалидации, Отключение кэширования и интерактивные страницы; Оптимизация с помощью компрессии; Специфическая оптимизация отдаваемого содержимого; Комбинирование контента.

Комментарии приветствуются.

Читать дальше →
Всего голосов 51: ↑50 и ↓1+49
Комментарии11

Color Browser — программа позволяет дизайнерам подбирать приятные палитры для сайтов.

Время на прочтение1 мин
Количество просмотров7.8K


Интересная программа на технологии Adobe AIR. Суть программы Color Browser заключается в приятном подборе палитр для сайта или дизайна. Сделана программа как приложения к сайту ColourLovers (где можно скачать чужие палитры)

Скачать программу Adobe AIR можно на сайте Adobe а Color Browser от сюда.
После установки Adobe AIR запустите файл ColorBrowser.air

Другие приложения работающие на Adobe AIR можно посмотреть здесь.
Источник: mmaxis.info
Всего голосов 59: ↑49 и ↓10+39
Комментарии49

Переходим на электронные сигареты?

Время на прочтение2 мин
Количество просмотров10K


Свершилось. К безалкогольному пиву и резиновым женщинам теперь можно приписать бездымные сигареты. Куда прогресс докатится?

Читать дальше →
Всего голосов 61: ↑50 и ↓11+39
Комментарии132

IBM выпустила мощнейший UNIX-сервер и «гидро-кластер» с водяным охлаждением

Время на прочтение1 мин
Количество просмотров2.2K
IBM собирается посрамить конкурентов по полной программе. Новый сервер-монстр Power 595 с 5-гигагерцовыми процессорами Power6 не просто мощнее конкурентов из той же ценовой категории, но он превосходит их в два раза. Компания приводит бенчмарки SPECint_rate2006 сходных по конфигурации 64-ядерных серверов IBM и HP. Модель Power 595 с 256 ГБ оперативной памяти и процессорами Power6 по 4,2 ГГц показала результат 1650, тогда как модель HP Integrity Superdome с процессорами по 1,6 ГГц показывает всего 824, то есть ровно в два раза меньше. Если учесть, на какой частоте работают новые процессоры Power6, то разница в производительности неудивительна.

Power 595 поставляется в конфигурации от 8 до 64 процессоров Power6 частотой от 4,2 до 5 ГГц, общий объём RAM может достигать 4 ТБ. Вся конструкция монтируется в двухметровый шкаф весом 1550 кг.

Кроме Power 595, компания представила новую версию серверного модуля для суперкомпьютеров Power 575, которую назвали «Гидро-кластер» (Hydro-Cluster). Название вполне логично, потому что в этой версии сервера реализовано водяное охлаждение: оно в последние годы снова входит в моду.
Всего голосов 24: ↑23 и ↓1+22
Комментарии21

Система Webmoney интегрируется в социальные сети

Время на прочтение1 мин
Количество просмотров726
WebMoney Transfer объявила о запуске принципиально нового и уникального продукта под брендом Keeper Embedded. Это бизнес-платформа для блогов, социальных сетей, онлайн-игр, сообществ, web 2.0 проектов.

Участники любого сообщества и социальной сети, будь то «Хабрахабр», Facebook или World of Warcraft, теперь могут одним нажатием мышки связать свой существующий WM-кошелек с аккаунтом в нужной им социальной сети.

После этого становится возможным проведение микроплатежей и взаиморасчётов внутри коммьюнити. Например, таким образом владельца «Хабрахабра» или Livejournal могут наладить автоматические платежи в пользу самых активных участников коммьюнити на сайте или организовать систему взаиморасчётов за карму. Весь биллинг берёт на себя WebMoney Transfer. Размер денежной комиссии и технические вопросы решаются в договорном порядке. По умолчанию владельцы сообщества получают процент от всех исходящих платежей своих юзеров.

В качества образца уже создан первый плагин Webmoney для социальной сети Facebook.
Всего голосов 42: ↑39 и ↓3+36
Комментарии35

Новый офис Google в Цюрихе

Время на прочтение1 мин
Количество просмотров11K
Совсем недавно состоялось открытие нового офиса Google, на этот раз в Цюрихе. Меня лично фотографии поразили до глубины души, работают же люди!
Вы бы хотели добираться с одного на другой этаж офиса соскальзывая по горке? Или по пожарному шесту? У Вас в офисе есть свой пингвин?
Наслаждайтесь и мечтайте, дорогие хабралюди…

Читать дальше →
Всего голосов 122: ↑117 и ↓5+112
Комментарии259

Battle City: ностальгия online

Время на прочтение1 мин
Количество просмотров1.3K
Танчики онлайн

Этот проект не что иное, как проявление ностальгии — некий экскурс в далекое детство. Играть можно как набор классических уровней, так и уровни в случайном порядке из числа тех, которые создавались вами же (советую скипать те, которые содержат забронированный штаб — иначе какой интерес?).
Читать дальше →
Всего голосов 48: ↑46 и ↓2+44
Комментарии35
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Казахстан
Дата рождения
Зарегистрирован
Активность