Как стать автором
Обновить
4
0
Нуркен Мусабаев @izumcheg

цифровая трансформация

Отправить сообщение

Фреймворк для парсинга Grab:Spider

Время на прочтение4 мин
Количество просмотров30K
Я автор python библиотеки Grab, которая упрощает написание парсеров веб-сайтов. Я о ней писал вводную статью некоторое время назад на хабре. Недавно я решил вплотную занять парсингом, стал искать free-lance заказы по парсингу и мне понадобился инструмент для парсинга сайтов с большим количеством страниц.

Раньше я реализовывал мультипоточные парсеры с помощью python-тредов с помощью такой вот библиотечки. У threading-подхода есть плюсы и минусы. Плюс в том, что мы запускаем отдельный поток(thread) и делаем в нём, что хотим: можем делать последовательно несколько сетевых вызовов и всё это в пределах одного контекста — никуда не надо переключаться, что-то запоминать и вспоминать. Минус в том, что треды тормозят и жрут память.

Какие альтернативы?
Читать дальше →
Всего голосов 48: ↑43 и ↓5+38
Комментарии55

Web Scraping с помощью python

Время на прочтение7 мин
Количество просмотров570K

Введение


Недавно заглянув на КиноПоиск, я обнаружила, что за долгие годы успела оставить более 1000 оценок и подумала, что было бы интересно поисследовать эти данные подробнее: менялись ли мои вкусы в кино с течением времени? есть ли годовая/недельная сезонность в активности? коррелируют ли мои оценки с рейтингом КиноПоиска, IMDb или кинокритиков?
Но прежде чем анализировать и строить красивые графики, нужно получить данные. К сожалению, многие сервисы (и КиноПоиск не исключение) не имеют публичного API, так что, приходится засучить рукава и парсить html-страницы. Именно о том, как скачать и распарсить web-cайт, я и хочу рассказать в этой статье.
В первую очередь статья предназначена для тех, кто всегда хотел разобраться с Web Scrapping, но не доходили руки или не знал с чего начать.

Off-topic: к слову, Новый Кинопоиск под капотом использует запросы, которые возвращают данные об оценках в виде JSON, так что, задача могла быть решена и другим путем.
Читать дальше →
Всего голосов 40: ↑31 и ↓9+22
Комментарии48

Ресурсы, которые помогут выучить английский язык

Время на прочтение1 мин
Количество просмотров54K
В статье «Как учить английские слова» возникло очень оживленное обсуждение, в котором читатели привели ряд ссылок на интересные ресурсы. Теперь все они собранны в одном месте.
Читать дальше →
Всего голосов 82: ↑78 и ↓4+74
Комментарии53

Web 2.0 меню за минуту!

Время на прочтение1 мин
Количество просмотров1.3K
izzymlogo

Изи меню — простой и удобный веб-конструктор, через его ajax интерфейс можно создать самые разнообразные меню, будь то: простое, закладочное или иерархическое меню.
Читать дальше
Всего голосов 39: ↑32 и ↓7+25
Комментарии50

Залог успеха автора — тысяча настоящих фанатов

Время на прочтение2 мин
Количество просмотров1.7K
Довольно оригинальную идею выдвинул Кевин Келли в своём авторском блоге. По его мнению, гарантией финансового благополучия любого писателя, музыкальной группы, даже коммерческого сайта является вовсе не пресловутый «длинный хвост», а всего лишь одна тысяча настоящих фанатов. Они могут полностью обеспечить безбедное существование любого автора. Что, кстати, было успешно продемонстрировано недавно на примере Nine Inch Nails. Если кто не в курсе, эта музыкальная группа совершенно бесплатно выложила в торрентах свой новый альбом, а прибыль извлекала из продажи сувениров. Так вот, всего в течение трёх дней было раскуплено 2500 коллекционных пакетов с сувенирами ценой по $300 каждый. Всего две с половиной тысячи самых преданных фанатов мгновенно принесли группе почти миллион долларов.

Кевин Келли доходчиво объясняет, что у пресловутого «длинного хвоста» нет никаких преимуществ, а только одни недостатки в финансовом плане. На самом деле совершенно ни к чему создавать шедевр для широкой аудитории, если для финансового успеха нужна всего лишь тысяча преданных фанатов. Нужно ориентироваться на узкие ниши.


Читать дальше →
Всего голосов 41: ↑39 и ↓2+37
Комментарии35

Информация

В рейтинге
Не участвует
Откуда
Алматы (Алма-Ата), Алма-Атинская обл., Казахстан
Дата рождения
Зарегистрирован
Активность