Pull to refresh
4
0
Нуркен Мусабаев @izumcheg

цифровая трансформация

Send message

Фреймворк для парсинга Grab:Spider

Reading time4 min
Views29K
Я автор python библиотеки Grab, которая упрощает написание парсеров веб-сайтов. Я о ней писал вводную статью некоторое время назад на хабре. Недавно я решил вплотную занять парсингом, стал искать free-lance заказы по парсингу и мне понадобился инструмент для парсинга сайтов с большим количеством страниц.

Раньше я реализовывал мультипоточные парсеры с помощью python-тредов с помощью такой вот библиотечки. У threading-подхода есть плюсы и минусы. Плюс в том, что мы запускаем отдельный поток(thread) и делаем в нём, что хотим: можем делать последовательно несколько сетевых вызовов и всё это в пределах одного контекста — никуда не надо переключаться, что-то запоминать и вспоминать. Минус в том, что треды тормозят и жрут память.

Какие альтернативы?
Читать дальше →
Total votes 48: ↑43 and ↓5+38
Comments55

Web Scraping с помощью python

Reading time7 min
Views561K

Введение


Недавно заглянув на КиноПоиск, я обнаружила, что за долгие годы успела оставить более 1000 оценок и подумала, что было бы интересно поисследовать эти данные подробнее: менялись ли мои вкусы в кино с течением времени? есть ли годовая/недельная сезонность в активности? коррелируют ли мои оценки с рейтингом КиноПоиска, IMDb или кинокритиков?
Но прежде чем анализировать и строить красивые графики, нужно получить данные. К сожалению, многие сервисы (и КиноПоиск не исключение) не имеют публичного API, так что, приходится засучить рукава и парсить html-страницы. Именно о том, как скачать и распарсить web-cайт, я и хочу рассказать в этой статье.
В первую очередь статья предназначена для тех, кто всегда хотел разобраться с Web Scrapping, но не доходили руки или не знал с чего начать.

Off-topic: к слову, Новый Кинопоиск под капотом использует запросы, которые возвращают данные об оценках в виде JSON, так что, задача могла быть решена и другим путем.
Читать дальше →
Total votes 40: ↑31 and ↓9+22
Comments48

Ресурсы, которые помогут выучить английский язык

Reading time1 min
Views54K
В статье «Как учить английские слова» возникло очень оживленное обсуждение, в котором читатели привели ряд ссылок на интересные ресурсы. Теперь все они собранны в одном месте.
Читать дальше →
Total votes 82: ↑78 and ↓4+74
Comments53

Залог успеха автора — тысяча настоящих фанатов

Reading time2 min
Views1.6K
Довольно оригинальную идею выдвинул Кевин Келли в своём авторском блоге. По его мнению, гарантией финансового благополучия любого писателя, музыкальной группы, даже коммерческого сайта является вовсе не пресловутый «длинный хвост», а всего лишь одна тысяча настоящих фанатов. Они могут полностью обеспечить безбедное существование любого автора. Что, кстати, было успешно продемонстрировано недавно на примере Nine Inch Nails. Если кто не в курсе, эта музыкальная группа совершенно бесплатно выложила в торрентах свой новый альбом, а прибыль извлекала из продажи сувениров. Так вот, всего в течение трёх дней было раскуплено 2500 коллекционных пакетов с сувенирами ценой по $300 каждый. Всего две с половиной тысячи самых преданных фанатов мгновенно принесли группе почти миллион долларов.

Кевин Келли доходчиво объясняет, что у пресловутого «длинного хвоста» нет никаких преимуществ, а только одни недостатки в финансовом плане. На самом деле совершенно ни к чему создавать шедевр для широкой аудитории, если для финансового успеха нужна всего лишь тысяча преданных фанатов. Нужно ориентироваться на узкие ниши.


Читать дальше →
Total votes 41: ↑39 and ↓2+37
Comments35

Information

Rating
Does not participate
Location
Алматы (Алма-Ата), Алма-Атинская обл., Казахстан
Date of birth
Registered
Activity