Articles / Bookmarks / Profile of izumcheg / Habr

Нуркен Мусабаев @izumcheg

цифровая трансформация

Profile Publications 1Comments 31Bookmarks 7

itforge Dec 20 2011 at 05:30

Фреймворк для парсинга Grab:Spider

4 min

29K

Python*

Я автор python библиотеки Grab, которая упрощает написание парсеров веб-сайтов. Я о ней писал вводную статью некоторое время назад на хабре. Недавно я решил вплотную занять парсингом, стал искать free-lance заказы по парсингу и мне понадобился инструмент для парсинга сайтов с большим количеством страниц.

Раньше я реализовывал мультипоточные парсеры с помощью python-тредов с помощью такой вот библиотечки. У threading-подхода есть плюсы и минусы. Плюс в том, что мы запускаем отдельный поток(thread) и делаем в нём, что хотим: можем делать последовательно несколько сетевых вызовов и всё это в пределах одного контекста — никуда не надо переключаться, что-то запоминать и вспоминать. Минус в том, что треды тормозят и жрут память.

Какие альтернативы?

Читать дальше →

+38

miptgirl Mar 26 2016 at 23:43

Web Scraping с помощью python

7 min

561K

Python*Data Mining*

Введение

Недавно заглянув на КиноПоиск, я обнаружила, что за долгие годы успела оставить более 1000 оценок и подумала, что было бы интересно поисследовать эти данные подробнее: менялись ли мои вкусы в кино с течением времени? есть ли годовая/недельная сезонность в активности? коррелируют ли мои оценки с рейтингом КиноПоиска, IMDb или кинокритиков?
Но прежде чем анализировать и строить красивые графики, нужно получить данные. К сожалению, многие сервисы (и КиноПоиск не исключение) не имеют публичного API, так что, приходится засучить рукава и парсить html-страницы. Именно о том, как скачать и распарсить web-cайт, я и хочу рассказать в этой статье.
В первую очередь статья предназначена для тех, кто всегда хотел разобраться с Web Scrapping, но не доходили руки или не знал с чего начать.

Off-topic: к слову, Новый Кинопоиск под капотом использует запросы, которые возвращают данные об оценках в виде JSON, так что, задача могла быть решена и другим путем.

Читать дальше →

+22

free May 21 2009 at 15:23

Ресурсы, которые помогут выучить английский язык

1 min

54K

Studying in IT

В статье «Как учить английские слова» возникло очень оживленное обсуждение, в котором читатели привели ряд ссылок на интересные ресурсы. Теперь все они собранны в одном месте.

Читать дальше →

+74

bO_oblik Mar 26 2008 at 08:24

Web 2.0 меню за минуту!

1 min

1.3K

Website development*

Изи меню — простой и удобный веб-конструктор, через его ajax интерфейс можно создать самые разнообразные меню, будь то: простое, закладочное или иерархическое меню.

+25

alizar Mar 17 2008 at 00:07

Залог успеха автора — тысяча настоящих фанатов

2 min

1.6K

Self Promo

Довольно оригинальную идею выдвинул Кевин Келли в своём авторском блоге. По его мнению, гарантией финансового благополучия любого писателя, музыкальной группы, даже коммерческого сайта является вовсе не пресловутый «длинный хвост», а всего лишь одна тысяча настоящих фанатов. Они могут полностью обеспечить безбедное существование любого автора. Что, кстати, было успешно продемонстрировано недавно на примере Nine Inch Nails. Если кто не в курсе, эта музыкальная группа совершенно бесплатно выложила в торрентах свой новый альбом, а прибыль извлекала из продажи сувениров. Так вот, всего в течение трёх дней было раскуплено 2500 коллекционных пакетов с сувенирами ценой по $300 каждый. Всего две с половиной тысячи самых преданных фанатов мгновенно принесли группе почти миллион долларов.

Кевин Келли доходчиво объясняет, что у пресловутого «длинного хвоста» нет никаких преимуществ, а только одни недостатки в финансовом плане. На самом деле совершенно ни к чему создавать шедевр для широкой аудитории, если для финансового успеха нужна всего лишь тысяча преданных фанатов. Нужно ориентироваться на узкие ниши.

Читать дальше →

+37