Articles / Profile of SomeOneWhoCares / Habr

@SomeOneWhoCares

User

Subscribers

ProfileArticles4PostsNewsComments8

SomeOneWhoCares Mar 5 2017 at 14:07

Программа на Python для статистического анализа текста

3 min

14K

Python *

Recovery Mode

Задача подсчета частоты употребления определенных букв в английских и русских текстах является одним из этапов лингво-статистического анализа. В каталоге Каталог лингвистических программ и ресурсов в Cети отсутствует программа на Python для решения указанной задачи.

На форумах по Python встречаются отдельные части такой программы, однако они ориентированы на один язык, главным образом английский. Учитывая это обстоятельство мной разработана программа для статистической обработки, как для русских, так и для английских текстов.

Читать дальше →

SomeOneWhoCares Mar 5 2017 at 11:50

Реализация на Python многопоточной обработки данных для парсинга сайтов

2 min

29K

Python *

Процесс парсинга усложняется существенными затратами времени на обработку данных. Многопоточность поможет в разы увеличить скорость обработки данных. Сайт для парсинга — «Справочник купюр мира», где получим валюту в соотношении к иным.

Читать дальше →

SomeOneWhoCares Feb 26 2017 at 12:10

Парсим weblancer используя PROXY

9 min

23K

Python *

Цель работы

Парсим сайт, используя прокси-сервера.

Сохраняем данные в формате CSV.

Пишем поисковик по найденным данным.

Строим интерфейс.

Использовать будем язык программирования Python. Сайт, с которого мы будем качать данные — www.weblancer.net (парсинг старой версии этого сайта был размещен здесь), в нем есть предложения работы по адресу www.weblancer.net/jobs. С него мы и будем получать данные — это название, цена, количество заявок, категория, краткое описание предлагаемой работы.

Вход с использованием прокси означает — вход на сайт под ненастоящим адресом. Пригодится для парсинга сайта с защитой бана по IP адресу (то есть, если вы слишком часто, за короткий отрезок времени, входите на сайт).

Читать дальше →

-1

SomeOneWhoCares Feb 24 2017 at 09:03

Скачивание аудио с сайта mail.ru

7 min

14K

Python *

From sandbox

Задача, которая перед нами стоит — скачивание музыкальных произведений с сайта предоставляющего такую возможность. Использовать будем язык-программирования Python.

Читать дальше →

-11

Программа на Python для статистического анализа текста

Реализация на Python многопоточной обработки данных для парсинга сайтов

Парсим weblancer используя PROXY

Цель работы

Парсим сайт, используя прокси-сервера. Сохраняем данные в формате CSV. Пишем поисковик по найденным данным. Строим интерфейс.

Скачивание аудио с сайта mail.ru

Парсим сайт, используя прокси-сервера.

Сохраняем данные в формате CSV.

Пишем поисковик по найденным данным.

Строим интерфейс.