Comments / Profile of miptgirl / Habr

Мария Мансурова @miptgirl

Lead Data Analyst

Profile Publications 8Comments 20Bookmarks 22

ClickHouse: полезные лайфхаки

miptgirl Jun 28 2023 at 21:23

Ооо да, тоже классная фишка

Look

Предсказываем будущее с помощью библиотеки Facebook Prophet

miptgirl Mar 23 2017 at 23:57

В документации такой возможности не встречала.

Look

Предсказываем будущее с помощью библиотеки Facebook Prophet

miptgirl Mar 23 2017 at 23:56

Описание затрат относилось к программированию на языке python (насколько я знаю, в R все также). Кроме большего числа телодвижений, построение ARIMA моделей все-таки требует каких-то знаний.

Возможно, в Eviews эта задача полностью решена и прогноз строиться автоматически одной кнопкой за несколько минут. К сожалению, я не встречалась с этой программой.

Look

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

miptgirl Mar 12 2017 at 20:17

Имеется в виду конкретный месяц конкретного года: (df.month = M) & (df.year = Y)

Look

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

miptgirl Mar 12 2017 at 20:15

Да, все последующие вопросы относятся ко всем данным.

Look

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

miptgirl Mar 10 2017 at 00:33

Рекомендую посмотреть на примеры на странице с документацией по функции pairplot в библиотеке seaborn.

По гистограммам можно понять распределение признаков (нормальное оно или нет, сбалансированы ли классы и т.д.)

По scatter plots будет видна, например, линейная зависимость между признаками.

Если же отображать также классы разными цветами, то можно выявить в каком пространстве (паре признаков) классы будут хорошо отделяться друг от друга. Рассмотрим, pairplot для сортов ирисов: видно, классы сливаются в пространстве признаков (sepal_length, sepal_width), а в пространстве (petal_length, petal_width) достаточно легко провести разделяющие гиперплоскости.

Look

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

miptgirl Mar 10 2017 at 00:21

Добрый вечер! Я не Юрий, но отвечу :)
Тетрадки с решениями никуда отправлять не нужно, достаточно ответить на вопросы в google-форме.

Look

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

miptgirl Mar 7 2017 at 10:43

Все данные для примеров есть еще в репозитории mlcourse_open.

Look

Исследование датасета с IMDB

miptgirl Dec 23 2016 at 17:52

Спасибо за статью!

Может быть, пригодится моя статья на хабре про то, как парсить КиноПоиск: https://habrahabr.ru/post/280238/

Кроме того, у меня остался dataset и сырые html-ки (правда, он был собран полгода назад и не содержит последние новинки). Если интересно, могу поделиться для дальнейших изысканий :)

Look

Немного про кино или как делать интерактивные визуализации в python

miptgirl Aug 21 2016 at 23:45

Соглашусь, что получается длиннее чем просто вызов df.plot(), который я чаще всего использую, но плюсы, о которых говорил Андрей feriat, пока что для меня перевешивают трудозатраты.

А вообще я использую простую функцию-обертку для стандартных графиков:

def plot_df(df, title):
    data = []
    for column in df.columns:
        trace = go.Scatter(
            x = df.index,
            y = df[column],
            mode = 'lines',
            name = column
        )
        data.append(trace)
    layout = dict(title = title)
    fig = dict(data = data, layout = layout)
    iplot(fig)

Look

Web Scraping с помощью python

miptgirl Mar 30 2016 at 18:33

Спасибо за комментарий и замечание, поправила название.

Look

Web Scraping с помощью python

miptgirl Mar 28 2016 at 16:21

Да, Вы правы, это могло бы ускорить время выгрузки данных, но тут нужно пробовать: сайт может забанить за слишком частые запросы с одного IP.

Look

Web Scraping с помощью python

miptgirl Mar 28 2016 at 01:01

Да, верно: в полноценной production версии пришлось бы обвешать код дополнительными проверками на наличие тегов/атрибутов и обрабатывать exceptional cases

Look

Web Scraping с помощью python

miptgirl Mar 27 2016 at 20:01

Requests возвращает ответ в виде Unicode

isinstance(r.text, unicode) # True

При попытке записать unicode строку в файл по умолчанию будет использована кодировка ASCII и ничего не получится (ASCII не может закодировать символы >128):
UnicodeEncodeError: 'ascii' codec can't encode characters in position 23-31: ordinal not in range(128).
Вот поэтому я явным образом указываю кодировку cp1251.

Если интересно, подробнее про кодировки в Python есть хорошая статья на Хабре.

Look

Web Scraping с помощью python

miptgirl Mar 27 2016 at 18:52

Спасибо, действительно эти темы могут пригодиться при решении задач Web Scrapping'a — добавила в статью.

Look

Web Scraping с помощью python

miptgirl Mar 27 2016 at 17:30

Стоит отметить, что BeautifulSoup выбирает оптимальный парсер из установленных:

If you don’t specify anything, you’ll get the best HTML parser that’s installed. Beautiful Soup ranks lxml’s parser as being the best, then html5lib’s, then Python’s built-in parser

(источник)

Я измерила время работы на своих данных и в среднем получила такие цифры
bs_html_parser: 0.43 секунды
bs_lxml_parser: 0.43 секунды (значимой разницы между lxml и python's default html-parser в BS на своих данных я не вижу)
lxml: 0.05 секунд (lxml явно выигрывает)

Look

Парадокс Симпсона и немного Pandas

miptgirl Mar 20 2016 at 15:02

Спасибо за замечания, исправила. Первое, естественно, опечатка и не несет никакого смысла. Использование += вместо map гораздо лаконичнее — буду знать.

Look

Линейные модели: простая регрессия

miptgirl Mar 17 2016 at 11:12

Спасибо за статью, очень познавательно и интересно.

В статье рассмотрено несколько Python библиотек: scikit-learn, statmodels и Patsy. Есть ли между ними какая-то принципиальная разница кроме синтаксиса (может, в функциональности или быстродействии)? С какой библиотеки лучше начинать свое изучение Machine Learning?

Look

Pandasql vs Pandas для решения задач анализа данных

miptgirl Mar 15 2016 at 17:49

Про сравнение скорости этих подходов ответила в комментарии выше.

Look

Pandasql vs Pandas для решения задач анализа данных

miptgirl Mar 15 2016 at 17:48

Отличный вопрос! Посмотреть можно тут (добавила в Notebook сравнение по производительности).

Стоит помнить, что Pandasql под капотом работает на SQLite и перегоняет данные из DataFrames в БД. Так что, ожидаемо, код на Pandasql будет работать дольше. В первых 2 примерах время выполнения кода на Pandas составляет порядка 0.01 секунды, а на Pandasql — 1 секунда (при этом рост времени выполнения от объема данных достаточно линейный).
В примере с JOIN'ом таблиц Pandasql выигрывает у Pandas'а (скорее всего, более эффективный JOIN таблиц в SQLite позволяет отыграть затраты на накладные расходы).

Look