Как стать автором
Обновить

Meduza.io: а как же лайки?

Время на прочтение 5 мин
Количество просмотров 48K
Python *Data Mining *Визуализация данных *
Из песочницы

Как-то раз, читая новости на Медузе, я обратил внимание на то, что у разных новостей разное соотношение лайков из Facebook и ВКонтакте. Какие-то новости мегапопулярны на fb, а другими люди делятся только во ВКонтакте. Захотелось присмотреться к этим данным, попытаться найти в них интересные закономерности. Заинтересовавшихся приглашаю под кат!


image

Читать дальше →
Всего голосов 67: ↑62 и ↓5 +57
Комментарии 40

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Уровень сложности Простой
Время на прочтение 15 мин
Количество просмотров 944K
Блог компании Open Data Science Python *Data Mining *Визуализация данных *Машинное обучение *
Туториал


Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут). Сейчас курс в режиме самостоятельного прохождения.

Читать дальше →
Всего голосов 44: ↑43 и ↓1 +42
Комментарии 61

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

Время на прочтение 15 мин
Количество просмотров 385K
Блог компании Open Data Science Python *Data Mining *Визуализация данных *Машинное обучение *

Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE. Есть и видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).


UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.


Сейчас статья уже будет существенно длиннее. Готовы? Поехали!

Читать дальше →
Всего голосов 52: ↑52 и ↓0 +52
Комментарии 45

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)

Время на прочтение 5 мин
Количество просмотров 6.5K
Python *Big Data *Визуализация данных *
Туториал
Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.

Выборка данных

Выборка данных содержит порядка 8,5 млн строк и 29 столбцов.Вот некоторые из параметров:

  • Широта-latitude
  • Долгота-longitude
  • Способ взятия пробы-method_name
  • Дата и время взятия пробы-date_local

image

Задача

  1. Найти параметры максимально влияющие на уровень CO в атмосфере.
  2. Создание гипотезы, предсказывающей уровень CO в атмосфере.
  3. Создание нескольких простых визуализаций.
Читать дальше →
Всего голосов 21: ↑16 и ↓5 +11
Комментарии 16

Анализ резюме hh.ru: много графиков и немного сексизма и дискриминации

Время на прочтение 5 мин
Количество просмотров 90K
Блог компании HeadHunter Data Mining *Визуализация данных *Исследования и прогнозы в IT *Карьера в IT-индустрии
Недавно мне на глаза попалась статья про анализ датасета резюме hh.ru, который участвовал в каком-то хакатоне. Это навело меня на мысль самому поиграться с данными резюме. Тем более что у меня их немного больше. Я выбрал самую интересную для меня профобласть, которую можно указать в резюме, — «Информационные технологии, интернет, телеком».

Под катом вас ожидает много графиков, на которых вы узнаете, сколько получают люди в различных айтишных специализациях, выпускники каких вузов хотят больше всего денег, у каких работодателей айтишники задерживаются меньше всего, зарабатывают ли пользователи гуглопочты больше, чем пользователи почты Яндекса или Мейла, и много другой информации.


Читать дальше →
Всего голосов 143: ↑138 и ↓5 +133
Комментарии 154

Идентификация мошенничества с использованием Enron dataset. Часть 1-ая, подготовка данных и отбор признков

Время на прочтение 7 мин
Количество просмотров 4.9K
Python *Машинное обучение *
Из песочницы

Корпорация Enron — это одна из наиболее известных фигур в американском бизнесе 2000-ых годов. Этому способствовала не их сфера деятельности (электроэнергия и контракты на ее поставку), а резонанс в связи с мошенничеством в ней. В течении 15 лет доходы корпорации стремительно росли, а работа в ней сулила неплохую заработную плату. Но закончилось всё так же быстротечно: в период 2000-2001гг. цена акций упала с 90$/шт практически до нуля по причине вскрывшегося мошенничества с декларируемыми доходами. С тех пор слово "Enron" стало нарицательным и выступает в качестве ярлыка для компаний, которые действуют по аналогичной схеме.


В ходе судебного разбирательства, 18 человек (в том числе крупнейшие фигуранты данного дела: Эндрю Фастов, Джефф Скиллинг и Кеннет Лей) были осуждены.


image![image](http://https://habrastorage.org/webt/te/rh/1l/terh1lsenbtg26n8nhjbhv3opfi.jpeg)


Вместе с тем были опубликованы архив электронной переписки между сотрудниками компании, более известный как Enron Email Dataset, и инсайдерская информация о доходах сотрудников данной компании.


В статье будут рассмотрены источники этих данных и на основе их построена модель, позволяющая определить, является ли человек подозреваемым в мошенничестве. Звучит интересно? Тогда, добро пожаловать под хабракат.

Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Комментарии 4

Идентификация мошенничества с использованием Enron dataset. Часть 2-ая, поиск оптимальной модели

Время на прочтение 9 мин
Количество просмотров 3.1K
Python *Машинное обучение *

Представляю вашему вниманию вторую часть статьи о поиске подозреваемых в мошениничестве на основе данных из Enron Dataset. Если вы не читали первую часть, ознакомиться с ней можно здесь.


Сейчас речь пойдет про процесс построения, оптимизации и выбора модели, которая даст ответ: стоит ли подозревать человека в мошеничестве?


Enron
Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 0

Как без особенных усилий создать ИИ-расиста

Время на прочтение 15 мин
Количество просмотров 8.4K
Python *Машинное обучение *Искусственный интеллект
Туториал
Перевод
Предостерегающий урок.

Сделаем классификатор тональности!

Анализ тональности (сентимент-анализ) — очень распространённая задача в обработке естественного языка (NLP), и это неудивительно. Для бизнеса важно понимать, какие мнения высказывают люди: положительные или отрицательные. Такой анализ используется для мониторинга социальных сетей, обратной связи с клиентами и даже в алгоритмической биржевой торговле (в результате боты покупают акции Berkshire Hathaway после публикации положительных отзывов о роли Энн Хэтэуэй в последнем фильме).

Метод анализа иногда слишком упрощён, но это один из самых простых способов получить измеримые результаты. Просто подаёте текст — и на выходе положительные и отрицательные оценки. Не нужно разбираться с деревом синтаксического анализа, строить граф или какое-то другое сложное представление.
Читать дальше →
Всего голосов 18: ↑15 и ↓3 +12
Комментарии 2

Визуализация столбца из DataFrame с помощью библиотеки Seaborn

Время на прочтение 1 мин
Количество просмотров 6.3K
Python *Интернет-маркетинг *
Туториал
Попробуем визуализировать данные по рекламным кампаниям, которые храняться в DataFrame.

Дано:


DataFrame, в котором хранится статистика по рекламным кампаниям по следующим показателям:

  • CampaignName
  • Date
  • Impressions
  • Clicks
  • Ctr
  • Cost
  • AvgCpc
  • BounceRate
  • AvgPageviews
  • ConversionRate
  • CostPerConversion
  • Conversions


Читать дальше →
Всего голосов 17: ↑10 и ↓7 +3
Комментарии 2

Как строить красивые графики на Python с Seaborn

Время на прочтение 7 мин
Количество просмотров 108K
Блог компании OTUS Python *Программирование *
Перевод

Визуализация данных – это метод, который позволяет специалистам по анализу данных преобразовывать сырые данные в диаграммы и графики, которые несут ценную информацию. Диаграммы уменьшают сложность данных и делают более понятными для любого пользователя.

Есть множество инструментов для визуализации данных, таких как Tableau, Power BI, ChartBlocks и других, которые являются no-code инструментами. Они очень мощные и у них есть своя аудитория. Однако для работы с сырыми данными, требующими обработки, а также качестве песочницы, Python подойдет лучше всего.

Графики на Python
Всего голосов 14: ↑9 и ↓5 +4
Комментарии 2

Работа с отсутствующими значениями в Pandas

Время на прочтение 9 мин
Количество просмотров 41K
Python *Программирование *Открытые данные *Визуализация данных *Машинное обучение *
Туториал
Из песочницы

Когда значение данных для объекта для определенного наблюдения не сохраняется, это означает, что эта функция имеет недостающее значение. Обычно отсутствующее значение в наборе данных отображается как вопросительный знак , ноль, NaN или просто пустая ячейка. Но как можно справиться с недостающими данными?

Конечно, каждая ситуация отличается и должна оцениваться по-разному. Есть много способов справиться с недостающими значениями. Рассмотрим типичные варианты на примере набора данных - 'Titanic'. Эти данные являются открытым набором данных Kaggle.

Для анализа необходимо импортировать библиотеки Python и загрузить данные.

Для загрузки используется метод Pandas - read.csv(). В скобках указывается путь к файлу в кавычках, чтобы Pandas считывал файл во фрейм данных (Dataframes - df) с этого адреса. Путь к файлу может быть URL адрес или вашим локальным адресом файла.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 10

Мистика культурных ценностей Петербурга глазами аналитика

Время на прочтение 10 мин
Количество просмотров 4.3K
Python *Открытые данные *Визуализация данных *
Из песочницы
✏️ Технотекст 2022

На днях мне позвонил друг и сказал, что хочет остановиться в Питере на пару-тройку дней и посмотреть старинные памятники архитектуры нашей культурной столицы. Спросил совета, — где бы ему остановиться поближе к центру города, чтобы успеть посмотреть Летний сад и все такое

А поскольку буквально на днях я завершил вводную часть курса Аналитик данных, то и решил потренироваться на друге в применении логики такого анализа. Забегая вперед, скажу, что результат меня несколько удивил, возможно где-то в моей логике ошибка. Если так, то поправьте меня. Я только учусь.

Погрузиться в исследование
Всего голосов 13: ↑10 и ↓3 +7
Комментарии 20

Создаём свою БД на PostgreSQL из CSV

Время на прочтение 4 мин
Количество просмотров 12K
Python *PostgreSQL *Big Data *Визуализация данных *
Туториал
Из песочницы

Давайте вместе попробуем создать основы большой базы данных, с помощью готового dataset. Для поиска нужного нам материала воспользуемся помощью прекрасного ресурса KAGGLE.

Читать далее
Всего голосов 9: ↑0 и ↓9 -9
Комментарии 12