Как стать автором
Обновить

Немного о Pivot tables в PostgreSQL и Python

Время на прочтение 8 мин
Количество просмотров 29K
Python *PostgreSQL *
Из песочницы
Доброго времени суток.

Работая в институте, мне приходится иметь дело с большим количеством полу-структурированной информации. Здесь приставка «полу» значит, что в целом все данные похожи, но, как правило, распиханы в локальных папках на компьютерах у сотрудников, в .xls, .txt или в бинарном формате. Информация представляет из себя данные полученные с различных приборов( датчиков уровня, температуры, скорости течений, атмосферного давления, влажности и так далее до 20-30 различных параметров). Все приборы выгружают данные каждый в своем формате: либо в ascii либо бинарный формат, который потом обрабатывается, и, на выходе, снова получаются ascii. Ну вообщем все как всегда, вы и сами представляете весь этот хаос.

Захотелось мне все это дело запихнуть в одну общую базу данных, что бы не искать нужные данные нужной версии в нужной папке, что занимает крайне много времени. Опыт разработки различных систем (в основном гео-информационных) имеется. Но то, что делалось раньше, содержало в себе исключительно обработанные данные, и в целом все эти системы делались под заказчика. Никакого комплекса автоматизации для самих себя не было.

Обработка всего этого хозяйства — вполне стандартные вещь, ничего нового и интересного: проверка временных рядов на целостность(если нужна – интерполяция), построение кучи различных графиков, запуск различных моделей на этих данных, обработка вывода моделей(снова куча графиков), вывод статистики. О последней я и расскажу в этой статье.

Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 29

Data Mining: Первичная обработка данных при помощи СУБД. Часть 3 (Сводные таблицы)

Время на прочтение 7 мин
Количество просмотров 18K
SQL *Data Mining *Big Data *
Данная серия посвящена анализу данных для поиска закономерностей. В качестве примера используется одна из обучающих задач сообщества спортивного анализа данных Kaggle. Хотя размеры данных для задачи не большие, методы обработки, которые будут рассматриваться вполне применимы для больших объемов данных.
После выполнения Часть 1 и Части 2 сформировались две таблицы, содержащие преобразованные данные.
titanik_test_3 и titanik_train_3.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 3

Генерация больших объемов полезных данных

Время на прочтение 4 мин
Количество просмотров 14K
SQL *Алгоритмы *
Из песочницы
Хочу поделиться опытом создания механизма генерации большой базы данных товаров. С его помощью наши пользователи могут за несколько минут сгенерировать более миллиона однотипных, но разных записей.
Читать дальше →
Всего голосов 12: ↑9 и ↓3 +6
Комментарии 2

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Время на прочтение 15 мин
Количество просмотров 927K
Блог компании Open Data Science Python *Data Mining *Визуализация данных *Машинное обучение *


Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут).

Читать дальше →
Всего голосов 44: ↑43 и ↓1 +42
Комментарии 61

Надстройка для Excel, облегчающая установку фильтров при работе с кубами (VBA)

Время на прочтение 2 мин
Количество просмотров 6.5K
Data Mining *Microsoft SQL Server *Big Data *Visual Basic for Applications *
Как известно, из коробки Excel не позволяет устанавливать фильтры по списку значений для сводных таблиц, а это ведь такая нужная вещь! Как отфильтровать товары по сотне кодов, а потом по другой сотне? Есть, конечно, способы, но все это не то…

Или, например, установить для куба фильтр по измерению с датами, но не проставлять галочки на каждом дне/месяце/годе, а задать диапазон С… ПО ....

Еще достаточно часто требуются установки периодов по фиксированным шаблонам, типа текущий день/месяц/год. Для этих целей можно добавить наборы (в многомерной модели куба) или добавить специальные атрибуты в измерение (это не очень удобно, но в табличной модели куба наборов нет).

Мы запилили на VBA расширение, добавляющее на ленту панель Инструменты куба с волшебными кнопочками.

Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 13

Сводные таблицы в SQL

Время на прочтение 10 мин
Количество просмотров 48K
SQL *
Туториал
Сводная таблица – один из самых базовых видов аналитики. Многие считают, что создать её средствами SQL невозможно. Конечно же, это не так.
Читать дальше →
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 9