Как стать автором
Поиск
Написать публикацию
Обновить
105.03

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Когда одной ARIMA мало. Прогнозирование временных рядов нейросетями

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров13K

Привет, Хабр! Меня зовут Никита, я работаю в Мегафоне аналитиком больших данных. В этой статье я хочу поговорить про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования. 

В статье мы не только разберем две актуальные архитектуры для прогнозирования, но и применим их на реальных данных. В дополнение к статье вас ждет код, с помощью которого вы легко сможете запустить сетки и применить их для решения своих задач!

Читать далее

«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Время на прочтение6 мин
Количество просмотров2.7K

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.

Читать далее

Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.9K

Многие компании при выборе платформы встают перед вопросом, а чем лучше та или иная платформа по сравнению с другими аналогичными платформами.  И в зависимости от наличия свободного времени и ресурсов, клиенты идут разными путями. Кто то запускает конкурентные пилоты между разными платформами и их партнерами, кто то определившись с выбором платформы начинает искать надежного исполнителя контракта, кто то смотрит на проект соседа и этого ему достаточно для покупки аналогичной технологии для себя. Но практически все клиенты хотят увидеть картину в целом по рынку и обращаются к разным рейтингам.

Во времена царствия на рынке РФ большой тройки аналитических платформ ( Qlik, Tableau, Power BI) всем было достаточно ежегодного мнения авторитетного Гартнера. В крайнем случае еще смотрели BARC, Aberdeen Group, G2 или IDC. Везде кстати картина довольно четко определяла лидеров отрасли и подсвечивала сильные и слабые стороны платформ. При этом попадание в Гартнер было задачей престижной, сложной и затратной. Из всех Российских платформ там был только Прогноз, который в 2017 году обанкротился. Но успел возбудить западных вендоров на написание батл карт. Если вернутся к Гартнеру, то это целая машина по изучению технологий на рынке, со своей системой оценки вендоров. Четкие критерии и веса на каждый элемент платформы, определение вектора развития технологий на несколько лет вперед, глубокий анализ рынка и конечно же магический квадрант, где каждый хочет быть в правом верхнем углу. Более того, вся эта оценка подкреплялась отзывами заказчиков, которую Гартнер собирал отдельно. Конечно все старались дать контакты наиболее лояльных клиентов и повлиять на итоговый рейтинг, но контрольную закупку никто не отменял. Шанс получить более высокую оценку значительно возрастал после покупки пакетов услуг самого Гартнера. Будем считать все же эту модель эталонной и справедливой к рынку. И так озвучим проблематику: есть рынок отечественного BI софта, но не понятно каким рейтингам можно доверять, а в каких рейтингах слишком велика ошибка?

Читать далее

Переходим на Greenplum быстро

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров7.9K

В условиях отсутствия возможности лицензирования и поддержки иностранных вендорских решений по хранилищам данных, встал вопрос о замене этих решений на отечественное программное обеспечение, с вендорской поддержкой, находящееся в реестре российского ПО и которое не уступает по производительности и объемам хранения зарубежным аналогам, таким как Teradata, Oracle, SAP HANA. Как показал анализ, таким требованиям отвечает лишь решения, основанные на MPP СУБД на базе Greenplum, в частности Arenadata DB (ADB). Но как быстро и безболезненно начать миграцию с привычных хранилищ на open-source? Постараюсь в статье рассказать и показать, что удалось придумать в этом направлении

Читать далее

Форматы ORC и Parquet на базе HDFS

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров8.3K

Каждая компания непрерывно производит и хранит кучу данных, и это вызывает множество проблем. Объёмы хранилищ не бесконечны, как и ресурсы железа. Вот только оптимизация обработки и хранения данных не всегда приносит желаемые результаты. Как всё настроить так, чтобы значительно сократить объём занимаемый ими на диске?

У нас получилось! Мы снизили количество данных на диске в 3 раза, при этом ускорив их обработку. И сейчас расскажу как. Меня зовут Александр Маркачев, я Data Engineer команды Голосовой Антифрод в beeline. В статье затронем тему форматов ORC и Parquet, как их правильно использовать и хранить, чтобы всем было хорошо.

Читать далее

Искусство ETL. Пишем собственный движок SQL на Spark [часть 3 из 5]

Уровень сложностиСложный
Время на прочтение20 мин
Количество просмотров2K

04_assets_residents.tdl


В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

Краткое содержание предыдущей серии, последней, посвящённой проектированию спецификации языка:
Операторы жизненного цикла наборов данных (продолжение)
Операторы контроля потока выполнения
Операторы управления контекстом исполнения
Операторы выражений


В данном эпизоде мы наконец-то перейдём к самому интересному — имплементации. Хорошо, когда есть развёрнутая постановка задачи, можно просто брать спеку, и писать код согласно плану.


Предупреждение о рейтинге «M for Mature»

Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил.

Читать дальше →

Reinforcement Learning from Human Feedback: когда одной математики мало

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров4.7K

Сотни людей собрались на конференции ICML на туториале про обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF). Докладчик спросил, кто хочет размечать данные. Пять, быть может, десять человек подняло руки. И это никого не удивило.

Что было дальше?

Работа с хребтами (ridge plot) в Seaborn

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2K

Визуализация данных является важной частью анализа данных, помогая нам лучше понять данные, выявлять закономерности и тенденции. Среди многих инструментов визуализации данных библиотека seaborn пользуется популярностью благодаря относительной простоте в использовании и настройке достаточно красивых и информативных диаграмм.

В этой статье рассматривается вопрос касающийся использования библиотеки seaborn для создания красивых карт хребтов и разъясняется их использование, а также демонтируется гибкость библиотеки с помощью демонстрации кода.

Читать далее

Теория вероятностей в разработке: где применяется и что можно изучить для более глубокого понимания темы

Время на прочтение4 мин
Количество просмотров4.6K

Часто приходится слышать, что математика, включая статистику и теорию вероятностей с комбинаторикой, не слишком нужна разработчику. Что ж, в некоторых случаях это действительно так. Но для представителей ряда направлений всё это нужно. Кому именно требуется теория вероятностей с сопутствующими дисциплинами и зачем? Об этом поговорим под катом. И сразу хочу пояснить, что статья предназначена для начинающих специалистов. 

Читать далее

Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров13K

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. Мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.

Читать далее

Data Consistency: как быть уверенным, что с данными всё ок

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров7K

Я довольно долгое время работала аналитиком в Яндекс.Метрике - системе web аналитики. Такие системы помогают сайтам собирать и анализировать поведение пользователей на их сайтах.

Естественно, в таких продуктах как аналитические системы, данные - это главная ценность. Поэтому одна из моих задач как аналитика был мониторинг того, что с данными всё ок.

В этой статье я хочу поделиться своим опытом по решению этой комплексной задачи и бонусом покажу примеры использования array функций в ClickHouse, которые могут помочь вам посчитать действительно сложные метрики.

Поехали

Как сделать из Python-скрипта исполняемый файл

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров213K

Вы изучаете данные и хотите поделиться своим кодом Python с другими, не раскрывая исходный код и не требуя от них установки Python и других компонентов? Если да, то вас может быть интересна конвертация вашего скрипта Python в исполняемый файл.

Читать далее

Без Tableau — как в МКБ выбирали новое BI-решение для работы

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.4K

Меня зовут Александр Дорофеев, я директор по данным в МКБ. В этом посте я еще раз затрону тему импортозамещения софта на примере программ для визуализации данных. Раньше мы (думаю, как и многие из вас) использовали Tableau, но так как компания покинула российский рынок, мы вынуждены были выбрать новое решение.

О том, какие у нас были критерии выбора и что же мы в итоге выбрали — под катом. Возможно, вам пригодится наш опыт, если вы тоже стоит перед выбором нового BI‑софта.

Читать далее

Ближайшие события

ClickHouse в ритейловом проекте

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров5K

Всем привет!

Всегда интересно узнавать, как устроено IT в различных сферах и компаниях: какие задачи ставятся и как находятся решения. Да и в целом, делиться опытом полезно!

Меня зовут Илья Панов, я инженер данных в X5 Tech и участвую в развитии продукта CVM (Customer Value Maximization). В этой статье хочу рассказать о том, как живёт и развивается IT-продукт в ритейле. Расскажу, откуда появилась потребность в инструменте, подобном ClickHouse, и как проходило RnD для его внедрения.

Читать далее

Расчет скидки за первый и последний этаж в Excel (Часть 2)

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров2.8K

В первой части иллюстрированной инструкции по проведению расчета величины скидки за первый и последний этаж был показан порядок сбора данных с сайтов объявлений силами Excel и первичный анализ собранных данных.

Во второй части завершаем подготовку данных и рассчитываем величину скидки за первый и последний этаж.

Читать далее

Почему Trino такой быстрый: динамические фильтры

Время на прочтение8 мин
Количество просмотров4.7K

Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны.

Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность.

Рассмотрим реализацию динамических фильтров на примере Trino.

Узнать, как работают динамические фильтры

Когда данных слишком много… как оптимизировать хранение

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.1K
image

Каждый день человечество генерирует порядка 330 млн терабайт данных. Хотя по оценкам экспертов Google всего 10% из них являются свежими и оригинальными, даже копии копий нужно где-то хранить. И эта задача имеет ряд нюансов. Здесь уместно провести аналогию с известным транспортным парадоксом: чем больше дорог строится, тем больше образуется автомобилей, чтобы заполнить их (постулат Льюиса — Могриджа).

Недостаточно построить очень много дата-центров. Один из наиболее очевидных способов сэкономить на хранении данных — это архивирование файлов и сжатие изображений. Есть и другие подходы, которые помогают записать больше данных на диск и быстрее их обрабатывать.

Читать дальше →

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Время на прочтение8 мин
Количество просмотров6.6K

Привет, Хабр!

Меня зовут Грошев Валерий, я Data Scientist и участник профессионального сообщества NTA.

Благодаря концепции открытого правительства, развиваемой в России, в свободном доступе появляются данные о работе государственных органов. Одной из таких площадок с данными является сайт Единой информационной системы (ЕИС) в сфере закупок. Там есть удобный поиск информации, но гораздо больше полезного можно найти на FTP версии сайта — ftp://ftp.zakupki.gov.ru, где хранятся архивы XML‑документов с публичной частью информации о состоявшихся закупках: извещения, протоколы, сведения о договорах. В моем случае была задача проверить, а размещаются ли протоколы и сведения о договорах в соответствии с требованиями 223-ФЗ.

Узнать больше

Лучшие практики при работе с мастер-данными

Время на прочтение9 мин
Количество просмотров4.3K

Привет, меня зовут Павел Кардаш, я IT архитектор в «Магните». В этой статье хочу поделиться лучшими практиками в управлении мастер‑данными.

Читать далее

Полезные методы работы с данными в Pandas. Часть 2

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров19K

В современном мире данных анализ временных рядов играет ключевую роль во многих отраслях, таких как финансы, розничная торговля, производство и маркетинг. Работа с временными рядами может стать сложным процессом из- за наличия трендов, сезонности и структурных изменений в данных.

Я продолжаю рассказывать о полезных, но менее известных методах работы с данными в Pandas, которые могут значительно повысить вашу эффективность при анализе и обработке данных. По данной ссылке вы можете прочитать первую статью.

В этой статье мы погрузимся в применение скользящих окон для вычислений и смещение данных для анализа временных рядов. Скользящие окна позволяют проводить агрегированные вычисления на подмножествах данных, что может быть полезно для определения трендов, сезонности и аномалий во временных рядах. Мы также изучим использование смещения данных для создания лаговых переменных и их применение в различных задачах прогнозирования. 

Читать далее

Вклад авторов