Как стать автором
Поиск
Написать публикацию
Обновить
50.98

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Как в условиях недостатка данных улучшить качества классификатора

Время на прочтение10 мин
Количество просмотров2.8K

Одна из основных проблем человека, который занимается машинным обучением - данные. Исследователи сталкиваются с плохим качеством данных и/или их отсутствием. Рассмотрим способы улучшение метрик классификатора в условиях малого количества признаков.

В машинном обучении одним из основных критериев успеха является правильная предобработка данных. В условиях отсутствия дополнительных факторов качество классификатора можно улучшить за счет обеспечения монотонности целевой переменной от признаков, а также за счет увеличения порядка пространства признаков.

Читать далее

Как не завести врагов, разрабатывая гайдлайны дэшбордов

Время на прочтение17 мин
Количество просмотров3.7K

Спойлер: превратив потенциальных врагов в своих союзников.

Привет. Меня зовут Сергей Кардашев, я менеджер по продуктам и инструментам управления данными в Tele2.

Я расскажу, как в большой компании максимально безболезненно внедрить стандарты визуализации данных.

Читать далее

Проблемы качества промышленных данных (временных рядов)

Время на прочтение3 мин
Количество просмотров3.5K

Привет, Хабр! На связи Юрий Кацер, эксперт по ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”. В рамках рабочих обязанностей я решаю задачи в промышленности с помощью машинного обучения. 

Большую часть работы по созданию моделей составляет работа с промышленными данными. В условиях стремительного роста объема информации, собираемой на производственных предприятиях в связи с развитием интернета вещей (сбор и хранение данных), важным аспектом становится качество таких данных. В то же время проблемы и ошибки в них становятся препятствием для применения методов машинного обучения и построения моделей на основе законов физики или предметной области. Такие проблемы, как выбросы, пропуски, изменение частоты дискретизации, шум, искажают результаты или делают невозможным практическое использование данных для машинного обучения.

В этой статье мы посмотрим на часто встречающиеся проблемы в промышленных данных типа временных рядов. О том, что такое временной ряд, и о других особенностях задач в промышленности я рассказываю в других статьях на хабре, рекомендую познакомиться, а мы пока перейдем к сути! На схеме ниже приведен большой список проблем в данных, о которых мы поговорим в статье.

Читать далее

“Один дашборд, чтобы править ими всеми”

Время на прочтение6 мин
Количество просмотров4.4K

Привет! Как мы писали в предыдущих постах, наша команда создает удобные дашборды для разных департаментов СИБУРа, от хозяйственной деятельности до продаж. 

Но всегда есть кто-то уровнем повыше, которому нужно как-то централизованно и быстро получать самую верхнеуровневую информацию по всем департаментам сразу (читай - по всем дашбордам).

Для этого мы создаем так называемый Царь-Дашборд. Control Tower. Мета-дашборд. Он содержит информацию о самых важных дашбордах, которые есть в компании, по сквозным процессам (это такие процессы, которые касаются нескольких разных функций, нескольких различных исполнителей в одной компании). Целевая аудитория такого дашборда — первые лица компании: CEO и, что называется, “минус 1” от его должности. Также данные с дашборда могут пригодиться и операционным специалистам, если им удобно воспринимать данные в таком формате.

Читать далее

Smart Forms: Наш опыт автоматизации сбора данных

Время на прочтение11 мин
Количество просмотров5.6K

Привет, Хабр! Сегодня я хочу поговорить о проблеме автоматизации сбора данных. В этом посте мы обсудим, какие именно минусы несет сбор данных через файлы Excel, а также расскажем подробнее о наших собственных наработках по автоматизации сбора информации. Речь пойдет о практических аспектах применения инструмента Smart Forms, поэтому пост будет интересен в первую очередь пользователям решений Visiology, а также специалистам, которые организуют сбор информации или планируют это делать. Всех, у кого уже есть подобный опыт на любой платформе приглашаю присоединиться к обсуждению в комментариях.

Читать далее

Опыт проектов с ИИ в промышленности на примере проекта по обеспечению контроля технического состояния электролизеров

Время на прочтение10 мин
Количество просмотров3.5K

Привет, Хабр! На связи Юрий Кацер, эксперт ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”.

Недавно я выступил с докладом о том, как в рамках проекта по предиктивной аналитике на производстве мы разрабатывали систему и алгоритмы контроля технического состояния электролизера. По сути, мы разработали систему предиктивной аналитики, возились с поиском работающих подходов, долго мучались с данными о состоянии оборудования и извлекали из умов технологического персонала информацию о работе установок.

Сегодня хочу поговорить на примере этого проекта о реализации data science проектов в промышленности. С подобным докладом я также выступал ранее, видео выступления доступно по ссылке. Обычно нашей основной задачей является разработка моделей на основе данных, но работает ли такой подход всегда? Давайте поговорим об основных этапах и проблемах таких проектов и посмотрим, как мы двигались к финальному результату на примере проекта по диагностике электролизеров.

Читать далее

Как ГЛОНАСС испортил мне кровь и причем тут BI

Время на прочтение6 мин
Количество просмотров8.7K

Привет, Хабр! Этот будет пост о том, как тяжело может идти принятие решения об импортозамещении популярной западной системы. Речь пойдет о замене для PowerBI, который мы только-только начали использовать. Под катом — история с самого начала (в кратком изложении), а также много моих личных страданий и размышлений. Если вы тоже меняли BI, поделитесь своим опытом — может быть он поможет мне или кому-то еще.

Меня зовут Антон, и, если честно, я давно хотел что-то написать здесь. Но никак не доходили руки, не хватало времени или мотивации. Но вот свершилось! Я окончательно замучался с выбором российской BI-платформы. Это и сподвигло написать пост. Я даже нарисовал несколько картинок, чтобы все это было веселее, так что не судите строго за кустарное творчество. 

Читать далее

Импортозамещение BI своими руками

Время на прочтение13 мин
Количество просмотров7.4K

Привет! Сегодня расскажем большую историю: как мы разработали корпоративную платформу отчётности и решили сделать её общедоступной и бесплатной.

Читать далее

Apache Superset. Первый взгляд на BI инструмент. Часть 2

Время на прочтение7 мин
Количество просмотров14K

В предыдущей публикации, посвященной Apache Superset, я лишь обзорно коснулся темы создания дашбордов, так как основной акцент хотелось сделать на технических нюансах запуска. У читателей возникли резонные вопросы о возможностях данного BI инструмента для разработки интерактивной отчетности для компании, а также многих интересовало насколько конкурентно он смотрится по фоне аналогов. Плюс рукопись изобиловала техническими моментами, а между тем, BI это в первую очередь про аналитику и бизнес. Поэтому решил написать короткую дополнительную статью, где не будет кода, но будет текст)

Читать далее

Экскаватор и два робота: «джун» лаборатории больших данных о том, как сделать крутой проект и одновременно писать диплом

Время на прочтение4 мин
Количество просмотров1.7K

Антон Подлегаев недавно окончил университет. В «Криптоните» он работает уже больше года — а начинал со стажировки, где помогал с системой мониторинга зубьев экскаватора. Расспросили его о том, сложно ли студенту получить оффер, как в этом помогает стажировка и возможно ли на ней приобрести реальные знания.

Читать далее

Гадание на кишках или визуализация спринтов

Время на прочтение2 мин
Количество просмотров2.8K

Всем привет! В данной статье я расскажу о том как забавы ради сделал простенькую визуализацию спринтов из джиры. Кто не любит читать много букв может сразу посмотреть на результат или же на исходники.

Читать далее

Облака атомных колебаний

Время на прочтение22 мин
Количество просмотров7.5K

В этой заметке мы поговорим о том, что такое молекулярная динамика, и как её результаты можно реализовать в виде облаков распределений атомов.

Читать далее

Анализ различий подачи новостей в Telegram-каналах

Время на прочтение3 мин
Количество просмотров15K

Привет. Прошло уже почти полгода как я сделал новостной агрегатор каналов в Телеграме с открытым исходным кодом. Краткую статью про него можно прочитать на VC. Здесь же я бы хотел поделиться некоторыми интересными вещами, которые я нашёл в данных за всё время работы агрегатора.

Дисклеймер 1: многое из этого отчёта может показаться политизированным. Но здесь я не делаю никаких выводов про то, кто прав, а кто виноват; кто грязный пропагандист, а кто носитель священной истины.

Дисклеймер 2: это не руководство по визуализации данных средствами Plotly и PyVis. В самой статье я не привожу никакого кода и не объясняю, почему он устроен именно так. При этом Colab с кодом открыт, и примеры оттуда вполне можно использовать.

Google Colab: ссылка на ноутбук

Хочу знать подробности!

Ближайшие события

Визуализация данных с помощью фреймворка Dash (часть 3)

Время на прочтение4 мин
Количество просмотров6K

Привет, Хабр! Я расскажу о трех опциональных, но довольно полезных инструментах фреймворка dash, которые сделают ваш dashbord показательным и интерактивным.

Читать далее

Как анализировать данные из облачных сервисов для автоматизации бизнеса

Время на прочтение4 мин
Количество просмотров3.7K

Всем привет! Меня зовут Елена Боброва, и мы в команде CloudReports работаем над проектом, с помощью которого пользователи облачных систем могут начать легко и просто работать со своими данными. 

В последнее время всё большее число компаний внедряют в свою работу различные облачные сервисы, такие как CRM системы, системы управления складом, автоматизация записи клиентов и др. Рано или поздно любой бизнес сталкивается с необходимостью анализировать данные. Облачные системы в большинстве случаев имеют ряд готовых отчетов. Но если требуется более детальный анализ, то данные, как правило, можно забрать с помощью  API и поместить во внешнюю базу (хранилище данных), с которым уже удобно работать аналитикам.

Читать далее

Четыре функции для быстрой работы с Big Data

Время на прочтение6 мин
Количество просмотров13K

Я часто пользуюсь функциями для работы с большими данными. Они позволяют упросить и ускорить работу. Некоторые я нашел на просторах интернета, другие написал сам. Сегодня хочу поделиться четырьмя из них, может кому-то будет полезно.

Читать далее

Одна панель, чтобы объединить все визуализации. Panel for Python

Время на прочтение5 мин
Количество просмотров6.6K

Качественная визуализация данных не менее важна для анализа данных, чем методы математической обработки. На сегодняшний день существуют десятки (если не сотни) библиотек для визуализации наборов данных на Python, но иногда в них встречаются уникальные возможности и хотелось бы иметь возможность объединить различные инструменты в единой панели. В статье мы рассмотрим основы библиотеки panel для реализации реактивной модели интерактивных визуализаций и попробуем объединить визуализации из разных библиотек в одном dashboard.

Читать далее

PowerShell: обход и визуализация HTML-дерева из файла

Время на прочтение8 мин
Количество просмотров4.7K

Вывод HTML-дерева из локального файла в окно программы-оболочки «Windows PowerShell» версии 5.1 (или в окно программы-оболочки «PowerShell» версии 7) с помощью скрипта на языке PowerShell в операционной системе «Windows 10». Используется библиотека «HTML Agility Pack».

В качестве упражнения в алгоритмах и структурах данных рассмотрено несколько способов обхода и вывода HTML-дерева: NLR (прямой с приоритетом обхода потомков слева направо), NRL (прямой с приоритетом обхода потомков справа налево), LRN (обратный). Примеры практической реализации.

Читать далее

Как фермеру узнать состояние своих полей по NDVI?

Время на прочтение3 мин
Количество просмотров8.3K

В данной статье я не буду вдаваться в подробности теории, предполагаю, что вы знаете для чего нужен этот индекс. Моя задача - показать, как вам можно его получить.

Читать далее

Как мы в СИБУРе делаем дашборды для людей. Часть 4: наблюдай и властвуй (ремонтом и техобслуживанием)

Время на прочтение6 мин
Количество просмотров5.5K

Привет! В рамках нашего цикла постов про дашборды в СИБУРе и их практическую пользу для компании не смогли обойти стороной M2F – это обслуживание и ремонты, туда входит множество метрик из различных направлений бизнеса. Это могут быть метрики, которые показывают загруженность ремонтного персонала на предприятии или метрики затрат, например, «Поддержание основных фондов», а также имеется большой блок «Надежность».

В общем и целом, это широкий спектр метрик, выделенных в качестве наиболее приоритетных, с точки зрения влияния на бизнес. Анализ этих метрик помогает бизнесу наиболее эффективно управлять имеющимися ресурсами, а также «подсвечивать» проблемы в самом бизнес-процессе. 

Чуть не забыл представиться! Меня зовут Миша Делендик, и я как раз отвечаю в СИБУРе за разработку дашбордов по сквозным процессам M2F. В этом материале подробнее расскажу о том, как мы анализируем различные части процесса, чтобы оборудование работало без, кхм, нештатных ситуаций. 

Читать далее