Все потоки
Поиск
Написать публикацию
Обновить
65.53

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Топ-6 Python-библиотек для визуализации

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров5.7K

Команда Python for Devs подготовила перевод статьи о шести библиотеках Python для визуализации данных. Matplotlib, seaborn, Plotly, Altair, Pygal и Bokeh — у каждой свои сильные и слабые стороны: от академических статичных графиков до интерактивных дашбордов для бизнеса. Выбираем самую подходящую для различных кейсов.

Читать далее

Новости

Оцениваем «естественность» изображений по первой цифре

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.5K

Еще вчера фотография была «доказательством» того, что событие произошло. Сегодня любой школьник может сгенерировать или изменить изображение до неузнаваемости с помощью ИИ. Индустрия цифровой-криминалистики пытается угнаться за технологиями, разрабатывая все новые детекторы фальсификаций. Но что, если подойти к проблеме с другой стороны? Не искать следы конкретного алгоритма генерации, а задать более фундаментальный вопрос: насколько естественны статистические свойства этого изображения?

В этой статье мы не предложим вам волшебную таблетку для детекции фейковых картинок. Это интеллектуальный эксперимент. Возьмем известный математический закон — закон Бенфорда — и попробуем применить его для анализа изображений. Мы реализуем этот метод на чистом JavaScript, чтобы любой желающий мог поэкспериментировать в собственном браузере, и обсудим результаты, философские вопросы и технические подводные камни, которые ждут нас на этом пути.

Читать далее

Система поддержки принятия решений на складе с GigaСhat

Время на прочтение4 мин
Количество просмотров955

Допустим существует площадка, где некими специалистами выполняются конкретные операции и вам как руководителю данного процесса хочется оптимизировать расходы. Для помощи в подобных вопросах создана информационная система $metr (Сметр), которая основывается на трех вещах:

Читать далее

Сибур инвестировал в систему диагностики, чтобы предотвратить миллионы убытков от аварий

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров5.4K

Каждый день на нефтегазохимических заводах СИБУРа работают тысячи единиц оборудования. Компрессоры, насосы, турбины — все они крутятся, нагреваются, изнашиваются. И рано или поздно ломаются.

Если выходит из строя ключевой агрегат, завод теряет миллионы рублей в день. Один простой может остановить весь цех, сдвинуть график отгрузок, повлиять на работу нескольких производств.

Раньше мы узнавали о проблемах так: загорается красная лампочка, срабатывает сигнализация, агрегат останавливается. Оператор видит на мониторе: температура подшипника 120 градусов — критично! Производство встает. Вызываем ремонтную бригаду, ищем запчасти, теряем время и деньги.

Что если узнавать о проблемах раньше? Не когда температура подшипника уже 120 градусов, а когда она поднялась с обычных 65 до 75? Тогда можно спланировать ремонт, заказать запчасти, остановить производство согласно плану.

Лучше потратить деньги на год разработки, чем терять гораздо больше на каждой поломке. Особенно если при этом снижается нагрузка на персонал, исчезает аврал, и работа становится предсказуемой.

Читать далее

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров748

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база «машин‑актёров» в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать далее

Superset deep-linking: как Rison и Jinja превращают сводный дашборд в инструмент фокус-анализа

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров1.3K

За один клик из сводного дашборда — на «дочерний» с уже выставленными фильтрами. Разберём, как в Apache Superset прокидывать выбранные значения через URL-параметр native_filters в формате Rison и собирать ссылку Jinja-макросами.

Читать далее

Разбираем «под капотом» кастомную фитнес-метрику: от идеи до реализации на Python

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров752

Всем привет! Я, как и многие здесь, не только разработчик, но и человек, увлеченный циклическими видами спорта. Я обожаю копаться в данных своих тренировок из Strava: анализировать мощность, пульсовые зоны, темп. Но мне всегда не хватало одной вещи — единой, понятной и, главное, прозрачной метрики, которая бы отвечала на простой вопрос: "А насколько я сейчас в хорошей форме?".

В этой статье я расскажу, как устроен этот механизм "под капотом". Мы погрузимся в логику на Python, посмотрим, как она интегрируется в общий анализатор активностей и как результат подается пользователю в простом и понятном виде.

Важный дисклеймер: Весь проект, от идеи до кода, я делаю один в свободное от основной работы время. Он далек от идеала, и я буду очень благодарен за конструктивную критику и свежий взгляд.

Читать далее

Умный аналитик для ритейла: ИИ на службе бизнеса

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.6K

Данные для ритейла жизненно необходимы: продажи, промо, возвраты, остатки, оборачиваемость. Классическая схема работы такова: бизнес-подразделение формулирует вопрос → аналитики превращают его в задачу → инженеры делают выгрузки → кто-то собирает отчет → отчет попадает на стол к ответственному лицу → через время появляется ответ.

Проблема в том, что скорость бизнеса и скорость проведения анализа не совпадают.

Руководителю дивизиона, директору магазина или маркетологу часто нужен ответ в моменте, а не через неделю. Но BI-процессы инерционны. Поэтому сегодня нужны другие инструменты, позволяющие получить свежие данные, проанализировать, задать вопрос – и получить не просто диаграмму, но выводы, рекомендации или даже конкретное выполненное действие.

Конструкторы отчетов устарели. В век GPT пользователь хочет общаться с данными. 

Что с этим делать?

Читать статью

У нас воруют: как BI помогает остановить коррупцию в строительстве

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.9K

Закупки в строительстве — это тысячи заявок, десятки поставщиков и миллионы в сметах, что делает их уязвимым процессом для коррупции. Воруют не только на стройплощадке, но и гораздо раньше — на этапе тендеров, выбора и согласования счетов.

Мы в «Синтеке» решили посмотреть на эту проблему через BI-аналитику. Рассказываем, как данные помогают находить узкие места в закупках и почему без прозрачности здесь не обойтись.

Читать далее

Простые числа и многозначные логики

Уровень сложностиСложный
Время на прочтение10 мин
Количество просмотров2.6K

Интересным является вопрос о погружении арифметики в n+1-значные логики Лукасевича Łn+1. Какая часть арифметики может быть погружена в Łn+1? Для функции φ(х) = m  рассматривается обратная к ней, определяемая  соотношением φ –1(m) = {n, φ(n) = m}, где φ(х) – функция Эйлера.

Пример, если φ(n) = 4, то это уравнение имеет ровно четыре решения φ –1(4) = {5, 8, 10, 12}. Гольдбахом (1690 –1764) поставлена проблема о разложении четных чисел ≥ 4 на сумму двух простых. Если это верно, то для каждого числа m найдутся простые числа р и q такие, что φ(р) + φ(q) = 2m.

Эдмунд Ландау в 1912 г. на международном конгрессе математиков в Кембридже заявил, что проблема Гольдбаха недоступна для современного состояния науки. Недоступна она и сейчас. Верифицируемость предположения Гольдбаха установлена до 4∙1014.

Делались попытки найти формулу, с помощью которой вычислялись бы (или порождались) все простые числа. Наилучший результат принадлежит Ю.В. Матиясевичу (1977), который нашел полином из 10 переменных. Асимптотическое распределение простых чисел в НРЧ, доказываемое аналитическими методами, приводится в книге К. Прахара (1967). О первых 50 млн простых чисел статья Д. Цагера (1984).
Можно считать, что впервые на проблему решения подобных уравнений обратил внимание Э. Люка (1842 – 1891). Об этом сказано в книге И.В. Арнольда (1939) «… следуя Люка, сгруппированы числа n с одним и тем же значением функции φ(n) в пределах от 1 до 100, т.е. дана таблица функции обратной по отношению φ(n).

В книге Серпинского (1968) задача №245 «Найти все натуральные числа n≤ 30, для которых φ(n) = d(n), где φ(n) – функция Эйлера, а число d(n) – число натуральных делителей числа n». Рассмотрим только случай n = 30. Делителями числа 30 являются числа 1, 2, 3, 5, 6, 10, 15 и 30, т.е. d(n = 30) = 8. Значит надо решить уравнение φ(30) = 8, где n≤ 30. Или, по-другому, найти значения для обратной функции Эйлера φ –1(8), т.е. определить множество {n, φ (n) = 8} для  n≤ 30. Это множество образовано числами {15, 16, 20, 24, 30}. Более того, ни для каких других n >30 φ (n) ≠ 8.

Множество значений φ –1(m) = Ø пусто для всех нечетных значений и многих четных значений m > 1. В первой сотне числа 14, 26, 34, 38, 50, 62, 68, 74, 76, 86, 90, 94 и 98 не являются значениями φ (n).

Читать далее

Что скрывают чаты: анализ Telegram-сообществ

Время на прочтение12 мин
Количество просмотров6.9K

Человеку свойственно быть в группе, мы более социальные, чем даже можем себе это представить.

Сегодня не нужно ходить по домам и подавать объявления в газеты — достаточно найти чат и написать «Кто тусить?».

Но так ли всё однозначно? Что скрывают эти чаты, какие опасности они несут?

Я исследовал телеграм-сообщества, где можно найти единомышленников, найти друзей и подруг, а может, и любовь. Простые ли это чаты «тус» или нечто большее?

Читать далее

10 любопытных картографических сервисов для тех, кто не поехал в отпуск

Время на прочтение4 мин
Количество просмотров9.2K

Июль‑август традиционно считаются периодом отпусков. Но если отдельные отрасли могут себе позволить временно сбавлять темп, то хостинг (особенно, надежный) требует работы постоянно. Поэтому часть наших коллег, не любящих жару и физическую многолюдность, летом путешествуют виртуально.

Сегодня мы бы хотели поделиться десятком любопытных картографических сервисов, позволяющих открыть что‑то новое в окружающем мире. В нашей подборке: карты плотности населения и наложенные на существующие карты тысячелетней давности; поиск знаменитостей по географии и наложение статей Wiki на города; карты контроля территорий городскими бандами и даже способ написать свое имя природными объектами. Небольшая ремарка — большую часть карт лучше рассматривать на экране десктопа или ноутбука (и желательно с диагональю побольше), так как мобильные браузеры могут плохо справляться с визуализацией.

Раскручиваем глобус

Российский аналог Grafana, или «Графиня» де ля Форк: что же там под «платьем»

Время на прочтение5 мин
Количество просмотров10K

Хабр, привет! На связи Дима Унтила, product owner «Пульта» и «Графини», и Паша Мирошин, ведущий разработчик в «Лаборатории Числитель».  

Несколько недель назад мы объявили о выпуске «Графини» — первого на рынке аналога Open-Source-платформы Grafana. И тут прорвало всех: столько критики, предложений и шуток мы не получали никогда 🙂 Кто пропустил — велком сюда.

За время существования Grafana собрала вокруг себя большое мировое комьюнити. Она бесплатная, развиваемая, популярная. И первый очевидный вопрос, который мы получили от сообщества: зачем разрабатывать аналог? Только ради регистрации в реестре?

Ответы на эти вопросы, а также рассказ про архитектуру и полезные фичи — ищите под катом.

Читать далее

Ближайшие события

Статистика футбольных матчей

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.7K

Недавно рассказывал о многомерном анализе данных временных рядов с помощью Dimension-UI, упоминая простой и удобный интерфейс для доступа к данным, гибкость, интерактивность и другие преимущества. Пришло время проверить, как это работает на практике. В качестве полигона для анализа мы используем статистику футбольных матчей: посмотрим данные по голам, детализированные по командам, статистику по счёту, а также сравним результативность в домашних и гостевых матчах.

Читать далее

Обработка результатов моделирования Fire Dynamics Simulator на Python (часть 1)

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров827

Здравствуйте меня зовут Роман, я занимаюсь обеспечение пожарной безопасности в зданиях и сооружениях более 15 лет, основной профиль моей деятельности - это моделирование развития пожара.

В основном моделирование развития пожара провожу в специализированном программном обеспечении Fire Dynamics Simulator (FDS), оно используется от Японии до США при обосновании отступлений требований пожарной безопасности. При моделировании развития пожара очень много времени занимает обработка результатов моделирования. В цикле статей я хочу поделиться способами обработки данных, которые использую при работе.
 
Статья ориентирована на специалистов, которые уже используют FDS в своей работе. Подробности моделирования развития пожара в FDS в данной статьи не будут рассматриваться.

Читать далее

Критерий Кендалла W: Почему рейтинги BI друг другу противоречат, и что с этим делать?

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров561

Привет, Хабр! Сегодня я хочу рассказать о применении одного из интересных методов работы со статистическими данными — расчета коэффициента конкордации, который также называют коэффициентом Кендалла W. Он помог нам упростить выбор BI-платформы на замену многострадальному Qlik, который сегодня вообще непонятно как продлевать. Под катом — куча BI-систем, наши попытки усреднить результаты рейтингов…и г-н Кендалл с его методом 100-летней давности.

Читать далее

Аномалии альфа-распада плутония-239

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.5K

Законы физики часто подкрепляются постулатами – принимаемыми без доказательств допущениями, которые помогают объяснить картину мира. Некоторые из этих постулатов со временем превращаются в догмы и их начинают путать с самими законами. Классическим примером служит постулат о случайной природе распада радиоизотопов. Несмотря на давно изучаемые фотоядерные реакции и многочисленные данные о непостоянстве радиоактивности, физики с традиционным образованием с подозрением относятся к экспериментам, демонстрирующим такое непостоянство. Под подозрение попал и Симон Эльевич Шноль (1930–2021) — выдающийся советский и российский биофизик. Он собрал множество доказательств влияния космофизических факторов на процессы, считающиеся случайными. Однако его данные, противоречащие общепринятым постулатам, в лучшем случае игнорировались научным сообществом, а в худшем – подвергались незаслуженной критике.

Одним из наиболее спорных направлений его исследований стало обнаружение вариаций скорости α-распада плутония-239. Для их поиска Шноль использовал визуальное сравнение поминутных гистограмм, построенных на основе ежесекундной регистрации α-частиц кремниевыми счётчиками. Более наглядные и объективные свидетельства вариабельности распада плутония можно получить простым просмотром графиков изменения радиоактивности по времени. Для выявления таких аномалий пришлось построить множество графиков и проанализировать около 2,4 Гб данных с записями результатов посекундной регистрации количества α-частиц, проводившейся С.Э.Шнолем и сотрудниками его лаборатории с 2000 по 2011 годы.

Читать далее

Эффективность различных схем охлаждения контейнерных дизельных электростанций: результаты CFD-моделирования

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.2K

В статье рассмотрены различные варианты организации охлаждения контейнерных дизельных электростанций (КДЭС). Проведено численное моделирование (CFD) движения воздушных потоков при разных схемах расположения приточных решёток. Полученные результаты позволяют оценить равномерность охлаждения оборудования и выявить причины перегрева в замкнутом объёме контейнера. На основе анализа сформулированы практические рекомендации для повышения надёжности систем охлаждения.

Читать далее

Как мы устроили эпический BI Challenge: 80 героев, 1000 дашбордов и море данных в Уралсиб x FineBI

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров629

Привет, Хабр! 👋 Меня зовут Семён Юников, я Head of BI в банке Уралсиб. Сегодня расскажу о том, как наш отдел собственными силами превратил масштабную задачу по улучшению аналитических артефактов в захватывающее и геймифицированное приключение под названием BI Challenge. Более 80 участников (внутренних разработчиков нашего Банка), свыше 1000 дашбордов, десятки внутренних обновлений и одно большое профессиональное сообщество.

Читать далее 😎

Под слоем земли

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.3K

Привет, Хабр!

Данная статья будет посвящена рассмотрению метода георадиолакации, его принципам работы и возможностям применения в геологии и инженерных изысканиях, разберем, из чего состоит георадар, как он функционирует, а также какие задачи позволяет решать георадиолокационные исследования при изучении подповерхностных слоев.

Метод георадиолокации (GPR‑ Ground Penetrating Radar) — это геофизический метод, основанный на зондировании грунта с помощью электромагнитных волн, ультравысоких частот (обычно от десятков МГц до нескольких ГГц), он применяется для исследования структуры подповерхностных слоев без их разрушения.

Методом георадиолокации обладает георадар - это высокотехнологичный прибор, разработанный для подповерхностного зондирования, его конструкция сочетает несколько ключевых узлов, которые обеспечивают работу системы:

Читать далее
1
23 ...