Обновить
256K+

Визуализация данных *

Облекаем данные в красивую оболочку

93,5
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

ClustMetaLearn — автоматизация выбора кластеризации через мета-признаки и эволюционный поиск по табличным данным

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели7.9K

Перед исследователем данных, работающим без размеченных ответов, регулярно встаёт задача кластеризации: разбить множество объектов на группы так, чтобы схожие оказались вместе. На первый взгляд всё просто — запустил k‑means, подобрал число кластеров по силуэту, получил результат. Однако практика показывает, что разные алгоритмы (k‑means, GMM, агломеративная кластеризация) дают несхожие разбиения на одних и тех же данных, а внутренние метрики качества (Cluster Validity Indices, CVI) противоречат друг другу. Более того, как показано в масштабных бенчмарках, ни одна из нескольких десятков CVI не является универсально лучшей. Следовательно, для каждого нового датасета приходится вручную перебирать алгоритмы, метрики и гиперпараметры — процесс, который легко занимает часы и не гарантирует оптимального результата.

В данной работе представлена открытая система ClustMetaLearn, реализующая автоматический выбор алгоритма кластеризации, внутренней метрики качества и сужения пространства гиперпараметров на основе мета-обучения (meta-learning). Система вычисляет 20 мета-признаков датасета, включая статистические, информационно-теоретические, проекционные и топологические характеристики (числа Бетти, персистентная энтропия). Двухуровневая мета-модель (CVIsel + AlgRank) ранжирует четыре алгоритма (k‑means, GMM, агломеративная, MiniBatchKMeans) и предсказывает подходящую CVI. Экспериментальная валидация на коллекции из 96 табличных датасетов показала, что правильный алгоритм попадает в топ‑3 рекомендаций в 81% случаев, а сужение диапазонов гиперпараметров сокращает время настройки в среднем на 70% при потере качества менее 1.5%. Система доступна в виде CLI-утилиты и веб-приложения (Django, Celery, MLflow).

Читать далее

Новости

Особенности культурного кода во французской мультипликации

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.3K

Введение

Изучая французский язык, в том числе, на примерах мультипликационных роликов и мультфильмов, обратил внимание, что там нередко можно встретить высказывания, напоминающие программные поведенческие установки для детей. По крайней мере, они оказывают определенное влияние даже на взрослых, не говоря уже об их основной целевой аудитории.

Известно, что шаблоны поведения любимых героев, с которыми мы знакомимся в детстве, могут оказывать влияние во всей нашей дальнейшей жизни.

Поэтому, знакомство с подобными паттернами поведения в чужой культуре, позволяет лучше понять логику действий не только простых граждан, но и их элит.

Естественно, что главные знания о взаимоотношении с окружающим миром закладываются в более позднем возрасте, например, в студенческой среде.

Тем не менее, детские установки «правильного» или «хорошего» поведения имеют колоссальное значение в жизни каждого взрослого.

В этой статье, мы разберем несколько примеров и дадим им свою оценку. Развитие этой темы, со стороны читателей, будет только приветствоваться.

Ролик «Le petit frere» («Младший брат»)

Посмотреть видео (рис. 1) с двуязычными субтитрами можно в https://my.mail.ru/mail/emmerald/video/_myvideo/2.html :

Читать далее

Не только кот: геометрия цвета по Шрёдингеру

Время на прочтение24 мин
Охват и читатели7.8K

Черта между гениальностью и безумием ученого лежит в доказательстве его теорий. И порой от формирования теории ее автором до формирования полноценного доказательства проходят долгие годы. В XIX веке математик Бернхард Риман предположил, что перцептивные цветовые пространства не плоские и не прямые, а изогнутые. В 1920-х годах Шрёдингер развил эту идею, определив оттенок, насыщенность и яркость в рамках римановой модели восприятия цвета, используя метрику, описывающую то, как люди воспринимают различия в цвете. И вот в наши дни ученые из Лос-Аламосской национальной лаборатории (Лос-Аламос, Нью-Мексико, США) провели колоссальную работу, в результате которой им удалось формализовать модель цвета Шрёдингера. Какие аспекты входят в данную модель, какие гипотезы стали ее фундаментом, и как это модель описывает наше цветовое восприятие? Ответы на эти вопросы мы найдем в докладе ученых.

Читать далее

Шесть основ бизнес-анализа: как выявить потребность и отделить истинную цель бизнеса от промежуточных решений

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7.4K

Привет! Это вторая статья из цикла о 6 базовых понятиях бизнес-анализа по BABOK.

В прошлой статье мы разобрали первое базовое понятие BABOK — Заинтересованные стороны (ЗСт) Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» / Хабр. Мы выяснили, что каждый проект начинается с вопроса «кто в игре?». Но как только мы собрали нужных людей в рабочую группу проекта, перед нами встает следующий, не менее критичный вызов: что на самом деле нужно бизнесу?

По данным исследований PMI (Pulse of the Profession, 2023), около 37% проектов терпят неудачу именно из-за неточно сформулированных требований, в основе которых лежит непонимание истинной потребности бизнеса. Иными словами, проблема системная и дорогостоящая.

Бизнес-аналитик может идеально собрать требования, разработчик написать код, а тестировщик протестировать его, но в итоге получится решение, которое не удовлетворяет ни одну из потребностей бизнеса. Чтобы не наступить на эти грабли, разберем второе базовое понятие BABOK в этой статье — Потребность (Need).

Читать далее

Почему дашборды не меняют управление

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.3K

В BI-проектах есть момент, который на бумаге выглядит как финал работы, а на практике часто оказывается только началом более сложной части.

Отчёт готов, данные обновляются, показатели считаются, доступы выданы, на демонстрации заказчик в целом согласен с логикой и просит разве что добавить несколько разрезов или поправить формулировки. С точки зрения проекта всё выглядит неплохо: есть артефакт, есть согласование, есть ощущение, что теперь у бизнеса появился нормальный инструмент для работы с данными.

Потом проходит месяц, иногда два, и выясняется, что компания по-прежнему принимает решения примерно так же, как и раньше. Руководители снова уточняют цифры в чате, менеджеры продолжают выгружать Excel “для себя”, финансовая команда сверяется со своими файлами, коммерческий блок опирается на свои расчёты, а дашборд открывают перед встречей или в тот момент, когда нужно быстро найти подтверждение уже сложившейся версии.

Формально BI появился. Но способ управления почти не изменился.

Я не пишу это как претензию к бизнесу или к конкретным BI-инструментам. Обычно причина не в одном неудачном решении, а в том, что техническая часть проекта и управленческая часть проекта существуют отдельно друг от друга. DataLens, Power BI, Tableau, Metabase или самописный фронт могут быть вообще ни при чём. Отчёт может быть быстрым, аккуратным и полезным для просмотра, но при этом так и не стать частью процесса, в котором принимаются решения.

Кажется, проблема часто появляется раньше, чем аналитик открывает редактор дашборда.

Читать далее

Что делать ученому с Эльбрусом?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.5K

Что делать ученому с Эльбрусом? Краткий обзор ПО, которое мне удалось собрать и протестировать на Эльбрусе - средства для симуляции в ядерной физике, обработки и визуализации данных, верстки научных статей.

О портировании CERN ROOT читайте далее

У абонента положительный баланс, а услуга не работает: как DWH помог найти причину

Время на прочтение7 мин
Охват и читатели8.3K

Личный кейс из телекома: как мы сопоставляли биллинг, 1С, адреса, услуги и партнерскую платформу, чтобы найти, где нарушается синхронизация.

Когда говорят про DWH, чаще всего обсуждают управленческую отчетность, BI-дашборды, витрины данных и красивые графики для руководителей.

Но моя боль была в другом, и сейчас я знаю, что ценность DWH неизмеримо больше: он помогает не просто смотреть на бизнес сверху, а находить конкретные операционные ошибки, которые годами живут внутри сложной ИТ-инфраструктуры.

Читать далее

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели11K

MacBook M3, 16 ГБ, никакого облака. Поставил свежую Gemma 4, написал инструмент: кидаешь картинку с графиком или таблицей — получаешь CSV. Три кейса из семи — идеально. На остальных модель начала врать, причём аккуратнее, чем говорила правду: вместо рваных реальных чисел подсовывала гладкие выдуманные. Разобрал по шагам — сетап на маке, грабли с llama.cpp, сам инструмент — и собрал карту, где локальному зрению можно верить, а где оно тихо галлюцинирует

Читать далее

Как бесплатный заказ на Авито превратился в задачу на 2,5 месяца

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели8.2K

Полгода назад я узнал о крутом инструменте — Apps Script. Это расширение Google для их приложений, например, Таблицы, Документы, Презентации и т. д. Сначала при помощи этого инструмента я автоматизировал выгрузку данных из CRM в Google таблицу для спортивной школы и настроил удобное отображение этих данных, а потом, когда распробовал инструмент на вкус, сделал личного Telegram-бота. Об этом и пойдет дальше речь.

Читать далее

Тысячи миллионов технологий в одном движке

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели5.8K

Спецлаб 30 лет разрабатывал комплексную систему видеонаблюдения GOALcity, и теперь там такое огромное число настроек, что можно управлять любыми технологиями этого и еще чуть-чуть того мира. Вот любую возможность для подобных программ назовите - она там уже есть. Но есть нюанс: настроить что-либо сможет, ну, очень терпеливый пользователь.

Сегодняшнее поколение зуммеров такой продукт никогда не купит - в нем больше одной кнопки.

А что делать?

Основы информатики для всех

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели28K

Всем привет. Я сделал бесплатную обучающую платформу shlyk.tech с упором на визуализацию идей и структур. Графы, системы счисления, логику, комбинаторику, индукцию здесь можно потрогать, покрутить, прошагать и понять, почему оно так работает.

Читать далее

SLA как инструмент, а не отчёт

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели8.9K

Это вторая часть разбора того, как мы выстраивали SLA и инцидент-менеджмент в большом продукте.

В этой части речь пойдёт о следующем этапе — масштабировании и удешевлении. О том, что происходит, когда SLA считается корректно, цифрам уже доверяют, но компания продолжает развиваться. У неё кратно растёт количество разработчиков, архитектура усложняется и количество сбоев тоже растёт. Инциденты и сбои это наши обиходные синонимы и по ITIL это не одно и тоже, уж простите. С ростом ограничением становится не математика и перегибы полиномов высоких порядков, а люди, ручной труд, коммуникации и скорость реакции. О том, что со всем этим делать и поговорим.

Читать далее

Разбираем новый релиз «Графини»: кеширование витрин, прогнозирование и импорт дашбордов из Grafana

Время на прочтение5 мин
Охват и читатели6.8K

В этот прекрасный июньский день хочется немного выдохнуть: фичи доделаны, образы залиты, регресс пройден, в наушниках играет приятная музыка, а впереди целое лето и каникулы.

С вами снова я — Павел Мирошин, тимлид команды разработки «Графини» (первый аналог Grafana, написанный с нуля). И сегодня хочу немного рассказать о том, что мы сделали в новом большом релизе 2026H1 «Ассамблея».

Внутри про кеширование витрин, прогнозирование, импорт дашбордов из Grafana и другие обновления.

Читать далее

Ближайшие события

Как шахматный подход помог разобраться с фотолентой Яндекс Диска

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.4K

Когда вы загружаете фотографии на Яндекс Диск, они не просто лежат в облаке: ML‑модели анализируют снимки, группируют их в альбомы и выбирают хайлайты для фотоленты в Яндекс Диске. Но чтобы улучшать такую систему, нужно уметь измерять качество её работы. И здесь начинается проблема: модель выбирает «красивые» и «удачные» кадры, а эстетика — вещь субъективная. Одному важны насыщенные цвета, другому — композиция, третьему — эмоции и лица в кадре. Если попросить асессоров ставить оценки от 1 до 10, мы быстро получим не объективную шкалу, а смесь личных вкусов, разной строгости и шума.

Поэтому мы подошли к задаче не как к обычной разметке, а как к исследованию. Вместо абсолютных оценок использовали шахматный подход. Каждая фотография стала «игроком», который соревнуется с другими по 16 признакам эстетики — цветам, фокусу, геометрии, эмоциональности и другим параметрам. Это позволило получить не просто рейтинг кадров, а инструмент для анализа того, какие визуальные признаки учитывают ML‑модели Диска.

Всем привет! Я Всеволод Мещеряков из службы разметки Yandex Crowd Solutions. Мы собираем и размечаем фото, видео, тексты — в общем, готовим данные, на которых учатся ML‑модели. В этой статье расскажу, как подход из мира шахмат помог нам связать субъективное восприятие фотографий с математическими оценками и сделать фотоленту Яндекс Диска ещё красивее.

Читать далее

DQ-шаблон через MCP: что получилось и где агенту нельзя верить

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели7.6K

Привет, Хабр! Я Дмитрий Клепиков из команды Modus

После прошлой статьи захотелось взять тот же стек — ИИ-агента и пару MCP-серверов — и собрать через него в нашем BI-портале DQ-шаблон. DQ здесь — это Data Quality, то есть проверка качества данных: полнота, корректность, уникальность, согласованность, актуальность и всё то, из чего потом складывается доверие к данным.

Шаблон получился не универсальным в духе «подставь любую таблицу, и всё само поймётся». Скорее универсальным оказался каркас: одни и те же этапы, одна таблица результатов, один набор отчётов, история запусков и каталог правил. А вот сами правила остаются доменными. В адресном реестре это КЛАДР, ФИАС, ГКН, кадастровые номера и нюансы вроде «ё» в названиях улиц. Для контрагентов будут ИНН, КПП и ОГРН, для продаж — совсем другой набор проверок.

В качестве тестового датасета я взял открытый Реестр адресов Москвы. Задача была такая: агент через postgres-mcp смотрит схему, выбирает проверки из каталога правил, запускает SQL, пишет результаты в dq_snapshots, а потом через modusbi-mcp собирает отчёты в портале. Ниже расскажу, как именно он шёл, что получилось на выходе и почему после такого эксперимента агенту всё равно нельзя просто верить на слово.

Читать далее

Использование триггеров в БД по решению задач администрирования Sigla Vision

Время на прочтение8 мин
Охват и читатели6.6K

Продолжаем серию «Адаптивное администрирование Sigla Vision». Разберем кейсы, где триггеры в базе FineDB помогают решать задачи администрирования Sigla Vision.

Привет, Хабр! Меня зовут Всеволод Коваленко. В Газпромбанке я занимаюсь развитием функционала BI-системы на базе Sigla Vision.

В предыдущей статье «Версионирование таблиц репозитория метаданных Sigla Vision» мы разобрали исторические таблицы, которые хранят данные о состояниях записей в БД. Версионирование таблиц мы тоже строили на триггерах FineDB. Теперь покажем, как те же триггеры решают еще ряд задач администрирования Sigla Vision.

Читать далее

Искусство создания дорог в играх

Время на прочтение17 мин
Охват и читатели21K

Не знаю, только ли мне это свойственно, но я испытываю какой-то первобытную радость, когда вижу сложные паттерны, возникающие из сред, кажущихся хаотичными.

Представьте галереи колоний муравьёв, невероятно идеальные шестиугольники пчелиных сот или прожилки листьев. Никаких архитекторов или чертежей, лишь набор простых правил, приводящий к созданию великолепных узоров. Не знаю почему, но наблюдение за такими структурами всегда вызывает положительные ощущения.

Люди тоже их создают. Для меня один из самых удивительных паттернов, которые мы придумали — это дороги.

Иногда я представляю инопланетян из далёких галактик, которые откроют Землю уже спустя много времени после нашего ухода. Леса, снова занятые природой, города, превратившиеся в развалины; однако между ними всё равно заметен слабый паттерн — сеть дорог. Мне нравится думать, что они будут чувствовать то же самое, что и я, когда смотрю на природные паттерны: «Ого, кто-то действительно это продумал».

Градостроительные симуляторы и их дороги

Должен сказать, что дороги восхищали меня с детства.

До сих пор помню, как в возрасте шести-семи лет впервые играл в SimCity 2000. Я понял не особо многое и не знал, что такое зонирование, налоги и спрос. Но дороги сразу меня восхитили.

Я считаю, что дороги — основа каждого градостроительного симулятора. Ткань, из которой создаются города. С того времени я играл почти во все градостроительные симуляторы, действие которых происходит в наше время. Тем временем я начал замечать дороги в реальном мире. Исследовать их более детально.

Развязки. Перекрёстки с круговым движением. Эстакады. Сужения полос. Замечал каждую мелочь.

Хотя в каждой новой игре происходит шаг вперёд по сравнению с предыдущей, что-то всё равно продолжало казаться неестественным.

Читать далее

Fine Day Online 2026: пять докладов про то, почему BI не работает и что с этим делать

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.5K

Привет, Хабр! Пишет команда Business Intelligence GlowByte. Каждый год мы проводим Fine Day Online – конференцию про бизнес-аналитику, где практики из разных компаний делятся честным опытом. 22 апреля собрались спикеры из сети “Галамарт”, банков Уралсиб и ОТП, а также FanRuan, и все пять докладов оказались про одно и то же: данные есть, деньги в инструменты вложены, а бизнес по-прежнему принимает решения на ощущениях.

В этом материале хотим поделиться: что обсуждали спикеры, какие цифры называли, что пошло не так и чем закончилось.

Читать далее

Ваш HEX-редактор должен подсвечивать байты цветами

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели13K

Почти все HEX-редакторы выглядят как унылый список байтов, в котором невозможно найти ничего интересного. Но достаточно добавить цвета — и человеческий мозг сам начнёт замечать магические сигнатуры, последовательности чисел, сжатые данные и даже скрытые изображения.

В этой статье будет рассмотрено, как работает подсветка байтов и какие hex-редакторы поддерживают это.

Читать далее

Как построить эпюры Q и M в многопролётной балке: следующий шаг после построения линий влияния Q и М

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели9.9K

В предыдущей публикации я представил веб-инструмент для построения линий влияния в многопролётных шарнирных балках. Инструмент позволяет визуализировать линии влияния поперечных сил Q, изгибающих моментов M и реакций опор R, а также получать численные значения для любого заданного сечения.

Теперь — следующий шаг.

Я хочу поделиться идеей, как с помощью уже работающего инструмента автоматически строить эпюры Q и M для всей балки целиком. На данный момент это концепция и алгоритм, который я планирую реализовать. Буду рад услышать мнение сообщества.

Читать далее
1
23 ...