Обновить
68.73

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Сравниваю Jupyter Notebook, Google Colab, Kaggle и Marimo глазами исследователя и начинающего Data Scientist

Уровень сложностиПростой
Время на прочтение13 мин
Просмотры331

Я пришел в Data Science не сразу. Учился в магистратуре по вечерам, работая в совершенно другой сфере (строительство). Осваивать машинное обучение и анализ данных было интересно, но один из самых неожиданных вопросов, который возник буквально сразу - в какой среде писать код?

На первый взгляд кажется, что Jupyter Notebook, Google Colab, Kaggle и сравнительно новая Marimo - это одно и то же, ноутбук с ячейками и Python (так же поддерживаются другие языки программирования). Но на практике каждая из этих сред подходит для разных задач, где-то удобнее учиться, а где-то работать командой.

Эта статья - результат моего практического сравнения сред, которое я проводил во время обучения и выполнения исследовательских задач, связанных с анализом и подготовкой данных, моделированием и машинным обучением.

Статья будет полезна:

Читать далее

Новости

Nano Banana Pro и история развития ЭВТ

Уровень сложностиПростой
Время на прочтение2 мин
Просмотры1.2K

В настоящее время я занимаюсь подготовкой рукописи для второго издания книги «История моей страны. Записки военного инженера-программиста». Естественно, в ней много старых черно-белых фотографий разного качества. Это не только бытовые фотографии, но и уникальные фотографии вычислительной техники, которая сегодня не только не выпускается, но порой и не сохранилось ни одного экземпляра. В 90-е года эту технику бойко сдавали на драгметаллы. Но сегодня еще живут люди, которые работали в те времена, видели и даже творили на этой техники. Они могут рассказать, как и что выглядело. Я знаю многих людей глубоко пенсионного возраста, которые занимаются восстановлением старых фотографий в цвете. Это тяжелая и кропотливая работа. Но в конце августа сего года вышла модель генерации изображений Nano Banana от компании Google, которая просто совершила революцию в этом деле, но и она, несмотря на свои возможности, имела недостатки:

Читать далее

Клеточный автомат Коллатца или экосистема лабиринта?

Время на прочтение11 мин
Просмотры607

Изучая получившийся клеточный автомат Коллатца (CCA), ранее описанный в статье. Я задумался о том, как лучше показать взаимодействие его клеток, чтобы это было доступно и наглядно. Простое описание опций, это теоретическая часть, но как известно, практика, помогает укрепить понимание протекающих процессов.

Конечно, визуализация клеток текущего и последующего шага поможет в понимании процессов в рассматриваемом автомате. Но я решил чуть разнообразить подход изучения CCA, добавив в него элементы игры. Ведь, если вашей задачей будет не просто понимание протекающих процессов в клеточном автомате, а выживание какого-то персонажа на этом поле, то у вас появляется дополнительный интерес и стимул в более подробном изучении происходящего.

Игра - Лабиринт

Не откладывая задачу в долгий ящик, представляю Вам прототип игры "Лабиринт".  На рисунке 1, представлен пример поля лабиринта, основанного на CCA. Справа от поля имеется легенда с описанием цветов ячеек.

Читать далее

Особенности агрегации SUMMARIZE в Power BI

Время на прочтение4 мин
Просмотры408

Привет, Хабр! Некоторые функции DAX из Power BI могут выглядеть интуитивно понятными, но при детальном рассмотрении ведут себя не совсем ожидаемо. Например, SUMMARIZE не агрегирует «сразу», в месте использования, но SUMMARIZE реализуется через «виртуальную», «отложенную» агрегацию за счет сохранения состояния. Для суммы, т.е. SUM, промежуточное состояние и есть сумма и особенности SUMMARIZE не проявляются, но для любой другой агрегации (например, среднего AVERAGE) становится понятно, что в Power BI уже учитывается так называемое состояние для корректного расчета SUMMARIZE, т.е. данные по всем записям сохраняются в состоянии. В других СУБД единственный аналог — только State и Merge комбинаторы из ClickHouse, поэтому для иллюстрации состояний будет рассмотрен пример из ClickHouse, соответствующий DAX с SUMMARIZE и AVERAGE. Интересующимся особенностями SUMMARIZE в Power BI — добро пожаловать под кат :)

Читать далее

Сравнение инструментов разметки данных для CV: Label Studio & CVAT & Roboflow — опыт разметки 6000+ изображений

Уровень сложностиПростой
Время на прочтение9 мин
Просмотры777

Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали...

Читать далее

Nano Banana Pro — почему это прорывная модель генерации и редактирования изображений? Проверяем на реальных примерах

Уровень сложностиПростой
Время на прочтение5 мин
Просмотры14K

20 ноября состоялся официальный запуск Nano Banana Pro (Gemini-3-Pro-Image-Preview) с мощной базой Gemini 3 Pro. Это уже более взрослый инструмент для дизайна, инфографики и контента. Мы с вами не только рассмотрим нововведения, почему именно модель стала прорывной, но и на реальных примерах наглядно в этом убедимся.

Читать далее

Первый график в Apache Superset за 10 минут: как мы внедрили современные дашборды по подбору в Юнион

Уровень сложностиПростой
Время на прочтение10 мин
Просмотры414

Привет, Хабр! Меня зовут Денис, я аналитик в Юнион — системе автоматизации подбора персонала. Как и в любом процессе подбора через HR-системы, у нас постоянно возникает необходимость анализировать данные: чтобы оценивать эффективность рекрутинга, отслеживать ключевые метрики и принимать решения на основе фактов, а не ощущений.

В этой статье я кратко расскажу про Apache Superset, в целом про аналитику подбора, причины и процесс нашего переноса отчетов в новый BI-инструмент, а также поделюсь полезными лайфхаками, которые помогут сэкономить время при работе с дашбордами.

Читать далее

Нам хватило одного столбца: как Kanban-подход работает в бэк-офисе

Уровень сложностиПростой
Время на прочтение7 мин
Просмотры858

Привет, Хабр! На связи снова Иван Чаплыгин, руководитель отдела ИТ-переводов КРОК. Сегодня хочу рассказать, как Kanban – подход, заточенный прежде всего под нужны разработчиков, можно использовать в бэк-офисе. Под катом – наш нехитрый опыт внедрения Kanban в дашборды Jira.   

Читать далее

Превратили PVS-Studio в город

Уровень сложностиПростой
Время на прочтение7 мин
Просмотры1.1K

Вы когда-нибудь хотели взглянуть на свой код под новым углом? Например, увидеть, как бы выглядела ваша кодовая база, будь она городом? Звучит как что-то невероятное. Давайте вместе заглянем в город PVS-Studio и просмотрим, какие тайны он в себе хранит :).

Читать далее

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Уровень сложностиПростой
Время на прочтение7 мин
Просмотры2.6K

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат».

Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей.

Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание.

Статья будет полезна:

Читать далее

Экономичный NLP-анализ на примерах популярных фэнтези

Время на прочтение7 мин
Просмотры1.5K

⋮ [Дисклеймер].
Беспристрастность. Анализ не претендует на безошибочную точность и не рекламирует труд писателей. Перевод романа "Игра престолов" книги_1 из цикла "Песнь льда и огня" (далее "ПЛИО") с английского Ю. Соколов. Скрипты для NLP-анализа написаны мной, в основном пользовался ими для анализа и поддержания качества собственных материалов, а также парсил международные лонгриды для сравнения и оценки авторитетности персон.

Читать далее

«Графиня» перезагружена до версии 1.1.0: что там под капотом

Время на прочтение3 мин
Просмотры11K

Привет, Хабр! Я — Павел Мирошин, тимлид команды разработки «Графини». Не так давно мы рассказывали о первом релизе «Графини» — нашей собственной российской платформы для визуализации, мониторинга и анализа данных. Кто пропустил — можете почитать по этой ссылке.

Во время проведения демо и тестирований мы получили много обратной связи и полезных идей для развития. Как результат — не удержались и выпустили незапланированный релиз «Графини» 1.1.0, в котором учли основные запросы. О самых интересных фичах новой версии рассказываем под катом.

Если вы хотите «потрогать» продукт — залетайте к нам в комьюнити. Там можно получить лицензию. 

Читать далее

Какой Ai-шник нынче нужон?! / Исследование ИИ рынка труда РФ

Уровень сложностиПростой
Время на прочтение6 мин
Просмотры7.9K

Последние полгода ловлю море статей о том, как направление AI будто бы стремительно растёт, специалистов нужно огромное количество, и платят много и без лишних вопросов. Долго думал, как можно проверить все эти заявления не через абстрактные «экспертные мнения», а на реальных и доступных каждому данных.

В итоге словил простую эврику: «Почему бы просто не залезть на HH и не посмотреть, кого действительно ищут и в каком количестве?»

Спустя пару недель сбора и разметки данных я готов показать небольшое исследование отечественного рынка вакансий, связанного с искусственным интеллектом.

Читать далее

Ближайшие события

Как мы искали заманивающие категории

Уровень сложностиСредний
Время на прочтение5 мин
Просмотры229

Однажды в ходе рабочей сессии возник вопрос: а какие позиции в ассортименте дают нам приток новых клиентов? Какие категории, подкатегории, бренды?

Задача пришла ко мне (аналитику), со словами: «что мы можем здесь посчитать?»

Читать далее

Как создать динамическую сводную таблицу на Power BI Report Server

Уровень сложностиСредний
Время на прочтение22 мин
Просмотры2.3K

Всем привет! Меня зовут Максим Кушнер, и я занимаюсь BI-разработкой в команде HR-аналитики «Лемана Тех». Дашборды, которые создаёт и поддерживает наша команда, охватывают широкий круг HR-процессов компании, в т. ч. состояние и движение персонала, расходы на персонал, продуктивность, контроль использования рабочего времени, обучение, профессиональное развитие, вовлечённость, внутренние конкурсы, различные рейтинги и др. Пользователями дашбордов могут быть все 40 000+ сотрудников нашей компании – от топ-менеджмента до любого работника в магазине. Соответственно, количество различных срезов данных и бизнес-показателей в дашбордах может исчисляться десятками.

И очень часто наши коллеги говорят: «Ваш дашборд, конечно, классный, но нам хочется самим покрутить данные». Другими словами, пользователи хотят построить аналитику в нужных им разрезах и структуре, которые не предусмотрены разработчиком по умолчанию.

Если не пытаться решить эту боль пользователя, то он просто экспортирует сырые данные из дашборда в Excel, где использует инструмент сводных таблиц (pivot tables) для выстраивания аналитики в нужном ему виде. Но тогда встаёт вопрос: зачем нужен такой дашборд (и его разработчики), если пользователь использует его как перевалочный пункт, а основную ценность извлекает из другого инструмента?

Читать далее

MQTT + MODBUS + WEB: как DRM88ER решает задачи современного IIoT

Уровень сложностиСредний
Время на прочтение7 мин
Просмотры3.5K

Любой, кто работал с промышленной автоматизацией, сталкивался с одной и той же проблемой — разные устройства общаются на разных языках. Старое железо только на MODBUS, современные облачные сервисы требуют MQTT, а пользователи хотят красивые веб-интерфейсы. В итоге простая задача превращается в интеграционный квест или танцы с бубном с множеством шлюзов и костылей.

Поэтому, мы решили создать DRM88ER – интернет-реле "Разумный дом", которое решает эту проблему довольно изящно — просто собрав MODBUS, MQTT и WEB в одном устройстве за 14 500 рублей. Посмотрим, что из этого получилось.

Читать далее

What‑if анализ сегодня: от Excel‑зоопарка к ИИ‑агентам

Уровень сложностиПростой
Время на прочтение9 мин
Просмотры1.8K

Сегодня анализ “что если” превращается из экселевской игрушки в реальный управленческий инструмент, который можно автоматизировать.

В этой статье мы заглянем в прошлое what-if, сравним с настоящим и попробуем представить, каким он станет в ближайшем будущем.

Сейчас подобный анализ в большинстве компаний – это огромный ручной труд и Excel. Мнение, что вопрос решит интеграция ИИ – всего лишь иллюзия, которая исчезает, когда начинаешь работать с большими выборками данных, хранилищами, с крупными справочниками на сотни и тысячи позиций. И, самое главное, – когда начинаешь считать.

Поделюсь своим взглядом на этот счет, а также вариантами решения проблемы, и расскажу, как можно нивелировать риски.

Читать далее

Преодолевай нежно: проверенный метод обхода сопротивления при внедрении BI

Уровень сложностиСредний
Время на прочтение5 мин
Просмотры4.5K

По данным Gartner, до 70-80% BI-инициатив не достигают поставленных целей, доля активных пользователей не превышает 30-40% количества лицензий, а аналитики тратят половину своего времени не на инсайты, а на рутину. И главная причина этого фиаско кроется не в недостаточной производительности серверов, элегантности дашбордов и даже не в качестве данных. Проекты буксуют, а инвестиции не окупаются из-за людей: их привычек, страхов, устоявшихся ритуалов принятия решений и, как следствие, активного или пассивного сопротивления новым инструментам. В этой статье я расскажу о новом подходе, который позволяет системно подойти к вопросу работы с сопротивлением для CIO, CDO, руководители бизнес-функций, продакт-менеджеров BI и лидеров аналитики. В этой статье мы начнем знакомиться с системным, человекоцентричным подходом к преодолению сопротивления, который уже был неоднократно опробован на практике.

Читать далее

Модульная BI-платформа: как мы сделали кастомизацию визуализаций без пересборки ядра

Уровень сложностиСредний
Время на прочтение7 мин
Просмотры365

Привет, Хабр! На связи Александр Чебанов, технический директор компании Modus. Мы разрабатываем BI-платформу, которая собирает большие объемы данных из разных источников и представляет их в виде понятных дашбордов и отчетов для бизнеса.

Сегодня расскажу, как мы решили задачу кастомизации визуализаций под конкретных клиентов без усложнения основного кода и пересборки ядра.

Читать далее

Как мы превратили BI в полноценный корпоративный инструмент: дизайн-система, виджеты и self-service

Уровень сложностиПростой
Время на прочтение8 мин
Просмотры9.6K

Привет, Хабр! Меня зовут Вадим Крысин, я начальник отдела разработки решений для анализа данных в «Газпром ЦПС». Еще недавно работа с отчетами у нас занимала недели. Данные собирались из разных источников, на разных инструментах, а дашборды каждый отдел собирал по-своему — со своей логикой, метриками и дизайном. BI оставалась удобным инструментом для узкого круга специалистов, все остальные предпочитали старый-добрый Excel.

Этот хаос стал отправной точкой в нашем пути кастомизации BI-системы. В этой статье поделюсь основными инсайтами после перехода на продуктовый подход и улучшениями, которые на 57% сократили время на дизайн и в 7 раз ускорили сборку типового дашборда.

Занимаетесь BI-аналитикой и хотите решать свои задачи быстрее и эффективнее? Нуждаетесь в эффективной и своевременной аналитике для менеджмента проектов, но почему-то не получаете её? А может, вы руководитель в ИТ, уставший по две недели ожидать один дашбоард? Этот текст — о том, как решить ваши проблемы.

Читать далее
1
23 ...