Как стать автором
Поиск
Написать публикацию
Обновить
41.58

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Карта промыслов Костромской губернии

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.5K

Привет, Хабр! Я историк, работаю над историко-географическими базами данных в российском генеалогическом сервисе familio.org. В этой статье расскажу как мы сделали карту исторических промыслов Костромской губернии для фестиваля семейной истории в Кинешме. Надеюсь, что материал будет интересен не только любителям исторической географии, но и тем, кто интересуется визуализацией своих данных на карте.

Читать далее

Разложение модели числа на подмодели. Часть I

Время на прочтение20 мин
Количество просмотров2.2K

Изучение чисел простых и составных, четных и нечетных длится не одно тысячелетие, а теория чисел пока далека от завершения. Даже для простых и понятных арифметических операций поиск обратных им операций на сегодняшний день не завершен. Например, для n-й степени числа обратной является операция извлечение корня n-й степени, для умножения чисел обратной является факторизация произведения, но простой и доступный алгоритм ее реализации до сих пор не открыт. Оказалось, что это очень большая и сложная проблема. Универсальный способ факторизации до сих не найден. В мире людей предпринимаются огромные усилия огромным числом математиков (судя по публикациям) для отыскания такого способа, но пока без особого успеха.

Известно несколько подходов к решению проблемы (алгоритм Ферма, числовое решето, эллиптические кривые, CFRAC, CLASNO, SQUFOF, Вильямса, Шенкса и др.), которые критикуются и не кажутся перспективными и которые даже не претендуют на универсальность. Автором публикации предлагается оригинальный подход к решению проблемы с претензией на универсальность, т.е. без каких либо ограничений на факторизуемые числа, в частности, ограничений на разрядность чисел.

Существо подхода состоит в разработке такой модели числа, которая использует концепцию закона распределения делителей (ЗРД) числа, открытого автором (публикация 2014г). Подход позволяет находить инволюцию в конечном числовом кольце вычетов (КЧКВ) по составному модулю N, путем разложения предлагаемой модели числа (аналогичного разложению кольца Пирса) в цикловые множества строк (ЦМС) модели.

Цель публикации в первую очередь образовательная, познавательная, популяризация науки, а также стремление привлечь в ряды исследователей, в науку приток новых молодых (и не очень) умов, вызвать в таких умах стремление к поиску ответов на возникающие вопросы.  Масштабность темы требует ввести разумные ограничения на излагаемый материал после краткого панорамного её рассмотрения.

Читать далее

Как выбрать способ визуализации данных

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров9.1K

Привет, Хабр! Меня зовут Света, я — руководитель направления Friflex design. Мы занимаемся разработкой мобильных приложений и веб-сервисов и используем разные способы визуализации данных, чтобы быстро и наглядно показать пользователям важную для них информацию.

В этой статье рассказываю, как правильно выбрать метод визуальной коммуникации.

Читать далее

Кластеризация множества объектов, алгоритм K-means++

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4.6K

Поступила задача выполнения кластеризации множества товаров, по их размерам (двумерная плоскость). Значения распределения: ширина и высота.

После изучения вопроса, было найдено несколько подходящих алгоритмов, одним из самых распространенных оказался алгоритм под названием K-means, а так же его вариация K-means++. Плюсы, в отличии от классики, подошли более разумно к подбору начальных точек опоры, калибрующихся итерационно, до момента идентичности нескольких последовательных результатов.

Читать далее

Как правильно разработать интерактивный прототип?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.8K

Привет! Меня зовут Московкина Наталия, я старший бизнес-аналитик. Эта статья будет полезна бизнес-аналитикам, которые работают c системами управления данными и часто сталкиваются с тем, что заказчику сложно принять решение по реализации системы на основании статичных макетов. Также бывают случаи, когда передача системы в разработку требует большого количества коммуникаций и уточнений с разработчиками для обсуждения функциональности. В таких ситуациях решить проблему поможет интерактивный прототип.

Читать далее

Аналитика в ритейле: как выбрать правильные метрики

Время на прочтение18 мин
Количество просмотров9.5K

Привет, друзья-аналитики!

Хочу поговорить об отрасли, с которой начинался мой путь в аналитике и которая до сих пор занимает особое место в моем сердце — ритейл. Аналитикам в этой области будет полезно, для остальных интересно почитать. Статья направлена на базовую аналитику, в следующих статьях будем погружаться глубже.

Читать далее

Semantic BPM. Онтологическое моделирование верхнеуровневых процессов. VAD

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2.1K

Введение

Представление моделей бизнес‑процессов на основе онтологий (онтологическое моделирование) эквивалентно Semantic BPM. Введение в семантический BPM (Business Process Management) см. «Semantic BPM. Семантика и синтаксис бизнес‑процессов» [semBPM24]. Если кратко, то можно провести аналогию: если классическая BPM система (BPMS: ARIS, бизнес‑студия, fox‑manager и т. п.) — это технологический аналог mediawiki (wikipedia), то Semantic BPM — это технологический аналог semantic mediaWiki (Wikidata), т. е.

IF MediaWiki → Semantic MediaWiki then BPM (ARIS, BPMS, EA) → Semantic BPM

Основной замысел (цель) семантического представления процессов (BPM, EA) не классическими BPM‑системами, а семантическими (Linked Data) — такой же, как и у семантических wiki

Одно из ключевых дополнений к wiki‑гиперссылки (html) это указание не просто что «ОбъектА связан с ОбъектомБ» (т. е. просто «связано») и соответствующий кликабельный переход (wiki‑ссылки, markdown syntax), а указание, что «ОбъектА связан с ОбъектомБ» такими‑то типом отношения (впрочем, как и задание других свойств объекта через отношения).

Изначально все BPMS (изначально называемые CASE‑средствами) — семантические, т.к. их суть — это отношения между объектами, только в них семантика глубоко спрятана «под капотом» BPMS и нестандартная (собственная, проприетарная). Semantic BPM «поднимает» семантическую составляющую на поверхность (возможность работы с семантическим слоем) и использует стандартные сематические технологии Linked Data.

В основе RDF (Resource Description Framework) — триплеты «субъект — отношение — объект» лежит ERD: Entity Relationship (ER) diagram. RDF \ ERD — это способ формализации знаний на основе атома знания — триплета. Вообще ER, subject, predicate, типы рассуждений и другие базовые элементы для работы со знаниями в СССР содержались в школьных учебниках [Логика54].  

Читать далее

Новости проекта Api2App

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.1K

Более 4-х месяцев прошло с первого моего поста про Api2App. В этой статье хочу рассказать про обновления дизайна и новый функционал, который был добавлен за это время.

Читать далее

Сквозная аналитика в HR

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.6K

Сквозная аналитика в HR в виде приложения в Power BI.

После первой встречи с HR отделом в лице руководителя, специалиста, занимавшегося сбором данных и оформлением отчетов в таблицах Excel, выяснилось, что источники с необходимыми данными находятся в регулярных выгрузках из 1С Предприятие, Google Sheets, Битрикс24, PostgreSQL, iSpring. По визуальному оформлению как таковых «жестких» требований не было, была лишь просьба, учесть наглядность представляемых данных и «желательно как в таблицах Excel».

После чего я приступил к созданию дашборда из нескольких дашбордов с получением данных из первоисточников ежедневно.

Читать далее

Не ggplot2 единым: визуализация в R

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров1.7K

Говорите про R что хотите, но когда дело касается визуализации данных, он диктует моду. Не без помощи ggplot2, конечно. Однако стоит ли ограничивать себя только им ? Да и на что способен R без него. Узнаем в этой статье.

Читать далее

История о том, как Graphviz и бор взломали шифр от Sony

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров14K

Мою первую статью я желаю посвятить истории о том, как я решил заняться исследованием часто встречающихся в модулях PlayStation Portable непонятных байтовых строк. Никакой документации в Homebrew коммьюнити найти не удалось, так что я взялся за дело сам.

Как это было

Визуализация данных: четыре простых способа быстро улучшить диаграмму

Время на прочтение6 мин
Количество просмотров10K

Для многих специальностей, будь то бизнес-аналитика, Data Science или геология и геофизика, эффективная визуализация данных вошла в число принципиально важных навыков. Наглядное представление информации, понятное и эстетически привлекательное, может подтолкнуть целевую аудиторию к определенным мыслям или действиям. Хотя на Python создано несколько библиотек визуализации данных, студенты, изучающие этот язык и аналитику данных, часто начинают с Matplotlib.

Команда VK Cloud перевела руководство, как улучшить диаграммы, созданные в Matplotlib. Все показано на реальных примерах.

Читать далее

Анализ изменения возраста и антропометрических данных игроков Национальной Хоккейной Лиги

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.4K

В последнее время от экспертов и игроков Национальной Хоккейно Лиги (NHL) все чаще слышишь тезис о том, что лига становится моложе и делается уклон в сторону более низких и легковесных, но юрких хоккеистов. Хоккей с его огромными хоккеистами уходит в прошлое, а габариты таких "гигантов", как нападающий New York Ranger Matt Rempe с его ростом 200 см и весом 109 кг обсуждается больше, чем сама игра хоккеиста.

Я взял с сайта NHL данные о последних 10 сезонах по игрокам, который провели больше 10 матчей в сезоне.
Проанализируем эти данные и посмотрим, действительно ли лига становится моложе, а игроки становятся меньше и легче

Читать далее

Ближайшие события

Качество данных в М.Видео-Эльдорадо

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров3.8K

Привет, Хабр! С середины 2023 года у нас в компании было принято решение открыть новое направление в области управления данными - «Качество данных». Вот почти уже год мы активно в нем развиваемся и хотели бы поделиться накопленным опытом. Надеемся, что данный материал будет вам полезен.

Читать далее

Руководство по задачам, возникающим при использовании речевой аналитики Яндекс SpeechSense (Часть 2)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров623

Если у вас имеется собственный контактный центр, задача найти упоминание чего-либо конкретного в большом количестве аудиозаписей возникает регулярно. Недавно я опубликовал статью о том, как настраивать это решение с нуля. Во второй части я хочу показать, какие решения мне пришлось разработать дополнительно для использования речевой аналитики Яндекс SpeechSense, какие дополнительные задачи при этом появились и как их решать.

Задача, которую я решал, формулировалась вот так. Необходимо проанализировать 25000 аудиозаписей разговоров оператора с клиентом по телефону, найти и вывести список всех аудиозаписей, где есть поздравления с праздниками.

Перейти к решениям

Как визуализировать кредитную историю заемщика. Кейс для одного из ведущих банков

Время на прочтение5 мин
Количество просмотров9.6K

В этой статье я хочу показать способ графического отображения кредитной истории заемщика. Эта задача была успешно решена в рамках работы над интерфейсом системы обработки кредитных заявок для одного из крупнейших российских банков. Этот метод может пригодится и в других приложениях. Например, там где пользователь сам оценивает свою кредитную историю.

Подробнее о решении задачи

Искусство мозговых волн. Как ученые визуализируют вызванные потенциалы: результаты опроса

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.5K

Меня зовут Владимир Михеев, я работаю в лаборатории Вычислительный когнитивных наук Университета Штутгарта. Мы разрабатываем библиотеки для анализа, симуляции и визуализации ЭЭГ данных на языке Julia под зонтичным брендом Unfold.

В социальных и психологических науках уже лет десять бушует кризис невоспроизводимости: результаты многих исследований не повторяются. Обычно уделяют внимание статистическим методам, размерам выборки, честности ученых. Мы решили обратить внимание на визуализацию. Это не только вопрос о красоте графиков, это еще и серьезный вопрос о корректности представления данных. И, как показывает наше исследование, ученые часто допускают при этом досадные ошибки.

Эта статья может быть вам полезна если вы:

Хоть раз рисовали потенциал вызванного действия.
Визуализируете временные данные.
Радеете за воспроизводимость научных исследований.
Разрабатываете аналитическое ПО.
Делаете красивые графики и хотите, чтобы они были корректными.

Раскрыть тайны мозга

Руководство по началу с нуля настройки решений речевой аналитики Яндекс SpeechSense и документации по платформе

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.6K

Если у вас имеется собственный контактный центр, задача найти упоминание чего-либо конкретного в большом количестве аудиофрагментов возникает регулярно. Недавно нам удовлетворили заявку на доступ к prewiev режиму сервиса Яндекса SpeechSense и я решил попробовать одну из таких задач решить при помощи этого сервиса.

Все трудности, тонкие моменты и полный путь от начала настройки и до победы описаны в этой статье.

В принципе в документации описан функционал, который мало отличается от других систем речевой аналитики, и это только на первый взгляд. Сюрпризом стало полное отсутствие собственных средств загрузки аудиофрагментов в систему. Всю загрузку необходимо реализовать самостоятельно. В документации описан только один способ, при помощи bash и Python под unix. Поэтому в этой статье я еще и опишу, как такие инструкции адаптировать под Windows и PowerShell.

Сама инструкция довольно короткая https://yandex.cloud/ru/docs/speechsense/operations/data/upload-data я рассчитывал справиться за пару часов, это мне не удалось. Так что Ваша выгода от прочтения статьи может составлять 2-3 рабочих дня. Или больше.

Прочитать

Анализ данных в hippotable: графики и shareable URLs

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.5K

В hippotable — open-source инструменте для анализа данных в браузере — появились новые интересные фичи: визуализация данных и возможность поделиться аналитикой по ссылке. В статье рассказываю о процессе работы: какие бывают библиотеки для визуализации, почему JSON плохо лезет в URL (и как упихнуть побольше), и показываю, что из этого получилось.

Читать далее

Открытые инструменты для бизнес-аналитики — когда нужно построить дашборды и работать с потоковыми данными

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров7.3K

Бизнес-аналитика — неотъемлемая часть работы в ИТ, предоставляющая компаниям ценную информацию для принятия стратегически важных решений. В условиях растущего объема данных и необходимости оперативного анализа возникает потребность в мощных инструментах, способных визуализировать данные, мониторить потоки информации и интегрироваться с IDE. 

Чтобы облегчить выполнение этих задач, можно использовать open source решения. Мы собрали компактный список таких инструментов, включающий платформы для визуализации данных и другие утилиты, облегчающие работу разработчиков.

Открытые инструменты предлагают мощные возможности для создания дашбордов и работы с потоковыми данными. Благодаря гибкости и масштабируемости, они могут быть адаптированы к потребностям различных компаний.

Читать далее