Визуализация данных *

Облекаем данные в красивую оболочку

СтатьиПостыНовостиАвторыКомпании

Bright_Translate 15 мар 2024 в 13:00

Охота на недостающий тип данных

Средний

11 мин

16K

Блог компании RUVDS.comSQL*Визуализация данных*Программирование*

Обзор

Перевод

Направленный граф — это набор узлов, связанных стрелками (рёбрами). Как узлы, так и рёбра могут содержать данные. Вот несколько примеров:

Все графы созданы с помощью graphviz (источник)

В сфере разработки ПО графы используются повсеместно:

Зависимости пакетов, как и импорт модулей, формируют направленные графы.
Интернет — это граф, состоящий из ссылок между веб-страницами.
При проверке моделей анализ выполняется путём изучения «пространства состояний» всех возможных конфигураций. Узлы — это состояния, а рёбра — это допустимые переходы между ними.
Реляционные базы данных — это графы, в которых узлы являются записями, а рёбра — внешними ключами.
Графы — это обобщение связанных списков, двоичных деревьев и хэш-таблиц.¹

Кроме того, графы также широко используются в бизнес-логике. Научные работы со ссылками формируют графы цитат. Транспортные сети представляют графы маршрутов. Социальные сети — это графы связей. Если вы работаете в сфере разработки, то рано или поздно встретитесь с графами.

Я вижу графы повсюду и использую их для анализа всевозможных систем. В то же время я побаиваюсь использовать их в коде. Какой из популярных языков программирования ни возьми, поддержка графов в них практически отсутствует. Ни в одном её нет в виде встроенного типа, очень мало где они прописаны в стандартной библиотеке, и у многих языков нет для этой функциональности надёжного стороннего пакета. Чаще всего мне приходится создавать графы с нуля. Существует большой разрыв между тем, как часто инженерам ПО могут понадобиться графы и тем, в какой степени экосистема их поддерживает. Где все графовые типы?

Читать дальше →

+69

mechatroner 12 ноя 2018 в 07:58

Плагин «Rainbow CSV» как альтернатива Excel

4 мин

21K

Визуализация данных*Программирование*Регулярные выражения*

Из песочницы

Привет, Хабр! Эта статья про плагин Rainbow CSV, который я написал для 5 текстовых редакторов:

VS Code, Vim, Sublime Text 3, Atom, Gedit

Думаю, что многие читатели этой статьи периодически сталкиваются с CSV (comma-separated), ТSV (tab-separated) и подобными файлами. Если попробовать открыть их в текстовом редакторе (а как иначе узнать что там внутри?), то откроется совершенно невзрачная картина как с левой стороны изображения. Глядя на это сложно сказать даже сколько колонок в таблице. С правой стороны картинки тот же файл с включенным RainbowCSV, читаемость значительно повысилась за счет синтаксической подсветки.

Читать дальше →

+68

WhiteBlackGoose 21 сен 2019 в 10:38

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

39 мин

428K

Matlab*Python*Визуализация данных*Машинное обучение*

Перевод

Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала проанализировать корреляции, выбрать нужные данные, выкинуть ненужные и так далее. Для подобных целей часто используется визуализация с помощью библиотеки matplotlib.

Встретимся «внутри»!

Читать дальше →

+67

kix 3 июн 2009 в 13:39

Майндмэпы в учебе

2 мин

2.7K

Визуализация данных*Учебный процесс в IT

Я думаю, большинство хабралюдей должно быть знакомо с такой вещью, как майндмэпы, они же карты разума, они же диаграммы связей. Для тех, кто не в курсе, поясню: майндмэп — это иерархическая диаграмма, отображающая множество взаимосвязанных мыслей.

У диаграмм связей существует много возможных применений. Например, с их помощью можно разрабатывать базы данных и абстрактные структуры классов, проводить мозговой штурм или планировать личные расходы. Расскажу, как я применяю их в учебе.

Читать дальше →

+67

ru_vds 28 авг 2023 в 13:00

Профилирование Python — почему и где тормозит ваш код

Средний

10 мин

27K

Блог компании RUVDS.comPython*Визуализация данных*Отладка*

Туториал

Перевод

Представьте ситуацию: вы написали скрипт для обработки каких-то данных на ноутбуке, ушли попить кофе, а когда пятнадцать минут спустя вернулись, завершилось едва ли 10%.

Почему скрипт работает так медленно? Какая его часть тормозит? Дело в чтении данных, их обработке или сохранении? Как ускорить исполнение? Действительно ли скрипт вообще медленный?

Ответить на все эти вопросы поможет инструмент под названием «профилировщик» (profiler).

Читать дальше →

+66

Leono 25 июн 2017 в 10:17

Дизайн города, основанный на данных. Лекция в Яндексе

13 мин

15K

Блог компании ЯндексВизуализация данных*Геоинформационные сервисы*Открытые данные*

Под катом вы найдёте расшифровку лекции Андрея karmatsky. Он долгое время руководил службой дизайна геоинформационных сервисов Яндекса, а затем основал компанию Urbica, которая занимается анализом и обработкой городских данных. Андрей рассказывает о примерах того, как подход, ориентированный на данные, помогает улучшать городские сервисы. Лекция прошла в рамках мероприятия «Data & Science: город».

Большая часть слайдов — тоже под катом.

+66

ThomasAlva 16 апр 2020 в 22:27

Руководство по FFmpeg libav

24 мин

103K

Блог компании EdisonВизуализация данных*Программирование*Работа с видео*Учебный процесс в IT

Перевод

Долго искал книгу, в которой было бы разжёвано, как использовать FFmpeg-подобную библиотеку, известную как libav (название расшифровывается как library audio video). Обнаружил учебник «Как написать видеоплеер и уложиться в менее чем тысячу строк». К сожалению, информация там устаревшая, так что пришлось создавать мануал своими силами.

Большая часть кода будет на C, однако не волнуйтесь: Вы легко всё поймёте и сможете применить на любимом языке. У FFmpeg libav уйма привязок ко многим языкам (в том числе и к Python и к Go). Но даже если Ваш язык прямой совместимости не имеет, всё равно можно привязаться через ffi (вот пример с Lua).

Начнём с краткого экскурса о том, что такое видео, аудио, кодеки и контейнеры. Затем перейдем к ускоренному курсу, посвященному использованию командной строки FFmpeg, и, наконец, напишем код. Не стесняйтесь переходить сразу в раздел «Тернистый путь изучения FFmpeg libav».

Есть мнение (и не только моё), что потоковое интернет-видео уже приняло эстафету от традиционного телевидения. Как бы то ни было, FFmpeg libav точно достоин изучения.

Объясняем код с помощью ASCII-арта

2 мин

21K

Визуализация данных*Ненормальное программирование*Программирование*

Перевод

Примечание от переводчика: типично пятничная статья во вторник утром… почему бы и нет?

Большинство людей — визуалы. Они используют изображения, чтобы вникнуть в суть проблемы. А вот мэйнстримные языки программирования, напротив, основаны на текстовом представлении. Возникающую пропасть между текстом и графикой заполняют ASCII-изображения, нарисованные с помощью текстовых символов и вставленные в исходный код программы. Я их обожаю! Как-то раз я кинул клич в Twitter и мне прислали гораздо больше примеров, чем я ожидал. Спасибо всем участвовавшим. В этой теме попалось несколько прекрасных примеров, которые я собрал и разложил на категории. Для каждого изображения дается ссылка на соответствующий репозиторий.

Читать дальше →

+65

AloneCoder 27 июн 2017 в 11:43

Табы, пробелы и ваша зарплата — какая связь?

11 мин

41K

Блог компании VKOpen source*Визуализация данных*Математика*Открытые данные*

Перевод

Пару дней назад Дэвид Робинсон опубликовал на Stack Overflow статью с очень провокационным названием: Разработчики, использующие пробелы, зарабатывают больше использующих табуляцию (перевод на Хабре). Автор взял данные из исследования разработчиков, проведённого Stack Overflow, и в самом деле показал, что использование пробелов ассоциируется с более высокими зарплатами, даже принимая в расчёт одинаковый уровень опыта. Так что, нужно вместо табуляций использовать пробелы, чтобы увеличить свою зарплату?

Читать дальше →

+65

143

Ixtaccihuatl 5 авг 2015 в 10:01

Интерполяция данных: соединяем точки так, чтобы было красиво

7 мин

167K

Математика*Визуализация данных*

Как построить график по n точкам? Самое простое — отметить их маркерами на координатной сетке. Однако для наглядности их хочется соединить, чтобы получить легко читаемую линию. Соединять точки проще всего отрезками прямых. Но график-ломаная читается довольно тяжело: взгляд цепляется за углы, а не скользит вдоль линии. Да и выглядят изломы не очень красиво. Получается, что кроме ломаных нужно уметь строить и кривые. Однако тут нужно быть осторожным, чтобы не получилось вот такого:

Читать дальше →

+65

OsipovRoman 5 мая 2015 в 13:29

Арбелос

15 мин

31K

Блог компании Wolfram ResearchАлгоритмы*Визуализация данных*Занимательные задачкиМатематика*

Туториал

Перевод

Скачать статью в виде документа Mathematica (NB), CDF-файла или PDF.
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.

В этой статье систематически проверяются некоторые свойства фигуры, известной с древних времён, называемой арбелос. Она включает в себя несколько новых открытий и обобщений, представленных автором данной работы.

Введение

Будучи мотивирован вычислительными преимуществами, которыми обладает Mathematica, некоторое время назад я решил приступить к исследованию свойств арбелоса — весьма интересной геометрической фигуры. С тех пор я был впечатлен большим количеством удивительных открытий и вычислительных проблем, которые возникали из-за всё расширяющегося объёма литературы, касающейся этого примечательного объекта. Я вспоминаю его сходство с нижней частью культового велосипеда пенни-фартинг из The Prisoner (телесериал 1960-х), шутовской шапкой Панча (знаменитых Punch and Judy) и символом инь-ян с одной перевёрнутой дугой; см. рис. 1. В настоящее время существует специализированный каталог архимедовых кругов (круги, содержащиеся в арбелосе) [1] и важные применения свойств арбелоса, которые лежат вне поля математики и вычислительных наук [2].

Многие известные исследователи занимались этой темой, в том числе Архимед (убитый римским солдатом в 212 г. до н.э.), Папп (320 г. н.э.), Кристиан О. Мор (1835-1918), Виктор Тебо (1882-1960), Леон Банкофф (1908-1997), Мартин Гарднер (1914-2010). С недавних пор свойствами арбелоса занимаются Клейтон Додж, Питер Ай. Ву, Томас Шох, Хироши Окумура, Масаюки Ватанабе и прочие.

Леон Банкофф — человек, который привлекал всеобщее внимание к арбелосу в последние 30 лет. Шох привлёк внимание Бэнкоффа к арбелосу в 1979 году, открыв несколько новых архимедовых кругов. Он послал 20-страничную рукописную работу Мартину Гарднеру, который направил её Бэнкоффу, который затем отправил 10-страничный фрагмент копии рукописи Доджу в 1996 году. Из-за смерти Бэнкоффа запланированная совместная работа была прервана, пока Додж не сообщил о некоторых новых открытиях [3]. В 1999 году Додж сказал, что ему потребуется от пяти до десяти лет, чтобы отсортировать весь материал, которым он располагает, разложив всё это дело по стопкам. В настоящее время эта работа все ещё продолжается. Не удивительно, что в четвертом томе The Art of Computer Programming, сказано о том, что важная работа требует большого количества времени.

Рис. 1. Велосипед пенни-фартинг, куклы Панч и Джуди, физический арбелос.

Арбелос (“нож сапожника” в греческом языке) назван так из-за своего сходства с лезвием ножа, использующегося сапожниками (Рис. 1). Арбелос — плоская область, ограниченная тремя полуокружностями и общей базовой линией (рис. 2). Архимед, вероятно, был первым, кто начал изучать математические свойства арбелоса. Эти свойства описаны в теоремах с 4-ой по 8-ую его книги Liber assumptorum (или Книги лемм). Возможно, эту работу написал не Архимед. Сомнения появились после перевода с арабского Книги лемм, в которой Архимед упоминается неоднократно, но ничего не сказано о его авторстве (однако, существует мнение, что эта книга — подделка [4]). Книга Лемм так же содержит знаменитую архимедову Problema Bovinum [5].

Эта статья направлена на систематическое изложение некоторых свойств арбелоса и не носит исчерпывающий характер. Наша цель состоит в том, чтобы выработать единую вычислительную методологию для того, чтобы преподнести данные свойства в формате обучающей статьи. Все свойства выстроены в рамках определённой последовательности и представлены с доказательствами. Эти доказательства были реализованы посредством тестирования эквивалентных вычисляемых утверждений. В ходе выполнения данной работы автором было совершено несколько открытий и сделано несколько обобщений.

Читать дальше →

+65

bakhirev 23 окт 2024 в 20:31

Определяем местоположение по коммитам в git

Простой

2 мин

16K

Git*Информационная безопасность*Визуализация данных*Open source*

Вот вам карты «возможного» местоположения разработчиков Telegram и React для затравки.

Telegram Desktop. Всего 205 человек. Из них 3 основные. Из них два (работают с 2014 и 2019) в районе Самара-Кавказ (Армения, Грузия, Азербайджан) и один (работает с 2018) вероятно в Турции.

ReactJS. Всего 1854 человек. Основной состав: 14 работает, 26 уволилось. Примерно 50/50 сидят на восточном и западном побережье США.

+64

pskryuchkov 1 июл 2018 в 08:40

На переднем крае науки: анализ статей arxiv.org

11 мин

26K

Data Mining*Визуализация данных*Физика

Из песочницы

Моя специальность — физика конденсированного состояния. Разумеется, в процессе погружения в нее требуется изучать много научных статей, однако на разбор хотя бы одной может уйти немало времени. На arxiv в разделе cond-mat публикуется более тысячи статей в месяц. Складывается ситуация, когда многие исследователи, особенно начинающие, не обладают целостным видением своей области науки. Описанный в этой статье инструмент резюмирует содержимое базы научных статей и призван ускорить работу с литературой.

Читать дальше →

+64

RBelov 17 авг 2017 в 06:54

BIM: как мы строим строителей на стройке

6 мин

79K

Блог компании КРОКВизуализация данных*Анализ и проектирование систем*

По нашей примерной оценке, основанной на 20-летней практике, на земляных работах можно «потерять» до 50-60 % бюджета. На железобетоне и отделке точно 30 %. На ошибках перезаказа при коллизиях стоимость инженерки увеличивается примерно на 10 %. Именно по этой простой причине, когда «злой заказчик» внедряет BIM-модель здания, со всех сторон начинаются дикие крики и стоны.

BIM-контроль сейчас будет на всех госзаказах по новому нормативу, поэтому крики и стоны будут особенно эпичны.

Вот здесь я вижу трассировку всех систем, могу получить точную смету на каждый узел: и при перемещении или добавлении объекта получу обновления сразу во всех проектных и рабочих документах.

Что такое BIM-модель? Это трёхмерная модель здания, где все системы состыкованы и увязаны в одном едином плане. Поставили розетку в комнате — в общей смете тут же появилась новая розетка и соответствующий метраж кабеля. Погрешность такой модели по материалам — 2 %. На бумаге обычно берут запас 15 %, и излишки этого запаса отчаянно «теряются».

Давайте лучше покажу примеры, чем буду рассказывать.

Читать дальше →

+64

EgorKotkin 27 сен 2014 в 16:17

Глобальное проникновение интернета, где больше всего используют Тор и почему Россия такая бедная: несколько любопытных инфографик о мировой сети

4 мин

95K

Визуализация данных*GitHub*

На сайте Оксфордского института интернета можно найти солидную коллекцию визуализаций данных об интернете, составленную институтом за последние три года.

Для этого поста я выбрал:

— статистику проникновения интернета по странам,
— глобальную статистику использования Тора,
— статистику активности программистов (на основе распределения пользователей и коммитов Гитхаба),
— схему магистральных кабелей интернета,
— статистику запросов и удалений данных в интернете,
— представления пользователей интернета о разных странах.

Читать дальше →

+64

ru_vds 6 мая 2024 в 13:00

Записываем музыку при помощи CSS Grid

Средний

8 мин

7.1K

Блог компании RUVDS.comCSS*HTML*Визуализация данных*Звук

Кейс

Перевод

Слишком часто я наблюдал за тем, как импровизирующий музыкант трясущимися руками пытается увеличить pdf размером A4 на крошечном экране телефона в самом разгаре исполнения. Мы обязаны создать плавный и отзывчивый рендеринг музыки для веба!

В вебе нотная запись должна быть столь же доступной и плавной, как текст; однако пока это не так, и это уязвляет мои чувства. Давайте решим эту актуальную проблему.

Прототип Scribe

SVG, отрендеренный Scribe 0.2

Несколько лет назад я создал прототип рендерера музыки, который назвал Scribe. Он выполняет преобразование JSON в SVG. Изначально я стремился к созданию адаптивного рендерера музыки. Это было хорошее демо, но для дальнейшего развития пришлось бы писать сложный многопроходный движок генерации макетов, а у меня тогда возникли другие дела.

Вскоре после этого я занялся адаптированием Grid под проекты компании, и тут мне почудилось нечто знакомое: я задался вопросом, а не станет ли он решением некоторых проблем, с которыми я столкнулся при разработке Scribe?

Читать дальше →

+63

pagin 16 авг 2018 в 11:07

Почему хватит считать нейронные сети черным ящиком?

3 мин

29K

Python*Визуализация данных*Искусственный интеллектМашинное обучение*

Из песочницы

Если вы достаточно долго увлекаетесь нейросетевыми технологиями, то наверняка встречались с мнением, кратко заключенным в риторическом вопросе: «Как ты объяснишь человеку, когда нейросеть считает, что у него рак?». И если в лучшем случае такие мысли заставят тебя сомневаться в использовании нейросетей в достаточно ответственных сферах, то в худшем случае ты можешь и потерять весь свой интерес.

Читать дальше →

+63

iggisv9t 19 фев 2018 в 11:18

Визуализация данных для киноманов: скрапим рекомендации фильмов и делаем интерактивный граф

11 мин

30K

Блог компании Open Data ScienceМашинное обучение*Визуализация данных*Python*Data Mining*

Туториал

Однажды я наткнулся на интерактивную карту lastfm и решил обязательно сделать подобный проект для фильмов. Под катом история о том, как собрать данные, построить граф и создать своё интерактивное демо на примере данных с кинопоиска и imdb. Мы рассмотрим фреймворк для скрапинга Scrapy, пробежимся по методам визуализации больших графов и разберёмся с инструментами для интерактивного отображения больших графов в браузере.

Читать дальше →

+63

S0mbre 18 апр 2022 в 04:52

«Тюрьма народов»: сколько, кто и за что сидит в США, России и Европе

32 мин

62K

Python*Открытые данные*Визуализация данных*

Результат исследования данных из открытых источников по тюрьмам США, России и Европы. Статья расскажет вам о численности тюрем, заключённых, их распределению по возрасту, полу, совершённым преступлениям и о многом-многом другом... Каков процент наполнения тюрем в России и США? Каков уровень рецидивизма? За что сидит большинство заключённых? Сколько приходится заключённых на одного охранника? Сколько тратит правительство на уголовную систему?

Узнать ответы

+62

cointegrated 8 янв 2018 в 12:54

Как я парсил Хабр, часть 1: тренды

6 мин

23K

Python*Веб-аналитика*Визуализация данных*Исследования и прогнозы в IT*

Когда был доеден новогодний оливье, мне стало нечего делать, и я решил скачать себе на компьютер все статьи с Хабрахабра (и смежных платформ) и поисследовать.

Получилось несколько интересных сюжетов. Первый из них — это развитие формата и тематики статей за 12 лет существования сайта. Например, достаточно показательна динамика некоторых тем. Продолжение — под катом.

Читать дальше →

+62

1 2 3 4

6 7 ...

86 87

Визуализация данных *

Охота на недостающий тип данных

Плагин «Rainbow CSV» как альтернатива Excel

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

Майндмэпы в учебе

Профилирование Python — почему и где тормозит ваш код

Дизайн города, основанный на данных. Лекция в Яндексе

Руководство по FFmpeg libav

Оглавление

Объясняем код с помощью ASCII-арта

Табы, пробелы и ваша зарплата — какая связь?

Интерполяция данных: соединяем точки так, чтобы было красиво

Арбелос

Введение

Определяем местоположение по коммитам в git

На переднем крае науки: анализ статей arxiv.org

Ближайшие события

BIM: как мы строим строителей на стройке

Глобальное проникновение интернета, где больше всего используют Тор и почему Россия такая бедная: несколько любопытных инфографик о мировой сети

Записываем музыку при помощи CSS Grid

Прототип Scribe

Почему хватит считать нейронные сети черным ящиком?

Визуализация данных для киноманов: скрапим рекомендации фильмов и делаем интерактивный граф

«Тюрьма народов»: сколько, кто и за что сидит в США, России и Европе

Как я парсил Хабр, часть 1: тренды

Вклад авторов