Обновить
48.57

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Визуализация зависимостей и наследований между моделями машинного обучения

Время на прочтение3 мин
Охват и читатели6.8K


Несколько месяцев назад я столкнулся с проблемой, моя модель построенная на алгоритмах машинного обучения просто на просто не работала. Я долго думал над тем, как решить эту проблему и в какой-то момент осознал что мои знания очень ограничены, а идеи скудны. Я знаю пару десятков моделей, и это очень малая часть тех работ которые могут быть очень полезны.

Первая мысль которая пришла в голову это то что, если я буду знать и пойму больше моделей, мои качества как исследователя и инженера в целом, возрастут. Эта идея подтолкнула меня к изучению статей с последних конференций по машинному обучению. Структурировать такую информацию довольно сложно, и необходимо записывать зависимости и связи между методами. Я не хотел представлять зависимости в виде таблицы или списка, а хотелось что-то более естественное. В итоге, я понял что иметь для себя трехмерный граф с ребрами между моделями и их компонентами, выглядит довольно интересно.

Например, архитектурно GAN [1] состоит из генератора (GEN) и дискриминатора (DIS), Состязательный Автокодировщик (AAE) [2] состоит из Автокодировщика (AE) [3] и DIS,. Каждый компонент является отдельной вершиной в данном графе, поэтому для AAE у нас будет ребро с AE и DIS.

Шаг за шагом, я анализировал статьи, выписывал из каких методов они состоят, в какой предметной области они применяются, на каких данных они тестировались, и так далее. В процессе работы я понял сколько очень интересных решений остаются неизвестными, и не находят своего применения.
Читать дальше →

Web scraping с помощью R. Сравнение оценок фильмов на сайтах Кинопоиск и IMDB

Время на прочтение6 мин
Охват и читатели11K

image


Всемирная паутина — это океан данных. Здесь можно посмотреть практически любую интересующую Вас информацию. Однако, "вытащить" эту информацию из интернета уже сложнее. Есть несколько способов получить данные и web-scraping один из них.

Читать дальше →

Сравнительный обзор портативных СВЧ приборов Arinst vs Anritsu

Время на прочтение19 мин
Охват и читатели33K
image

На независимый тест-обзор поступила пара приборов российского разработчика «Kroks». Это довольно миниатюрные радиочастотные измерители, а именно: анализатор спектра со встроенным генератором сигналов, и векторный анализатор цепей (рефлектометр). Оба устройства по верхней частоте имеют диапазон до 6,2 ГГц.

Появился интерес понять, это очередные карманные «показометры» (игрушки), или действительно достойные внимания приборы, потому как производитель их позиционирует: -«Прибор предназначен для радиолюбительского применения, так как не является профессиональным средством измерения.»

Вниманию читателей! Данные тесты проводились любительские, ни в коей мере не претендующие на метрологические исследования средств измерений, на основании стандартов государственного реестра и всего прочего с этим связанного. Радиолюбителям интересно посмотреть на сравнительные измерения часто применяемых на практике устройств (антенны, фильтры, аттенюаторы), а не теоретические «абстракции», как это принято в метрологии, например: рассогласованные нагрузки, неоднородные линии передачи, или отрезки короткозамкнутых линий, в данном тесте не применялись.
Читать дальше →

Увидеть почти невидимое, еще и в цвете: методика визуализации объектов через рассеиватель

Время на прочтение9 мин
Охват и читатели7.9K


Одной из самых знаменитых способностей Супермена является суперзрение, которое позволяло ему рассматривать атомы, видеть в темноте и на огромное расстояние, а еще видеть сквозь предметы. Эту способность крайне редко демонстрируют на экранах, но она есть. В нашей же реальности видеть сквозь практически полностью непрозрачные объекты также можно, применив некоторые научные трюки. Однако, полученные снимки всегда были черно-белые, до недавнего времени. Сегодня мы познакомимся с исследованием, в котором ученые из университета Дьюка (США) смогли сделать цветной снимок объектов, спрятанных за непрозрачной стеной, применив однократное световое воздействие. Что это за супер-технология, как она работает и в каких областях может применяться? Об этом нам расскажет доклад исследовательской группы. Поехали.

Визуализация сна первого года ребенка на узорах одеяла

Время на прочтение3 мин
Охват и читатели27K


Отец-айтишник визуализировал данные о сне и бодрствовании первого года жизни своего сына. Сделал это своими руками — программно обработал данные и связал одеялко, которое показывает активность его малыша за год.
Читать дальше →

Отладка алгоритмов на графах — теперь с картинками

Время на прочтение11 мин
Охват и читатели11K
Представим типичную ситуацию на первом курсе: вы прочитали про алгоритм Диница, реализовали, а он не заработал, и вы не знаете, почему. Стандартное решение — это начать отлаживать по шагам, каждый раз рисуя текущее состояние графа на листочке, но это жутко неудобно. Я попробовала исправить положение в рамках семестрового проекта по Software Engineering, а в посте расскажу, как у меня в итоге получился плагин для Visual Studio. Скачать можно тут, исходный код и документацию можно посмотреть тут. Вот скриншот графа, который получился для алгоритма Диница.

Читать дальше →

JsonDiscovery: Меняем опыт просмотра JSON в браузере

Время на прочтение3 мин
Охват и читатели36K

Сегодня я хочу рассказать о JsonDiscovery, браузерном расширении для просмотра JSON. Возможно вы скажете: «у нас и так полно подобных расширений!». Да, полно, но фичи JsonDiscovery отличают его от других и делают его действительно мощным.


Давайте же взглянем поближе...


Семь раз отмерь, один раз внедри BI инструмент

Время на прочтение11 мин
Охват и читатели30K
Не так давно я столкнулся с задачей по переходу на новую BI-систему для нашей компании. Поскольку мне пришлось погрузиться довольно глубоко и основательно в данный вопрос, я решил поделиться с уважаемым сообществом своими мыслями на этот счет.

image
На просторах интернета есть немало статей на эту тему, но, к моему большому удивлению, они не ответили на многие мои вопросы по выбору нужного инструмента и были несколько поверхностны. В рамках 3 недель тестирования мы опробовали 4 инструмента: Tableau, Looker, Periscope/Sisense, Mode analytics. Про эти инструменты в основном и пойдет речь в данной статье. Сразу оговорюсь, что предложенная статья — это личное мнение автора, отражающее потребности небольшой, но очень быстро растущей IT-компании :)

Несколько слов о рынке


Сейчас на рынке BI происходят довольно интересные изменения, идёт консолидация, крупные игроки облачных технологий пытаются укрепить свои позиции путем вертикальной интеграции всех аспектов работы с данными (хранение данных, обработка, визуализация). За последние несколько месяцев произошло 5 крупных поглощений: Google купил Looker, Salesforce купил Tableau, Sisense купил Periscope Data, Logi Analytics' купил Zoomdata, Alteryx купил ClearStory Data. Не будем дальше погружаться в корпоративный мир слияний и поглощений, стоит лишь отметить, что можно ожидать дальнейших изменений как в ценовой, так и в протекционистской политике новых обладателей BI-инструментов (как недавно нас обрадовал инструмент Alooma, вскоре после покупки их компанией Google, они перестают поддерживать все источники данных, кроме Google BigQuery :) ).
Читать дальше →

SVG индикатор загрузки на Vue.js

Время на прочтение12 мин
Охват и читатели12K

Привет! Учусь на front-end, и параллельно, в учебном проекте, разрабатываю SPA на Vue.js для back-end, который собирает данные от поискового бота. Бот нарабатывает от 0 до 500 записей, и я должен их: загрузить, отсортировать по заданным критериям, показать в таблице.


Ни back-end ни бот, сортировать данные не умеют, поэтому мне приходятся загружать все данные и обрабатывать их на стороне браузера. Сортировка происходит очень быстро, а вот скорость загрузки, зависит о коннекта, и указанные 500 записей могут загружаться от 10 до 40 секунд.


Поначалу, при загрузке, я показывал спинер, недостаток которого — пользователь не знает когда закончится загрузка. В моём случае заранее известно количество записей которые отыскал бот, поэтому можно показать сколько % записей загружено.


Чтобы скрасить пользователю ожидание, я решил показать ему процесс загрузки:


  1. цифрами — сколько % записей уже загружено
  2. графиком — время загрузки каждой записи
  3. заполнением — % загрузки. Так как график по мере загрузки заполняет прямоугольный блок, видно, какую часть блока осталось заполнить

Вот анимация результата, к которому я стремился и получил:



… по-моему, получилось забавно.


В статье я покажу как продвигался к результату шаг за шагом. Графики функций в браузере я до селе не рисовал, поэтому разработка индикатора принесла мне простые, но новые знания о применении SVG и Vue.


Есть ли что-то общее у разных песен-хитов?

Время на прочтение5 мин
Охват и читатели16K
image

Если выполнить вход на Spotify.me, то можно получить персонализированную сводку того, как Spotify понимает вас через музыку, которую вы слушаете на этом сайте Spotify. Это круто!

Я слушаю много музыки и люблю работать с данными, поэтому это вдохновило меня на попытку анализа моей коллекции музыки.

Мне было очень любопытно, существуют ли какие-то конкретные ингредиенты, из которых составлены хитовые песни. Что делает их крутыми? Почему нам нравятся хиты, и есть ли у них определённая «ДНК»?

Задача


Это привело меня к попытке ответить при помощи данных Spotify на два вопроса:

  1. На что похож мой музыкальный плейлист?
  2. Существуют ли конкретные атрибуты аудио, общие для всех хитовых композиций?

Инструменты


К счастью, есть очень простые инструменты, позволяющие подключиться к Spotify, получить данные, а затем визуализировать их.

Мы будем работать с языком программирования Python 3, библиотекой Python Spotipy, позволяющую подключаться к Spotify Web API, а визуализировать данные будем с помощью plot.ly и Seaborn.

Массив данных


В конце каждого кода Spotify компилирует плейлист из 100 самых часто воспроизводимых песен. Использованный мной массив данных уже выложен на Kaggle: Top Spotify Tracks of 2018. Список 100 самых популярных песен со Spotify кажется вполне разумным массивом данных для изучения хитов, не правда ли?
Читать дальше →

Представьте себе ваши данные перед тем, как вы их соберете

Время на прочтение4 мин
Охват и читатели3.2K


Перевод подготовлен для студентов курса «Прикладная аналитика на R».




Нам, как исследователям данных (data scientist), часто дают набор данных и просят использовать его для получения информации. Мы используем R для обработки, визуализации, моделирования, подготовки таблиц и графиков, чтобы поделиться результатами или опубликовать их. Если мы смотрим на данные таким образом, то нам не важно откуда эти данные пришли. Размер выборки, набор признаков и их шкалы фиксированы. Тем не менее, процедуры, используемые для сбора или генерирования данных, чрезвычайно важны для будущего анализа, а также для качества информации, которую мы, в конечном итоге, можем получить. Процесс сбора данных влияет на то, как следует анализировать полученные данные. Для исследований, которые измеряют причинно-следственные связи, важно какие данные следует брать во внимание, а какие нет.

Читать дальше →

Как купить авиабилет максимально дешево или ударим мониторингом по динамическому ценообразованию

Время на прочтение3 мин
Охват и читатели107K
image

Как максимально выгодно купить авиабилет?

Любой более-менее продвинутый пользователь Сети знает такие варианты как

  • покупать заранее
  • искать маршруты с пересадкой
  • hidden-city ticketing
  • мониторить чартерные рейсы
  • искать в режиме инкогнито браузера
  • использовать мильные карты авиакомпаний, всяческие бонусы и промо-коды

Полный список лайфхаков как-то делал Тинькофф-Журнал, не буду повторяться

А теперь ответьте на вопрос — как часто вы попадали в ситуации когда покупали авиабилет, а потом он стал стоить дешевле?
Читать дальше →

Метод мониторинга актуального состояния российских автодорог смартфонами пользователей

Время на прочтение4 мин
Охват и читатели9.8K
Целью одной из федеральных программ, направленных на реализацию Указа Президента «О национальных целях и стратегических задачах развития Российской Федерации на период до 2024 года» № 204 от 7 мая 2018 года (ссылка) является улучшение качества автомобильных дорог за счет увеличения процентного соотношения, соответствующего нормативным требованиям.

Тем же указом предусмотрено внедрение общедоступной информационной системы контроля за формированием и использованием средств дорожных фондов всех уровней.

Однако объективный контроль качества проведения мероприятий по строительству или ремонту дорог бывает затруднителен в силу ряда причин, начиная от небезызвестных проблем а-ля коррупция в строительстве (ссылка), и заканчивая естественными причинами трудоемкости организации такого процесса с использованием существующих методов — с помощью рейки и клин-промерника, дорожного профилометра или толчкомера, методом амплитуд и т.д. (затраты на проведение измерений качества автомобильных дорог, необходимость выезда на место, ограниченные человеческие и технические ресурсы).

Специалистами принимаются меры для упрощения процесса диагностики ровности дорог (ссылка), однако все равно возможности масштабного исследования их качества крайне ограничены.

Существующие проекты типа «Автострада» (autostrada.info), «Дорожная инспекция ОНФ» (dorogi-onf.ru) ведут наполнение своей базы качества автодорог в основном за счет обратной связи от пользователей, присылающих фотографии или отзывы только об отдельных участках автодорог.

Впрочем, одним из выходов контроля качества дорожного покрытия, равно как и отслеживания его изменения как в лучшую, так и в худшую сторону, является агрегация уже существующих аналитических инструментов.
Читать дальше →

Ближайшие события

Построение анимационного линейного графика скользящего среднего в R. Получение данных через NBA API

Время на прочтение10 мин
Охват и читатели2.4K

Продолжим анализировать баскетбольные данные с помощью R.


В отличие от прошлой статьи, носившей исключительно развлекательный характер, графики, которые будут построены в данной заметке, могут быть интересны с точки зрения анализа игры команды походу сезона.


А строить мы будем графики скользящего среднего для трёх видов рейтинга команд НБА: атакующего, оборонительного и net-рейтинга (т.е. разницы между первыми двумя). В двух словах о них. Атакующий и оборонительный рейтинги — это количество очков, набранных/пропущенных командой за 100 владений. NET рейтинг — это их разница также на сто владений. Кому интересно узнать о них более подробно, могут прочитать глоссарий на сайте basketball-reference. Там есть формула расчёта, которую я тоже реализовал с помощью R, но так пока и не опубликовал статью об этом.

Читать дальше →

Luxor

Время на прочтение13 мин
Охват и читатели7.9K

Сегодня мы рассмотрим графический пакет для языка Julia, который называется Luxor. Это один из тех инструментов, которые превращают процесс создания векторных изображений в решение логических задачек с сопутствующей бурей эмоций.


Осторожно! Под катом 8.5 Мб легковесных картинок и гифок изображающих психоделические яйца и четырехмерные объекты, просмотр которых может вызвать лёгкое помутнение рассудка!

Читать дальше →

5 слайдов, которые игнорируют опытные презентующие

Время на прочтение8 мин
Охват и читатели9.6K
Громкий бренд или имя спикера с высокой должностью помогают заполнить конференц-залы. Люди тянутся к “звездам”, чтобы быть в тренде и узнать об их ошибках и победах. Только вот в конце выступлений участники ставят таким спикерам далеко не самые высокие оценки.
В студии создания презентаций и инфографики VisualMethod выяснили у предпринимателей и корпоративных сотрудников, что больше всего их разочаровало в докладах на конференциях. Оказалось, когда опытные спикеры игнорируют организационные слайды и переходят сразу к описанию процесса или кейса, теряется доверие. Некоторые опрошенные даже назвали такое поведение спикеров высокомерным (“не представился вообще”) и невнимательным (“в теме одно, а на словах другое”). Подробно рассказываем о том, о каких слайдах важно помнить.

image
Читать дальше →

Как студенты из Перми попали в финал международного чемпионата по анализу данных Data Mining Cup 2019

Время на прочтение5 мин
Охват и читатели3.8K
Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.

image
Читать дальше →

Метрики DevOps – откуда брать данные для расчетов

Время на прочтение3 мин
Охват и читатели5.1K
Честно говоря, Иван часто посмеивался над тщетными усилиями коллег из отдела мониторинга. Они прилагали огромные усилия для реализации метрик, которые им заказывало руководство компании. Они были настолько заняты, что больше никому ничего не хотели делать.

А руководству всё было мало – оно постоянно заказывало всё новые и новые метрики, очень быстро переставая пользоваться тем, что были сделаны ранее.

Последнее время все только и говорили про LeadTime – время поставки бизнесовых фич. Метрика показала сумасшедшее число – 200 дней на поставку одной задачи. Как же все охали, ахали и воздевали руки к небу!

Через некоторое время шум постепенно затих и от руководства поступил заказ на создание еще одной метрики.

Ивану было совершенно понятно, что и новая метрика точно также тихонько помрёт в тёмном уголке.

Действительно, размышлял Иван, знание числа совершенно никому ни о чём не говорит. 200 дней или 2 дня – нет никакой разницы, потому что по числу невозможно определить причину и понять, хорошо это или плохо.

Это типичная ловушка метрик: кажется, что новая метрика расскажет суть бытия и объяснит какой-то тайный секрет. Все так на это надеются, но ничего почему-то не происходит. Да потому что секрет надо искать вовсе не в метриках!

Для Ивана это был пройденный этап. Он понимал, что метрики – это просто обычная деревянная линейка для измерений, а все секреты надо искать в объекте влияния, т.е. в том, что эту метрику формирует.

Для интернет-магазина объектом влияния будут его клиенты, приносящие деньги, а для DevOps – команды, создающие и раскатывающие дистрибутивы с использованием конвейера.

Однажды, устроившись в холле в удобном кресле Иван решил как следует продумать как бы он хотел видеть метрики DevOps с учётом того, что объектом влияния являются команды.

Цель метрик DevOps


Понятно, что всем хочется уменьшить время поставки. 200 дней – это, конечно, никуда не годится.

Но как, вот в чем вопрос?
Читать дальше →

Визуализация количества побед у команд НБА с помощью анимационных столбиковых диаграмм в R

Время на прочтение11 мин
Охват и читатели3.2K

Для начала небольшая вводная информация. Меня зовут Владислав и моё знакомство с R состоялось в августе прошлого года. Изучать язык программирования я решил по причине прикладного характера. Мне с детства нравилось вести спортивную статистику. С возрастом это увлечение трансформировалось в желание как-то анализировать эти цифры и на основе анализа данных выдавать, по возможности, умные мысли. Проблема в том, что спорт в последние годы захлестнула волна данных, десятки компаний соревнуются между собой, пытаясь посчитать, описать и запихнуть в нейронку любое действие футболиста, баскетболиста, бейсболиста на площадке. И Excel для анализа не подходит категорически. Так что я решил изучать R, чтобы простейший анализ не занимал полдня. Уже в ходе изучения добавился интерес к программированию как таковому, но это уже лирика.

Читать дальше →

Шум в больших данных. Анализ на основе энтропии информации

Время на прочтение4 мин
Охват и читатели9.2K
Попалась задача под названием «Квартет Энскомба (Анскомба)» (англ.версия).

На рисунке 1 представлено табличное распределение 4 случайных функций (взято из Википедии).

image
Рис. 1. Табличное распределение четырех случайных функций

На рисунке 2 представлены параметры распределения этих случайных функций

image
Рис. 2. Параметры распределений четырех случайных функций

И их графики на рисунке 3.

image
Рис. 3. Графики четырех случайных функций

Проблема различения этих функций решается достаточно просто, путем сопоставления моментов высших порядков и их нормированных показателей: коэффициента асимметрии и коэффициента эксцесса. Данные показатели представлены на рисунке 4.
Читать дальше →