Обновить
58.67

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Объясняем код с помощью ASCII-арта

Время на прочтение2 мин
Охват и читатели21K
Примечание от переводчика: типично пятничная статья во вторник утром… почему бы и нет?



Большинство людей — визуалы. Они используют изображения, чтобы вникнуть в суть проблемы. А вот мэйнстримные языки программирования, напротив, основаны на текстовом представлении. Возникающую пропасть между текстом и графикой заполняют ASCII-изображения, нарисованные с помощью текстовых символов и вставленные в исходный код программы. Я их обожаю! Как-то раз я кинул клич в Twitter и мне прислали гораздо больше примеров, чем я ожидал. Спасибо всем участвовавшим. В этой теме попалось несколько прекрасных примеров, которые я собрал и разложил на категории. Для каждого изображения дается ссылка на соответствующий репозиторий.
Читать дальше →

Использование точечных диаграмм для визуализации данных

Время на прочтение4 мин
Охват и читатели21K
Привет, Хабр! Представляю вашему вниманию перевод статьи «Everything you need to know about Scatter Plots for Data Visualisation» автора George Seif.

Если вы занимаетесь анализом и визуализацией данных, то скорее Вам придется столкнуться с точечными диаграммами. Несмотря на свою простоту, точечные диаграммы являются мощным инструментом для визуализации данных. Манипулируя цветами, размерами и формами можно обеспечить гибкость и репрезентативность точечных диаграмм.

В этой статье вы узнаете практически все, что вам необходимо знать о визуализации данных используя точечные диаграммы. Мы постараемся разобрать все необходимые параметры в их использовании в коде python. Также вы можете найти несколько практических уловок.
Читать дальше →

Визуализация дерева приматов

Время на прочтение4 мин
Охват и читатели10K

Визуализация дерева приматов


Станислав Дробышевский в начале года опубликовал подробное дерево происхождения приматов. Версия в ПДФ


Комментаторы во «Вконтакте» просили интерактивную версию (1, 2, 3, 4), потому что её удобнее изучать и проще обновлять при появлении новых данных.


Мы с Олей Моховой решили помочь палеоприматологии и сделали прототип на d3js.

Читать дальше →

Julia. Генераторы отчётов и документации

Время на прочтение13 мин
Охват и читатели12K


Одной из актуальных проблем во все времена, является проблема подготовки отчётов. Поскольку Julia — язык, пользователи которого непосредственно связаны с задачами анализа данных, подготовки статей и красивых презентаций с результатами расчётов и отчётов, то эту тему просто нельзя обойти мимо.


Изначально эта статья планировалась набор рецептов для генерации отчётов, однако рядом с отчётами находится тема документирования, с которой у генераторов отчётов много пересечений. Поэтому сюда включены средства по критерию возможности внедрения выполняемого кода на Julia в шаблон с некоторой разметкой. Наконец, отметим, что в обзор вошли генераторы отчётов как реализованные на самой Julia, так и средства, написанные на других языках программирования. Ну и, естественно, не остались без внимания некоторые ключевые моменты самого языка Julia, без которых может быть не ясно, в каких случаях и какие средства стоит использовать.

Читать дальше →

Нужен ли вашей команде Data Engineer?

Время на прочтение13 мин
Охват и читатели10K

image


Мы часто находим классные англоязычные статьи, которые кажутся полезными нашей команде, и решили, что было бы здорово делиться с читателями Хабры их переводом. Сегодня мы подготовили перевод статьи Тристана Хэнди, основателя компании Fishtown Analytics.

Читать дальше →

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению

Время на прочтение6 мин
Охват и читатели37K

(с)

Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.

Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.
Читать дальше →

Объёмный рендеринг в WebGL

Время на прочтение8 мин
Охват и читатели5.5K

Рисунок 1. Пример объёмных рендеров, выполненных описанным в посте рендерером WebGL. Слева: симуляция пространственного распределения вероятностей электронов в высокопотенциальной молекуле белка. Справа: томограмма дерева бонсай. Оба набора данных взяты из репозитория Open SciVis Datasets.

В научной визуализации объёмный рендеринг широко используется для визуализации трёхмерных скалярных полей. Эти скалярные поля часто являются однородными сетками значений, представляющими, например, плотность заряда вокруг молекулы, скан МРИ или КТ, поток огибающего самолёт воздуха, и т.д. Объёмный рендеринг — это концептуально простой метод превращения таких данных в изображения: сэмплируя данные вдоль пущенных из глаза лучей, и назначив каждому сэмплу цвет и прозрачность, мы можем создавать полезные и красивые изображения таких скалярных полей (см. Рисунок 1). В GPU-рендерере такие трёхмерные скалярные поля хранятся как 3D-текстуры; однако в WebGL1 3D-текстуры не поддерживаются, поэтому для их эмуляции в объёмном рендеринге требуются дополнительные хаки. Недавно в WebGL2 появилась поддержка 3D-текстур, позволяющая реализовать браузере элегантный и быстрый объёмный рендерер. В этом посте мы обсудим математические основы объёмного рендеринга и расскажем о том, как реализовать его на WebGL2, чтобы создать интерактивный объёмный рендерер, полностью работающий в браузере! Прежде чем начать, вы можете протестировать описанный в этом посте объёмный рендерер онлайн.
Читать дальше →

Жуки атакуют

Время на прочтение6 мин
Охват и читатели16K
Я уже делал на Хабре пост про поражения сибирских лесов опасным вредителем — уссурийским полиграфом. Этот чрезвычайно плодовитый и опасный жук способен за короткое время уничтожить огромные площади пихтовых лесов и, к сожалению, это получается у него куда лучше, нежели усилия людей по борьбе с опасным насекомым. Основной проблемой мониторинга лесов в зоне поражения жуком является нехватка специалистов и современных методик быстрого и точного анализа состояния пораженного леса. Однако, некоторые позитивные моменты всё же есть. На схватку с опасным вредителем выходят беспилотные летательные аппараты. БПЛА. Вернее сказать вылетают…
Читать дальше →

Анализ трендов российского YouTube за 2018 год

Время на прочтение5 мин
Охват и читатели16K

Старожилы, наверное, и не вспомнят, но в конце 2017-го года в обсуждениях в интернете была распространена мысль о том, что в трендах YouTube часто встречаются «накрученные» видео.


Поэтому накануне нового 2018-го года я написал утилиту для сбора информации о видео, которые попали в тренды. Для каждого видео запрашивается название, список тегов, дата создания, а так же ведется история изменений лаков/дизлайков/просмотров. Разработку вел на TypeScript для NodeJS, сам код выложен на GitHub.


Как итог, сейчас есть возможность строить красивые графики:
График изменения количества лайков и дизлайков


Так же есть возможность строить графики изменения трендов по ключевым словам. Всего за 2018-й год была собрана информация по 29271 видео. Сбор статистики ведется и сейчас.


Читать дальше →

Комплексный подход к визуализации событий безопасности и измерению её эффективности

Время на прочтение35 мин
Охват и читатели8.4K
Привет, Хабр! Представляем вашему вниманию перевод статьи "A Full-Scale Security Visualization Effectiveness Measurement and Presentation Approach".


От автора перевода

Визуализация оказывает неоценимую помощь экспертам в получении выводов и знаний об объекте исследований, особенно, если такие исследования связаны с обработкой большого объёма данных. При этом, выбор способов визуализации, как правило, носит творческий характер и не является обоснованным выбором на основании каких-либо количественных оценок. В статье предпринята попытка получения количественных оценок визуализации.

Кроме того, необходимо отметить, что вопросам исследования визуализации в русскоязычных источниках уделяется мало внимания. Исследования, описанные в статье, находятся на стыке нескольких областей знаний: безопасность информации, психологии, науки о данных, что позволяет читателю познакомиться с ранее неизвестными для него темами. Также интерес представляет обширная библиография по теме изучения визуализации.

Основные термины, используемые в тексте статьи, отмечены курсивном и для них в скобках указано значение иностранного термина. Определения таких терминов приведены после текста статьи.

Читать дальше →

Как Иван метрики DevOps делал. Объект влияния

Время на прочтение3 мин
Охват и читатели2.9K
Прошла неделя с тех пор как Иван в первый раз задумался над метриками DevOps и понял, что управлять с их помощью надо временем поставки продукта (Time-To-Market).

Даже на выходных он думал про метрики: «Ну и что, что я измерю время? Что оно мне даст?»

Действительно, что даст знание времени? Допустим, поставка занимает 5 дней. И что дальше? Это хорошо или плохо? Даже если это плохо, то нужно же как-то уменьшать это время. Но как?
Эти мысли не давали ему покоя, но решение не приходило.

Иван понимал, что подошёл к самой сути. Бесчисленные графики метрик, виденные им до этого, давно убедили его, что стандартный подход не сработает, и что если просто построить график (пусть даже когортный), толку от него будет ноль.

Как же быть?..
Читать дальше →

Дизайнаука

Время на прочтение13 мин
Охват и читатели17K
«Каждый ученый, безусловно, несет часть профессиональной ответственности за пропаганду общественного понимания науки»

Привлечение дизайна к науке


Дизайн может принести больше пользы науке, чем наука дизайну

image

Упражнение на подготовительном курсе в Ульмской школе дизайна. 1958-59

У дизайна и науки непростые отношения. Или, если говорить точнее, у дизайна непростые отношения с наукой. У науки, с другой стороны, почти нет никаких отношений с дизайном, и она обычно не обращает никакого внимания на волнения и беспокойства в мире дизайна.

Исторически, дизайн практически никак не был связан с наукой. Как легко можно понять по названию, декоративно-прикладное искусство, являющееся одной из основ современного дизайна, было ближе к искусству как таковому нежели к науке. Дизайнеры и художники часто обучаются на одном факультете в университете и мыслят почти одинаково. На протяжении XX века искусство вдохновляло дизайн, а иногда и наоборот. Для многих дизайн был прежде всего стремлением к элегантной и выразительной эстетике продуктов и предметов, которые окружают нас в нашей повседневной жизни.

Поэтому исторически дизайн намного ближе к изобразительному искусству, чем к науке. Но все не так просто.

Анализ результатов 2018 Kaggle ML & DS Survey

Время на прочтение8 мин
Охват и читатели10K


Kaggle — известная платформа для проведения соревнований по машинному обучению на которой количество зарегистрированных пользователей перевалило за 2.5 миллиона. В соревнованиях участвуют тысячи data scientist из разных стран, и Kaggle стал интересоваться тем, что из себя представляет аудитория. В октябре 2018 года был организован уже второй опрос и на него ответило 23859 людей из 147 стран.


В опросе было несколько десятков вопросов на самые разные темы: пол и возраст, образование и сфера работы, опыт и навыки, используемые языки программирования и софт и многое другое.


Но Kaggle — не просто площадка для соревнований, там также можно публиковать исследования данных или решения соревнований (они называются кернелы и похожи на Jupyter Notebook), поэтому датасет с результатами опроса был выложен в открытый доступ, и было организовано соревнование на лучшее исследование этих данных. Я тоже принимал участие и пусть денежный приз не получил, но мой кернел занял шестое место по количеству голосов. Я хотел бы поделиться результатами моего анализа.


Данных довольно много и их можно рассматривать с разных сторон. Меня заинтересовали различия между людьми из разных стран, поэтому большая часть исследования будет сравнивать людей из России (поскольку мы тут живём), Америки (как самая продвинутая страна в плане DS), Индии (как бедная страна с большим количеством DS) и других стран.


Большая часть графиков и анализа взята из моего кернела (желающие могут там увидеть код на Python) но есть и новые идеи.

Читать дальше →

Ближайшие события

Как Иван метрики DevOps делал. Начало

Время на прочтение4 мин
Охват и читатели5K
Однажды Ивана позвали на совещание, чтобы обсудить метрики DevOps.

Каждый участник подготовил к встрече перечень неких метрики, которые на его взгляд, стоило бы реализовать.

Слушая доклады Иван попытался подсчитать сколько метрик было предложено: 5,10, опять 10, и еще около десятка. Получилось 30 с чем-то.

Почему-то неожиданно пришла мысль о том, что собравшиеся люди просто погуглили и выписали те, названия которые показались им интересными. О сути метрик, судя по всему, никто не думал.

Наблюдая со стороны Иван задавал себе вопросы: зачем? Почему именно эти метрики? Что они вам дадут? Стало вдруг очевидно, что на совещании собрались люди, совершенно далекие от реального понимания природы метрик, и что всё закончится как обычно, потерей огромного количества времени и выбрасыванием наработок в мусор.

Стало грустно и обидно. Обидно за то, что время и деньги компании просто уходят в никуда, и грустно от того, что полезное дело так и не будет сделано.

Иван уже длительное время изучал метрики и давно понял, что тема это очень серьезная и сложная, и подходить к ней с бухты-барахты нельзя ни в коем случае.

В тот день совещание закончилось всем и ничем – решили реализовать всё разом (никто не хотел брать на себя ответственность отказа, т.к. не понимал зачем эти метрики нужны другому человеку).

Иван решил подготовить своё видение метрик DevOps, причём сделать так, чтобы каждая метрика была в нём обоснована, имела конкретную цель, несла пользу и была понятна.
Вот, что у него получилось…
Читать дальше →

Вия, Уая, Вая, Вайя – “трудности перевода”, или что скрывается за новой платформой SAS Viya (Вайя)

Время на прочтение12 мин
Охват и читатели7.4K


   В сети можно найти огромное количество разнообразных статей о методах использования алгоритмов математической статистики, о нейронных сетях и в целом о пользе машинного обучения. Данные направления способствуют существенному улучшению жизни человека и светлому будущему роботов. Например, заводы нового поколения, способные работать полностью или частично без вмешательства человека или машины с автопилотом.

  Разработчики объединяют комбинации этих подходов и методов машинного обучения в различные направления. Эти направления впоследствии получают названия, оригинальные и не очень, например: IOT (Internet Of Things), WOT (Web Of Things), Индустрия 4.0 (Industry 4.0), Artificial Intelligence (AI) и другие. Данные концепции объединяет то, что их описание является верхнеуровневым, то есть не рассматриваются ни конкретные инструменты и технологии, ни уже готовые к внедрению системы, а основной целью является визуализация желаемого результата. Но технологии уже существуют, хотя часто не имеют единой платформы.

Читать дальше →

Все, что вы не знали о новом SOLIDWORKS 2019 и не успели спросить

Время на прочтение5 мин
Охват и читатели40K
Все, кто следит за новостями рынка САПР, знают, что компания Dassault Systèmes провела
2 октября интерактивное мероприятие SOLIDWORKS FORUM, на котором представила обновленную систему проектирования SOLIDWORKS 2019.

Новая версия SOLIDWORKS — огромный шаг вперед. Изменен интерфейс продукта, значительно улучшена производительность. Обо всем этом мы расскажем ниже.

Перемены в интерфейсах, многослойная анимация и структурированный визуальный хаос: обзор веб-тенденций на 2019 год

Время на прочтение9 мин
Охват и читатели7.9K


Интернет — многостороннее явление. Динамика его развития расширяет привычные границы по всем направлениям. Зарекомендовавшие себя подходы и элементы постепенно уступают место новым, более эффективным формам коммуникации людей с брендами и технологиями.

1 / Технологии


1.1. Машинное обучение


Сегодня у всех на устах искусственный интеллект, и в первую очередь — машинное обучение. Причина такой востребованности этого класса методов в том, что при таком подходе решение можно получать не напрямую, а посредством обучения на множестве конкретных задач.


Без машинного обучения добиться успеха будет очень сложно

С помощью машинного обучения можно в разы повысить эффективность работы веб-сайтов и приложений. В следующем году станет намного проще применять распознавание речи, лиц и изображений, обрабатывать диагностические данные и прогнозировать результаты, анализировать и сортировать большие объемы данных.

Машинное обучение также станет одним из самых популярных маркетинговых инструментов, ведь оно позволяет совершенствовать коммуникацию между пользователями и брендами, подбирать контент, лучше соответствующий интересам пользователей, анализировать поведение и прогнозировать последующие действия.

Переведено в Alconost
Читать дальше →

Сравнительный анализ рынков б.у. Автомобилей Германии и Франции в B и C сегменте

Время на прочтение7 мин
Охват и читатели8.5K
Привет, Хабр!

В этом посте я хотел поделиться опытом использования нескольких питоновых инструментов для сравнительного анализа рынка подержанных машин в Европе на примере Германии и Франции.

image
Читать дальше →

WebGL-ветер и программирование GPU. Лекция на FrontTalks 2018

Время на прочтение11 мин
Охват и читатели10K
Для отрисовки сложной графики на веб-страницах существует библиотека Web Graphics Library, сокращенно WebGL. Разработчик интерфейсов Дмитрий Васильев рассказал о программировании GPU с точки зрения верстальщика, о том, что из себя представляет WebGL и как мы с помощью этой технологии решили проблему визуализации больших погодных данных.


— Я занимаюсь разработкой интерфейсов в екатеринбургском офисе Яндекса. Начинал я в группе Спорт. Мы занимались разработкой спортивных спецпроектов, когда были Чемпионаты мира по хоккею, футболу, Олимпиады, Паралимпиады и прочие классные события. Также я занимался разработкой специальной поисковой выдачи, которая была посвящена новой сочинской трассе.

Google News и Лев Толстой: визуализация векторных представлений слов с помощью t-SNE

Время на прочтение6 мин
Охват и читатели12K


Каждый из нас воспринимает тексты по-своему, будь это новости в интернете, поэзия или классические романы. То же касается алгоритмов и методов машинного обучения, которые, как правило, воспринимают тексты в математической в форме, в виде многомерного векторного пространства.

Статья посвящена визуализации при помощи t-SNE рассчитанных Word2Vec многомерных векторных представлений слов. Визуализация позволит полнее понять принцип работы Word2Vec и то, как следует интерпретировать отношения между векторами слов перед дальнейшем использованием в нейросетях и других алгоритмах машинного обучения. В статье акцентируется внимание именно на визуализации, дальнейшее исследование и анализ данных не рассматриваются. В качестве источника данных мы задействуем статьи из Google News и классические произведения Л.Н. Толстого. Код будем писать на Python в Jupyter Notebook.
Читать дальше →