Обновить
48.57

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Нейросеть для определения хейтеров — «не, ну это бан»

Время на прочтение4 мин
Охват и читатели12K
Привет!

Часто ли вы видите токсичные комментарии в соцсетях? Наверное, это зависит от контента, за которым наблюдаешь. Предлагаю немного поэкспериментировать на эту тему и научить нейросеть определять хейтерские комментарии.

Итак, наша глобальная цель — определить является ли комментарий агрессивным, то есть имеем дело с бинарной классификацией. Мы напишем простую нейросеть, обучим ее на датасете комментариев из разных соцсетей, а потом сделаем простой анализ с визуализацией.

Для работы я буду использовать Google Colab. Этот сервис позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, что ускорит обучение. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.

Импортируем модуль и обновляем.
Читать дальше →

СПО для СДО: как free soft помогает администрировать критичные бизнес-системы в ВТБ

Время на прочтение6 мин
Охват и читатели4.4K
Система документационного обеспечения в нашем банке постоянно развивается и масштабируется, а требования к скорости и отказоустойчивости при этом только возрастают. В какой-то момент обслуживать СДО без эффективного централизованного мониторинга стало слишком рискованно. Чтобы обезопасить бизнес-процессы в ВТБ и упростить работу администраторов, мы внедрили решение на основе стека открытых технологий. С его помощью мы можем проактивно реагировать на инциденты, предотвращая потенциальные проблемы. Под катом — история о нашем опыте использования свободного ПО для мониторинга масштабных бизнес-систем.


Читать дальше →

Куда движется рынок BI-аналитики в 2019 году

Время на прочтение5 мин
Охват и читатели8.6K
Занимаясь BI с 2013 года, я прошел достаточно интересный и длинный путь в этом бизнесе. На старте моей карьеры это был динамичный рынок, многие не понимали, что это за инструменты и зачем они нужны, но все были впечатлены визуальной составляющей продуктов. С тех пор появились новые продукты, пришло понимание как правильно и эффективно использовать инструменты BI, на мой взгляд, рынок стал узким и скучным.

Что нужно рынку BI для роста


Сейчас наиболее известные продукты на рынке BI: Qlik, Power BI, Tableau. Когда я читаю очередное ТЗ на создание корпоративной BI-системы, сразу понимаю апологет какого продукта его писал. На рынке ощущается нехватка свежих идей.

В 2018 году Gartner, известная консалтинговая компания, ориентирующаяся на исследования в IT, заявила, что в скором времени BI изменится и станет AI (Augmented Intelligence) — этот инструмент будет решать более широкий спектр задач. Однако чтобы период дополненной аналитики пришел компаниям придется немало потрудиться в таких направлениях как:

  • Интеграция с облачными сервисами, что в целом является мейнстримом в современном мире IT;
  • Внедрение ML и AI (Artificial intelligence) в свои продукты, которые также уже вошли в нашу жизнь и их проникновение продолжится;
  • Дальнейшее развитие подходов к демократизации данных, например: NLP (natural language processing) который позволит пользователям коммуницировать с системной, практически на человеческом языке;
  • Разработка собственных ботов, способных воспринимать как текстовые, так и голосовые запросы.

Давайте попробуем оценить насколько корректны выводы консалтинговой компании рассмотрев события 2019 года.
Читать дальше →

Julia и нейронные сети: Flux

Время на прочтение11 мин
Охват и читатели10K


Прошло чуть больше года, с тех пор как MIT объявил о релизе высокопроизводительного языка общего назначения Julia. С тех пор язык набирает популярность: он используется в более чем 1500 университетах (в некоторых преподается в качестве первого ЯП), а области применения охватывают от медицинской диагностики и планирования космических миссий до таких насущных проблем, как оптимизация трафика школьных автобусов.


Одним из ключевым полей деятельности многих проектов, как не трудно догадаться, является машинное обучение, для которого на Julia есть множество мощных инструментов, а недавно вышел в свет довольно интересный проект — Система вероятностного программирования общего назначения "GEN".


Сегодня же мы обратим внимание на, как понятно из названия, пакет Flux, предоставляющий всю мощь нейронных сетей. Постараемся пройти путь от обработки и исследования наборов изображений до обученной нейронной сети, чтобы получить полноценный классификатор!

Читать дальше →

Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов

Время на прочтение6 мин
Охват и читатели18K
Привет!

В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной комиссии, мы не будем ничего ломать, а просто визуализируем информацию с этого сайта www.st-petersburg.vybory.izbirkom.ru в нужном для нас виде, проведем совсем несложный анализ и определим некоторые «волшебные» закономерности.

Обычно для подобных задач я использую Google Colab. Это сервис, который позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, это заметно ускорит парсинг данных и их дальнейшую обработку. Мне понадобились некоторые подготовительные работы перед импортом.

%%time 
!apt update
!apt upgrade
!apt install gdal-bin python-gdal python3-gdal 
# Install rtree - Geopandas requirment
!apt install python3-rtree 
# Install Geopandas
!pip install git+git://github.com/geopandas/geopandas.git
# Install descartes - Geopandas requirment
!pip install descartes

Далее импорты.

import requests 
from bs4 import BeautifulSoup 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd
import xlrd

Описание используемых библиотек


  • requests — модуль для запроса на подключение к сайту

  • BeautifulSoup — модуль для парсинга html и xml документов; позволяет получить доступ напрямую к содержимому любых тегов в html

  • numpy — математический модуль с базовым и необходимым набором математических функций

  • pandas — библиотека для анализа данных

  • matplotlib.pyplot — модуль-набор методов построения

  • geopandas — модуль для построения карты выборов

  • xlrd — модуль для чтения табличных файлов

Настал момент собирать сами данные, парсим. Избирком позаботился о нашем времени и предоставил отчетность в таблицах, это удобно.
Читать дальше →

График в браузере для Arduino и STM32

Время на прочтение2 мин
Охват и читатели10K
Всем привет.

Продолжаю развивать свой проект по визуализации трендов данных, добавил возможность просмотра в браузере в реальном времени. Кому интересно прошу.

Город засыпает, просыпаются хабровчане

Время на прочтение4 мин
Охват и читатели25K
Если количество комментариев под статьёй стремительным домкратом приближается к 1000, будьте уверены — независимо от заявленной автором темы внутри бушует срач: очаги возгорания политоты, окружённые диванными экспертами по всем вопросам, психиатрические диагнозы на расстоянии по аватарке и никнейму, переходы на личности, саркастические выпады, едкость которых превышает таковую у крови ксеноморфов, и, конечно же, обязательное в таких случаях блюдо — взаимные обвинения в том, что ваш визави с вами дискутирует исключительно за вознаграждение и\или по долгу службы. Которая, видимо, и опасна и трудна, и на первый взгляд как будто не видна, а тридцать серебренников на дороге не валяются.

Самое забавное в такой ситуации это то,
Читать дальше →

Неблокирующая отрисовка и обновление графиков с помощью bokeh

Время на прочтение3 мин
Охват и читатели3.6K
image

Есть у меня один Python-скрипт с расчётами. Там был цикл примерно на 2000 итераций, каждая из которых считалась несколько минут.

И решил я, чтобы ловчее отлаживать тот скрипт, выводить график кой-каких метрик от номера итерации. И как посчитается очередная итерация, так оный график и обновлять.

Проще всего проделать это с помощью bokeh. Точнее, с помощью bokeh-сервера для отрисовки графиков. Как — сейчас расскажу.

Читать дальше →

BYOD устройства для переговорных комнат

Время на прочтение14 мин
Охват и читатели7.7K
На сегодняшний день, одним из самых популярных запросов в области профессионального оснащения аудио и видео оборудованием является «оснащение переговорных комнат, конференц залов, кабинетов руководителей и залов совещаний», а также «системы для совместной работы». Люди практически живут с мобильными устройствами, ноутбуками, нетбуками, планшетами, вместо распечатанных бумаг, книг и журналов. Соответственно, приходя на совещания или как любят говорить в западных компаниях – митинги, гораздо проще принести с собой мобильное устройство, с помощью которого можно успеть в несколько кликов отредактировать документ под необходимые условия или требования.

Поэтому BYOD устройства все чаще применяются компаниями для совместной и упрощенной работы.

Сегодня существует масса интересных рабочих аппаратных и софтверных приложений для реализации функционала. Практически все мировые компании, занимающиеся системами коммутации, разрабатывают, выпускают и совершенствуют свои собственные BYOD устройства.


Читать дальше →

Считаем деньги. Выбор метрики в кредитном скоринге

Время на прочтение4 мин
Охват и читатели11K
Когда у вас есть какая-то система принятия решений по заемщику и нужно ее улучшить, то классическая постановка задачи в этом случае обычно звучит так. «Снизить просрочку, не уменьшив уровень одобрения». Либо: «Повысить уровень одобрения, не увеличив просрочку». Именно в такой постановке презентуют свои решения компании-вендоры, предоставляющие скоринговый балл. Такую же формулировку можно услышать на конференциях по скорингу, где презентуют свои достижения инхаус разработчики.  К сожалению, никто подробно не раскрывает, что именно понимается под терминами просрочка и уровень одобрения.

Успешный результат работы презентуют так:


Читать дальше →

Редактор блок схем — о дружбе Vue.js и MxGraph

Время на прочтение3 мин
Охват и читатели16K

С чего все началось?


Я фронтенд разработчик, но стремлюсь к развитию, решил написать fullstack приложение и стать миллионером получить бесценный опыт.

Так вот, начал планировать бэкенд, выбрал MongoDB для хранения данных, и был готов планировать структуру и связи полей.

Но столкнулся с отсутствием простого и достаточно функционального редактора схем без излишеств для NoSQL баз данных.

— Нет? Значит сделаю делов то, найти библиотеку и накидать интерфейс!
Fullstack идея была отодвинута на задний план и я начал проработку простейшего редактора схем БД.
— Наивный… – но это я понял немного позднее.
Читать дальше →

Типовое внедрение мониторинга. Николай Сивко

Время на прочтение12 мин
Охват и читатели4.9K

Расшифровка доклада "Типовое внедрение мониторинга" Николая Сивко.


Меня зовут Николай Сивко. Я тоже делаю мониторинг. Okmeter это 5 мониторинг, который я делаю. Я решил что я спасу всех людей от ада мониторинга и мы избавим кого-то от этих страданий. Я всегда в своих презентациях стараюсь не рекламировать окметер. Естественно картинки будут оттуда. Но идея того, что я хочу рассказать заключается в том что мы делаем мониторинг несколько другим подходом, чем все делают обычно. Мы очень много об этом рассказываем. Когда мы каждого конкретного человека пытаемся в этом убедить, в итоге он убеждается. Я хочу рассказать о нашем подходе именно для того чтобы, если вы будете делать мониторинг сами, чтобы вы избежали наших граблей.


Превращаем скрипты в красивые инструменты для машинного обучения

Время на прочтение6 мин
Охват и читатели17K

Создаём семантический поисковик с машинным обучением в реальном времени за 300 строк Python кода.

Мой опыт подсказывает, что любой более или менее сложный проект по машинному обучению рано или поздно превращается в набор сложных неподдерживаемых внутренних инструментов. Эти инструменты, как правило, мешанина из скриптов Jupyter Notebooks и Flask, которые сложно развёртывать и интегрировать с решениями типа GPU сессий Tensorflow.


Впервые я столкнулся с этим в университете Карнеги, затем в Беркли, в Google X, и, наконец, при создании автономных роботов в Zoox. Зарождались инструменты в виде небольших Jupyter notebooks: утилита калибровки сенсора, сервис моделирования, приложение LIDAR, утилита для сценариев и т.д.


С ростом важности инструментов появлялись менеджеры. Бюрократия росла. Требования повышались. Маленькие проекты превращались в огромные неуклюжие кошмары.


Читать дальше →

Ближайшие события

Видеопост: эксперименты как форма научной визуализации

Время на прочтение3 мин
Охват и читатели3K


Зрение — один из главных каналов получения нами информации об окружающем мире. Сегодня идеи и социальные установки повсеместно транслируются через картинку, образ, видео. Частенько визуальная составляющая для нас подменяет собой идейное содержание, что хорошо видно по нынешнему синематографу. А вот для науки визуализация — огромное благо. Ведь именно через доступную, понятную картинку можно доходчиво объяснить явления так, чтобы человек не только понял суть, но и хорошенько запомнил. К тому же многие научные эксперименты просто выглядят красиво.

Мы как раз нашли несколько интересных видео.

Как я искала эталон красоты с помощью Natural Language Processing (и не нашла)

Время на прочтение8 мин
Охват и читатели20K
Невозможно объективно измерить, какие девушки красивее: блондинки или брюнетки, смуглые или белокожие, высокие или миниатюрные. Но можно посчитать, какие черты внешности упоминают чаще, когда говорят о красоте.

У меня была неделя на эксперименты, наши движки анализа данных,16 тысяч русских романов и повестей XIX века и 15 тысяч современных длинных произведений. И, конечно, не было никаких размеченных данных.

Основная идея была в том, чтобы выделить из этой горы текстов фрагменты с описаниями красивых женщин, а потом из этих фрагментов извлечь частотные черты внешности.

Вот визуализация того, что получилось. Точнее, одного из распространённых вариантов.


Цвет глаз, волос, платье, рост, воспитание — всё это можно выделить из корпуса текстов.

Конечно, не всё так просто и однозначно как на рисунках, но примерное представление вы уже получили. Теперь давайте расскажу про детали и последовательность действий.
Читать дальше →

Сортировки распределением

Время на прочтение6 мин
Охват и читатели42K


В сортировках распределением элементы распределяются и перераспределяются по классам до тех пор, пока массив не отсортируется.
Траффик

О прелестях перехода на панель и не только

Время на прочтение5 мин
Охват и читатели6.2K
image

Как очевидно из заголовка, речь пойдет о библиотеке Panel, которая позволяет конвертировать Jupyter блокноты в безопасные веб приложения, где начинка скрыта от нетехнических пользователей, но остается свобода манипулирования внутренними параметрами, то есть не просто перестраивать данные, но и делать запросы в кернел. TL;DR Shiny for Python.
Читать дальше →

Как выглядело бы Московское метро в трехмерном мире

Время на прочтение10 мин
Охват и читатели108K
UPD: По просьбам в комментах добавляю ссылку на вращабельную схему на Javascript
К сожалению, код javascript вставить в тело поста не удалось
Добрый день! Недавно я читал блог одного урбаниста, который рассуждал о том, какая должна быть идеальная схема метро.Схему метро можно рисовать исходя из двух принципов:

  • Схема должна быть удобной и простой для запоминания и ориентирования
  • Схема должна соответствовать географии города

Очевидно, что эти принципы взаимоисключающие и первый принцип требует существенного искажения географической реальности.

Достаточно вспомнить, как выглядит схема Московского метро с красивыми кольцами и прямыми линиями:
Читать дальше →

Рисуем звук

Время на прочтение3 мин
Охват и читатели25K
Пять лет назад на Хабре была опубликована статья «Печать и воспроизведение звука на бумаге» — о системе создания и проигрывания спектрограмм. Затем, полтора года назад Meklon опубликовал квест, в котором такая чёрно-белая логарифмическая спектрограмма стала одним из этапов. По авторскому замыслу, её надо было распечатать на принтере, отсканировать смартфоном с приложением-проигрывателем, и воспользоваться таким образом «надиктованным» паролем.


У меня в тот момент не было в досягаемости ни принтера, ни смартфона, так что меня заинтересовали два аспекта задачи:

  1. Как проще всего расшифровать спектрограмму без дополнительных устройств и без дополнительного софта — желательно, прямо в браузере?
  2. Можно ли её расшифровать вообще без софта — «на глаз»?

Читать дальше →

Краткая история визуализации данных: от древних времён до XVII века

Время на прочтение3 мин
Охват и читатели6K
На нашей планете 4.3 миллиарда пользователей интернета. Каждую минуту они добавляют 46,740 фото в Instagram, пишут 456,000 твитов, 120 профессионалов регистрируются в LinkedIn и происходит 990,900 свайпов в Tinder. А у Facebook 2 миллиарда пользователей — больше четверти населения планеты! [1]

Данные везде и их количество только возрастает. Как пишут в своём отчёте McKinsey & Company “Data Science — это простая часть. Получить правильные данные и данные, пригодные для анализа — куда более сложна задача” [2]. Визуализация данных упрощает восприятие, делает данные более доступными и понятными, помогает понять, какую часть лучше всего использовать. А ещё за это хорошо платят. Давайте проследим как в разные эпохи люди по разному решали проблему визуализации, посмотрим на самые древние и самые известные примеры.
Читать дальше →