Обновить
48.18

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Проверка идей через прототипирование дашбордами

Время на прочтение4 мин
Охват и читатели4.1K
Маркетинг – это та сфера, в которой довольно опасно полагаться только лишь на интуицию, любую гипотезу или супер-бизнес-идею предварительно имеет смысл проверить на состоятельность через Customer Development (далее развитие клиентов или custdev) и желательно ещё подтвердить серией экспериментов.

После воркшопа от Ивана Замесина в начале 2019 года наша команда так прониклась идеями, заложенными в подходе по развитию клиентов, что стали применять его при работе над проектами и продуктами. И одно из направлений, про которое хотелось бы рассказать – это проверка идей через прототипирование в формате дашбордов.


Читать дальше →

Разбор настройки ELK 7.5 для анализа логов Mikrotik

Время на прочтение13 мин
Охват и читатели38K
Давно была мысль посмотреть, что можно делать с ELK и подручными источниками логов и статистики. На страницах хабра планирую показать практический пример, как с помощью домашнего мини-сервера можно сделать, например, honeypot с системой анализа логов на основе ELK стека. В этой статье расскажу про простейший пример анализа логов firewall с помощью стека ELK. В дальнейшем хотелось бы описать настройку окружения для анализа Netflow трафика и pcap дампов инструментом Zeek.



Если у вас есть публичный IP-адрес и более-менее умное устройство в качестве шлюза/файрволла, вы можете организовать пассивный honeypot, настроив логирование входящих запросов на «вкусные» TCP и UDP порты. Под катом пример настройки маршрутизатора Mikrotik, но если у вас под рукой маршрутизатор другого вендора (или какая-то ещё security система), нужно просто немного разобраться с форматами данных и вендоро-специфичными настройками, и получится тот же результат.

Disclaimer


Статья не претендует на оригинальность, здесь не рассматриваются вопросы отказоустойчивости сервисов, безопасности, лучших практик и т.д. Нужно рассматривать этот материал как академический, он подходит для ознакомления с базовым функционалом стека ELK и механизмом анализа логов сетевого устройства. Однако и не новичку может быть что-то интересно.

Проект запускается из docker-compose файла, соответственно развернуть своё подобное окружение очень просто, даже если у вас под рукой маршрутизатор другого вендора, нужно просто немного разобраться с форматами данных и вендоро-специфичными настройками. В остальном я постарался максимально подробно описать все нюансы, связанные с конфигурированием Logstash pipelines и Elasticsearch mappings в актуальной версии ELK. Все компоненты этой системы хостятся на github, в том числе конфиги сервисов. В конце статьи я сделаю раздел Troubleshooting, в котором будут описаны шаги по диагностике популярных проблем новичков в этом деле.
Читать дальше →

Как работает видеокодек. Часть 1. Основы

Время на прочтение11 мин
Охват и читатели53K

Вторая часть: Принципы работы видеокодека




Любое растровое изображение можно представить в виде двумерной матрицы. Когда речь заходит о цветах, идею можно развить, рассматривая изображение в виде трехмерной матрицы, в которой дополнительные измерения используются для хранения данных по каждому из цветов.

Если рассматривать итоговый цвет как комбинацию т.н. основных цветов (красного, зеленого и синего), в нашей трёхмерной матрице определяем три плоскости: первая для красного цвета, вторая для зеленого и последняя для синего.
3D матрица RGB

Будем называть каждую точку в этой матрице пикселем (элементом изображения). Каждый пиксель содержит информацию об интенсивности (обычно в виде числового значение) каждого цвета. Например, красный пиксель означает, что в нём 0 зеленого цвета, 0 синего и максимум красного. Пиксель розового цвета может быть сформирован с помощью комбинации трех цветов. Используя числовой диапазон от 0 до 255, розовый пиксель определяется как Красный = 255, Зелёный = 192 и Синий = 203.

Как работает видеокодек. Часть 2. Что, для чего, как

Время на прочтение12 мин
Охват и читатели53K

Первая часть: Основы работы с видео и изображениями




Kodek's History

Что? Видеокодек — это часть программного/аппаратного обеспечения, сжимающая и/или распаковывающая цифровое видео.

Для чего? Невзирая на определённые ограничения как по пропускной способности так
и по количеству места для хранения данных, рынок требует всё более качественного видео. Припоминаете, как в прошлом посте мы подсчитали необходимый минимум для 30 кадров в секунду, 24 бита на пиксель, с разрешение 480x240? Получили 82,944 Мбит/с без сжатия. Сжатие — это пока единственный способ вообще передавать HD/FullHD/4K на телевизионные экраны и в Интернет. Как это достигается? Сейчас кратко рассмотрим основные методы.
Читать дальше →

Две точки на краю света

Время на прочтение3 мин
Охват и читатели3.4K

Пляж — делает город. Город с пляжа начинается. Пляжем город красен.


Заезжали коллеги на конференцию про геометрию графов, нейросети и прочую современную математику, остроумно решающую злободневные задачи на стыке биологии, общества, и химии. Некоторым повезло воплотить модную концепцию bleisure и захватить выходные в городе — бывает, работодатели поощряют такую практику. Разметил для таких ситуаций несколько километров побережья родного континента и данных о местных достопримечательностях собрал. Учтите, самые интересные участки сделаны из твёрдых и местами острых камней.


Осмотримся вокруг Кашкайша и посмотрим, где здесь найти песок до горизонта.


Добраться в этот город с предельной для Португалии концентрацией Тесл на километр дороги из Лиссабона проще всего на электричке, отправляющейся каждые 20 минут и проводящей 40 в пути. В вагонах есть места для велосипедов и опознать их можно по пандусам на платформе. Первый велопрокат встречает уже на вокзале. В принципе, есть даже бесплатный муниципальный велопрокат. Альтернатива — городской автобус 405, курсирующий раз в два часа по воскресеньям.


Красная или синяя дорожка вьётся вдоль кромки континента.


38,7033228, -9,4772811



Здесь можно пройти по краю. Тут хочется остаться. На виду у всех спрятались две жемчужины серебряного побережья и ухватить их за короткий зимний день вполне возможно. Самовывозом. Паралеллепипедики автомобилей примерно передают масштаб приключения на картинке выше.



Справа на фото — Cabo da Roca, 140 м над уровнем моря, вид от маяка Cabo Raso.


На полпути к самой западной точке континента есть пара живописных мест, куда я время от времени сбегаю из города — отвлечься от перемножения матриц, голову проветрить северо-атлантическим бризом, да поглазеть на уголки гор, в которых ещё не был.

EDA под другим углом

Время на прочтение10 мин
Охват и читатели27K
image

Поговорим не про еду, а про разведочный анализ данных (exploratory data analysis, EDA) который является обязательной прелюдией перед любым суровым ML.

Будем честны, процесс довольно занудный, и чтобы выцепить хоть какие-то значимые инсайты про наши данные — требуется потратить достаточное количество времени активно используя любимую библиотеку визуализации.

А теперь представим что мы довольно ленивы (но любопытны) и будем следовать этому постулату всю эту статью.
Читать дальше →

Хабрастатистика: небольшой анализ популярности хабов

Время на прочтение3 мин
Охват и читатели3K
Привет, Хабр.

При подготовке материалов к рейтингу статей и авторов этого года (если кто не читал, ссылка здесь и здесь), я нашел довольно интересную закономерность, которую вроде бы статистически еще никто не рассматривал. Речь пойдет о популярности разных разделов (хабов) здесь на Хабре.

image

Статья будет интересна скорее «писателям», еще не определившимся, в какой хаб писать новый шедевр, «читатели» могут решать сами, читать или нет.

Подробности под катом.
Читать дальше →

Альтернативный метод транспедикулярной фиксации или как штангенциркуль может заменить целый рентгеноаппарат

Время на прочтение6 мин
Охват и читатели9.3K


В настоящее время операции на позвоночнике перестали быть чем-то эксклюзивным и выполняются практически во всех отделениях нейрохирургии и во многих травматологических отделениях стационаров. Термин “нестабильность позвоночника” давно вышел за пределы лексикона узкого круга спинальных хирургов. И хотя данное понятие иногда трактуется слишком широко, нестабильность позвоночного сегмента, как патологическое явление, существует. В этой статье пойдет речь об одном интересном методе, позволяющем упростить операцию на позвоночнике.
Читать дальше →

Визуализация странных аттракторов в Plotly — это шедеврально

Время на прочтение10 мин
Охват и читатели17K
Поэзия — это очень красивый, зачастую глубокомысленный слог, которым мы не пользуемся в обыденной жизни, но так им любим наслаждаться. То же самое можно сказать и о математике. В фильме «Пи» главный герой называет математику «языком природы», а в фильме «Игры разума» главный герой говорит о ней, как об «особом виде искусства». Мы же, в обыденной жизни, можем напрочь забыть об этом.

Облик странных аттракторов необычен и притягателен даже в двумерном измерении. Plotly позволяет строить их в трех измерениях, причем он дает возможность очень легко получить именно 3D-модель, которую можно «вертеть» и сквозь которую можно «пролетать» — ощущение «прикосновения».

image

Читать дальше →

Хабрарейтинг 2019: статистика и рейтинг авторов за 2019 год

Время на прочтение7 мин
Охват и читатели14K
Привет Хабр.

В первой части была рассмотрена некоторая статистика и опубликован рейтинг статей этого сайта. Во второй части будут рассмотрены другие статистические закономерности этого года, которые мне показались интересными, а также будет опубликован рейтинг авторов за этот, 2019 год.



Первая часть рассчитана на читателей сайта, эта будет более интересна авторам, но и остальные надеюсь, найдут что-нибудь полезное — статьи авторов, попавших в рейтинг, определенно имеет смысл прочитать.

Продолжение под катом.
Читать дальше →

Хабрарейтинг 2019: статистика и рейтинг лучших статей за 2019 год

Время на прочтение8 мин
Охват и читатели11K
Привет, Хабр.

Заканчивается 2019 год, и пора подвести итоги и собрать статистику и рейтинг наиболее интересных статей Хабра за этот период. Предыдущий рейтинг можно прочитать здесь, надеюсь новый будет еще более интересным.



Парсинг и обработка данных были за этот год улучшены (кстати, изображение на КДПВ сгенерировано на базе заголовков статей), так что надеюсь, результаты будут более интересными. Также я добавил две новые категории в рейтинге — теперь отдельно будут рассматриваться хабы «ИТ-эмиграция» и «Здоровье», думаю, для многих и то и то может быть актуально.

Продолжение и результаты под катом.
Читать дальше →

Топ-12 самых интересных ИТишных динамических инфографик

Время на прочтение1 мин
Охват и читатели9K
Динамические (развернутые во времени) гистограммы очень прикольные. Есть в них особая драма, борьба, накал страстей. Плюс к этому анимация дает особое понимание происходящего. все течет, все изменяется, неизменны только перемены…

Инфографика/видеографика/динамическая статистика — это такое медиа, которое отлично обходится без текстовых пояснений, можно налить пятничного чаю, включить видео и наслаждаться.

Языки программирования



Я, кстати, удивился, что язык ADA был не каким-то маргинальным направлением, а доминирующим несколько лет средством разработки. Интересно, кстати, как автор данной статистики собирал информацию про прошлые годы, когда не было Гитхаба и автоматической статистики (сам автор говорит, что опросниками, но интересно узнать методику, выборки и пр).

ClickHouse + Graphite: как значительно уменьшить потребляемое место на дисках

Время на прочтение5 мин
Охват и читатели9.2K


Приветствую, habr.


Если кто-то эксплуатирует систему graphite-web и столкнулся с проблемой производительности хранилища whisper (IO, потребляемое дисковое пространство), то шанс того, что был брошен взгляд на ClickHouse в качестве замены, должен стремиться к единице. Данное утверждение подразумевает то, что в качестве принимающего метрики демона уже используется сторонняя реализация, например carbonwriter или go-carbon.


ClickHouse хорошо решает описанные проблемы. К примеру, после переливки 2TiB данных из whisper, они уместились в 300GiB. Подробно на сравнении я останавливаться не буду, статей на эту тему хватает. К тому же, до недавнего времени с нашим ClickHouse хранилищем было не всё идеально.

Так что же не так?

Ближайшие события

Визуализация и анализ структуры сообществ с помощью графов

Время на прочтение12 мин
Охват и читатели14K
Графы — классный инструмент для визуализации больших объемов данных и связей между отдельными элементами. Мы использовали его для оценки связанности наших сообществ и понимания взаимодействия между разными группами и тематическими направлениями.

В итоге мы нашли людей-суперконнекторов, узнали, чем отличаются сообщества в разных городах России, а также выяснили, что предпринимателей среди тех, кому за 50, в два с половиной раза больше, чем в среднем по всем участникам наших сообществ.


Читать дальше →

«Покажи, как задумано»: могут ли технологические решения помешать раскрытию замысла режиссера

Время на прочтение3 мин
Охват и читатели3.8K
Обсуждаем технологии телевизоров и стриминговых платформ, против которых выступают актеры и режиссеры Голливуда, — это ускоренный просмотр, пропуск интро и motion smoothing.

Панель мониторинга Grafana для пивной системы BeerTender

Время на прочтение5 мин
Охват и читатели9K
Пояснение. BeerTender — устройство для охлаждения и розлива пива от Krups и Heineken. По заявлению производителей, оно сохраняет качества свежего пива в течение 30 дней после открытия кега. Конечно, системным администраторам и девопсам удобно отслеживать температуру и уровень пива в своём бочонке с помощью привычных онлайновых панелей мониторинга. В предыдущей статье рассказывалось, как подключить BeerTender к Warp 10, а сейчас мы настроим панель мониторинга Grafana



OVHcloud, крупнейший европейский хостер и облачный провайдер, активно использует платформу Warp 10. В один кластер Warp 10 стекаются все их данные мониторинга. Это 400 000 серверов, 27 дата-центров, в общей сложности несколько миллионов метрик в секунду!

У них много панелей мониторинга, а теперь OVHcloud является мейнтейнером опенсорсного плагина Warp 10 Grafana, разработку которого мы начали некоторое время назад. О нём и поговорим. Если хотите сами попробовать, данные в открытом доступе — можете скопировать WarpScript ниже.
Читать дальше →

TabPy для работы с данными в ClickHouse из Tableau

Время на прочтение6 мин
Охват и читатели6.1K
Выстраивание коммуникаций между брендами и людьми — то, чем мы в Dentsu Aegis Network занимаемся каждый день, и неотъемлемой частью этой работы является анализ данных. В ряде случаев этот процесс не требует data science (хотя и он у нас есть), тогда мы используем BI платформу Tableau. Ее основная цель — дать нашим сотрудникам и клиентам удобный интерфейс для потребления данных без написания скриптов, SQL запросов и т.п.

В этой статье мы расскажем, как нам удалось решить проблему взаимодействия Tableau с ClickHouse.
Читать дальше →

Принципы построения систем потоковой аналитики

Время на прочтение9 мин
Охват и читатели22K
image

Проектирование систем потоковой аналитики и потоковой обработки данных имеет свои нюансы, свои проблемы и свой технологический стек. Об этом мы поговорили в очередном открытом уроке, прошедшим накануне запуска курса «Data Engineer».

На вебинаре обсудили:

  • когда нужна потоковая обработка;
  • какие элементы есть в СПОД, какие инструменты мы можем использовать для реализации этих элементов;
  • как построить свою систему анализа кликстримов.

Преподаватель — Егор Матешук, Senior Data Engineer в MaximaTelecom.
Читать дальше →

Нейросеть, которая поможет выбрать фильм – «твои вкусы специфичны»

Время на прочтение4 мин
Охват и читатели12K
Привет!

Бывает смотришь фильм, и в голове только один вопрос – «я что опять попался на кликбейт?». Решим эту проблему и будем смотреть только годное кино. Предлагаю немного поэкспериментировать с данными и написать простую нейросеть для оценки фильма.

В основе нашего эксперимента лежит технология сентимент-анализа для определения настроения аудитории к какому-либо продукту. В качестве данных берем датасет обзоров пользователей на фильмы IMDb. Среда разработки Google Colab позволит быстро обучать нейросеть благодаря бесплатному доступу к GPU (NVidia Tesla K80).

Я использую библиотеку Keras, с помощью которой построю универсальную модель для решения подобных задач машинного обучения. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.

from __future__ import absolute_import, division, print_function, unicode_literals
import tensorflow as tf
!tf_upgrade_v2 -h

Далее импортируем все необходимые модули для предварительной обработки данных и построения модели. В предыдущих статьях делается акцент на библиотеках, можно заглянуть туда.
Читать дальше →

Собираем логи из Nginx с помощью nginx-clickhouse, отправляем в Clickhouse и отображаем в Grafana

Время на прочтение18 мин
Охват и читатели19K

Я из компании Luxoft. В этой статье будет рассматриваться проект nginx-clickhouse, который будет читать логи nginx, отправлять их в clickhouse. Для просмотра аналитики по логам есть дашборд для Grafana.

Читать дальше →