Как стать автором
Поиск
Написать публикацию
Обновить
112.32

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Big Data Tools 1.0

Время на прочтение4 мин
Количество просмотров2.5K

На днях вышло очередное обновление плагина Big Data Tools. Почти полтора года мы выпускали только Early Access Preview, и сейчас мы рады представить вам самую первую версию, рассчитанную на широкую аудиторию.

Big Data Tools — это плагин, позволяющий подключаться к кластерам Hadoop и Spark. Он предоставляет возможность мониторинга узлов, приложений и отдельных задач. Кроме того, можно создавать, запускать и редактировать ноутбуки Zeppelin. Вы можете не переключаться на веб-интерфейс Zeppelin и продолжать спокойно работать из любимой IDE. Плагин обеспечивает удобную навигацию по коду, умное автодополнение, рефакторинги и квик-фиксы прямо внутри ноутбука. Плагин доступен для установки в IntelliJ IDEA Ultimate, PyCharm и DataGrip. Вы можете скачать его со страницы плагина на сайте либо установить прямо из IDE.

Давайте подробней рассмотрим, что же изменилось в новой версии.

Читать далее

Как визуализируют своевременность данных в Airbnb

Время на прочтение7 мин
Количество просмотров2.9K

Команды Airbnb собрались вместе, чтобы за год создать SLA Tracker – визуальный аналитический инструмент, помогающий формировать культуру своевременности данных. Этот информационный продукт позволил нам разрешить и систематизировать следующие вопросы своевременности набора: когда считать, что набор опоздал, какие данные часто опаздывают и по какой причине набор опоздал?

Трекер – важная часть усилий в достижении высокого качества данных, и, чтобы создать его, потребовалось преодолеть многие технические, организационные проблемы и проблемы продукта. Здесь остановимся на дизайне: расскажем, как проектировали и создавали визуализацию о своевременности данных.

Читать далее

Новые возможности анализа табличных данных с алгоритмами машинного обучения в Elastic

Время на прочтение20 мин
Количество просмотров5.9K


Elastic stack, также известный как ELK Stack (аббревиатура из программных компонентов: Elasticsearch, Kibana и Logstash), — это платформа построения озера данных с возможностью аналитики по ним в реальном масштабе времени. В настоящее время широко применяется для обеспечения информационной безопасности, мониторинга бесперебойности и производительности работы ИТ-среды и оборудования, анализа рабочих процессов, бизнес-аналитики.


В соответствии со стратегией компании, исходный код всех продуктов Elastic является открытым, разработка ведётся публично, а базовые функции доступны бесплатно, что выгодно отличает платформу от конкурентов.


Одним из платных наборов функций, в которых Elastic видит коммерческий потенциал и активно развивает, является анализ данных с использованием технологий машинного обучения. О его новых возможностях расскажем в нашей статье.

Читать дальше →

Business Intelligence на очень больших данных: опыт Yota

Время на прочтение11 мин
Количество просмотров7.2K


Всем привет! Меня зовут Михаил Волошин, и я, как руководитель отдела инструментов бизнес-анализа, хочу верхнеуровнево рассказать о плюсах и особенностях BI-решения Yota.

200 Tb Vertica, 400 Tb Hadoop, кластер Tableau, специфичная организация процесса разработки и многое другое ждут вас под катом.

Внимательный читатель спросит: «А при чем тут Vertica и слоник Hadoop, технологии же разные?» Да ни при чем — это лишь КДПВ.
Читать дальше →

Как настроить мультинодовый кластер Airflow с помощью Celery и RabbitMQ

Время на прочтение4 мин
Количество просмотров15K

Что такое Airflow?


Apache Airflow — это продвинутый workflow менеджер и незаменимый инструмент в арсенале современного дата инженера.


Airflow позволяет создавать рабочие процессы в виде направленных ациклических графов (DAG) задач. Разнообразные служебные программы командной строки выполняют сложные операции на DAG. Пользовательский интерфейс легко визуализирует конвейеры, работающие в производственной среде, отслеживает ход выполнения и при необходимости устраняет неполадки.

Читать дальше →

А вы все еще генерируете данные руками? Тогда GenRocket идет к вам

Время на прочтение6 мин
Количество просмотров8.4K

На днях я наконец-то получила свой долгожданный сертификат по работе с сервисом для генерации тестовых данных GenRocket.  И теперь как сертифицированный специалист готова рассказать об этом сервисе.

НО, изначально необходимо очертить проблему, которую можно решить при помощи этого сервиса.

 

Проблема тестовых данных

Генерация тестовых данных в достаточном колличестве для покрытия минимально возможных необходимых вариантов сценариев становится проблемой для многих проектов.

Почему "минимально возможных"? Потому что тут вспоминаются "Классы эквивалентности", которые сокращают количество тестовых данных от бесконечности до полезного набора.

Почему "необходимых"? А тут вспоминаются "Тестовое покрытие", которое говорит, что тестовые данные должны вести к покрытию максимально возможных сценариев.

Но даже учитывая Классы эквивалентности генерация тестовых данных сейчас стало отдельной задачей для таких сфер, где работа идет непосредственно с данными, их обработкой и/или трансформацией.  Вариаций таких данных огромное количество, а еще необходимо тестировать не только конечный результат, но и промежуточные значения. Усугубляется все тем, что форматы данных могут так же иметь различные форматы.

Читать далее

После заключения сделки NXP и Amazon у автопроизводителей может появиться доступ к данным обо всех автомобилях

Время на прочтение8 мин
Количество просмотров2K
image


Какого черта Amazon делает в автомобильном бизнесе? Ответ прост: AWS посвящает себя разработке сетевых транспортных средств.

В ноябре 2020 NXP Semiconductors заключила партнерское соглашение с AWS. Цель этой сделки – дать автопроизводителям возможность собирать и использовать огромные массивы данных, генерируемых автомобилями их производства.

В автомобильной промышленности уже давно говорят об автомобилях с сетевой функциональностью. Модули связи, установленные в автомобилях, позволили компаниям создавать телематические сервисы – такие как OnStar от General Motors. Также эти технологии позволяет клиентам скачивать приложения и прочий контент для информационно-развлекательных систем.

«В разработке подключенных автомобилей можно выделить первую и вторую фазы», сказал Брайан Карлсон, директор по глобальному маркетингу в NXP по управлению транспортными средствами и сетям. На третьем этапе партнерство NXP и Amazon позволит «автопроизводителям собирать данные со всех автомобилей», пояснил он.

Но о каких данных идет речь?
Читать дальше →

Big Data Tools EAP 12: экспериментальная поддержка Python, поиск по ноутбукам в Zeppelin

Время на прочтение4 мин
Количество просмотров1.5K

Только что вышло очередное обновление EAP 12 для плагина под названием Big Data Tools, доступного для установки в IntelliJ IDEA Ultimate, PyCharm Professional и DataGrip. Можно установить его через страницу плагина или внутри IDE. Плагин позволяет работать с Zeppelin, загружать файлы в облачные хранилища и проводить мониторинг кластеров Hadoop и Spark.


В этом релизе мы добавили экспериментальную поддержку Python и поиск по ноутбукам Zeppelin. Если вы страдали от каких-то багов, их тоже починено множество. Давайте поговорим об этих изменениях более подробно.


Читать дальше →

Как мы Data-Office создавали

Время на прочтение4 мин
Количество просмотров3.7K


Привет, я – Ильдар Райманов и я руковожу департаментом в «БАРС Груп», который отвечает за развитие BI-решений в компании. Имея широкий опыт по работе с данными, а также обладая отраслевой экспертизой, мы решили попробовать сформировать центр компетенций, который, позволяя обрабатывать большие массивы данных, сможет обеспечить сервис по формированию знаний на те или иные предметные запросы клиентов.

Data-Office включает в себя сразу несколько составляющих – это проработанное хранилище, включающее как «озеро больших данных», так и подготовленные витрины, процессы наполнения данных из систем источников, механизмы проверки качества данных; команда методологов, которые понимают, о чем говорят те или иные цифры согласно отраслевой специфике, ну и конечно набор различных софтверных инструментов, основным из которых является платформа бизнес-аналитики Alpha BI, разработанная компанией «БАРС Груп».

Чтобы информация воспринималась еще более понятно, постараюсь раскрыть простым языком ключевые термины, акцентировано выделенные в тексте.
Читать дальше →

Задачи и инструменты ML и их практическое применение

Время на прочтение7 мин
Количество просмотров46K

Машинное обучение – распространившийся термин, но не все понимают его верно. В этом материале эксперты направления аналитических решений ГК «КОРУС Консалтинг» Алена Гайбатова и Екатерина Степанова расскажут, что же на самом деле такое machine learning (ML), в каких случаях эту технологию стоит использовать в проектах, а также где машинное обучение активно применяется на практике. 

Читать далее

Как стартап находит ground truth данные в сельском хозяйстве

Время на прочтение4 мин
Количество просмотров3.2K

Компания OneSoil разрабатывает бесплатные приложения для фермеров, которыми пользуются более чем в 180 странах мира. В своей работе мы используем большие данные и машинное обучение, и отдельный квест для нас — найти ground truth данные. Рассказываем, как мы решаем эту нетривиальную задачу.

Читать далее

Как дебажить запросы, используя только Spark UI

Время на прочтение8 мин
Количество просмотров6.8K

В этой статье я попытаюсь продемонстрировать, как дебажить задачу Spark, используя только Spark UI. Я запущу несколько задач Spark и покажу, как Spark UI отражает выполнение задачи. Также я поделюсь с вами несколькими советами и хитростями.

Читать далее

Spark schemaEvolution на практике

Время на прочтение8 мин
Количество просмотров3.4K
Уважаемые читатели, доброго дня!

В данной статье ведущий консультант бизнес-направления Big Data Solutions компании «Неофлекс», подробно описывает варианты построения витрин переменной структуры с использованием Apache Spark.

В рамках проекта по анализу данных, часто возникает задача построения витрин на основе слабо структурированных данных.

Обычно это логи, или ответы различных систем, сохраняемые в виде JSON или XML. Данные выгружаются в Hadoop, далее из них нужно построить витрину. Организовать доступ к созданной витрине можем, например, через Impala.

В этом случае схема целевой витрины предварительно неизвестна. Более того, схема еще и не может быть составлена заранее, так как зависит от данных, а мы имеем дело с этими самыми слабо структурированными данными.

Например, сегодня логируется такой ответ:

{source: "app1", error_code: ""}

а завтра от этой же системы приходит такой ответ:

{source: "app1", error_code: "error", description: "Network error"}

В результате в витрину должно добавиться еще одно поле — description, и придет оно или нет, никто не знает.

Задача создания витрины на таких данных довольно стандартная, и у Spark для этого есть ряд инструментов. Для парсинга исходных данных есть поддержка и JSON, и XML, а для неизвестной заранее схемы предусмотрена поддержка schemaEvolution.

С первого взгляда решение выглядит просто. Надо взять папку с JSON и прочитать в dataframe. Spark создаст схему, вложенные данные превратит в структуры. Далее все нужно сохранить в parquet, который поддерживается в том числе и в Impala, зарегистрировав витрину в Hive metastore.

Вроде бы все просто.
Читать дальше →

Ближайшие события

Временные сверточные сети – революция в мире временных рядов

Время на прочтение5 мин
Количество просмотров13K
Перевод статьи подготовлен в преддверии старта курса «Deep Learning. Basic».





В этой статье мы поговорим о последних инновационных решениях на основе TCN. Для начала на примере детектора движения рассмотрим архитектуру временных сверточных сетей (Temporal Convolutional Network) и их преимущества перед традиционными подходами, такими как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN). Затем поговорим о последних примерах применения TCN, включая улучшение прогнозирования трафика, локализатор и детектор звука и вероятностное прогнозирование.
Читать дальше →

Анализируем причинно-следственные связи метрик ВКонтакте

Время на прочтение8 мин
Количество просмотров6.1K
Всем привет, меня зовут Анвер, я работаю в команде Core ML ВКонтакте. Одна из наших задач — создавать и улучшать алгоритмы ранжирования для ленты новостей. В этой статье расскажу о том, как можно применять для этого причинно-следственный анализ — чтобы в результате сделать сервис интереснее для пользователей. Поговорим про преимущества такого подхода по сравнению с корреляционным анализом, и я предложу модификации существующих алгоритмов.



Читать дальше →

ELK, SIEM из OpenSource, Open Distro: Case management

Время на прочтение8 мин
Количество просмотров12K

В сегодняшней статье мы поставим последний кусочек пазла на его место. Мы собираемся представить вам часть нашего SOC, касающуюся управления делами. Мы использовали две технологии с открытым исходным кодом — TheHive и Cortex.


TheHive будет использоваться в качестве платформы управления оповещениями для нашего проекта, которая может управлять оповещениями об инцидентах от создания до закрытия. Между тем, Cortex — это дополнительный программный продукт от той же команды, что и TheHive, который дополняет его функцией обогащения данных с помощью своих «анализаторов» и «респондентов».

Читать дальше →

ELK, SIEM из OpenSource, Open Distro: Составление отчетов

Время на прочтение3 мин
Количество просмотров5.5K

Чтобы защитить вашу корпоративную сеть от угроз и атак, вы всегда должны выполнять тест на уязвимости в своей системе. Для того, чтобы их исправить. Итак, как вы понимаете, работа с отчетами очень важна для любого SOC, потому что она дает обзор уязвимостей, которые могут быть в вашей системе.


В этой статье мы расскажем вам об инструменте, который мы использовали для создания отчетов и сканирования уязвимостей.

Читать дальше →

Как мы организовали высокоэффективное и недорогое DataLake и почему именно так

Время на прочтение12 мин
Количество просмотров7.2K
Мы живем в удивительное время, когда можно быстро и просто состыковать несколько готовых открытых инструментов, настроить их с «отключенным сознанием» по советам stackoverflow, не вникая в «многобукв», запустить в коммерческую эксплуатацию. А когда нужно будет обновляться/расширяться или кто-то случайно перезагрузит пару машин — осознать, что начался какой-то навязчивый дурной сон наяву, все резко усложнилось до неузнаваемости, пути назад нет, будущее туманно и безопаснее, вместо программирования, разводить пчел и делать сыр.

Не зря же, более опытные коллеги, с посыпанной багами и от этого уже седой головой, созерцая неправдоподобно быстрое развертывание пачек «контейнеров» в «кубиках» на десятках серверов на «модных языках» со встроенной поддержкой асинхронно-неблокирующего ввода-вывода — скромно улыбаются. И молча продолжают перечитывать «man ps», вникают до кровоточения из глаз в исходники «nginx» и пишут-пишут-пишут юнит-тесты. Коллеги знают, что самое интересное будет впереди, когда «всё это» однажды станет ночью колом под Новый год. И им поможет только глубокое понимание природы unix, заученной таблицы состояний TCP/IP и базовых алгоритмов сортировки-поиска. Чтобы под бой курантов возвращать систему к жизни.
Читать дальше →

ELK, SIEM из OpenSource, Open Distro: Оповещения (алерты)

Время на прочтение6 мин
Количество просмотров13K

Здравствуйте и добро пожаловать в нашу новую статью, в которой будет рассказано об оповещениях (алертах) в нашем решении SOCaaS. Как вы все знаете, предупреждения в любом SOC играют жизненно важную роль при уведомлении группы реагирования.


Они могут прервать цепочку кибер-атак или отслеживать эту атаку, в зависимости от политики предприятия и команды. Вы, наверное, задаетесь вопросом, зачем нам нужно включать больше предупреждений. Разве модулей предупреждений Open Distro недостаточно? Это потому, что ему не хватает количества выходов и его интегрируемости с остальной частью нашего решения, например Thehive. Мы познакомим вас с другой альтернативой.

Читать дальше →

ELK, SIEM из OpenSource, Open Distro: Интеграция с WAZUH

Время на прочтение6 мин
Количество просмотров33K

Продвигаемся дальше по нашему проекту. Мы завершили часть SIEM. Пришло время перевести наш проект из простого наблюдателя в активного ответчика. Одним из важных инструментов, которые мы использовали для этого, является Wazuh. В этой статье мы надеемся просветить вас о преимуществах, предлагаемых этим инструментом. А также расскажем как его установить и использовать.


Wazuh — это механизм обнаружения, просмотра и сравнения соответствия безопасности с открытым исходным кодом.


Он был создан как форк OSSEC HIDS, позже был интегрирован с Elastic Stack и OpenSCAP, которые превратились в более комплексное решение.


Wazuh помогает вам получить более глубокую видимость безопасности в вашей инфраструктуре, отслеживая хосты на операционной системе и уровне приложений.

Читать дальше →

Вклад авторов