Как стать автором
Обновить
58.57

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

5 трендов в аннотировании данных в 2021 году

Время на прочтение3 мин
Количество просмотров2.2K

Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.
Читать дальше →

Оценка коммерческой недвижимости с точки зрения технологий: Machine Learning, методика и другие нюансы

Время на прочтение6 мин
Количество просмотров8.7K

Привет, Хабр! Меня зовут Дмитрий Раевский, я дата-сайентист в Райффайзенбанке, занимаюсь цифровизацией кредитов и кредитного контроля. Сегодня я хочу рассказать про оценку коммерческой недвижимости — объектов, которые используются для извлечения прибыли. Поскольку мы на Хабре, то разговор пойдет не об оценке в вакууме, а о привлечении технологий для решения этой задачи. 

Мой рассказ я решил разделить на два смысловых раздела. В первом немного расскажу об оценке коммерческой недвижимости как задаче — что это, для чего нужно, как выполняется, какие есть сложности и т.п. Во втором — покажу, как эту задачу можно решить при помощи технологий. И бонусом — анонсирую большой хакатон по оценке коммерческой недвижимости от Райффайзенбанка.

Читать далее

Apache Flink и потоковая обработка данных для решения задач IoT

Время на прочтение6 мин
Количество просмотров6K

К 2021 году прогнозируется, что около 16 млрд из приблизительно 28 млрд подключенных устройств по всему миру, будут так или иначе связаны в рамках концепции интернета вещей. Интернет уходит в вещность, и надо как-то справляться с растущим потоком данных.

Немного отвлекшись от сосредоточенного поиска и обработки больших данных, мы сместили свой фокус на сторону максимально эффективного использования данных, находящихся в движении именно сейчас.

Читать далее

Как прогнозные модели сокращают количество отказов и преждевременных ремонтных работ

Время на прочтение4 мин
Количество просмотров3.3K

Разбираем, что такое прогнозные модели, как они устроены и почему им можно доверить вашу технику — на примере прогнозной модели для масляного насоса дизель-генераторной установки тепловоза.

Масляный насос — важный элемент оборудования, который отвечает за непрерывную подачу масла в двигатель и за его циркуляцию. От работы насоса зависит срок жизни двигателя, расход топлива и уровень вредных выбросов. О неисправности узла может говорить повышенный расход масла, а также снижение или рост давления масла в двигателе. Однако выявлять потенциальную проблему лучше до таких проявлений — это снизит расходы на ремонт, а также случаи выхода техники из строя и остановки производственного процесса. 

Крупная сервисная компания попросила нас разработать систему, которая поможет оценивать состояние масляных насосов дизель-генераторных установок тепловозов. Рассказываем, какой инструмент применили для анализа, как собирали данные и какие получили результаты.

Читать далее

Как Location Intelligence поможет определить, где разместить дарксторы

Время на прочтение7 мин
Количество просмотров3.5K

Location intelligence - GeoData has a Better Idea

Читать далее

Обдурить Шаи-Хулуда

Время на прочтение7 мин
Количество просмотров4.5K

Привет, Хабр!

Сегодня поговорим о «больших данных» в кибербезопасности, а точнее, о том насколько легко - или сложно - обойти защиту, использующую Big Data. Иначе говоря, как надурить и объегорить передовые системы обнаружения угроз, мимо всевидящего ока которых, как утверждают маркетологи, лишний байт не проскочит.

О чём, собственно говоря, речь? О системах идентификации кибератак, использующих анализ «больших данных» в качестве одного из основных инструментов выявления подозрительной активности, - системы SIEM и XDR. Такие платформы в принципе ориентированы на средний и крупный бизнес, крупные сети и облачную инфраструктуру, в которой происходят миллионы событий ежечасно. Естественно, и речи не может идти о том, чтобы анализировать их «вручную», всё это осуществляется с интенсивным использованием технических средств, хотя наличие квалифицированных специалистов - и в области «больших данных», и в области кибербезопасности, - абсолютно необходимая составляющая.

Что делают такие системы? Позволяют идентифицировать в огромных (Big, очень Big) массивах структурированных и неструктурированных данных признаки несанкционированной активности. Иначе говоря, кибератак. Учитывая, что в средних размеров сети, насчитывающей 20 тысяч конечных точек, за сутки транслируется около 50 терабайт данных, задача «прошерстить» всё это становится очень неординарной.

Для этого существуют множественные алгоритмы. Основным критерием качества платформ обнаружения угроз - в частности, XDR, является точность обнаружения аномалий в системах, которые они защищают. XDR-решения, как правило, включают в себя и SIEM-платформы, отвечающие за сбор и обработку событий, и EDR - обнаружение и реагирование на аномалии, и UBA/UEBA - системы, которые собирают (большие) массивы данных о действиях пользователей и/или конечных точек, серверов и сетевого оборудования, а затем с помощью алгоритмов машинного обучения выстраивают модели поведения и пытаются выявить отклонения от них.

Читать далее

Как Apache Flink хранит стейт: взгляд изнутри

Время на прочтение13 мин
Количество просмотров5.6K

Привет! В этой статье мы рассмотрим важнейший аспект практически любого потокового приложения – работу со стейтом. Сегодня в роли подопытного выступит фреймворк Apache Flink.

Мы узнаем, как и где можно хранить стейт, какие структуры данных для этого используются, оценим скорость работы каждого подхода и узнаем, что из предложенных вариантов быстрее, а что – надежнее, и можно ли найти компромисс среди множества разноплановых комбинаций.

Небольшой дисклеймер

Подавляющая часть информации, представленной в этой статье, справедлива для всех релизов Apache Flink, начиная с версии 1.8. В версии 1.13 (последняя на момент выхода этой статьи) произошли небольшие правки API, которые в некоторой мере изменили видимую пользователю «оболочку» хранения стейта, но общие принципы остались прежними. Подробнее об этом можно прочитать здесь.

Если вы только начинаете знакомство с Apache Flink, то рекомендую посмотреть наш YouTube-митап по основам этого замечательного фреймворка.

Читать далее

Вебинар «The A-Z of Data: Monitoring ML Models in Production»

Время на прочтение2 мин
Количество просмотров908

Команда Data Phoenix Events приглашает всех, 25 августа в 19:00, на второй технический вебинар из серии "The A-Z of Data", который будет посвящен мониторингу ML моделей в продакшене.

Читать далее

Как не утонуть в озере данных: инструкция от РСХБ

Время на прочтение8 мин
Количество просмотров3.9K

Привет, Хабр! Не так давно мы в РСХБ запустили озеро данных. И подумали, что наш опыт может кому-нибудь пригодиться. В первую очередь тем, кто ещё только думает о создании своего озера, но не знает, с чего начать, с чем предстоит столкнуться, о чём подумать заранее и т. д. Потому что озеро — это, конечно, прекрасно, но как бы не получить вместо него заросшее болото, в котором небезопасно плавать и откуда толком ничего не достать.

Так что мы собрались и небольшой командой специалистов — в лице Алексея Новикова (заместитель директора, ДИТ), Руслана Ибрагимова (исполнительный директор, ДКР), Николая Кудачкина (управляющий директор, ДРК) и Юрия Колошеина (исполнительный директор, ДИТ) — написали своего рода инструкцию по созданию озера данных на собственном примере.

Читать далее

Как перейти на CDP с унаследованных дистрибутивов: четыре способа модернизации и миграции

Время на прочтение8 мин
Количество просмотров963

Переход к любой новой технологии требует тщательного планирования и скоординированных усилий. В этой статье мы разобрали четыре способа перехода с унаследованной платформы, такой как Cloudera CDH или HDP, на CDP Public Cloud или CDP Private Cloud. Четыре метода - это In-place Upgrade, Side-car Migration, Rolling Side-car Migration и Migrate to Public Cloud.

Читать далее

Большие данные и математические алгоритмы в руках коммерсанта

Время на прочтение10 мин
Количество просмотров11K

Вы когда-нибудь задумывались, почему на полках любых магазинов — от гипермаркетов электроники до гастрономов — стоят именно эти товары и именно в такой последовательности? А Категорийные Менеджеры (и дата-сайентисты, кстати) думают об этом постоянно. Сегодня мы расскажем, как в М.Видео-Эльдорадо использовали искусственный интеллект для заполнения полок и изучили потребности клиентов при управлении ассортиментом.

Читать далее

Структура + предположения > ML? Моделирование продаж байесовскими методами

Время на прочтение17 мин
Количество просмотров5.8K

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.

Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок. ​

Читать далее

SQL на стероидах – 5 кейсов использования dbt + Jinja

Время на прочтение10 мин
Количество просмотров5.9K

SQL – это нескучно. С современными инструментами возможности языка кратно возросли. Мультитул для моделирования данных dbt, современные колоночные аналитические СУБД позволяют буквально творить с данными чудеса.

Меня зовут Артемий и я Analytics Engineer в компании Wheely. И сегодня я подготовил небольшой экскурс в реальные и интересные сценарии использования гибридного SQL

– Операции Pivot и Unpivot для табличных данных

– Генерирование суррогатного ключа и ключа конкатенации

– Гибкая фильтрация записей из таблиц-источников

– Автоматизация экспорта данных из Хранилища в S3

– Валютные курсы, Continuous Integration, Data Quality

Читать далее

Ближайшие события

Как мы улучшали процесс загрузки товаров на AliExpress.ru: машинное обучение, проблемы и решения

Время на прочтение7 мин
Количество просмотров4.8K

Всем привет! Меня зовут Нина, я работаю в команде платформы для продавцов  AliExpress. Сегодня я расскажу о том, как совместно с коллегами из команды Knowledge Engineering мы адаптировали систему для загрузки товаров, чтобы всё работало в пару кликов. Поехали!

Читать далее

Как организовать разметку данных для машинного обучения: методики и инструменты

Время на прочтение17 мин
Количество просмотров10K

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
Читать дальше →

Apache Ozone и узлы хранения данных высокой плотности

Время на прочтение5 мин
Количество просмотров2.6K

Сегодня специалисты по анализу корпоративных данных стремятся максимально эффективно использовать свои платформы. Хранилище данных играет одну из самых важных ролей, это основа для всех вычислительных механизмов и приложений. Еще один тренд - переход к горизонтально масштабируемой модели хранения, которая позволяет получить хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью. Компании Cloudera и Cisco протестировали, насколько это реально, используя узлы хранения с высокой плотностью.

Читать далее

UUID версии 7, или как не потеряться во времени при создании идентификатора

Время на прочтение7 мин
Количество просмотров41K

В течение многих лет я противостоял засилью UUID как ключей в базах данных, но со временем и практикой до меня дошло. Они действительно удобны, когда речь идёт о распределённых системах. Генерировать новый идентификатор на разных концах планеты не так-то просто. Создание псевдослучайных идентификаторов решает эту проблему.

Хотя, подобные решения, не всегда хороши. В отличие от обыкновенных цифровых значений, которые легко кешировать и сортировать, UUID не так гибки в использовании. UUID версии 7 предназначен как раз для того, чтобы разобраться с подобными проблемами.

Добро пожаловать в мир сортированых UUID

Как приложения для точного земледелия помогают фермерам бороться с глобальным потеплением

Время на прочтение5 мин
Количество просмотров2.1K

У современных фермеров сегодня миллион «умной» техники под рукой: дроны, датчики, бортовые компьютеры. Естественно, без мобильных и веб приложений тоже не обошлось. Все эти технологичные штуки делаются для того, чтобы повысить урожайность полей. Тем не менее, некоторые разработчики пошли дальше и помогают агробизнесам не только работать эффективно, но и экологично. Мы в OneSoil как раз работаем над таким приложением. Давайте посмотрим, что экологичного оно умеет делать.

Читать далее

DataScience Digest — 12.08.21

Время на прочтение3 мин
Количество просмотров1.7K

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Напоминаю, что 17 августа буду проводить вебинар "The A-Z of Data: Introduction to MLOps". В его рамках мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps. Детали и обязательная предварительная регистрация здесь.

Читать далее

Жизненный цикл ML-модели

Время на прочтение4 мин
Количество просмотров13K

Всем привет! Меня зовут Максим, и в Ситимобил я занимаюсь машинным обучением. Сегодня я расскажу вам, как мы разрабатываем устойчивые ML-модели в суровых условиях изменчивого мира.

Врууум

Работа

Data Scientist
70 вакансий