Как стать автором
Поиск
Написать публикацию
Обновить
113.32

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Дублирующий скрипт: как с его помощью мы ускорили бизнес-процесс с двух рабочих дней до семи минут

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.6K

Как известно, при создании промышленного процесса, в котором регламентирован каждый шаг, все участвующие подразделения стараются максимально облегчить выполнение своей части работы. Поэтому часто применяются упрощения, которые не позволяют учесть все нюансы процесса, отслеживаемые в ручном режиме каждым аналитиком. По сути, перед автоматизаторами стоит задача охватить наибольшее число вариаций и при этом не усложнить процесс так, чтобы с ним было невозможно работать. Под усложнениями понимаются различные блокирующие процесс проверки, многочисленные итерации согласований по той или иной задаче, формы дополнительного ручного ввода данных и т.п.

В итоге формируются упрощенные требования, которые не позволяют в полной мере реализовать контроль как над ручными ошибками пользователей, так и над ошибками, допущенными при разработке требований и алгоритмов автоматизируемого процесса.

Вас приветствуют Гевонд Асадян и Илья Мясников. В банке «Открытие» в управлении риск-технологий мы занимаемся внедрением моделей оценки кредитного риска. В этой статье на примере большого и сложного процесса выдачи экспресс-кредитов мы расскажем, как нам удалось реализовать полноценный дубль процесса на стороне одного проверочного скрипта и ускорить процесс выдачи экспресс-кредитов с двух рабочих дней до семи минут.

Далее про наш кейс

Процесс ELT: основные компоненты, преимущества и инструменты создания

Время на прочтение11 мин
Количество просмотров8.4K

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать дальше →

Классификация изображений в облачной системе Google Colab

Уровень сложностиСложный
Время на прочтение43 мин
Количество просмотров8.6K

Нейронку можно обучить не только понимать, где на картинке собака, а где кошка. Можно шагнуть дальше, чтобы обучить ее распознавать данные графиков зрачковых реакций на свет и выдавать результат: норма или отклонение.

Эта статья про сверточные нейронные сети, классификацию изображений с помощью моделей глубокого обучения, а также применение Google Colab для написания кода на Python.

Читать далее

Независимый рейтинг TAdviser: чем Visiology отличается от других вендоров российского BI?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.3K

Привет, Хабр! Буквально на днях был опубликован рейтинг TAdviser рынка BI. Редакция долго готовила свой обзор, хотя для составления рейтингов компаний использовались данные 2021 года. В общем-то промедление в данном случае понятно, ведь мы оказались в состоянии переходного периода, когда западные системы внезапно перешли для пользователей в “серую” зону. Но зато результаты этой аналитической работы принесли сразу несколько интересных мыслей, на которые я хотел бы обратить внимание в этом посте. 

Читать далее

Как не попасть в яму с помощью нейронных сетей: технологии приходят на помощь коммунальщикам

Время на прочтение8 мин
Количество просмотров2.2K

Привет, Хабр! Меня зовут Андрей Соловьёв, я DS в Сбере. Вероятно, практически каждый читатель этой статьи сталкивался с проблемными дорогами, если вы автомобилист, или тротуарами, если вы пешеход. Плохие дороги — одна из актуальнейших проблем любой страны. Сегодня поговорим о том, как технологии могут помочь решить эту проблему.

Задача состоит в распознавании повреждений дорожного покрытия. Общая дорожная сеть Российской Федерации — 1,5 млн км, из которых примерно 75% — дороги общего пользования. При этом около 65% таких дорог имеют твёрдое покрытие, однако 55% из них не соответствуют нормативным требованиям. Иными словами, большинство национальных дорог содержит различные дефекты, и это становится серьёзной опасностью как для владельцев транспортных средств, так и для самого транспорта, а также для пешеходов. Что делать? Конечно же, привлечь нейросети. Как — рассказываю под катом.

Читать далее

RSNA 2022 Cervical Spine Fracture Detection, или как я переломы шейных позвонков искал

Время на прочтение15 мин
Количество просмотров1.9K

Доброго времени суток всем уважаемым хабровчанам. Меня зовут Алексей, и в данный момент я работаю в “Филиале №11 ООО "ОЦРВ" Сириус”. В этой статье я хотел бы поделиться с вами опытом своего участия в соревновании на достаточно известной соревновательной платформе по Data Science’у - Kaggle.

Перейдем к сути

Создаем интерпретатор Python на основе ChatGPT

Время на прочтение5 мин
Количество просмотров10K

Вдохновившись постом Building A Virtual Machine inside ChatGPT , я решил попробовать что-то подобное, но на этот раз вместо инструмента командной строки Linux давайте попробуем превратить ChatGPT в интерпретатор Python!

Читать далее

Greenplum Backup в Ceph: история миграции

Время на прочтение18 мин
Количество просмотров3.8K

Привет, Хабр! У этой статьи два автора – Василий Меньшаков и Алексей Кузнецов. Мы системные архитекторы развития платформы больших данных в X5 Tech. Решили поделиться своим опытом построения нового хранилища резервных копий для Greenplum. Какие были проблемы у предыдущего решения? Почему мы выбрали Ceph? Какой способ интеграции лучше? С какими проблемами мы сталкивались при внедрении этого инструмента? Что мы настраивали? Читайте подробности в нашей статье.

Читать далее

Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти

Время на прочтение6 мин
Количество просмотров1.8K

И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных  (командное пространство, песочница и т.п.), которую использует как сам автор, так и/или коллеги для временного хранения данных. Как у любого «помещения», в нашей «песочнице» есть своё ограничение по объёму выделенного места для хранения данных.  Периодически бывает так, что вы или ваши коллеги забываете об этом маленьком ограничении, из-за чего, к сожалению, заканчивается объём выделенной памяти.

В этом случае можно применить маленький лайфхак, который позволит оперативно просмотреть, какая таблица больше всего занимает место, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, вы оперативно сможете почистить место в песочнице, предварительно согласовав действия с владельцем данных без нанесения вреда данным остальных коллег. Кроме того, этот инструмент позволит периодически проводить мониторинг наполняемости вашей общей песочницы.

Читать далее

Магазин в 60-мерном пространстве или как сделать A/B-тесты точнее и надёжнее

Время на прочтение14 мин
Количество просмотров4.1K

Всем привет! Меня зовут Костя Гусев @nevoy, и в М.Видео-Эльдорадо моя команда развивает внутренние и партнёрские продукты. Перед тем, как поменять ассортимент или цены на полках 1 300 розничных магазинов, мы должны убедиться, что новое товарное предложение, как минимум, не приведёт к оттоку текущих покупателей, а еще лучше – привлечет новых. Для проведения подобных экспериментов мы пересмотрели подход к A/B-тестированию с учетом нашей офлайн-специфики, о чем и хотим рассказать в этой статье. 

Читать далее

9 продуктов для создания дашбордов

Время на прочтение8 мин
Количество просмотров50K

Семь Open Source и два low-code-продукта для визуализации BI-аналитики от AFFINAGE

Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.

Читать далее

Мониторинг в Apache NiFi. Часть первая

Время на прочтение20 мин
Количество просмотров9.2K

Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.

Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.

Читать далее

Как обезличить персональные данные

Время на прочтение8 мин
Количество просмотров11K

Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.

Читать далее

Ближайшие события

Введение в базы данных

Время на прочтение7 мин
Количество просмотров61K

Я решила написать эту статью, потому что именно такой статьи мне очень не хватало несколько лет назад, когда я только начала карьеру в аналитике данных. Тогда я часто слышала слова «база данных», «реляционная база», «primary key», примерно понимала, что они означают, но единую картину в голове у меня сложить не получалось.

Читать далее

Параллельные вычисления в Apache Spark

Время на прочтение8 мин
Количество просмотров7.2K

Всем привет!

Иногда кажется, что для решения проблемы недостаточно простого выполнения расчётов в Spark и хочется более эффективно использовать доступные ресурсы. Меня зовут Илья Панов, я инженер данных в продукте CVM5 (Customer Value Management торговой сети Пятёрочка) группы X5, и хочу поделиться некоторыми подходами параллельных вычислений в Apache Spark.

Читать далее

Четыре функции для быстрой работы с Big Data

Время на прочтение6 мин
Количество просмотров13K

Я часто пользуюсь функциями для работы с большими данными. Они позволяют упросить и ускорить работу. Некоторые я нашел на просторах интернета, другие написал сам. Сегодня хочу поделиться четырьмя из них, может кому-то будет полезно.

Читать далее

Grafana как инструмент визуализации потока данных в Kafka

Время на прочтение15 мин
Количество просмотров9.6K

Сегодня, в эпоху больших данных, когда компании тонут в информации из самых различных локальных и облачных источников, сотрудникам трудно увидеть общую картину. Анализ информации для отделения зерен от плевел требует все больше усилий. Визуализация данных помогает превратить все данные в понятную, визуально привлекательную и полезную информацию. Хорошо продуманная визуализация данных имеет критическое значение для принятия решений на их основе. Визуализация позволяет не только замечать и интерпретировать связи и взаимоотношения, но и выявлять развивающиеся тенденции, которые не привлекли бы внимания в виде необработанных данных. Большинство средств визуализации данных могут подключаться к источникам данных и таким образом использовать их для анализа. Пользователи могут выбрать наиболее подходящий способ представления данных из нескольких вариантов. В результате информация может быть представлена в графической форме, например, в виде круговой диаграммы, графика или визуального представления другого типа.

Большинство средств визуализации предлагает широкий выбор вариантов отображения данных, от обычных линейных графиков и столбчатых диаграмм до временных шкал, карт, зависимостей, гистограмм и настраиваемых представлений. Для решения задачи визуализации принципиальное значение имеет тип источника данных. И хотя современные средства визуализации проделали в этом вопросе большой путь, и предлагают на сегодняшний день весьма большой выбор, задача визуализации не решена в полной мере. Если для баз данных и целого ряда web сервисов задача визуализации не представляет принципиальной проблемы, то понять, что происходит с информационными потоками внутри некоторых программных продуктов из мира больших данных, не так просто.

Инструмент, на котором хотелось бы остановиться более подробно – Kafka.

Читать далее

Машинное обучение как новая революция

Время на прочтение11 мин
Количество просмотров6K

Интеллектуальные алгоритмы машинного обучения уже умеют распознавать голос и изображения, занимаются аналитикой бизнес-процессов и используются в решении массы других задач.

Их внедрение позволило не просто облегчить процесс программирования, но и совершило настоящую революцию во многих отраслях человеческой деятельности. Сегодня предлагаем обсудить, что представляет собой машинное обучение и его алгоритмы и как заставить технику выполнять обязанности людей.

Читать далее

Как собрать отчет в Yandex DataLens быстро и почти просто

Время на прочтение7 мин
Количество просмотров30K

Google Data Studio это, конечно, хорошо, но у нас есть свой чудесный аналог - похожий инструмент от одной из передовых ИТ-компаний РФ Yandex Datalens. Сегодня в паре абзацев попробуем быстро собрать отчет, аналогичный материалу про Data Studio. Спойлер: это не так просто, как кажется на первый взгляд. Но давайте разбираться.

Читать далее

Сравни: как мы использовали ML на лендингах финансовых продуктов и что из этого получилось?

Время на прочтение12 мин
Количество просмотров2K

Сравни: как мы использовали ML на лендингах финансовых продуктов и что из этого получилось?

Привет, Хабр! Меня зовут Дмитрий Лучкин, я управляю развитием одного из видов финансовых продуктов в Сравни, мой соавтор — Марк Мережников, DS нашей команды. Мы решили поделиться с вами опытом использования ML на лендингах финансовых витрин и рассказать, к каким результатам мы пришли. 

В Сравни много ресурсов выделяется на аналитику и ML. В компании работают более 40 аналитиков в разных продуктовых и аналитических командах. Мы используем SnowFlake в качестве DWH, в том числе H2O-решение для ML-задач. Сейчас в трех командах работают датасаентисты — они сфокусированы на решении конкретных задач по росту монетизации и улучшению пользовательского опыта. Сегодня мы хотим поговорить про опыт внедрения ML в наших витринах финансовых продуктов.

Наш пользователь видит витрину, на которой есть 100 или далее больше разных вариантов продуктов. Мы с командой задумались, как показать разные варианты предложений так, чтобы увеличить монетизацию. Наш кейс должен решать проблему ранжированиия вариантов финансовых продуктов на витрине (кластере лендингов). 

Это стандартная задача для ML. Самая близкая аналогия для такого типа задачи: как эффективно показывать товары одной категории в поисковой выдаче на e-commerce площадках. Но наша задача не решается просто, потому что целевая метрика — выручка — зависит от суммы в каждой воронке по каждому офферу. Мы используем несколько метрик: клики, заявки, оформленные финансовые продукты. Есть трекинговая система, которая получает обратные данные по результатам успешного прохождения воронки пользователем. Есть фактор точности данных по выручке и всем показателям, также существует влияние маркетинговых затрат и влияние позиции (расположения оффера на витрине из более 80 офферов) на выручку по каждому офферу и целевые метрики продаж. Еще нужно учитывать, является ли пользователь новым или повторным для каждой конкретной финансовой организации, — от этого зависит, сколько мы заработаем за оформленный финансовый продукт.

Читать далее

Вклад авторов