Как стать автором
Поиск
Написать публикацию
Обновить
105.53

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

Время на прочтение14 мин
Количество просмотров2K

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.

Читать далее

Как честно распределить вычислительные ресурсы? Показываем на примере YTsaurus

Время на прочтение14 мин
Количество просмотров2.1K

YTsaurus — платформа для распределённого хранения и обработки данных. С помощью неё пользователи могут производить вычисления с данными, которые хранятся на кластере. За запуск этих вычислений отвечает один из центральных компонентов системы — планировщик. Зачастую ресурсов кластера не хватает, чтобы одновременно запустить все желаемые вычислительные задачи. Поэтому одна из важных задач планировщика — умение грамотно распределять вычислительные ресурсы между пользователями.

Меня зовут Егор Щербин, я работаю в Yandex Infrastructure, в команде планировщика YTsaurus. О нём и расскажу в этой статье. А также о запуске вычислений в кластере YTsaurus, распределении ресурсов между вычислениями и о том, как управлять распределением, чтобы все операции получали ровно столько, сколько требуется.

Читать далее

Collection. Темная сторона Data Science

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров5.3K

Привет! Меня зовут Оля, я директор по разработке моделей в Департаменте анализа данных и моделирования. Рада приветствовать всех тех, кто отважился заглянуть под капот розничного взыскания. Будет интересно, обещаю!

Читать далее

Коннектор ADB-TO-ADB

Время на прочтение14 мин
Количество просмотров2.8K

По опыту нашей продуктовой команды разработки и поддержки, пользователи, оперирующие большими объемами данных компании часто используют несколько разрозненных кластеров Greenplum. 

Мотивация такого решения может быть разной: организационная - разные команды-владельцы бизнес-данных выстраивают свои модели данных, обрабатывают их нужным для них образом; техническая - распределенные по различным датацентрам кластеры и т.п. Однако, рано или поздно возникает задача использовать данные из "соседних" хранилищ. Это могут быть как разовые сценарии единичных запросов, так и организация более сложных ETL-процессов. Реализация подобных механизмов опять-таки может быть разной со своими достоинствами и недостатками, исходя из возможностей и ограничений.

В этой статье рассматривается детали предлагаемой нами реализации коннектора для выполнения, так называемых,  гетерогенных запросов в рамках разных кластеров ArenadataDB и/или Greenplum - задача, которой наша команда разработки занималась в 2023 году. Этот коннектор позволяет объединять в запросах разные кластеры ADB, но при этом пользоваться возможностями установления соединений между сегментами. 

Но обо всем по порядку.

Читать далее

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров20K

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.

Читать далее

Как MLOps помогает обеспечить гибкость машинного обучения и стимулирует инновации

Время на прочтение6 мин
Количество просмотров1.9K


Многие компании внедряли машинное обучение рывками, приобретая и разрабатывая модели, алгоритмы, инструменты и сервисы под конкретные задачи. Этот подход неизбежен на старте, когда бизнес только узнает о возможностях технологий. Но в результате получается сборная солянка из изолированных, запускаемых вручную, нестандартизированных процессов и компонентов. Как следствие, появляются неэффективные громоздкие сервисы, которые приносят меньше пользы, чем могли бы, или полностью блокируют дальнейшее развитие. 

Команда VK Cloud перевела статью о значимости стандартизации и автоматизации ML-процессов и как с этим поможет подход MLOps.
Читать дальше →

10 критериев выбора BI-платформы для миграции по версии ex-Accenture

Время на прочтение5 мин
Количество просмотров2.6K

Недавно мы обнаружили в сети новое исследование российского рынка BI. На этот раз его проводили не исконно российские коллеги — то есть не BI Consult, а компания Axenix — бывшее подразделение Accenture в России. В этом посте мы разбираемся, какие требования к BI-платформам предъявляют специалисты, внедрявшие до этого исключительно зарубежные продукты, а также думаем о том, насколько  соответствует им Visiology сегодня.

Узнать, каким должен быть российский BI...

Как в Тинькофф создавали Data Catalog

Время на прочтение9 мин
Количество просмотров15K

В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять.

Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта.

Читать далее

Как уменьшить размер образа Docker для JVM

Время на прочтение8 мин
Количество просмотров12K
image

Если вы уже достаточно долго пишете на Kotlin, или Scala, или на любом другом языке, основанном на JVM, то могли заметить: начиная с Java 11 среда Java Runtime Environment (JRE) больше не поставляется в виде отдельного дистрибутива, а распространяется только в составе Java Development Kit (JDK). В результате такого изменения многие официальные образы Docker не предлагают вариант образа «только для JRE». Таковы, например, официальные образы openjdk, образы corretto от Amazon. В моем случае при использовании такого образа в качестве заготовки получался образ приложения, завешивавший на 414 MB, тогда как само приложение занимало всего около 60 MB. Мы стремимся к эффективной и бережливой разработке, поэтому такая расточительность для нас непозволительна.

Давайте же рассмотрим, как можно радикально уменьшить размер Docker-образа для Java.
Читать дальше →

Руководство по Human Pose Estimation

Время на прочтение12 мин
Количество просмотров15K

Обычно эту задачу решают при помощи глубокого обучения.

Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.

В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать дальше →

Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения

Время на прочтение12 мин
Количество просмотров8.5K

Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих оценок очень мало содержательных текстовых комментариев, а самый популярных среди них (за 2021 год) — «Вопрос не решен!» 

Чтобы решить эту проблему, Альфа-Банк собирает дополнительно до 500 тысяч отзывов в год. Этим занимается команда по сохранению лояльности клиентов: обзванивает клиентов, которые поставили негативную оценку, подробно их опрашивает, и старается решить проблему клиента на звонке, формируя свой экспертный отзыв.

Накапливаемые данные практически невозможно анализировать в ручном режиме в полном объеме, но можно сократить объем труда за счет машинного обучения. О том, как мы помогли оптимизировать процесс вычитки с помощью суммаризации на основе тематических моделей и будет эта статья.

Читать далее

Хранение данных, опыт Oxygen: профессиональные СХД становятся еще более востребованными

Время на прочтение5 мин
Количество просмотров2.5K

Проблема эффективного хранения данных стоит сегодня перед многими компаниями, и поэтому сегодня я подготовил текст о том, как именно мы решаем задачу хранения в облаке Oxygen. В этом посте речь пойдет о преимуществах виртуализации хранилищ NetApp, о том, что дают нам СХД Huawei, как организовано подключение пользователей к виртуальному хранилищу облака Oxygen. Также мы рассмотрим несколько примеров, когда преимущества профессиональных СХД остаются неоспоримыми.

Читать далее

Промышленный мониторинг качества данных в Feature Store. Предпосылки и реализация

Время на прочтение10 мин
Количество просмотров4.2K

Привет, Хабр! Меня зовут Алексей Лямзин, я работаю аналитиком в финтех направлении Big Data МТС. Мы с коллегами разрабатываем предиктивные модели на данных крупнейшего телеком-оператора и сегодня я расскажу вам о том, как мы строили автоматизированный контроль за качеством данных в нашем Feature Store. 

Добро пожаловать под кат!

Читать далее

Ближайшие события

DASтаточное решение: прямое подключение дисков для разных задач

Время на прочтение6 мин
Количество просмотров11K

Проблема хранения данных, и без того создающая массу головной боли архитекторам ЦОДов и системным администраторам, стала еще актуальнее в свете последних событий. В частности, к нам все чаще стали обращаться с запросами на различные форматы организации дополнительных хранилищ и расширения емкостей. Поэтому сегодня Юрий Алексеев, наш presale-эксперт по серверным решениям и системам хранения данных, расскажет о возможностях расширения уже существующего дискового пространства сервера с помощью подключения дисковых полок через DAS (то есть о прямом подключении). В посте мы поговорим о том, что для этого нужно, как это работает, и обсудим, может ли DAS заменить сетевые хранилища или системы высокой емкости.

Читать далее

“Как заставить данные говорить”: практическое погружение в нюансы работы российских BI-платформ

Время на прочтение4 мин
Количество просмотров2.3K

Привет, Хабр! Сейчас многие сталкиваются с проблемой замены BI-платформы из-за выхода с рынка зарубежных вендоров — особенно популярного и многими любимого PowerBI. И поэтому наши коллеги снова подходят к вопросу замены западной BI-платформы на российскую, но совершенно с другой стороны. Сегодня речь пойдет об уникальном тренинге для аналитиков и менеджеров “Как заставить данные говорить?”, на котором участники будут САМИ сравнивать разные BI-продукты под руководством опытного эксперта Алексея Колоколова, попробуют поработать в разных системах, а также получат индивидуальные задания и длительную обратную связь после завершения курса. Для интересующихся подробная информация — под катом.

Узнать больше про тренинг

Что я узнал на конференции DataOps Unleashed 2022

Время на прочтение16 мин
Количество просмотров1.7K


DataOps Unleashed — конференция, на которой обсуждают DataOps, CloudOps и AIOps, лекторы рассказывают об актуальных тенденциях и передовых методах запуска, управления и мониторинга пайплайнов данных и аналитических рабочих нагрузках. 

Команда VK Cloud Solutions перевела конспект выступлений, которые показались полезны автору статьи. DataOps-специалисты ведущих ИТ-компаний объясняли, как они устанавливают предсказуемость данных, повышают достоверность и снижают расходы на работу с пайплайнами.
Читать дальше →

Как мы научились А/B-тестировать алгоритмы с помощью switchback-тестов

Время на прочтение12 мин
Количество просмотров6.4K

Привет! На связи Евгений Бокарев и Надежда Грачёва, в этой статье мы расскажем про внедрение switchback A/B-тестов в логистике Delivery Club. Обсудим, как оценивать результат эксперимента, если эффективность доставки одного заказа влияет на другие. И на примере покажем, как мы снизили долю невыполненных заказов, с какими сложностями столкнулись и как их решали.

Читать далее

Как мы в СИБУРе делаем дашборды для людей. Часть 2: логичные дашборды для департамента логистики

Время на прочтение5 мин
Количество просмотров12K

Привет! Как и обещали в предыдущем посте, продолжаем рассказывать про то, как внедряем удобные дашборды для разных департаментов СИБУРа. На очереди — логистика.

За что отвечает логистика? Это не очень очевидно, но логистика — это неотъемлемая часть клиентского сервиса. И хороший дашборд для логистики — это рабочий инструмент для принятия эффективных решений по сокращению затрат и по обеспечению клиентского сервиса. Меня зовут Максим Коровин, я отвечаю за дашборды в логистике, и в этом посте расскажу, как всё устроено.

Читать далее

ScyllaDB: приручение «лающей» базы данных

Время на прочтение9 мин
Количество просмотров27K

Критериям выбора архивного хранилища она соответствовала идеально. Оптимизированная под запись, легко масштабируемая, совместимая с привычной уже Cassandra, только в разы быстрее… Имя же её — Сцилла (греч. Σκύλλα — «лающая») — напоминая о мифологическом чудовище, рисовало в воображении картины молниеносного поглощения гигантских объемов данных. Сложно было устоять и не попробовать.

Читать далее

Автоматизация логистики: от первой и до последней мили

Время на прочтение2 мин
Количество просмотров2.5K

Почтатех проведет открытый митап по автоматизации логистики, разработке  информационных систем для повышения ее прозрачности, предикативности и контролируемости. Интересно будет тем, кто занимается проектированием систем, архитекторам, аналитикам и техлидам. А еще всем тем, кому любопытно, как уже сейчас строится логистика будущего.

Кто не хочет читать после ката — сразу регистрируйтесь тут →

Читать далее

Вклад авторов