Как стать автором
Обновить
52.13

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

WFM: планирование рабочего времени и управление персоналом

Время на прочтение7 мин
Количество просмотров32K

Одной из проблем, свойственным заведениям из сферы HoReCa (рестораны, фастфуды, кафе и отели) и Call Center/Contact Center, является планирование расписания. Проблемы с планированием, в первую очередь, возникают из-за плавающих графиков, различных типов совмещений и построения рабочих графиков исходя из квалификации сотрудников (компетенции). Особенно остро данный вопрос стоит у крупных сетей с большим товарооборотом, где правильная расстановка смен определяет качество обслуживания, оперативность и, самое главное, влияет на выручку и прибыль заведения либо всей сети.

Для решения данных вопросов были придуманы многочисленные системы планирования, учета и оптимизации рабочего времени сотрудников (workforce management, WFM), которые уже не первый год пользуются популярностью за рубежом.

Читать далее

Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность

Время на прочтение8 мин
Количество просмотров22K
Привет, Хабр! Меня зовут Григорий Коваль, я технический руководитель Core Data Lake центра Big Data МТС. Сегодня я расскажу о том, какие слои находятся внутри Data Lake, как построить архитектуру базы данных и чем распределенный Data Mesh-подход отличается от монолитного хранения данных.



Для создания Data Lake нужен итерационный подход – agile и все, что с этим связано. Еще необходимо правильно организовать работу команд, синхронизировать их распределить ответственность между участниками. Тогда получится прямая связь между пользователями и людьми, которые развивают витрины данных или домены. В этой статье поговорим о задачах, архитектуре и проблемах развития Data lake, а также обсудим способы решения возникающих проблем, специфику процессов и перспективы развития.
Читать дальше →

Как устроена MemQ — система PubSub в Pinterest

Время на прочтение10 мин
Количество просмотров3.5K

MemQ — это дополнение к Kafka, отделяющее аппаратную часть чтения и записи от слоя хранения данных. Разработчики Pinterest постепенно заменяют Kafka на MemQ: балансировка с ним не только проще благодаря унификации данных, но и дешевле в 10 раз. К старту флагманского курса по Data Science приглашаем под кат за подробностями.

Читать далее

HowTo: деплой Apache Cassandra DB и компонентов для её мониторинга

Время на прочтение12 мин
Количество просмотров4.2K

Привет! Меня зовут Сергей Тетерюков, и я работаю инженером инфраструктуры и автоматизации в X5 Tech. Недавно я написал для коллег обзорную статью о БД Apache Cassandra DB и её деплое, и теперь хочу поделиться ей с вами.

Читать далее

Школа аналитиков данных

Время на прочтение1 мин
Количество просмотров7.2K

X5 Tech приглашает студентов и выпускников вузов пройти бесплатное обучение по профессии Data Analyst. Уже через три месяца обучения можно будет пройти оплачиваемую стажировку в Х5 Group.

Читать далее

Самое важное с конференции NeurIPS 2021

Время на прочтение3 мин
Количество просмотров1.6K
image

6–14 декабря 2021 года была виртуально проведена конференция Neural Information Processing Systems (NeurIPS). Это одна из самых влиятельных конференций, собирающих лучших инженеров по ML, дата-саентистов и исследователей искусственного интеллекта со всего света. Это место для обмена информацией об исследованиях нейронных систем обработки информации в их биологическом, технологическом, математическом и теоретическом аспектах.

Так как конференция проходит в декабре, обычно она позволяет получить представление о новых тенденциях в сообществе Data Science на следующий год.

Так какими же будут тенденции в обработке данных на 2022 год? В этой статье я поделюсь основными темами, которые обсуждались на NeurIPS.
Читать дальше →

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

Время на прочтение5 мин
Количество просмотров1K

Боязнь новых технологий и чувство дискомфорта перед ними у людей происходит повсеместно. Тридцать, а то и двадцать лет назад трудно себе было представить современного здорового и образованного человека, зарабатывающего через интернет, продажей каких-либо товаров или услуг. Сегодня подобная тенденция с каждым годом всё больше набирает обороты. Роботы заменяют человека во всем, но, независимо от функции всё-таки имеют четкое предназначение — помощь, комфорт и удобство. В данном случае, проявление заботы робототехникой может стать явным плюсом в наборе его основных характеристик — автономности, интеллектуальности и самостоятельности. Но, увы, тут же появляется опасность разработки такого дизайн-продукта, который может быть воспринят людьми как «отдельное социальное существо», практически равный член общества и участник коммуникационного процесса жизнедеятельности человека. В случае повсеместного распространения подобных роботов по миру, люди будут вынуждены налаживать отношения с ними и находить новые способы осваивания коммуникационных процессов в разных сферах жизнедеятельности.

Читать далее

Неравный join

Время на прочтение7 мин
Количество просмотров7K


«Неравный брак», В. Пукирев, 1862 г.


Задача объединения табличных представлений очень часто встречается как в аналитике, так и в разработке (БД). Существует несколько различных типов слияний, фактически, это операции над множествами. Не будем погружаться в детали, на эту тему написано множество книг, семинаров, публикаций. Посмотрим на эти механизмы в преломлении практических задач. Будем смотреть по нарастающей сложности и пытаться решить их на «офисном» ноутбуке, не привлекая бесконечные мощности больших данных или реляционные БД.


Является продолжением серии предыдущих публикаций.

Читать дальше →

Кто такой data-инженер в Тинькофф и как им стать

Время на прочтение7 мин
Количество просмотров16K

Привет! Меня зовут Михаил Иванов, я работаю архитектором DWH в Тинькофф и занимаюсь развитием Batch ETL направления платформы обработки данных. Я расскажу о направлении data engineering в Тинькофф, о том, чем занимаются data-инженеры и как попасть к нам в команду.

Читать далее

«Национальная система пространственных данных» — на острие российской картографии

Время на прочтение3 мин
Количество просмотров11K

Есть минутка поговорить о матери нашей сырой Земле?

Сел я чай пить, хотел карту открыть, поглядеть, а она не открылась опять, и что-то я так разозлился, что накатал за час вот это.

Читать далее

Парсим NFT транзакции на OpenSea

Время на прочтение15 мин
Количество просмотров13K

Примерно раз в год у меня появляется неутолимая жажда накопать много данных и что-то с ними сделать. В этот раз мой выбор пал на маркетплейс NFT OpenSea. Меня осенило что блокчейн - это про открытые данные, а учитывая 1.2 миллиона транзакций в сети ETH каждый день - то это ещё и много данных, так что точно должно быть интересно.

В этом туториале я расскажу откуда можно достать данные о транзакциях блокчейна ETH, и как эти данные анализировать, в частности, как находить самые дорогие транзакции. И самое главное - бонус, небольшая игра в сыщиков в конце статьи.

Читать далее

Как работает машинное обучение в финтехе на примере МКБ

Время на прочтение9 мин
Количество просмотров3K

Данные — краеугольный камень любой большой компании, которая так или иначе работает с людьми. Чем больше компания, тем больше пользователей её услуг и сервисов, тем больше этих самых данных о клиентах можно собирать. Но мало просто их собрать — нужно их анализировать, нужно правильно их хранить и обрабатывать. То есть нужно активно применять возможности машинного обучения и привлекать специалистов по Data Science.

Меня зовут Александр Ошурков, и этот пост будет про машинное обучение внутри Московского кредитного банка (МКБ). Вы узнаете о том, как мы запустили новое для себя направление — практику машинного обучения.

Мой рассказ будет полезен тем, кто только задумывается над организацией такого подразделения у себя и не знает, с чего начать, или недавно ступил на этот путь.

Читать далее

ML и консенсус между людьми: берём от обоих подходов лучшее

Время на прочтение5 мин
Количество просмотров1.2K

Введение в категоризацию классификаций


У вас были когда-нибудь проблемы с поиском товара в продуктовом магазине? Например, вы могли искать замороженный картофель фри в отделе замороженных завтраков, но на самом деле он находился в отделе замороженных овощей. Или вы искали соевый соус в отделе азиатской еды, а он находился в отделе приправ.

Одна из самых больших трудностей для розничных магазинов и торговых площадок — создание каталога путём категоризации миллионов продуктов в сложную систему из тысяч категорий, также называемых классификациями (taxonomies). В реальных магазинах подробная категоризация нужна для логичного упорядочивания стеллажей. В эпоху электронной коммерции и цифровых торговых площадок правильная категоризация обеспечивает множество преимуществ, в том числе улучшенные поисковые рекомендации, более подходящие предложения товаров на замену, а также более строгое соблюдение региональных и федеральных требований.

Категоризация классификаций сложна не только из-за существования в мире бесчисленного количества продуктов, образующих глубоко вложенные иерархические категории, но и из-за постоянно меняющейся природы классификаций. Невозможно найти одного специалиста в предметной области, понимающего весь каталог достаточно хорошо для того, чтобы категоризировать каждый отдельный товар, а процесс обучения команды специалистов недостаточно быстр и масштабируем по современным стандартам. Более того, входные данные никогда не идеальны, и из-за отсутствия информации иногда невозможно понять, относится ли продукт к конкретной классификации.
Читать дальше →

Ближайшие события

JET BI. Новый релиз отечественной BI-платформы

Время на прочтение5 мин
Количество просмотров4.9K

Привет. Меня завут Альберт Нурутдинов, я архитектор в "Инфосистемы Джет". В этой статье я рассказывал, как и почему мы создали свою Business Intelligence платформу. Но время не стоит на месте, и мы стараемся не отставать. В конце 2021 года мы сделали новый релиз JET BI и сегодня расскажем вам о новых возможностях платформы, сложностях, с которыми мы столкнулись при их разработке, а также о перспективах развития.

Раскрываем секреты

Граф знаний LinkedIn’s Economic Graph и его Star2Vec-эмбеддинги

Время на прочтение5 мин
Количество просмотров2.8K

В этой публикации я представляю поверхностный обзор статьи от исследователей LinkedIn «Representation Learning in Heterogeneous Professional Social Networks with Ambiguous Social Connections». В указанной статье частично представлена структура графа знаний LinkedIn’s Economic Graph и относительно подробно описан метод обучения эмбеддингов Star2Vec. Я попытаюсь объяснить основные этапы построения векторных представлений, что называется "на пальцах".

Т. к. это лишь поверхностный обзор, от читателя требуются следующие познания:

1. Skip-gram и его адаптация под графы (word2veс, LINE, DeepWalk);

2. общие понятия о графах знаний.

Поехали!

Компрессия битового потока

Время на прочтение13 мин
Количество просмотров7.2K

Всем привет! Расскажу про нашу разработку, которая изменит подход к обработке данных в корне.

Мы разработали новый математический алгоритм обработки данных и программный продукт на его базе (кодек), позволяющий работать со сжатием битовых потоков любого формата (статические/динамические) – то есть, кодек позволяет проводить более глубокое сжатие уже существующих файлов (видео, изображения, архивы и т.д.), так и осуществлять сжатие исходных «сырых» данных.

Заложенная в алгоритме обработка представляет собой механизм квантования с применением многоцентричной развертки и алфавита изображения. Такой подход кардинально отличается от всех существующих на сегодня вариантов сжатия данных, базирующихся на принципе энтропийного сжатия.

Сжатие данных без потерь с дополнительной компрессией до 50% (не предел), является важным преимуществом и обеспечивает потенциальную возможность интеграции продукта практически в любые существующие программные решения. Также разработан алгоритм управления качеством визуализации изображения в зависимости от степени сжатия и конкретных приложений.

Читать далее

Успешное АБ-тестирование: о чём говорили на Data Driven Meetup #2

Время на прочтение2 мин
Количество просмотров2.4K

Всем привет! Недавно X5Tech провела митап, где эксперты компании говорили о том, как работают над проектами по Big Data. Делимся записью выступлений и презентациями спикеров.

Читать далее

Кто такие Data-специалисты, чем они занимаются и как строится работа

Время на прочтение10 мин
Количество просмотров22K

Привет, Хабр! Меня зовут Азат Якупов, я работаю Data Architect в Quadcode. Сегодня хочу рассказать о Data-специалистах и познакомить вас с нашей командой Data Platform.

Читать далее

Как из прикладной задачи построить большую платформу и размечать миллионы данных каждую неделю?

Время на прочтение7 мин
Количество просмотров2.1K

====

Привет, мы команда VS Robotics, и мы г̶о̶т̶о̶в̶и̶м̶ ̶р̶о̶б̶о̶т̶о̶в̶ ̶к̶ ̶в̶о̶с̶с̶т̶а̶н̶и̶ю̶ ̶м̶а̶ш̶и̶н̶ занимаемся голосовыми технологиями.

Наш главный продукт — умеющий общаться на русском языке робот-оператор, и в процессе работы над ним мы создали еще несколько самостоятельных продуктов, к примеру, VS Advisor (персональный ассистент) или голосовой скоринг. Их гораздо больше, но почти во всех наших продуктах под капотом немалую часть составляют нейросети, и потому нам неизбежно приходится сталкиваться с обработкой больших данных. Под эту задачу у нас появился проект Еlementary — собственная платформа разметки данных для машинного обучения, которая позволяет подготовить нужным образом данные почти любой сложности и любого объема.

Проект начался как внутренняя разработка силами одной команды, но так как любые инструменты повышения производительности и оптимизации работы в нашей компании приветствуются, то мы быстро получили ресурсы в виде серверных мощностей и сотрудников. И потому вскоре инструмент стал интересен другим командам как внутри компании, так и за ее пределами для команд от внешних заказчиков.

Но обо всем по порядку.

Что такое разметка и зачем она нужна?

Современные технологии часто используют искусственный интеллект, а именно нейросети, которые требуют огромного количества размеченной информации. И каждый современный бизнес ежедневно накапливает огромные потоки всевозможных данных, будь то разговоры операторов, маршруты курьеров, записи с камер наблюдения и многое другое. 

Читать далее

Биометрия в ритейле: большие надежды и суровая реальность

Время на прочтение7 мин
Количество просмотров4.8K

Привет! Меня зовут Макс, я являюсь продукт оунером видеоаналитики в М.Видео-Эльдорадо. Сегодня поговорим о такой сложной теме как биометрия. Многие компании пытаются ее использовать, не у всех это получается, и еще меньшее количество умеет на ней зарабатывать.

Читать далее

Вклад авторов