Как стать автором
Поиск
Написать публикацию
Обновить
84.45

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Как математика помогает логистике быть точнее. Опыт ПГК

Время на прочтение4 мин
Количество просмотров4.4K

Цифровые алгоритмы помогают решать реальные бизнес-задачи в самых разных сферах. Логистика — не исключение. Главные инструменты логиста — вовсе не карта, линейка и калькулятор, а сложные IT-системы, которые основаны на математическом моделировании и алгоритмах искусственного интеллекта. Эксперты в этой области ориентируются в цифровых продуктах, умеют их использовать и извлекать выгоду для компании. Почему? Потому что основная задача логиста – экономия. Он критически оценивает существующие процессы и предлагает способы их оптимизации. Ольга Умнова, Product Owner ПГК, и Дмитрий Алимин, руководитель направления в управлении развития цифровых продуктов компании, рассказывают, как оператор использует математический подход в бизнесе.

Читать далее

Next Step: как перейти из продакта в Data Science

Время на прочтение9 мин
Количество просмотров3.1K

Кризисное время всегда способствует переменам, в том числе в поиске новой профессии или приобретении опыта. Вот почему мы решили запустить рубрику Next Step о сотрудниках Х5 Tech, которые смогли поменять профессию внутри компании. Михаил Неверов, директор по анализу данных Х5 Tech, специально для нашего блога на Хабре рассказал о кардинальной смене профессии – как он решился на переход из продакта в Big Data, какие сложности пришлось преодолеть, как он справился с синдромом самозванца и каково это – возглавлять и успешно управлять департаментом по анализу данных из 130+ человек.

Читать далее

Tableau — динамический фильтр TOP N

Время на прочтение2 мин
Количество просмотров4.3K

Всем привет!

На работе стояла такая задача - вывести количество запросов в поддержку за день с разбивкой по версии приложения.

Казалось бы легкая задача! Но оказалось, что количество версий приложений несколько десятков и на графике это может выглядеть ужасно.

Поэтому появилась мысль, а можно ли выводить, например 10 версий с самым большим количеством запросов, а при необходимости «развернуть» график.

К сожалению, данный фунционал не представлен явным образом в Tableau, поэтому пришлось поресерчить и вот что из этого получилось.

Читать далее

Большим данным настал конец. Databricks, Snowflake и конец неоправданного хайпа

Время на прочтение9 мин
Количество просмотров11K

Что только нам не обещали с появлением Big Data. Мы будем прогнозировать продуктовый спрос и вспышки болезни, научим нейросети рисовать картины и сочинять романы, от которых плакал бы сам Достоевский (воссозданный теми же нейросетями по дневникам, портретам и рассказам современников). Что-то из этого уже в каком-то виде увидело свет — и это круто. Но большинству компаний это неинтересно и не нужно. Вместо суперсовременной архитектуры с плюшками-свистелками мы ищем аналоги наших старых хранилищ, но быстрее, дешевле и полегче в настройке. И это наглядно видно на примере историй Databricks и Snowflake.

Кликбейт, но интересно

Кто такой дата-аналитик в X5 Tech

Время на прочтение11 мин
Количество просмотров20K

Привет, Хабр! На связи отдел аналитики данных X5 Tech.

По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными. Тем не менее, до сих пор многие с трудом могут ответить на вопрос: чем занимается дата-аналитик. В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных. Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим об этом поговорить.

Читать далее

Учимся анализировать — полный цикл

Время на прочтение24 мин
Количество просмотров18K

Всем привет! Долго собирался выложить данный пост и вот настал момент = )

Контент будет ориентирован на новичков в анализе данных, ниже мы с Вами рассмотрим статистику работающих и безработных людей, поставим цели и проверим гипотезы.

Язык программирования: Python

Перейдем к анализу датасета

Импортозамещение BI своими руками

Время на прочтение13 мин
Количество просмотров7.4K

Привет! Сегодня расскажем большую историю: как мы разработали корпоративную платформу отчётности и решили сделать её общедоступной и бесплатной.

Читать далее

Экскаватор и два робота: «джун» лаборатории больших данных о том, как сделать крутой проект и одновременно писать диплом

Время на прочтение4 мин
Количество просмотров1.7K

Антон Подлегаев недавно окончил университет. В «Криптоните» он работает уже больше года — а начинал со стажировки, где помогал с системой мониторинга зубьев экскаватора. Расспросили его о том, сложно ли студенту получить оффер, как в этом помогает стажировка и возможно ли на ней приобрести реальные знания.

Читать далее

ИИдентификация: комбинированная методика повторного распознавания людей

Время на прочтение4 мин
Количество просмотров1.6K

Сотрудник отдела перспективных исследований российской компании «Криптонит» Никита Габдуллин предложил оригинальный подход к задаче повторной идентификации человека (person reidentification, re-id), комбинирующий аналитические методы с глубоким обучением (Deep Learning, DL). Он улучшает распознавание людей, которых она раньше не видела, то есть способствует обобщению  (generalization) модели на новые данные.

Читать далее

Пишем первую программу по машинному обучению до 50 строк с помощью Scikit-Learn

Время на прочтение5 мин
Количество просмотров10K

Сегодня мы воспользуемся возможностями машинного обучения для анализа шоколадного печенья.

Читать о печеньках и ML

Autosupply или как автоматизировать цепочки поставок с помощью ML

Время на прочтение5 мин
Количество просмотров1.4K

В этой статье речь пойдет о предиктивном определении поставки товарно-материальных ценностей в сеть фронт-офисов банка. Проще говоря, об автоматизированной организации снабжения отделений бумагой, канцтоварами и другими расходными материалами.

Этот процесс называется автопополнение и состоит из следующих этапов – прогнозирование потребности в центре снабжения, формирование заказа там же, согласование и корректировка потребности розничным блоком и непосредственно поставка. Слабое место здесь – необходимость ручной корректировки и последующего согласования объема поставки менеджерами логистики и руководителями подразделений.

Какой этап в этой цепочке можно оптимизировать? Во время формирования заказа менеджеры логистики рассчитывают количество товаров к поставке, основываясь на ретро-данных, данных о срочных заказах и своем экспертном опыте. При этом руководители отделений, чтобы обосновать потребность в тех или иных товарах, должны отслеживать их расход и понимать текущие запасы в отделении. Если мы научимся определять точную потребность в товарах и автоматизируем этот расчет, то этапы формирования и корректировки заказа будут занимать гораздо меньше времени или даже станут вовсе не нужны.

Задача прогнозирования потребления

Есть очень похожая и более распространенная задача в розничной торговле: сколько каких товаров нужно поставить в магазин Х в момент времени У? Задача решается относительно просто: зная потребление товара во времени из чеков и запасы товара на складе, можно вычислить будущую поставку напрямую. Поставить нужно столько, сколько предположительно продадут, за минусом запаса.

Читать далее

Big Data в IT-рекрутинге: как упрощается процесс найма для HR-менеджеров и поиска работы для кандидатов

Время на прочтение5 мин
Количество просмотров2.3K

Привет, на связи IT рекрутинговое агентство HEAAD. Рассказываем о том, как большие данные упрощают поиск работы кандидатам и процесс найма рекрутерам.

Читать далее

Генерация меток для обучения модели при помощи слабого контроля

Время на прочтение8 мин
Количество просмотров1.3K

Компаниям сложно следить за всеми новостями и мнениями о них в социальных сетях; существует огромное множество потенциально релевантных постов, и их фильтрация заняла бы много времени. Новый продукт Borealis AI был создан для решения этой проблемы путём извлечения в реальном времени информации социальных сетей, распознавания тематики и добавления метки для каждого поста с обозначением его типа. Например, пост может быть помечен как «пресс-релиз», «обзор пользователя» или «шум». Такие метки позволяют пользователям находить более чистые подмножества постов в соцсетях, которые им интересны.

Чтобы создать модель машинного обучения для классификации постов по таким категориям, необходимо получить высококачественные размеченные данные обучения. Иными словами, нам нужны примеры постов в социальных сетях, которые вручную размечены как пресс-релизы или обзоры пользователей, чтобы модель могла учиться тому, как распознавать новые примеры того же типа.
Читать дальше →

Ближайшие события

Ручное аннотирование по-прежнему незаменимо для разработки моделей глубокого обучения

Время на прочтение5 мин
Количество просмотров1.3K

Не подлежит сомнению, что высококачественные размеченные массивы данных играют критичную роль в разработке новых алгоритмов глубокого обучения. Однако понимание ML и глубокого обучения по-прежнему остаётся в зачаточном состоянии. Именно поэтому команды прикладного ML и исследований ML нашей компании совместно трудятся над пониманием последних исследований в сфере ML, пытаясь разобраться, как мы можем преодолеть одну из самых больших сложностей в современной разработке ИИ, как у наших клиентов, так и для отрасли в целом.

Недавно наша команда исследователей провела глубокий анализ состояния данных в области компьютерного зрения. Исследовательская статья, одобренная для Human-in-the-Loop Learning Workshop на ICML 2021, показала, что высококачественная разметка по-прежнему остаётся незаменимой для разработки точных моделей глубокого обучения.
Читать дальше →

Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

Время на прочтение7 мин
Количество просмотров5.2K

Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от времени для медленно меняющихся справочников). С увеличением объемов обрабатываемой информации в случае большой кардинальности справочников использование счетчиков в качестве суррогатных ключей становится проблемой с точки зрения производительности, т.к. при загрузке фактов необходимо определить значение суррогатного ключа по довольно большому справочнику. Для решения этой проблемы многие компании переходят на формирование суррогатных значений на основе хеш-значений бизнес-ключей.

Читать далее

Проведение совместных экспериментов c DVC

Время на прочтение4 мин
Количество просмотров2.6K

Вы можете использовать удаленные хранилища DVC для совместного использования экспериментов и их данных через машины.

Читать далее

Почему инструменты MLOps должны быть с открытым исходным кодом?

Время на прочтение8 мин
Количество просмотров2.5K

Перевод статьи подготовлен совместно с Моргуновой Анной, за что ей огромное спасибо ? Другие материалы ML REPA и ссылки на видео митапов и конференций можно найти в открытой странице в Notion.

Обзор

? Вы узнаете, что такое MLOps, зачем вам нужны MLOps для ваших проектов машинного обучения, почему MLOps должен быть open source и примеры существующих инструментов MLOps.

Автор: Yuqi Li

Оригинал: Why MLOps tools should be Open Source

Читать далее

Цифровая металлургия: результаты хакатона от «Северстали»

Время на прочтение6 мин
Количество просмотров3.3K

С 22 февраля по 20 марта «Северсталь» при поддержке Russian Hackers провела онлайн-хакатон для аналитиков и разработчиков в сфере поиска и анализа данных с общим призовым фондом 700 000 рублей . Все предложенные нами задачи имели отношение к бизнес-задачам в металлургическом производстве. Хакатон прошел отлично и даже превысил ожидания. Самое время подвести итоги.

And the Oscar goes to....

BI заместитель: Как сейчас быстро и недорого зарезервировать BI

Время на прочтение8 мин
Количество просмотров2.4K

Статья о том, как в нынешних условиях снизить критичность влияния санкций и прочих катаклизмов на пользователей данных в компании.

Читать далее про способ резервирования BI

Разметка именованных сущностей в Label Studio

Время на прочтение5 мин
Количество просмотров23K

В предыдущей статье мы уже подробно рассмотрели процесс разметки семантической сегментации в CVAT. Сейчас я подробнее расскажу по NER-разметку в другом популярном open source инструменте Label Studio

Предупреждаю, статья в первую очередь направлена на новичков, которые делают первые шаги в разметке данных. Как и в прошлый раз мы шаг за шагом пройдем путь от установки и настройки проекта до экспорта уже размеченного датасета.

В процессе будем подробнее останавливаться на нюансах связанных с извлечением именованных сущностей и рекомендациях из личного опыта.

Посмотрим, что у тебя там...

Вклад авторов