Как стать автором
Поиск
Написать публикацию
Обновить
78.71

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Ускоряем кластеризацию больших векторов, анализируя страны Центральной Азии

Время на прочтение8 мин
Количество просмотров2.2K

Любите ли вы задачи кластеризации? Лично я — да. Они хорошо поддаются визуализации, понятны людям, далеким от математики, и зачастую оказывают быстрое влияние на бизнес процессы. Однако, при решении задач кластеризации мы можем столкнуться с рядом проблем. Среди которых может быть:

большая размерность вектора признаков,
отсутствие данных на подмножестве фичей,
зашумленность значений / выбросы и т.д.

В случае, если количество объектов небольшое (и увеличить их естественным образом невозможно), то при неблагоприятном стечении обстоятельств мы можем столкнуться с серьезными проблемами в качестве нашей кластеризации.

Но если количество объектов достаточно большое, возникают вычислительные проблемы, такие как: нехватка ресурсов, скорость выполнения и т.д.

Читать далее

Как мы обучали категоризатор фискальных чеков DataCheckEngine

Время на прочтение6 мин
Количество просмотров2.3K

Задача актуальна для фин. организаций и ретейла. Расскажем, как мы подошли к ней и почему выбрали для обучения уменьшенную версию модели DistilBert.

Читать далее

Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы

Время на прочтение4 мин
Количество просмотров4.6K

Привет, я Галина Вакулина, лидер аналитиков в Точке. 

В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье я рассказываю, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.

Читать далее

Как эффективно оптимизировать нагрузку на кластер ClickHouse без сложных решений. Опыт исследовательской компании

Время на прочтение6 мин
Количество просмотров4.9K

Данными Mediascope ежедневно пользуется большинство участников медиарекламного рынка и каждый день наши клиенты совершают множество запросов как к самим данным, так и к нашим сервисам расчета и анализа медиапоказателей. Поэтому нам нередко приходится решать самые разные задачи, связанные с оптимизацией нагрузки на инфраструктуру. В этой статье вы найдете интересный кейс управления нагрузкой на кластер ClickHouse (CH), который решили внутри Mediascope. Команда нашего отдела разработки систем расчета и доставки прошла большой путь: от неуместного применения МL до простого, но рабочего решения.

Читать далее

Причинно-следственный анализ в машинном обучении: итоги 2021 г

Время на прочтение10 мин
Количество просмотров11K

Недавно мы поговорили о том, что такое causal inference или причинно-следственный анализ, и почему он стал так важен для развития машинного обучения. А в этой статье - под катом - хотелось бы рассказать о трендах в развитии Causal Inference в ML в 2021 г.

Читать далее

«Ваша сезонность, сэр!»: ищем тренд и прогнозируем спрос с помощью временных рядов, SARIMA и Python. Ч.1

Время на прочтение4 мин
Количество просмотров15K

Как вы можете помнить по первой статье "Маркетинговая аналитика на Python. Пишем код для RFM-сегментации", более 8 лет я работаю в сфере маркетинга для B2B и примерно столько же бешусь от дилетантского подхода к аналитике, который тянет за собой ряд проблем с определением ключевых метрик эффективности для компании (и, как следствие, с мотивацией сотрудников):

Читать далее

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

Время на прочтение27 мин
Количество просмотров10K

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».

Читать далее

Оптимальный маршрут доставки, скидки от срока годности и подбор одежды онлайн: 3 примера машинного обучения в e-com

Время на прочтение10 мин
Количество просмотров5.4K
image

Чем больше у компании клиентов, тем выше объем полезных данных, на которых аналитики могут обучить предсказательные модели. Поэтому для развития логистических алгоритмов особый интерес представляют научные публикации исследователей из крупных азиатских, европейских и американских компаний.

Дата-сайентист из команды СберМаркета Дмитрий Руденко рассмотрел три научных статьи, посвященных применению машинного обучения для доставки товаров в международной компании Zalando и в двух китайских компаниях Meituan и Alibaba.
Читать дальше →

JET BI. Новый релиз отечественной BI-платформы

Время на прочтение5 мин
Количество просмотров4.9K

Привет. Меня завут Альберт Нурутдинов, я архитектор в "Инфосистемы Джет". В этой статье я рассказывал, как и почему мы создали свою Business Intelligence платформу. Но время не стоит на месте, и мы стараемся не отставать. В конце 2021 года мы сделали новый релиз JET BI и сегодня расскажем вам о новых возможностях платформы, сложностях, с которыми мы столкнулись при их разработке, а также о перспективах развития.

Раскрываем секреты

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

Время на прочтение6 мин
Количество просмотров5.8K

Всем привет! На связи Артемий Козырь – Analytics Engineer в Wheely.

Продолжаю серию публикаций в формате “вредных советов”, целью которых является попытка обратить внимание на (не)лучшие практики и подходы в построении аналитических сервисов с реальными примерами и историями.

В этой публикации Вас ожидает:

Читать далее

Рекомендательная система торговой сети самообслуживания. Часть 2

Время на прочтение14 мин
Количество просмотров5.3K

Данная статья, является продолжением, описания хода учебного исследовательского проекта по разработке рекомендательной системы.

В первой части мы остановились на том, что модель, полученная с использованием библиотеки LightFM, не оправдала моих ожиданий, можно ли сделать что-то лучше?

Читать далее

Магнитная аномалия: как предсказать продажи промо в ритейле

Время на прочтение7 мин
Количество просмотров8.7K

Привет, Хабр! Меня зовут Андрей Ткаченко, я руковожу направлением прогнозирования промо в «Магните». Наша команда запускает цикл статей о прогнозировании промо: мы приоткроем дверь в мир процессов, технологий и алгоритмов крупного российского ритейла, а также поделимся собственным опытом. 

Во вводной статье мы расскажем о разнице между промо и регулярными продажами, о команде и истории развития направления прогнозирования в «Магните», а также объясним, почему качественный прогноз промо важен для бизнеса. 

Читать далее

Миграция расчёта управленческой отчётности с Teradata на GreenPlum

Время на прочтение12 мин
Количество просмотров6.1K

Всем привет! Меня зовут Николай Когель, я главный инженер по разработке Управления технологий MIS Департамента ИТ-блока «Финансы» в Сбере.

Сейчас в Сбере существует несколько крупных систем, в которых происходит построение управленческой отчётности и расчёт финансового результата. Как правило, это предполагает обработку огромных массивов исторических данных нетривиальной структуры из различных систем, загружаемых в аналитическое хранилище данных. По этой причине хранилище данных строится на основе MPP-систем, а с недавнего времени в Сбере наряду с Teradata появилась альтернатива в виде GreenPlum.

Читать далее

Ближайшие события

Python и чистая архитектура в 2021 году

Время на прочтение11 мин
Количество просмотров26K

Прошло уже почти 3 года с тех пор, как я впервые воспользовался чистой архитектурой на практике. С тех пор я побывал на многочисленных конференциях, где выступал с докладами на эту тему (вот, например, доклад Clean Architecture in Python с конференции PyGotham 2018). Кроме того, я написал статью о чистой архитектуре на Python, которая попала в рассылку RealPython.com … но сейчас заканчивается 2021 год, и мы ушли далеко вперед. Давайте рассмотрим, как развился Python, изучим разные крутые библиотеки, благодаря которым реализовывать чистую архитектуру на Python сегодня стало гораздо проще.

Сначала вспомним о том, зачем она нужна.

Читать далее

Референсная архитектура Cloudera CDP Private Cloud Base

Время на прочтение8 мин
Количество просмотров1.5K

Выпуск версии Cloudera Data Platform  (CDP) Private Cloud Base означает появление гибридной облачной архитектуры следующего поколения. Ниже представлен обзор методов проектирования и развертывания кластеров («лучшие практики»), включая конфигурацию оборудования и операционной системы, а также руководство по организации сети и построению системы безопасности, интеграции с существующей корпоративной инфраструктурой.

Читать далее

Плагин Big Data Tools теперь поддерживает IntelliJ IDEA Ultimate, PyCharm Professional, DataGrip 2021.3 EAP и DataSpell

Время на прочтение2 мин
Количество просмотров2.6K

Недавно мы выпустили новую сборку плагина Big Data Tools, совместимую со свежими (2021.3) версиями IntelliJ IDEA Ultimate и PyCharm Professional. Когда в октябре выйдет DataGrip 2021.3, эта сборка тоже будет с ним работать. Более того, теперь мы умеем запускаться в DataSpell — новой IDE для Data Science.

Если вы используете старые версии Big Data Tools, сейчас самое время обновиться и попробовать новую версию плагина вместе со свежей версией IDE!

В этом году мы много чего улучшили и добавили совершенно новые фичи (например, запуск Spark Submit в виде Run Configuration). Вот небольшой список изменений за этот год. Этот список — лишь небольшая капля в море того, что изменилось с прошлого года.

Читать далее

Дайджест новостей искусственного интеллекта и машинного обучения за июль

Время на прочтение2 мин
Количество просмотров5.8K

Привет, Хабр! Давно не виделись.

Отфильтровав для вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июнь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июнь:

1. Прошли успешные испытания первого нейроимпланта, превращающего мысли в слова

Прочитать весь дайджест

Google выпускает MLP-Mixer: MLP архитектуру для компьютерного зрения

Время на прочтение5 мин
Количество просмотров4K

Для обработки изображений возвращаемся к MLP, просто, но эффективно (с конкурентоспособными результатами).

Обработка изображений — одна из самых интересных областей машинного обучения. Все началось с многослойных перцептронов (MLP), затем были свертки, потом механизм слоев self-attention (трансформеры), а теперь эта статья снова возвращает нас к MLP. Если вы думаете также как и я, то первый вопрос, который вы себе зададите — как MLP может достичь почти тех же результатов, что трансформеры и CNN? Именно на это мы и ответим в этой статье. Новый предлагаемый "MLP-Mixer" достигает результатов, очень близких к результатам моделей SOTA, которые обучались на массах данных, с почти 3-кратной скоростью. В статье также представлена интересная метрика (изображений / ядро / сек).

Предложенный MLP-Mixer не использует ни сверток, ни self-attention слоев, и, тем не менее, достигает почти SOTA результатов, что наводит на размышления.

Читать далее

Машинное обучение, big data и персонализация сайта: как eCommerce поднимает продажи при помощи технологий

Время на прочтение7 мин
Количество просмотров4K


Привет, Хабр! Меня зовут Андрей Тыщенко из компании Dynamic Yield. Наше направление работы — персонализация сайтов с целью повышения продаж и улучшения пользовательского опыта для компаний-партнеров. И именно поэтому сегодня хотелось бы поговорить о персонализации сайтов в eCommerce, инструментах персонализации и результатах, которые могут дать эти технологии.

Инструменты персонализации используют практически все компании, включая eCommerce, Ритейл, Финансовый сектор, Travel, IT-компании и мн.др. Отличные результаты дают индивидуальные предложения и рекомендации, которые уже давно внедрили те же Amazon, eBay, Netflix и множество других компаний. Под катом — интересные подробности об инструментах персонализации и парочка кейсов.
Читать дальше →

Мультитул для управления Хранилищем Данных — кейс Wheely + dbt

Время на прочтение18 мин
Количество просмотров6.3K

Уже более двух лет data build tool активно используется в компании Wheely для управления Хранилищем Данных. За это время накоплен немалый опыт, мы на тернистом пути проб и ошибок к совершенству в Analytics Engineering.

Несмотря на то, что в русскоязычном сегменте уже есть несколько публикаций, посвященных применению dbt, всё ещё нельзя говорить о широкой популярности и интересе, которые продукт стремительно обретает на Западе.

Поэтому сегодня я предлагаю вам экскурсию по Хранилищу Данных Wheely. В формат публикации я попытался уложить самые яркие моменты и впечатления от использования dbt, снабдив реальными примерами, практиками и опытом. Добро пожаловать под кат.

Читать далее

Вклад авторов