Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

kmoseenk 3 авг 2022 в 17:31

Ускоряем кластеризацию больших векторов, анализируя страны Центральной Азии

8 мин

2.2K

Блог компании OTUSBig Data*Машинное обучение*

Любите ли вы задачи кластеризации? Лично я — да. Они хорошо поддаются визуализации, понятны людям, далеким от математики, и зачастую оказывают быстрое влияние на бизнес процессы. Однако, при решении задач кластеризации мы можем столкнуться с рядом проблем. Среди которых может быть:

• большая размерность вектора признаков,
• отсутствие данных на подмножестве фичей,
• зашумленность значений / выбросы и т.д.

В случае, если количество объектов небольшое (и увеличить их естественным образом невозможно), то при неблагоприятном стечении обстоятельств мы можем столкнуться с серьезными проблемами в качестве нашей кластеризации.

Но если количество объектов достаточно большое, возникают вычислительные проблемы, такие как: нехватка ресурсов, скорость выполнения и т.д.

Читать далее

+8

valentinak 20 июл 2022 в 09:03

Как мы обучали категоризатор фискальных чеков DataCheckEngine

6 мин

2.3K

Блог компании DatanomicaАнализ и проектирование систем*Big Data*Разработка под e-commerce*Машинное обучение*

Технотекст 2022

Задача актуальна для фин. организаций и ретейла. Расскажем, как мы подошли к ней и почему выбрали для обучения уменьшенную версию модели DistilBert.

Читать далее

+8

GalinaVakulina 19 июл 2022 в 13:03

Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы

4 мин

4.6K

Блог компании ТочкаBig Data*Учебный процесс в ITУправление персоналом*

Привет, я Галина Вакулина, лидер аналитиков в Точке.

В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье я рассказываю, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.

Читать далее

+8

MediascopeTeam 9 июн 2022 в 12:07

Как эффективно оптимизировать нагрузку на кластер ClickHouse без сложных решений. Опыт исследовательской компании

6 мин

4.9K

Блог компании MediascopeХранение данных*Машинное обучение*Big Data*Базы данных*

Данными Mediascope ежедневно пользуется большинство участников медиарекламного рынка и каждый день наши клиенты совершают множество запросов как к самим данным, так и к нашим сервисам расчета и анализа медиапоказателей. Поэтому нам нередко приходится решать самые разные задачи, связанные с оптимизацией нагрузки на инфраструктуру. В этой статье вы найдете интересный кейс управления нагрузкой на кластер ClickHouse (CH), который решили внутри Mediascope. Команда нашего отдела разработки систем расчета и доставки прошла большой путь: от неуместного применения МL до простого, но рабочего решения.

Читать далее

+8

Efaldgent 1 июн 2022 в 11:00

Причинно-следственный анализ в машинном обучении: итоги 2021 г

10 мин

11K

Блог компании Open Data ScienceИскусственный интеллектНаучно-популярноеМашинное обучение*Big Data*

Недавно мы поговорили о том, что такое causal inference или причинно-следственный анализ, и почему он стал так важен для развития машинного обучения. А в этой статье - под катом - хотелось бы рассказать о трендах в развитии Causal Inference в ML в 2021 г.

Читать далее

+8

kaza4ka 27 мая 2022 в 10:49

«Ваша сезонность, сэр!»: ищем тренд и прогнозируем спрос с помощью временных рядов, SARIMA и Python. Ч.1

4 мин

15K

Python*CRM-системы*Big Data*1С*

Туториал

Как вы можете помнить по первой статье "Маркетинговая аналитика на Python. Пишем код для RFM-сегментации", более 8 лет я работаю в сфере маркетинга для B2B и примерно столько же бешусь от дилетантского подхода к аналитике, который тянет за собой ряд проблем с определением ключевых метрик эффективности для компании (и, как следствие, с мотивацией сотрудников):

Читать далее

+8

He6puToCTb 5 мая 2022 в 06:14

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

27 мин

10K

Блог компании Magnit TechData Engineering*Big Data*Алгоритмы*

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».

Читать далее

+8

Asimandia 28 мар 2022 в 14:00

Оптимальный маршрут доставки, скидки от срока годности и подбор одежды онлайн: 3 примера машинного обучения в e-com

10 мин

5.4K

Блог компании КуперBig Data*Машинное обучение*Управление e-commerce*

Чем больше у компании клиентов, тем выше объем полезных данных, на которых аналитики могут обучить предсказательные модели. Поэтому для развития логистических алгоритмов особый интерес представляют научные публикации исследователей из крупных азиатских, европейских и американских компаний.

Дата-сайентист из команды СберМаркета Дмитрий Руденко рассмотрел три научных статьи, посвященных применению машинного обучения для доставки товаров в международной компании Zalando и в двух китайских компаниях Meituan и Alibaba.

Читать дальше →

+8

JetHabr 14 фев 2022 в 14:02

JET BI. Новый релиз отечественной BI-платформы

5 мин

4.9K

Блог компании Инфосистемы ДжетАнализ и проектирование систем*Big Data*Визуализация данных*Управление продажами*

Привет. Меня завут Альберт Нурутдинов, я архитектор в "Инфосистемы Джет". В этой статье я рассказывал, как и почему мы создали свою Business Intelligence платформу. Но время не стоит на месте, и мы стараемся не отставать. В конце 2021 года мы сделали новый релиз JET BI и сегодня расскажем вам о новых возможностях платформы, сложностях, с которыми мы столкнулись при их разработке, а также о перспективах развития.

Раскрываем секреты

+8

kzzzr 10 фев 2022 в 09:09

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

6 мин

5.8K

Блог компании OTUSBig Data*Data Engineering*

Всем привет! На связи Артемий Козырь – Analytics Engineer в Wheely.

Продолжаю серию публикаций в формате “вредных советов”, целью которых является попытка обратить внимание на (не)лучшие практики и подходы в построении аналитических сервисов с реальными примерами и историями.

В этой публикации Вас ожидает:

Читать далее

+8

vlesinskij 9 фев 2022 в 14:14

Рекомендательная система торговой сети самообслуживания. Часть 2

14 мин

5.3K

Блог компании OTUSBig Data*Машинное обучение*

Данная статья, является продолжением, описания хода учебного исследовательского проекта по разработке рекомендательной системы.

В первой части мы остановились на том, что модель, полученная с использованием библиотеки LightFM, не оправдала моих ожиданий, можно ли сделать что-то лучше?

Читать далее

+8

He6puToCTb 4 фев 2022 в 09:05

Магнитная аномалия: как предсказать продажи промо в ритейле

7 мин

8.7K

Блог компании Magnit TechData Engineering*Big Data*Алгоритмы*

Привет, Хабр! Меня зовут Андрей Ткаченко, я руковожу направлением прогнозирования промо в «Магните». Наша команда запускает цикл статей о прогнозировании промо: мы приоткроем дверь в мир процессов, технологий и алгоритмов крупного российского ритейла, а также поделимся собственным опытом.

Во вводной статье мы расскажем о разнице между промо и регулярными продажами, о команде и истории развития направления прогнозирования в «Магните», а также объясним, почему качественный прогноз промо важен для бизнеса.

Читать далее

+8

Sber 23 дек 2021 в 08:13

Миграция расчёта управленческой отчётности с Teradata на GreenPlum

12 мин

6.1K

Блог компании СберФинансы в ITBig Data*Базы данных*SQL*

Всем привет! Меня зовут Николай Когель, я главный инженер по разработке Управления технологий MIS Департамента ИТ-блока «Финансы» в Сбере.

Сейчас в Сбере существует несколько крупных систем, в которых происходит построение управленческой отчётности и расчёт финансового результата. Как правило, это предполагает обработку огромных массивов исторических данных нетривиальной структуры из различных систем, загружаемых в аналитическое хранилище данных. По этой причине хранилище данных строится на основе MPP-систем, а с недавнего времени в Сбере наряду с Teradata появилась альтернатива в виде GreenPlum.

Читать далее

+8

kimmhhed 12 ноя 2021 в 07:06

Python и чистая архитектура в 2021 году

11 мин

26K

Блог компании Издательский дом «Питер»Python*Программирование*Big Data*Профессиональная литература*

Перевод

Прошло уже почти 3 года с тех пор, как я впервые воспользовался чистой архитектурой на практике. С тех пор я побывал на многочисленных конференциях, где выступал с докладами на эту тему (вот, например, доклад Clean Architecture in Python с конференции PyGotham 2018). Кроме того, я написал статью о чистой архитектуре на Python, которая попала в рассылку RealPython.com … но сейчас заканчивается 2021 год, и мы ушли далеко вперед. Давайте рассмотрим, как развился Python, изучим разные крутые библиотеки, благодаря которым реализовывать чистую архитектуру на Python сегодня стало гораздо проще.

Сначала вспомним о том, зачем она нужна.

Читать далее

+8

Cloudera 29 сен 2021 в 14:47

Референсная архитектура Cloudera CDP Private Cloud Base

8 мин

1.5K

Блог компании ClouderaBig Data*Hadoop*Data Engineering*

Выпуск версии Cloudera Data Platform (CDP) Private Cloud Base означает появление гибридной облачной архитектуры следующего поколения. Ниже представлен обзор методов проектирования и развертывания кластеров («лучшие практики»), включая конфигурацию оборудования и операционной системы, а также руководство по организации сети и построению системы безопасности, интеграции с существующей корпоративной инфраструктурой.

Читать далее

+8

olegchir 28 сен 2021 в 06:17

Плагин Big Data Tools теперь поддерживает IntelliJ IDEA Ultimate, PyCharm Professional, DataGrip 2021.3 EAP и DataSpell

2 мин

2.6K

Блог компании JetBrainsПрограммирование*Big Data*Data Engineering*

Недавно мы выпустили новую сборку плагина Big Data Tools, совместимую со свежими (2021.3) версиями IntelliJ IDEA Ultimate и PyCharm Professional. Когда в октябре выйдет DataGrip 2021.3, эта сборка тоже будет с ним работать. Более того, теперь мы умеем запускаться в DataSpell — новой IDE для Data Science.

Если вы используете старые версии Big Data Tools, сейчас самое время обновиться и попробовать новую версию плагина вместе со свежей версией IDE!

В этом году мы много чего улучшили и добавили совершенно новые фичи (например, запуск Spark Submit в виде Run Configuration). Вот небольшой список изменений за этот год. Этот список — лишь небольшая капля в море того, что изменилось с прошлого года.

Читать далее

+8

Syurmakov 29 июл 2021 в 18:11

Дайджест новостей искусственного интеллекта и машинного обучения за июль

2 мин

5.8K

Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Привет, Хабр! Давно не виделись.

Отфильтровав для вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июнь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июнь:

1. Прошли успешные испытания первого нейроимпланта, превращающего мысли в слова

Прочитать весь дайджест

+8

MaxRokatansky 7 июл 2021 в 19:17

Google выпускает MLP-Mixer: MLP архитектуру для компьютерного зрения

5 мин

4K

Блог компании OTUSBig Data*Машинное обучение*

Для обработки изображений возвращаемся к MLP, просто, но эффективно (с конкурентоспособными результатами).

Обработка изображений — одна из самых интересных областей машинного обучения. Все началось с многослойных перцептронов (MLP), затем были свертки, потом механизм слоев self-attention (трансформеры), а теперь эта статья снова возвращает нас к MLP. Если вы думаете также как и я, то первый вопрос, который вы себе зададите — как MLP может достичь почти тех же результатов, что трансформеры и CNN? Именно на это мы и ответим в этой статье. Новый предлагаемый "MLP-Mixer" достигает результатов, очень близких к результатам моделей SOTA, которые обучались на массах данных, с почти 3-кратной скоростью. В статье также представлена интересная метрика (изображений / ядро / сек).

Предложенный MLP-Mixer не использует ни сверток, ни self-attention слоев, и, тем не менее, достигает почти SOTA результатов, что наводит на размышления.

Читать далее

+8

fokus-lop 19 апр 2021 в 12:41

Машинное обучение, big data и персонализация сайта: как eCommerce поднимает продажи при помощи технологий

7 мин

4K

Big Data*Интернет-маркетинг*

Привет, Хабр! Меня зовут Андрей Тыщенко из компании Dynamic Yield. Наше направление работы — персонализация сайтов с целью повышения продаж и улучшения пользовательского опыта для компаний-партнеров. И именно поэтому сегодня хотелось бы поговорить о персонализации сайтов в eCommerce, инструментах персонализации и результатах, которые могут дать эти технологии.

Инструменты персонализации используют практически все компании, включая eCommerce, Ритейл, Финансовый сектор, Travel, IT-компании и мн.др. Отличные результаты дают индивидуальные предложения и рекомендации, которые уже давно внедрили те же Amazon, eBay, Netflix и множество других компаний. Под катом — интересные подробности об инструментах персонализации и парочка кейсов.

Читать дальше →

+8

kzzzr 29 мар 2021 в 20:08

Мультитул для управления Хранилищем Данных — кейс Wheely + dbt

18 мин

6.3K

Блог компании WheelyBig Data*Data Engineering*Хранение данных*

Уже более двух лет data build tool активно используется в компании Wheely для управления Хранилищем Данных. За это время накоплен немалый опыт, мы на тернистом пути проб и ошибок к совершенству в Analytics Engineering.

Несмотря на то, что в русскоязычном сегменте уже есть несколько публикаций, посвященных применению dbt, всё ещё нельзя говорить о широкой популярности и интересе, которые продукт стремительно обретает на Западе.

Поэтому сегодня я предлагаю вам экскурсию по Хранилищу Данных Wheely. В формат публикации я попытался уложить самые яркие моменты и впечатления от использования dbt, снабдив реальными примерами, практиками и опытом. Добро пожаловать под кат.

Читать далее

+8

1 2 ...

104

105 106 ...