Как стать автором
Поиск
Написать публикацию
Обновить
119.42

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Как OSA превращает пустые полки в полные корзины?

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.8K

Вы когда-нибудь сталкивались с разочарованием перед пустой полкой, где должен быть ваш любимый майонез? А что если я вам скажу, что майонез в магазине есть. Помимо разочарования, это приводит еще и к потере выручки магазина.

Понять, почему товар числится в магазине, но не покупается посетителем, практически детективная задача. Так что наша команда занимается настоящими расследованиями: данные – наши улики, с помощью которых необходимо понять, почему вы не можете купить свой любимый майонез в ближайшем магазине. Именно здесь выходит на сцену команда проекта OSA. В этой статье погружу вас в детали работы нашего детективного бюро.

Читать далее

Код, который дышит: создание виртуальной вселенной на NestJS и своим AI на Tensorflow.js

Уровень сложностиСредний
Время на прочтение50 мин
Количество просмотров3.9K

Представьте мир, где каждый персонаж живёт своей жизнью: принимает решения, взаимодействует с окружающей средой и даже эволюционирует. Где почва, растения и ресурсы подчиняются сложным алгоритмам, а нейронные сети управляют поведением тысяч существ. Это не сценарий для нового блокбастера — это проект, над которым я работаю.

В этой статье я расскажу, как с помощью NestJS, TypeORM и Tensorflow.js создаю виртуальную вселенную, которая “дышит” и развивается. Мы разберём:

Это что, фантазия автора?!

Прогнозируем временные данные с TimeGPT

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.3K

Прогнозирование временных рядов играет ключевую роль в самых разных отраслях: от предсказания тенденций на фондовом рынке до оптимизации цепочек поставок и управления запасами.

Однако традиционные модели, такие как ARIMA, экспоненциальное сглаживание (ETS), Prophet, а также современные подходы глубокого обучения — например, LSTM и архитектуры на базе трансформеров — сталкиваются с рядом проблем.

Читать далее

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.2K

На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для решения всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.

Но так ли это на самом деле? Данная статья вдохновлена видением компании Anthropic на применение LLM в процессах и на построение автономных агентов, поэтому давайте попробуем во всем разобраться.

Поговорим про Data Pipelines, LLM Workflows и LLM Agents, а так же сравним их между собой.

Читать далее

Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях

Время на прочтение7 мин
Количество просмотров2.8K

Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы.

Читать далее

Открытый датасет TelecomX

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.7K

Всем привет! Хочу поделиться с теми, кто интересуется большими данными, своей работой. Дело в том, что довольно часто, когда мы читаем какую-либо статью или техдоку по этой предметной области, приводимые примеры опираются на крохотные наборы данных. И это не даёт понимания и погружения в специфику — напоминает обучение вождению на Need for speed. Более того, я не смог найти более-менее крупные наборы реальных бизнесовых данных или те, что были хотя бы похожи на реальные. Ну и как это часто бывает, пришлось сделать самому. Если вас интересует эта тематика, проследуйте под кат.

Читать далее

Работа с календарями в BI — с DAX и без него

Время на прочтение7 мин
Количество просмотров3.1K

Привет, Хабр! При работе с Business Intelligence и дашбордами практически в любой предметной области встречаются даты и календари, поэтому от выбора представления дат и их составных частей (день, месяц, квартал, полугодие, год и т.д.), ключей дат и таблицы с датами зависит производительность всех дашбордов. В этой статье я расскажу о том, как можно оптимизировать работу с датами в Visiology — с использованием DAX и без него. Интересно? Добро пожаловать под кат! :)

Читать далее

Кластеризация для души или как порадовать пользователя музыкального стриминга на старте

Время на прочтение8 мин
Количество просмотров888

Всем привет! Меня зовут Татьяна Онофрюк, я аналитик в команде персонализации HiFi-стриминга Звук, и сегодня я расскажу про работу нашей команды с рекомендательными системами и кластеризацией по исполнителям и жанрам стриминга.

Читать далее

Пример DAX с точки зрения реляционной алгебры

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.1K

Привет, Хабр!

Существует множество инструментов для решения задач Business Intelligence, одним из удобных инструментов является функциональный язык DAX, позволяющий работать с различными СУБД и выполнять достаточно сложные аналитические расчеты.

Поскольку язык DAX в рамках Power BI способен работать со множеством различных СУБД (например Oracle, MS SQL, MySQL, PostgreSQL, ClickHouse и т. д.), т. е. работает со множеством диалектов SQL, то в некотором смысле DAX является «надмножеством SQL» и приближается в этом смысле к реляционной алгебре. В данной статье приводится разбор типичного DAX для получения записи этого DAX в нотации реляционной алгебры. Интересующимся погружением в DAX и его реляционное представление — добро пожаловать :)

Читать далее

Полезные Youtube-каналы

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров8.3K

Сегодня хотим поделиться с вами подборкой Youtube‑каналов по ИИ, машинному обучению и математике. Если у вас есть еще рекомендации, обязательно дополняйте пост в комментариях!

Читать далее

Spark Essentials: Руководство по настройке и запуску проектов Spark с помощью Scala и sbt

Время на прочтение18 мин
Количество просмотров2.5K

В этой статье представлено подробное руководство по инициализации проекта Spark с помощью Scala Build Tool (SBT). Это руководство охватывает все этапы процесса, включая создание проектов, управление зависимостями, локальное тестирование, компиляцию и развертывание проекта Spark на кластере.

Это руководство было тщательно продумано, чтобы помочь новичкам, так что даже те, кто только начинает изучать Spark, смогут легко ему следовать. Более того, эта статья послужит ценным пособием для тех, кто хочет создавать, тестировать и развертывать пакетные задания Spark в среде JVM.

Цель этой статьи — предоставить вам подробное руководство по инициализации проекта Spark, в котором будут подробно рассмотрены все ключевые идеи. В руководстве будет рассмотрен пошаговый процесс создания проектов с помощью Scala Build Tool (SBT), а также продемонстрировано управление зависимостями, локальное тестирование, компиляция и развертывание проекта Spark на кластере.

Читать далее

You Only Look Once… But it Sees Everything! Обзор YOLO детекторов. Часть 1

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров5.4K

Детекция объектов в реальном времени является важнейшей задачей и охватывает большое количество областей, таких как беспилотные транспортные средства, робототехника, видеонаблюдение, дополненная реальность и многие другие. Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.

Читать далее

Как правильно использовать большие данные: строим хранилища на MPP-СУБД

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.9K

Немного контекста.

·       Данные нужны везде — для понимания трендов и рисков, для улучшения клиентского опыта, для технической аналитики. 

·       Вместе с цифровизацией и экспоненциальным ростом объема и разнообразия данных растет потребность в надежных, масштабируемых, производительных хранилищах.

·       Чтобы самостоятельно извлекать ценность из данных и оперативно использовать их в работе, нужно построить и поддерживать соответствующую инфраструктуру. Это трудозатратный подход.

Сегодня поделимся нашим опытом, как снизить капиталовложения в оборудование с большим объемом памяти, добиться производительности и высокой отказоустойчивости при создании DataLake и Data Warehouse.

Читать далее

Ближайшие события

Как меняется рынок и зачем нужны конференции по Ai

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров533

Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.

Читать далее

Переизобретая аналитику будущего: как и почему LLM-агенты меняют анализ продуктов, но все не так просто

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.5K

Привет! AI-агенты — самая горячая тема года и не просто так: это действительно мощная концепция, которая неизбежно заставляет пересматривать устоявшиеся подходы во многих сферах. Одна из самых интересных областей для агентов — аналитика и BI, и последние полгода я активно занимаюсь в том числе этим.

Адаптивные и налету подстраивающиеся под задачу дашборды, естественный язык вместо SQL, автономная работа для генерации и проверки гипотез, — все это очень интересно, но реальность всегда чуточку сложнее.

Обо всем этом и поговорим.

Давайте разбираться!

Читать далее

Задержки и системная архитектура

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров2.6K

Много JavaScript‑фреймворков назад, в 2009 году, Джеффри Дин, будучи инженером в Google, представил знаменитые «числа, которые должен знать каждый программист».

Читать далее

Сравнение средних значений в BI: однофакторный критерий Кохрена-Кокса

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров1.5K

В рамках BI решаются различные задачи, в том числе и с помощью статистических методов, для корректного выбора которых важно обращать внимание на содержание задачи. Например, если нужны только средние значения для графика, то действительно достаточно их рассчитать. Но иногда требуется решить другие задачи, например, не просто расчет средних значений двух выборок, но и сравнение средних двух выборок, чтобы узнать, в какой выборке среднее больше или меньше. Кроме того, данных для сравнения может быть столько, что они могут не умещаться на графике. В этом случае важно переключиться на подходящую статистическую гипотезу и использовать корректные статистические методы, намного более интересные, чем отображение средних значений на графике. Здесь могут быть эффективны методы дисперсионного анализа (ANOVA), или, в частном случае, когда речь идет о расчетах для одного фактора — методы сравнения средних двух выборок, и, например, метод Кохрена-Кокса. О том, какие результаты подобный подход дает на практике, а также о преимуществах работы с DAX при сравнении средних значений, читайте под катом.

Читать далее

От точечных решений к экосистеме: как «Национальная Лотерея» улучшает качество данных

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров1.1K

Привет, Хабр! Сегодня мы расскажем, как «Национальная Лотерея» — компания, обрабатывающая сотни миллионов транзакций ежегодно, полностью перестроила свою работу с данными. Изначально инфраструктура данных опиралась на Excel-отчёты, ручные выгрузки и разнородные базы — подход, типичный для старта аналитических процессов. Однако со временем такие методы стали сдерживать скорость и масштабируемость аналитики.

Читать кейс

RAG‑агент для автоматизации инцидент‑менеджмента

Время на прочтение20 мин
Количество просмотров4.8K

Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.

Читать далее

Цифровая карта аварийности: как технологии помогают сделать дороги безопаснее

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.3K

Привет, Хабр! Буквально недавно в ИЦ прошло ежегодное мероприятие «Инновационная столица-2024», где мой коллега, руководитель отдела цифровых сервисов, продемонстрировал обновленный АИС «Мониторинг аварийности».

Цифровая карта ДТП не имеет аналогов в России, поэтому в этой статье я бы хотел рассказать, чем так уникален продукт, и как он помогает снижать количество ДТП в городе.

Читать далее

Вклад авторов