Все потоки

Big Data *

Большие данные и всё о них

111,4

Рейтинг

СтатьиПостыНовостиАвторыКомпании

ak19 5 часов назад

Дата-агенты поверх BI: кто такая Dora и что она может сделать с вашими данными

Простой

6 мин

4.4K

Блог компании GlowByteBig Data * Визуализация данных * Искусственный интеллектМашинное обучение *

Обзор

Перевод

Всем привет! На связи Александр Ларин, руководитель центра поддержки и обучения в GlowByte.

Компания GlowByte – официальный партнер FanRuan по внедрению FineBI в России. Мы внимательно изучаем новые продукты вендора и не могли пройти мимо свежего релиза – набора дата-агентов Dora, работающих поверх BI-среды: моделей данных, метрик и дашбордов.

Ниже делимся статьёй FanRuan (оригинал можно почитать по ссылке), в которой авторы отмечают, что BI – это всего лишь полдела: такие системы давно научились показывать проблему, но ее решением по-прежнему занимается аналитик вручную – ищет причину, сверяет системы, готовит отчёт. Как современные цифровые сотрудники, работающие поверх вашей BI-системы, могут автоматизировать эту цепочку от алерта до задачи, читайте в переводе статьи под катом.

В конце – наш взгляд со стороны практики: почему без порядка в метриках любой агент будет врать убедительно.

Читать далее

+4

anna_shat 7 часов назад

Всё по полочкам или как мы создавали единую метрику для сотен моделей антифрода

Средний

9 мин

4.6K

Блог компании AvitoTechВизуализация данных * IT-инфраструктура * Big Data * Анализ и проектирование систем *

Кейс

Всем привет! Меня зовут Аня Шатшнайдер, я старший BI-разработчик в команде антифрода Авито. Мы пользуемся сотнями ИИ-моделей, чтобы бороться с действиями недобросовестных пользователей. Но иногда модели работают не так эффективно, как следует. Поэтому моя команда решила найти аутсайдеров и передать их на доработку DS-инженерам. Расскажу, как мы пересматривали подход к оценке моделей.

Статья будет полезна аналитикам и DS, которые работают с несколькими ML-моделями в проде и хоть раз озадачились вопросом, как сравнивать их между собой.

Читать далее

0

mbakhva 15 часов назад

Демократизация данных: почему этот тренд так актуален?

7 мин

7.1K

Блог компании РСХБ.Цифра (Россельхозбанк)Data Engineering * Big Data * Анализ и проектирование систем * DevOps *

Привет, Хабр. Мы Марина и Михаил, и мы занимаемся оптимизацией внутренних процессов и автоматизацией управленческой и аналитической отчетности в ИС СКАП (Jira) в команде РСХБ.Цифра. В этой статье расскажем о тренде на демократизацию данных, о том, как мы внедрили принцип демократизации данных в ИТ-кластере банка, и о том, что планируем в будущем.

Раньше на рынке стандартом использования BI были высокотехнологичные, но при этом высокобюджетные системы SAP BI, Tableau. Разработка такой отчётности считалась эксклюзивной за счет дорогостоящего оборудования и сотрудников разработки. В них мы готовили отчёты только для топ-менеджмента. Кто бы тогда мог подумать, что в скором времени отчёты BI будут доступны любому сотруднику, а стоимость разработки отчетов снизится в несколько раз?

Cуть демократизации данных заключается в переходе от разрозненного ручного сбора информации к прозрачной и проверяемой системе, доступной всем участникам процесса. Очевидно, что тренд появился из-за проблемы традиционного подхода к данным. Раньше подход к работе с данными выглядел примерно так: все подразделения вели учёт в своих системах, а затем какое-то одно ответственное подразделение собирало эти данные со всех остальных в единый источник.

При ручном сборе и переносе данных неизбежно возникают ошибки — от банальных опечаток до неверных формул. Подразделения могли предоставлять неточные данные. Когда информация поступает со всех сторон, верифицировать её крайне трудно: у собирающего отдела просто нет ресурсов, чтобы перепроверить каждый показатель. У нас особенно остро проблема проявлялась на данных, связанных с персоналом. Информации иногда не хватало: например данные об отпусках приходили то позже, то раньше положенного срока, показатели из разных источников не сходились между собой. Из-за рассогласованности данных по больничным возникало большое количество ошибок в отчётах.

Читать далее

+12

dead_wasabi вчера в 16:53

Apache Spark и компиляция пользовательских функций UDF на Java в рантайме

Средний

14 мин

9.5K

Блог компании Axenix (ex-Accenture)Java * Data Engineering * Big Data *

Кейс

Привет, Хабр! Меня зовут Михаил Сичалов, я руководитель проектов и эксперт практики Applied Intelligence в компании Axenix.

Это вводная статья из цикла работ, посвящённых реальным сценариям использования Apache Spark и сопутствующим техническим нюансам, с которыми я столкнулся за последнее десятилетие работы над проектами в области Data Engineering. Я решил систематизировать и переосмыслить свой опыт работы с этим фреймворком и поделиться с сообществом интересными и нестандартными аспектами, освоенными на практике.

Несмотря на выразительность модуля Spark SQL с точки зрения описания преобразований над данными, зачастую возникает необходимость в создании пользовательских функций (UDF). Для этого в Apache Spark есть целое подмножество API, с помощью которого можно реализовать пользовательскую функцию произвольной сложности. Но что делать в случае, когда код функции становится доступным только в рантайме, а Spark используется в связке с Java API?

В данной статье рассмотрим подход к подготовке, компиляции и исполнению Java-кода пользовательских функций в рантайме приложения Spark, а также, почему этого не стоит повторять.

Читать далее

+8

Gi_gi_gi_gi_gi вчера в 09:52

Как «Дикси» мигрировала с Power BI на Sigla Vision за 5 месяцев

Простой

5 мин

6.8K

Блог компании GlowByteВизуализация данных * Big Data * Управление проектами * Софт

Кейс

Привет, Хабр! Это GlowByte, мы занимаемся внедрением и миграцией BI‑платформ. В этом посте разбираем свежий кейс: как федеральная розничная сеть «Дикси» вместе с нами и вендором «ДатаМайнд» мигрирует аналитику с Power BI на Sigla Vision. Расскажем, как выбирали платформу, в каком порядке переносили 155 дашбордов и какие цифры получились к середине 2026 года.

Читать далее

+12

osinovskov вчера в 09:00

От ANN к честному KNN на GPU: как мы пересобрали отбор кандидатов в рекомендациях Ozon

12 мин

6K

Блог компании Ozon TechМашинное обучение * Поисковые технологии * Big Data *

Кейс

Привет! Мы команда рекомендательной системы Ozon, и сегодня мы хотим рассказать о нашем пути от приближённого поиска соседей (ANN) к точному KNN на GPU. Этот материал для тех, кто работает с рекомендациями, поиском или большими векторными пространствами и задумывается о том, можно ли выжать максимум из железа, не жертвуя качеством.

В индустрии уже есть примеры, когда команды рекомендаций уходят от готовых ANN-индексов к более специализированным GPU-решениям скоринга. Мы же опишем, как это выглядит в масштабах российского e-commerce, и расскажем о результатах A/B-тестов. Сразу оговоримся: это не «Hello, world» с парой тысяч векторов, а продакшен на десятки миллионов пользователей и сотни миллионов товаров, где каждый час пайплайна и каждый процент recall имеют цену.

Читать далее

+14

ShyDamn 27 июл в 15:00

Разобрал 1233 статьи Хабра: всё, что советуют авторам, объясняет 6% результата

Средний

16 мин

9.4K

HabrЧитальный залИсследования и прогнозы в IT * Машинное обучение * Big Data *

Аналитика

Полгода назад я начал писать на Хабр дважды в неделю. Результаты разошлись в восемьдесят раз: от 120 тысяч охвата и 647 закладок до полутора тысяч охвата и нуля закладок при одинаковом подходе к работе.

Чтобы разобраться, я сделал очевидное — собрал 200 статей с высоким рейтингом и посчитал в них всё, что считается. Вышла красивая формула, совпадающая с тем, что обычно советуют авторам: пиши коротко, без картинок, с личного аккаунта, про горячую тему.

Потом я добавил контрольную группу — все 1033 статьи, вышедшие на площадке за месяц, без всякого отбора. И формула развалилась.

Картинки: по хитам корреляция с охватом −0.21, по всей популяции с рейтингом +0.26. Статьи вообще без иллюстраций имеют медианный рейтинг 4, с двадцатью и более — 15.

Длина: по хитам короткое побеждает, по всей популяции статьи на 4000–6000 слов имеют втрое больший шанс взять рейтинг выше 50, чем короткие.

Модель на всех измеримых признаках сразу — длина, картинки, гифки, видео, код, таблицы, ссылки, заголовок, час, день недели, тема, тип блога — даёт R² = 0.06. Вся форма объясняет шесть процентов разброса рейтинга.

Внутри: реальные базовые ставки площадки (медианная статья собирает 8869 охвата, 7 плюсов и 3 комментария), шестикратный разброс по хабам, разбор того, за что дают плюсы и за что закладки, история про тему, выгоревшую за пять месяцев с 697 тысяч охвата до 66 тысяч, и отдельный сюжет о том, как я чуть не повторил ту же ошибку второй раз — уже специально про неё зная.

Плюс результаты живого эксперимента: статья, написанная строго по выведенной формуле и опубликованная в прошлую пятницу.

Читать далее

+12

tester_v 24 июл в 10:23

Заставляем Airflow самого заводить задачи в YouTrack без смс и регистрации

Простой

6 мин

6.8K

Apache * Big Data * DevOps * Python * Программирование *

Туториал

Работая единственным QA в команде, в обязанности которого активно входит мониторинг, я столкнулась с проблемами тайм-менеджмента: очень много времени уходит на анализ упавших пайплайнов, заведение однотипных задач, поднятие тревоги, отмена тревоги, потому что проблема уже исправляется и прочие прелести тестерской работы. В один прекрасный осенний денек, сидя на окне и думая о нем (мониторинге), я решила - хватит это терпеть. Посидела, погуглила, вспомнила родительские слова “Хочешь сделать что-то хорошо - сделай это сама”. Что ж таков путь.

Читать далее

+3

vsbel 23 июл в 14:11

LLM и психолингвистика: HELPER

Средний

9 мин

9.5K

Блог компании VKBig Data * ЗдоровьеИскусственный интеллектМашинное обучение *

Кейс

Привет, Хабр! На связи Александр Сабко, Виктория Белявская и Сергей Павлухин, из мастерской по прикладному ИИ Инженерно-математической школы НИУ ВШЭ и VK.

Сейчас текстовые данные все чаще рассматриваются как источник информации о психологическом и эмоциональном состоянии человека (автора текста) — это особенно важно для задач, связанных с психологическим консультированием, анализом пользовательских коммуникаций и мониторингом эмоционального состояния. В тексте нам часто важна не просто тональность, а динамика эмоционального состояния автора.

При этом большинство существующих решений в анализе эмоций работают слишком обобщенно — одни определяют общую тональность текста, другие решают задачу бинарной или многоклассовой классификации эмоций на уровне всего текста. Такие подходы плохо подходят, например, для психологически-нагруженных текстов, так как эмоции могут быть динамическими и проявляться в разных фрагментах текста — агрегированная метка не может это показать.

Есть и другая проблема: для обучения моделей, которые смогут улавливать локальные эмоциональные признаки и выявлять динамику их смены, не хватает специализированных русскоязычных корпусов, формализованных схем разметки и воспроизводимых методик оценки качества работы модели. Без этого сложно понять, действительно ли модель научилась распознавать психо-эмоциональные признаки текста или просто угадывает общий эмоциональный фон.

В статье мы расскажем, как мы выстраивали схему разметки на интервью с практикующими психологами, какие источники текстов взяли, что внутри инструмента, и что получилось с дообучением Qwen-3.

Психолингвистика с LLM

+22

PevtsovED 23 июл в 12:04

Дата-контракты 2.0: как мы автоматизировали обмен данными между продуктами

Средний

10 мин

8.5K

Блог компании МТСBig Data * Анализ и проектирование систем * Управление разработкой *

Всем привет! С вами на связи Евгений Певцов, эксперт по качеству данных группы развития методологии из МТС. Около года назад мои коллеги уже рассказывали, зачем нам потребовались формализованные соглашения об обмене данными и какую проблему они должны были решить.

Тогда нашей главной целью было — зафиксировать договоренности между Поставщиком и Потребителем данных: какие из них передаем, в каком формате, кто отвечает за сопровождение и как нужно вносить изменения, чтобы они неожиданно не приводили к сбоям сразу в нескольких десятках зависимых сервисов.

Сейчас дата-контракты — это полноценный сервис, встроенный в существующие ETL-процессы на всем жизненной пути данных. Им ежедневно пользуются продуктовые команды, архитекторы, аналитики и Владельцы данных.

И сегодня я хочу поделиться практическим опытом, накопленным командами за время использования нашего сервиса: какие идеи сработали, что мы поменяли или доработали, где добавили автоматизацию, а также что еще планируем изменить или улучшить.

Читать дальше

+15

NeedOnlyAsk 22 июл в 14:30

Чемпионат среди uplift-моделей: групповой этап, плей-офф и неожиданный лидер

Средний

19 мин

13K

Блог компании AvitoTechСтатистика в ITBig Data * Машинное обучение * Анализ и проектирование систем *

Обзор

Привет! Меня зовут Гриша Крюков, я аналитик в команде доверия и безопасности Авито. Я провёл чемпионат среди четырёх популярных моделей для оценки индивидуальных эффектов: S-learner, T-learner, X-learner и Causal Forest. В статье расскажу, как проходили испытания и какая из моделей забрала золото после всех испытаний.

Материал будет полезен тем, кто интересуется uplift-моделированием: новичкам, чтобы узнать об этом методе, профессионалам — посмотреть на сравнение моделей в формате турнира. Не каждый же день такое устраивают!

Читать далее

+30

nikita-kochnev 22 июл в 13:37

Оптимизация MPP-кластера: предсказываем потребление памяти SQL-запросов

Средний

13 мин

11K

Блог компании Data SapienceBig Data * Высоконагруженные системы * Базы данных * Data Engineering *

Обзор

В аналитике больших данных системы массивных параллельных вычислений часто находятся под постоянной нагрузкой в режиме 24/7. Из десятков и сотен тысяч запросов в день многие исполняются одновременно и конкурируют за ограниченные ресурсы вычислительного кластера. Чем рациональнее каждый отдельный запрос их использует, тем больше запросов система сможет обслуживать параллельно. Соответственно, выше пропускная способность за конкретный отрезок времени. Как правило, проблема нехватки ресурсов остро ощущается в пиковые часы нагрузки. Можно бесконечно до совершенства настраивать и править параметры сессии на каждый запрос индивидуально вручную, но нам — команде разработки платформы данных Data Ocean Nova — всегда хочется иметь более системный подход.

В сегодняшней публикации мы расскажем о том, как реализовали идею автоматической системы предсказания потребления ресурсов SQL-запросами для Impala и StarRocks, основанную на ML-принципах, и сделали её частью платформы данных.

Читать далее

+15

Alek_Che 21 июл в 11:35

Data Storytelling на примере нестандартного дашборда: РПЛ и знаки зодиака

Средний

8 мин

7.1K

Блог компании Modus BIВизуализация данных * Data Engineering * Data Mining * Big Data *

Кейс

Что если задать BI-системе вопрос, который выходит за рамки рутинной аналитики? Будет ли она также эффективна? Эта идея родилась из корпоративного шуточного спора: шутили над качествами сотрудника «Рака», а в статистику попали также и другие «носители» знака зодиака.

Мы в Modus решили проверить закономерности на данных, так как это наш профессиональный рабочий инструмент и сфера интереса. Взяли статистику всех игроков Российской Премьер-Лиги, добавили знаки зодиака — и посмотрели, что получится.

Спойлер: вышел настоящий дашборд и серьезный вывод о том, на что способен гибкий BI.

Читать далее

+8

akrivyakov 21 июл в 09:55

ClickHouse: сценарии, сильные стороны, лучшие практики работы в 2026 году

9 мин

16K

Блог компании VK TechБлог компании VKОблачные вычисления * Хранение данных * Big Data *

Туториал

ClickHouse — один из самых востребованных инструментов для хранения и анализа больших объемов данных, обеспечивающий высокую производительность и наблюдаемость сервисов и приложений. Благодаря этим параметрам многие компании внедряют его в свои ИТ-инфраструктуры для решения задач аналитики, логирования и мониторинга. Однако, несмотря на широкое распространение, практика показывает, что далеко не все команды до конца осознают все особенности и нюансы работы с этой системой, что может приводить к неэффективному использованию ресурсов, ошибкам в проектировании и снижению общей производительности.

Привет, Хабр. Меня зовут Александр Кривяков. Я пресейл-архитектор VK Data Platform, VK Tech. В этой статье я расскажу об основных принципах работы ClickHouse, а также покажу возможные архитектурные решения и типичные сценарии применения системы.

Читать далее

+39

YoloGuy 20 июл в 13:44

После ударов по складам Wildberries цены пошли вниз? Что увидел мониторинг цен

5 мин

11K

Управление e-commerce * Открытые данные * Управление продажами * Big Data *

Аналитика

После атак на логистические центры Wildberries мониторинг цен YoloPrice зафиксировал аномальную волну снижения цен. Разбираемся, был ли это реальный «обвал», реакция селлеров на сбои или просто совпавшая по времени массовая переоценка.

Читать далее

-1

unkmlenjoyer 17 июл в 12:36

Векторный поиск в модерации контента. Как поместить 200+ моделей в один ансамбль?

8 мин

8.1K

Блог компании RWBBig Data * Машинное обучение * Искусственный интеллект

Кейс

Привет, я Лев Нечаев. Когда-то я работал на заполярной атомной станции, а теперь руковожу командой «Автоматическая модерация методами ИИ» в RWB. В этой статье расскажу, как мы (успешно) применяем детекторы на основе векторного поиска в модерации контента на маркетплейсе. Начнём с предпосылок, первых моделей и сбора данных. Вместе пройдём путь от обучения до оценки качества детекторов в работе на реальных потоках данных.

Читать далее

+8

YoloGuy 16 июл в 06:32

Рейтинг маркетплейсов по качеству поиска. Июль 2026

5 мин

6.2K

Big Data * Открытые данные * Разработка под e-commerce * Управление e-commerce * Аналитика мобильных приложений *

Аналитика

Все мы хоть раз искали что-то на маркетплейсах. И получали в выдаче совсем не то, что искали. YoloPrice разметил миллионы позиций поисковой выдач e-com площадок и посчитал, какая часть выдачи действительно отвечает на запрос пользователя. Отсюда родился рейтинг площадок по точности поисковой выдачи. Спойлер: у самых больших игроков мимо летит больше половины, а неожиданный лидер — вообще не маркетплейс. Полный рейтинг и методология — в статье.

Читать далее

+6

gurov_v 14 июл в 08:07

Как решаются оптимизационные задачи в масштабе. Декомпозиция и инженерия

Средний

12 мин

7.7K

Блог компании Magnit TechМашинное обучение * Big Data * Хранение данных * Базы данных *

Кейс

Всем привет. Меня зовут Василий Гуров, я занимаюсь задачами оптимизации в ML Research Lab MAGNIT TECH. В этом материале разберу два промышленных кейса из крупного ритейла – планирование смен сотрудников магазинов и сглаживание нагрузки на распределительные центры.

На поверхности это разные задачи. В первой нужно построить график работы сотрудников по ролям и временным интервалам. Во втором кейсе стоит задача перераспределения логистических потоков так, чтобы снизить пики нагрузки на распределительные центры (РЦ). Но инженерная проблема у них оказалась общей. Прямая time-indexed постановка быстро раздувала модель до сотен тысяч и миллионов бинарных переменных, давала нестабильные рекомендации и плохо укладывалась в SLA.

В этой статье я покажу, как мы решали эту проблему на практике с помощью простого приёма, который должен одним из первых рассматриваться при решении таких объёмных задач. Ключевым оказалось не выбрать самый мощный солвер или алгоритм, а взглянуть на задачу с другой стороны – изменить саму единицу решения. Вместо выбора на уровне слотов, мы стали заранее генерировать валидные кандидаты смен и дальше решали задачу выбора из этих кандидатов. В планировании графиков сотрудников таким кандидатом стала допустимая смена, в сглаживании нагрузки на РЦ – допустимый перенос потока.

Читать далее

+7

rokerius 13 июл в 15:42

Качество образования в бакалавриате Центрального университета

Простой

8 мин

12K

Мнение

Recovery Mode

Отзыв на качество образования в Центральном Университете от лица студента первого набора бакалавриата, переходящего на 3 курс. Есть как приятное, так и не очень, считаю поступающим и интересующимся будет полезно)

Читать далее

+9

boris_p 10 июл в 13:02

Ускоряем федеративные запросы в StarRocks

Средний

13 мин

9.9K

Блог компании Data SapienceData Engineering * Высоконагруженные системы * Базы данных * Big Data *

Обзор

Когда речь заходит про Lakehouse и федеративный доступ, многие вспоминают про Trino и… часто на этом все. Но федеративные запросы поддерживаются в том или ином виде довольно большим количеством СУБД, SQL-движков и систем для виртуализации данных.

В этой статье постараемся немного расширить кругозор читателей, которым интересна данная тема: рассмотрим федеративные запросы на примере набирающего популярность и активно развивающегося StarRocks. Из статьи вы узнаете: что такое федеративные запросы, как обстоят дела с реализацией гетерогенного федеративного доступа в этой СУБД и какие изменения команда решения Data Ocean Nova реализовала для оптимизации в StarRocks и Impala с целью улучшения функционала доступа к внешним данным.

Читать далее

+14

1

2 3 ...