Как стать автором
Поиск
Написать публикацию
Обновить
106.18

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Анализ временных рядов: полное руководство для начинающих

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров21K

Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке. 

Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым. 

Читать далее

Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров2.2K

Современное производство — это уже давно не просто набор станков и всяких железок в ангарах, теперь это ещё и автоматизации, IT-инфраструктура и много, очень много данных, которые в режиме реального времени стекаются в DWH (Data Warehouse — хранилище данных) из сотен источников.

Эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. Качество данных (Data Quality, DQ) в таких условиях становится критически важным показателем, от которого зависит рентабельность бизнеса в целом.

Это вторая статья из небольшого цикла, в котором мы разбираем опыт СИБУРа в создании, поддержке и развитии DQ-сервиса. И этот опыт универсален — его можно применять в любой компании, перед которой стоят задачи по обеспечению качества данных.

В первой статье мы рассказывали про импортозамещение DQ-решений после ухода вендора с рынка РФ. В этой статье мы поговорим о задачах, которые решает DQ в целом, и рассмотрим архитектуру решения, которое мы строим в СИБУРе.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса в компании последние несколько лет.

Читать далее

Введение в синтетические данные для ML: зачем они нужны?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2K

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

Читать далее

Инхаус-разметка с нуля. Реально ли это и насколько полезно?

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров755

Разметка данных нужна для обучения нейронных сетей. К примеру, если мы учим сеть отличать живое лицо человека от фотографии или силиконовой маски для Face ID, то нам нужно разметить много-много фотографий человека, показать ИИ его маску и живое лицо. В этом посте расскажу, как мы это делаем в NtechLab и где берем людей для разметки большого объема данных. Также попытаюсь ответить на вопрос, стоит ли создавать собственные отделы по разметке данных внутри компании или можно ограничиться краудсорсингом или аутсорсингом, расскажу о некоторых рабочих кейсах. Приятного чтения!)

Что такое разметка данных?

Привет, Хабр! Меня зовут Надя Глебко. В NtechLab я проработала почти 4 года. Когда-то я пришла в компанию в качестве junior менеджера по разметке без особого опыта – но уже спустя полгода начала строить команду внутри компании. А уже через три года стала руководителем команды в составе 8 менеджеров и 3 валидаторов, а база наших инхаус-разметчиков составила около 100 человек. За это время был пройден невероятный путь роста и развития, проб и ошибок – и мне видится полезным поделиться этим опытом со всеми, кому интересна эта сфера. Но начнем с базы) 

Читать далее

Под капотом GCN

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.7K

Здравствуйте! Сегодня мы погружаемся в тему графовых сверточных сетей (GCN) и ключевых принципов, стоящих за ними. Если вам интересно узнать больше, я настоятельно рекомендую перейти на статью на Habr, где вы найдёте подробный анализ и актуальные примеры применения GCN.

Введение

GCN (Graph Convolutional Networks) — это масштабируемый подход к полуконтролируемому обучению, который применяется к данным, представленным в виде графов. Если вы хотите глубже понять, как сверточные нейронные сети (CNN) адаптируются для работы с графовыми структурами, загляните в статью на Habr.

Выбор архитектуры GCN основан на принципе локализованного приближения первого порядка спектральных сверток для графов. Что это значит? Мы рассматриваем только ближайших соседей узла, а спектральная свертка позволяет извлекать информацию с помощью спектра графа. В подробностях вы сможете разобраться, прочитав статью.

Метод

Рассмотрим задачу классификации узлов в графе, где метки доступны лишь для небольшого числа узлов. Графо-ориентированное полу-контрольное обучение предлагает интересные решения для такой задачи. Чтобы лучше понять использование графовой регуляризации и как она работает в функции потерь, обращайтесь к статье.

Не упустите шанс углубиться в эту увлекательную тему и раскрыть все нюансы GCN!

Читать далее

Почему так происходит | Telegram Mini App

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.9K

Почему же так получилось, что «Тапалки» перестали давать хорошие раздачи и стали требовать донаты?

Сейчас вы увидите схему, которую я нарисовал, чтобы наглядно показать, кто дал старт и что за ним последовало. Без этого контекста будет сложно понять последствия.

Понять всю суть

Полный гид по бенчмаркам LLM

Время на прочтение12 мин
Количество просмотров4.7K

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Читать дальше →

Synthetic Minority Oversampling Technique

Время на прочтение6 мин
Количество просмотров1.6K

В datascience все уже знают о важности данных для успеха любого проекта с машинным обучением. Часто бывает, что сами данные представляют собой гораздо большую ценность, чем модель, которая на них обучилась, поскольку процесс получения этих данных может быть гораздо сложнее, опаснее, дороже, чем обучение модели. Поэтому набирает популярность генерация наборов данных, создаются специальные фреймворки. Сегодня речь пойдет об одном из таких фреймворков, SMOTE, или же Synthetic Minority Oversampling Technique. За два последних десятилетия накопилось довольно много материала по этой технике. Ключевое отличие этой статьи в экспериментах, которые проводились в ходе исследования работоспособности такого типа овэрсэмплинга.

Постановка проблемы

Все, кто хоть раз сталкивался с машинным обучением, знакомы с таким понятием как «отсутствие баланса классов». Мало когда встречаются отбалансированные наборы данных, только если мы сами не сделаем себе нужную выборку с балансом. Также, многие наверно слышали, что дисбаланс классов может негативно отражаться на обучении модели, поэтому всегда возникали вопросы о том, как такую проблему решать.

Читать далее

Поисковые подсказки: подход «генератор-дискриминатор»

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров495

Всем привет! Меня зовут Федор Курушин, я занимаюсь машинным обучением в поиске Wildberries. Прямо сейчас я работаю над развитием сервиса персональных поисковых подсказок.

Недавно вместе с коллегой мы представляли нашу совместную работу Product Search Prompts: Generator-Discriminator Approach на конференции FICC 2025.

О подходе, который мы разработали для создания поисковых подсказок и для поиска релевантных похожих запросов для разных бизнес-сценариев, и пойдет речь в этой статье.

Читать далее

Геоданные VS медицина. На чем строить ГИС анализ в здравоохранении в 2025 году?

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров434

Геоаналитика VS медицина: могут ли карты спасать жизни людям?

COVID-19 научил нас главному: болезни распространяются не по документам, а по реальным улицам и домам. Геоаналитика — это не только про картинки, но и про задачи. Я 5 лет превращаю медицинский хаос в цифры и карты — и вот что я понял и решил поделиться с Хабром.

Почему так — читаем

Балансируя на грани: как внедрить Differential Privacy в аналитические пайплайны на Python

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров320

В этой статье я расскажу, как добавить механизмы Differential Privacy (DP) в ваши ETL‑ и аналитические пайплайны на Python, чтобы защитить пользовательские данные и при этом сохранить качество ключевых метрик. Пошаговые примеры с реальным кодом, советы по настройке ε‑бюджета и интеграции в Airflow помогут вам избежать самых распространённых подводных камней.

Читать далее

DAX-style подход в C# для SUMMARIZECOLUMNS из Power BI

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.2K

Привет, Хабр! Одной из важных функций в аналитическом языке DAX является SUMMARIZECOLUMNS, т.к. она готовит данные для дашбордов за счет декартова произведения полей группировки, если поля группировки из разных таблиц. Понятно, что на любом языке программирования можно реализовать логику, в чем-то аналогичную SUMMARIZECOLUMNS из DAX. Интересующимся DAX-style логикой для C# из NuGet пакета DaxSharp для функцииSUMMARIZECOLUMNS — добро пожаловать под кат :)

Читать далее

Стратегия успеха: ключи к развитию карьеры в Data Science. Часть 1

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров4.1K

Привет! Меня зовут Анна Ширшова, я уже 14 лет работаю в Data Science. В этом материале вы найдете мой личный чек‑лист по развитию карьеры: как ставить цели, где искать возможности, какие ошибки тормозят рост и как их обходить. 

Работу в ВТБ я начала в качестве лида команды, которую сама собирала с нуля. За время работы она была расширена до целого Кластера моделирования для СRM и оптимизации. В него вошли четыре команды из DE, DS, MLOPs, системных аналитиков и тестировщиков, руководителем которого являюсь. 

Некоторые коллеги, которые тогда вошли в команду в качестве junior DS, сейчас уже являются лидерами (product owner) команд Кластера. На основе своего опыта найма и развития сотрудников в сжатые сроки, в этой статье делюсь как стопперами, которые, на мой взгляд, мешают развитию карьеры, так и возможными путями по их устранению.

Читать далее

Ближайшие события

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров1.1K

Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические данные перестали быть лабораторным трюком — к 2030-му они превращаются в топливо, на котором летят банки, медицина и индустриальный IoT. GAN-ы научились соблюдать дифференциальную приватность, диффузионные модели вытягивают сигнал из шума лучше, чем биржевые трейдеры, а причинные графы заставляют базы данных «думать» о бизнес-логике. Мы собрали всё — от свежих метрик PrivEval до реляционной магии SCM и агентных симуляций, — чтобы показать: синтетика уже не копия реальности, а песочница для инноваций. Если вы ищете способ ускорить ML-проекты, избавиться от юридических цепей и заглянуть в будущее генеративного ИИ, эта статья станет вашим порталом.

Читать далее

Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2K

Мне приходится тратить много времени на мониторинг арбитража, госзакупок и других документов: PDF на сотни страниц, новости с «водой», RSS при этом отсутствует.

Поэтому я решил разработать open-source инструмент, который сам проверяет сайты, скачивает документы и с помощью локального ИИ (GPT4All / DeepSeek) делает краткую смысловую выжимку по YAML-шаблону.

Он должен работать как конвейер: источник → шаблон → интерпретация → результат. Локально, без облаков. И объединять всё в единую ленту новостей.

Сейчас я дорабатываю MVP — и я хочу понять, какие шаблоны наблюдения наиболее востребованы: законопроекты, торги, релизы, или что-то ещё?

Читать далее

DWH без иллюзий. Три реальных кейса внедрения корпоративного хранилища в ритейле, производстве и госсекторе

Время на прочтение8 мин
Количество просмотров4.2K

Рассказываем про индивидуальный подход как основу успешного проекта DWH и делимся реальными кейсами внедрения:

✔️ Кейс 1. Свой коннектор к Oracle: когда Debezium подвел​
✔️ Кейс 2. Миграция с Qlik: DWH между командами (в условиях командной фрагментации)​
✔️ Кейс 3. Бюрократия против DWH: проект в около-госсекторе

Читать далее

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.5K

В этой статье погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3. Разберем как она устроена и как работает

Читать далее

Проверка времени: действительно ли искусство дорожает с возрастом?

Время на прочтение13 мин
Количество просмотров1.5K

Недавно команда проекта MyInvest.Art обратилась к нашей ML-группе с амбициозной задачей: проверить, действительно ли возраст произведения искусства определяет его ценность. Как руководитель, я привык опираться на данные, а не на предположения. Поэтому я поручил команде глубоко погрузиться в аукционные данные — как российские, так и мировые, чтобы дать четкий ответ: стоит ли инвестировать в искусство, и если да, то как это делать с умом.

Общепринятое мнение гласит, что старые работы ценятся выше. Но подтверждается ли это реальными данными? Команда проанализировала 54 994 аукционные сделки (все сделки на российском рынке в базе данных, у которых была известна цена продажи). 

Уникальных произведений искусства: 49351 (Количество уникальных ID в БД) 

Количество повторных продаж (уникальных artwork_id, встречающихся более одного раза): 3925

То есть лишь 8% произведений выходят на рынок повторно. Уже на этом этапе становится понятно: вторичный рынок искусства в России работает не так уж активно.

Для точности анализа мы убрали из выборки работы с отсутствующими ценами, а также тиражную графику (medium_type != 'prints'). Кроме того, между двумя продажами одной и той же работы должно было пройти не менее года, иначе это, скорее всего, тоже будет относиться к тиражной работе.

В финальном датафрейме — 1 389 работ, которые реально перепродавались через аукционы. Именно их ценовая динамика поможет нам понять, действительно ли возраст влияет на стоимость произведений искусства.

Читать далее

Часть 1: ResNet-18 — Архитектура, покорившая глубину

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.5K

Разбор "на пальцах": Как из изображения получается предсказание? Разберем как устроена классическая сеть ResNet.

Читать далее

Хочешь своего AI-бота? Пошаговый план для новичков и не только

Время на прочтение6 мин
Количество просмотров6.4K

AI-чатботы стремительно трансформируют способы взаимодействия бизнеса и пользователей с технологиями. Эти интеллектуальные виртуальные ассистенты способны обрабатывать клиентские обращения, давать рекомендации и даже автоматизировать сложные бизнес-процессы.

В результате, около 65% организаций заявляют об использовании генеративного ИИ как минимум в одной бизнес-функции на регулярной основе — почти в два раза больше, чем десять месяцев назад.

Читать далее

Вклад авторов