Обновить
80.25

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

От африканских саванн до индийских мегаполисов: как мы собрали уникальный датасет для клиента

Время на прочтение3 мин
Количество просмотров629

Казалось бы, стандартная задача: через крауд-платформу собрать фотографии и видео, где люди произносят цифры – легкий проект, который можно закрыть за пару недель.

Но все это вылилось в десятки часов на чистку «мусорных» данных, видео, снятые в полной темноте, случайные TikTok-ролики вместо заданий и ситуации, где инструкции, кажется, читают единицы.

Как мы превратили хаос в структурированный датасет? Какие решения помогли преодолеть барьеры (как культурные, так и технические)? Расскажем в этой статье.

Читать далее

Бенчмаркинг AI-агентов: оценка производительности в реальных задачах

Время на прочтение11 мин
Количество просмотров2.4K

AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов.

Чтобы AI-система была надежной и последовательной, важно понимать типы AI-агентов и уметь их правильно оценивать. Для этого используются продвинутые методики и проверенные фреймворки оценки AI-агентов.

В этой статье мы рассмотрим ключевые метрики, лучшие практики и основные вызовы, с которыми сталкиваются компании при оценке AI-агентов в корпоративных средах.

Читать далее

Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров11K

Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества.

Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH), Data Lake и относительно новую концепцию Lakehouse. Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода.

Всплыть

ИИ в ЭДО: история одного кейса для хакатона от МТС

Время на прочтение5 мин
Количество просмотров1.4K

Привет, Хабр! Меня зовут Константин Архипов, я scrum-мастер продукта «Среда ЭДО» в МТС. Осенью 2024 года Университет Иннополис пригласил нас поделиться кейсом для хакатона INNOGLOBALHACK. Со стороны кажется, что это достаточно простая задача: даем студентам датасет от компании, описываем требования и смотрим их решения. Но на практике нужно сформулировать гипотезу, учесть кучу факторов и проверить, что задачу вообще можно решить. В этом посте я расскажу, как мы готовили свой кейс и что получилось у студентов по нашему датасету.

Читать далее

Байесовская оценка А/Б-тестов

Время на прочтение43 мин
Количество просмотров3.5K

Описана механика А/Б-тестов. Рассмотрены примеры байесовского моделирования. Байесовская оценка применена к сравнению конверсий, средних с помощью центральной предельной теоремы, выручки на пользователя, заказов на посетителя.

Читать

Возможности комбинаторов в ClickHouse

Время на прочтение9 мин
Количество просмотров3K

Что делать с запросами к СУБД, выполнение которых затягивается на десятки минут, как можно оптимизировать вложенные операторы, чтобы получить нужные данные за секунды? За счет чего подобные операции выполняются в Visiology автоматически? Ответы на эти вопросы мы попробуем дать сегодня на примере небольшого синтетического теста со сложным SQL-запросом, и разберемся при чем тут комбинаторы в ClickHouse. Эта статья будет полезна тем, кто интересуется SQL-оптимизаторами, а также всем существующим и будущим пользователям Visiology, кто хочет заглянуть под капот системы. Если вы из их числа, добро пожаловать под кат :)

Читать далее

Preprocessing pandas dataframes. Предварительная обработка данных в пандас датафреймах

Уровень сложностиПростой
Время на прочтение22 мин
Количество просмотров1.8K

Обработка датафреймов: ключевые аспекты и инструменты

Датафреймы — это одна из самых популярных структур данных для работы с табличными данными. Они широко используются в анализе данных, машинном обучении и научных исследованиях. Датафреймы представляют собой таблицы, где данные организованы в строках и столбцах, что делает их удобными для обработки и анализа. Рассмотрим основные аспекты работы с датафреймами.

Читать далее

Data Engineering — это не Software Engineering

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров4.3K

Это мой вольный перевод статьи "Data Engineering is Not Software Engineering", с рядом моих правок, дополнений, а так же сокращений (так как автор склонен повторять одно и то же, но иными словами или излишне "разжевывать" очевидные вещи). Мне кажется, автор действительно поднял очень важную тему, которую я "чувствовал" по своей практике, но не мог сформулировать так точно, как это сделал он.

Мало кто задумывается, что дата-инженерия и разработка ПО имеют значительные различия. Поэтому распространено мнение, что некое отставание дата-инженерии в части внедрения современных методов разработки, таких как Agile, Test Driving Development и т.д. обусловлено лишь отставанием в освоении этих передовых практик.

На самом деле этот взгляд ошибочен. Хотя дата-инженерия и разработка ПО действительно имеют много общего, между ними существуют значительные различия. Игнорирование этих различий и управление командой дата-инженеров по тем же принципам, что и командой разработчиков ПО, является ошибкой. Особенно этим грешат относительно молодые менеджеры, или те, кто никогда не работал с "датой". Собственно, этим зачастую и вызваны ошибки в пименении "в лоб" соврмененых методой разработки. Дата-инженерия — как томат: технически это фрукт, но это не значит, что его стоит добавлять в фруктовый салат.

Читать далее

База об организации процесса разметки: команда, онбординг, метрики

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3.2K

Привет! Меня зовут Сизов Виктор, я занимаюсь данными, их сбором, анализом и разметкой последние 5 лет. Сейчас отвечаю за разметку в Альфа-Банке. Эту статьи мы писали всей командой и старались осветить подробно детали того, как устроены процессы разметки с технической и административной стороны. В статье мы рассмотрели:

— работу команды разметки, её взаимодействие с Заказчиком и Продуктом;
— отдельно разобрали аналитику, которая позволяет повышать качество разметки;
— рассмотрим поведение людей (разметчиков), паттерны их работы, а также использования генеративных моделей для решения части задач.

Читать далее

Куда расти Data Scientist и какие навыки для этого нужны

Время на прочтение10 мин
Количество просмотров9.2K

Привет! Меня зовут Никита Зелинский, я Chief Data Scientist МТС, руководитель центра компетенций Data Science и ML-платформ МТС Big Data. На конференциях я часто слышу один и тот же вопрос от начинающих дата-сайентистов: как развиваться в своей сфере и прийти к успеху? Тут сразу напрашивается одно сравнение — рост в профессии напоминает тренировки в качалке. Чтобы добиться результата, нужен четкий план: что конкретно и когда прокачивать. Вот и в работе важно понимать, какие навыки развивать и как составить стратегию роста — от стажера до ведущего специалиста или Chief Data Scientist.

Сегодня будем разбираться, как выстроить этот путь. Расскажу, как работа дата-сайентистов устроена в МТС и какие есть направления развития для DS в целом. А еще поделюсь своим видением роли дата-сайентиста — оно не во всем совпадает с общепринятым, так что можете поспорить со мной в комментариях. Поехали!

Читать далее

YTsaurus SPYT: как мы перешли от форка Apache Spark к использованию оригинальной версии

Время на прочтение24 мин
Количество просмотров2.7K

Всем привет! Меня зовут Александр Токарев, я работаю в Yandex Infrastructure и занимаюсь интеграцией Apache Spark (далее просто Spark) с YTsaurus. В этой статье я расскажу про то, как мы сначала форкнули и пропатчили Spark, а потом вернулись к использованию оригинальной версии и поддержали совместимость с множеством других версий.

YTsaurus — это разработанная Яндексом система для хранения и обработки больших объёмов данных. Она активно развивается с 2010 года, а в 2023 году была выложена в опенсорс. Подробнее почитать про историю создания и выход YTsaurus в опенсорс можно в статье Максима Бабенко.

В какой‑то момент мы решили подружить YTsaurus и Spark. Так и родился проект SPYT powered by Apache Spark (далее просто SPYT), который активно развивается с 2019 года. Основательница проекта Саша Белоусова уже рассказывала, как были реализованы SPI Spark для работы со структурами данных YTsaurus — это набор классов, интерфейсов, методов, которые мы расширяем или реализуем. Во многом эта статья и моё выступление на HighLoad++ 2024 являются продолжением её доклада.

Читать далее

«DAX Fiddle» в виде Telegram бота

Время на прочтение2 мин
Количество просмотров1.1K

Для многих языков есть свои online песочницы, например, для POSTGRES есть условный PostgreSQL Fiddle, также и для аналитического языка DAX хотелось бы побольше подобных инструментов. Существующий dax.do позволяет выполнять запросы условно только на стандартной схеме Contoso, и в век AI хотелось бы иметь инструмент для быстрого выполнения DAX запросов для произвольной схемы данных. Также генерация самой схемы и заполнение её данными также являются трудоемкими, и хотелось бы отдать это всё AI.

Кроме того, сейчас популярны Telegram боты, в связи с этим появилась идея создания Telegram бота для выполнения DAX (и построения простейшего дашборда-таблицы) на произвольной схеме данных, с автоматически сгенерированными данными, своего рода DAX Fiddle. Интересующимся DAX Fiddle — добро пожаловать под кат :)

Читать далее

В ClickHouse одна плоская таблица лучше, чем несколько соединенных таблиц

Время на прочтение4 мин
Количество просмотров10K

Данная статья о том, что в системе ClickHouse использование одной плоской таблицы (включая денормализованные таблицы) вместо нескольких таблиц, объединённых с помощью JOIN-операций, значительно повышает скорость выполнения запросов

Читать далее

Ближайшие события

Как выстроить разметку для паноптической сегментации правильно?

Время на прочтение9 мин
Количество просмотров1.6K

Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?

Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.

Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!

Читать далее

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.9K

Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа. 

Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное.

Читать дальше

MapReduce: гид для начинающих

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров8.4K

Разберем роль модели MapReduce в составе Hadoop, а также расскажем, как использовать его отдельно и насколько это эффективно.

Читать далее

Код устареет, принципы — останутся: подборка книг для мидлов и сеньоров в Data Science

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров7.8K

Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода.

Это вторая часть книжной подборки — в первой книги для джунов.

Читать далее

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров5.9K

Привет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Несколько лет назад мы в CDEK поняли, что продукты, на которых работало хранилище, перестали нас устраивать: не устраивала гибкость разработки и скорость поставки данных. C тех пор произошло множество изменений, которыми хочется поделиться с сообществом.

Расскажу, как платформа данных развивалась, и к чему мы пришли на конец 2024 года. Эта статья — ретроспектива моей почти шестилетней работы и текущих реалий нашей платформы данных.

Читать далее

Расставим точки над i: как подготовить разметку для задач Keypoint Detection

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров800

Представьте: вы снимаете смартфон с блокировки с помощью Face ID — система мгновенно распознает ваше лицо. Или, занимаясь йогой, открываете фитнес-приложение, которое точно анализирует позы и дает рекомендации. Все эти технологии были бы невозможны без точной аннотации данных, особенно ключевых точек — тех самых маркеров, которые задают основу для работы искусственного интеллекта.

Но создание качественных датасетов для задач Key Points Detection — это совсем не просто. Чтобы помочь вам, в этой статье мы разберем, как работают такие системы, для чего они нужны и какие инструменты лидируют на рынке. Вы узнаете о реальных вызовах, с которыми сталкиваются компании, от вариативности поз и окклюзий до интерпретируемости моделей. А еще мы поделимся практическими рекомендациями для улучшения рабочих процессов и нашими кейсами.

Читать далее

Dagster: новый стандарт для ETL в 2025?

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров6.9K

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

Читать далее

Вклад авторов