Обновить
85.27

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Необычные вкусы покупателей: что такое товарные пары и как их исследовать

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели3.2K

Привет, Хабр! На связи команда продуктовой аналитики.

Подбор и обновление ассортимента товаров — постоянная головная боль для любого ритейлера. Это трудоемкий процесс, где каждая ошибка стоит реальных денег. В ecom.tech мы стараемся сделать его проще при помощи автоматизации, а заодно изучаем предпочтения покупателей. На этот раз мы искали, что обычно покупают в паре – так называемые комплементарные товары.

В этой статье расскажем:
- с чем обычно покупают лапшу быстрого приготовления, а с чем — детское питание;
- как география, время суток и другие факторы влияют на выбор покупателей;
- как все эти полученные знания можно применить в ассортиментных матрицах дарксторов и бизнес-процессах ритейла.

Читать далее

Инфраструктура для Data-Engineer DBT

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели4.2K

dbt является мощным фреймворком, который включает в себя два популярных языка: SQL + Python.

При помощи dbt можно создавать разные "слои" данных или выделить dbt только под один слой, к примеру dm.

При помощи понятного и всем известного SQL интерфейса можно создавать разные модели для вашего DWH или Data Lake.

Читать далее

Работа с календарями в BI — с DAX и без него

Время на прочтение7 мин
Охват и читатели2.5K

Привет, Хабр! При работе с Business Intelligence и дашбордами практически в любой предметной области встречаются даты и календари, поэтому от выбора представления дат и их составных частей (день, месяц, квартал, полугодие, год и т.д.), ключей дат и таблицы с датами зависит производительность всех дашбордов. В этой статье я расскажу о том, как можно оптимизировать работу с датами в Visiology — с использованием DAX и без него. Интересно? Добро пожаловать под кат! :)

Читать далее

Как управлять большими командами? 3 совета для менеджера

Время на прочтение3 мин
Охват и читатели2.6K

Когда я начинал свою карьеру в разметке данных, я и представить не мог, что через несколько лет продолжу работать в индустрии и буду управлять целым направлением.

Я прошел путь от разметчика до позиции Head of Moderation & Head of Special Projects в Data Light. Теперь под моим руководством работает 465 человек, параллельно за раз моя команда ведет до 64 проектов.

Сейчас я понимаю, что для успеха в этой сфере критически важны три вещи: постоянное обучение, систематизация и навыки коммуникации. В этой статье я хочу поделиться главными советами для начинающих менеджеров.

Читать далее

Как мы внедрили CockroachDB на DBaaS в компанию классических СУБД

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели3.8K

Привет! Меня зовут Полина Кудрявцева, я инженер DBA в Авито. В этой статье я расскажу о том, как мы внедрили CockroachDB на DBaaS в компанию классических СУБД, а также опишу его плюсы, минусы и особенности работы.

Читать далее

Гайд по трекингу экспериментов в ML

Время на прочтение9 мин
Охват и читатели1.7K

Многие привыкли, что в качестве результата эксперимента достаточно метрик и просто сохранения обученной модели, однако в современном мире машинного обучения трекинг экспериментов имеет ключевое значение для обеспечения воспроизводимости, надежности и эффективности. Давайте рассмотрим главные этапы проведения эксперимента и проблемы, которые могут возникнуть. Мы обсудим основы трекинга экспериментов в машинном обучении и исследуем, как вы можете упростить свой рабочий процесс с помощью правильных инструментов и практик. В конце я также поделюсь преимуществами одного из инструментов.

Читать далее

Как оценить LLM модель

Время на прочтение13 мин
Охват и читатели2K

В одном из прошлых блогов я представил концепцию тестирования LLM. Однако тестирование больших языковых моделей - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

Читать далее

«Да будет свет!», — подумали мы. И стал свет. Краткая история обучения нейросветодизайнера нейросветодизайну

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели720

Давным-давно, скажем, этим летом, нас посетила удачная мысль включить повсюду свет и озарить ночные города. Так родился проект по обучению нейросети сложному искусству светодизайна.   

Разумеется, мы были не первыми, кто до этого додумался, но поскольку бум ИИ удачно наложился на развитие инфраструктуры и появление новых зданий в разных городах РФ (а еще осень, темно, холодно) – было решено взяться за дело. Светодизайн зданий – сложная область, которая удачно сочетает в себе архитектурное проектирование, инженерные достижения, дизайн и человеческий гений. В помощь последнему мы решили добавить искусственный интеллект. Оказалось, что после долгих тренировок он способен:

Читать далее

Как мы сделали систему для спасения интернета от токсичности

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели2.7K

Токсичность в интернете — распространенная проблема, с которой сталкивался каждый. В период бурного развития AI само собой напрашивается решение для автоматического удаления токсичных паттернов с сохранением исходного смысла и оригинального стиля автора. Один из таких подходов - использование NLP seq2seq моделей, которые мы обучаем на парах (тоcкичное предложение; нетоксичное предложение):

Читать далее

Какую архитектуру конвейера данных следует использовать?

Время на прочтение7 мин
Охват и читатели4.3K

Здесь представлен обзор архитектур конвейеров данных, которые вы можете использовать сегодня.


Данные важны для любого приложения и нужны для разработки эффективных конвейеров для доставки и управления информацией. Как правило, конвейер данных создаётся, когда вам необходимо обрабатывать данные в течение их жизненного цикла. Конвейер данных может начинаться там, где данные генерируются и хранятся в любом формате. Конвейер данных может обеспечивать анализ данных, их использования для целей бизнеса, долговременного хранения, а также для тренировки моделей машинного обучения.
Читать дальше →

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов

Время на прочтение4 мин
Охват и читатели909

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.

Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.

Читать далее

Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-Банке

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели1.3K

Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде?

Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable ML). В статье расскажу, как мы упростили себе работу и часть рутинных задач, число которых росло как снежный ком с ростом количества применяемых моделей.

Читать далее

Чем можно заняться в IT

Время на прочтение4 мин
Охват и читатели4.5K

IT – это не пузырь, который может лопнуть. Оно уже настолько плотно вошло в нашу жизнь, что повсюду, куда бы мы ни посмотрели, мы видим его следы, и это не изменится.

В этой статье вы узнаете, что такое IT и чем можно заняться в IT помимо программирования.

Читать далее

Ближайшие события

Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink

Время на прочтение19 мин
Охват и читатели516

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой пайплайн позволяет создавать вызов через определенное время после обработки события.

В этом посте я расскажу, как можно протестировать операторы с таймерами и какие подводные камни могут возникнуть.

Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/8_Test_for_Trigger_Flink_Job.

Это мой девятый материал про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже.

Список моих статей про Flink:

Читать далее

Что такое DWH?

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели26K

DWH (Data Warehouse или по русски Хранилище данных) - это специализированная система для хранения и управления большими объемами данных, которые объединяются из разных источников с целью анализа и построения отчетов 

Короче, это место, где все нужные данные из разных мест собираются и потом ими уже удобно пользоваться - строить разные отчетики, строить ИИ на благо всему человечеству и подобные вещи

Грубо говоря, задача при построении хорошего DWH состоит в том, чтобы построить Базу Данных и все необходимое вокруг него, в которой будут лежать правильные данные в удобном виде и в которую можно слать большие-сложные SQL запросы и не бояться, что что-то сломается и всем этим было удобно пользоваться

Читать далее

Оценка LLM: метрики, фреймворки и лучшие практики

Время на прочтение12 мин
Охват и читатели2.8K

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

Читать далее

Разметка изображений: самый полный гайд

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели3.7K

Представьте себе, что от точности разметки изображений зависит успех вашего проекта: будь то способность нейросети распознавать сложные объекты или автоматизация рутинных задач. Но в чем ее специфика, какие виды разметки изображений существуют и какой тип аннотации лучше подходит под ваш проект?

В этой статье мы раскрываем все тонкости процесса, делимся проверенными методами и реальными кейсами от команды Data Light, чтобы помочь вам вывести проекты на новый уровень. Если вы хотите разобраться в разметке изображений и узнать, как избежать подводных камней, эта статья точно будет вам полезна.

Читать далее

Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Время на прочтение5 мин
Охват и читатели2K

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом?

Анализ тональности текста — мощный инструмент, который помогает бизнесу не только считывать эмоции клиентов, но и на практике улучшать продукт, автоматизировать поддержку и управлять репутацией. Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.

Читать далее

ООП для типовых ML задач

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели3.6K

Привет! Меня зовут Андрей Татаренко, я работаю Data Scientist-ом в Альфа-Банке. Я вам расскажу о своем опыте разработки Python-библиотеки для автоматизации разработки типовых ML-моделей. В статье привожу ту структуру основных классов, которая у меня получилась. Надеюсь, читатель сможет почерпнуть какие-то идеи, особенно если уже сталкивался с подобной задачей.

Читать далее

Инфраструктура для Data-Engineer Apache Iceberg

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6K

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен.

В статье также рассматривается вопрос Data Lake.

Читать далее

Вклад авторов