Pull to refresh
5
0
Дмитрий Курганский @DmKrg

User

Send message

Как мы с помощью Kubeflow Pipelines оптимизировали обучение ML-моделей

Level of difficultyMedium
Reading time10 min
Views4K

Расскажу, как мы оптимизировали обучение моделей, внедрив инструмент Kubeflow Pipelines в нашу практику. Я хочу показать, чем Kubeflow Pipelines может быть полезен ML-специалисту и как в нём без потери существующей кодовой базы можно запускать готовые пайплайны.

Читать далее
Total votes 15: ↑14 and ↓1+21
Comments0

Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске

Level of difficultyMedium
Reading time11 min
Views1.7K

Привет, Хабр! Это Сергей Евстафьев и Дана Злочевская из команды ранжирования и поиска Lamoda Tech. Наша задача — помочь пользователю найти то, что ему нужно, и не потеряться в море доступных вариантов.

В каталоге Lamoda в наличии более полумиллиона модных товаров, однако 95% пользователей не просматривают больше первых 120 карточек. Поэтому в первую очередь важно показывать только самую релевантную подборку, для этого мы развиваем персональное ранжирование каталога. С его помощью каждый пользователь видит свою уникальную выдачу, которая собирается на основе его поведения, популярности товаров и других параметров. 

Организовать такое ранжирование можно разными способами. Мы развивались поэтапно: в течение нескольких лет переходили от эвристик к внедрению ML, улучшая пайплайн ранжирования. 

В этой статье поподробнее раскроем наш подход.

Читать далее
Total votes 13: ↑12 and ↓1+16
Comments1

Повышаем Data Quality: щепотка Soda для ваших данных

Level of difficultyEasy
Reading time9 min
Views2.8K

Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.

Читать далее
Total votes 7: ↑7 and ↓0+9
Comments3

Yandex Data Proc для ML: ускоряем Embedding на Spark

Level of difficultyHard
Reading time9 min
Views1.5K

Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру.
Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Proc кластера через Airflow до оптимизации этапа применения Embedding с помощью Spark.
Материал в целом будет актуален для этапа применения (inference) любых моделей для больших наборов данных, работающих в batch режиме по расписанию.

Читать далее
Total votes 3: ↑3 and ↓0+4
Comments0

Тестируем приложение как сын маминой подруги или взгляд на Trace Based Testing

Reading time9 min
Views3.3K

Привет! Меня зовут Сергей, я бэкенд разработчик команды SEO в Банки.ру.
В этой статье хочу описать свое знакомство с техникой Trace Based Testing (TBT): 

расскажу о концепциях, которые чаще всего используются сейчас в тестировании
кратко опишу, что такое distributed tracing 
поделюсь опытом работы с TBT. 

Статья — мой субъективный взгляд на технику как бэкенд-разработчика. QA инженеры могут со мной поспорить и, скорее всего, будут правы.

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments2

Как автоматизировать проверки данных в Airflow с Great Expectations

Reading time7 min
Views3.4K

Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.

Читать далее
Total votes 7: ↑6 and ↓1+7
Comments0

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

Data Scientist, ML Engineer
Senior