Articles / Bookmarks / Profile of DmKrg / Habr

Дмитрий Курганский @DmKrg

User

Profile Publications 2Comments Bookmarks 6

mmsmirnova Jul 4 2023 at 17:16

Как мы с помощью Kubeflow Pipelines оптимизировали обучение ML-моделей

Medium

10 min

VK corporate blogMachine learning*

Расскажу, как мы оптимизировали обучение моделей, внедрив инструмент Kubeflow Pipelines в нашу практику. Я хочу показать, чем Kubeflow Pipelines может быть полезен ML-специалисту и как в нём без потери существующей кодовой базы можно запускать готовые пайплайны.

+21

tantozgg Sep 3 at 12:00

Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске

Medium

11 min

1.7K

Lamoda Tech corporate blogBig Data*Development for e-commerce*Machine learning*Artificial Intelligence

Retrospective

Привет, Хабр! Это Сергей Евстафьев и Дана Злочевская из команды ранжирования и поиска Lamoda Tech. Наша задача — помочь пользователю найти то, что ему нужно, и не потеряться в море доступных вариантов.

В каталоге Lamoda в наличии более полумиллиона модных товаров, однако 95% пользователей не просматривают больше первых 120 карточек. Поэтому в первую очередь важно показывать только самую релевантную подборку, для этого мы развиваем персональное ранжирование каталога. С его помощью каждый пользователь видит свою уникальную выдачу, которая собирается на основе его поведения, популярности товаров и других параметров.

Организовать такое ранжирование можно разными способами. Мы развивались поэтапно: в течение нескольких лет переходили от эвристик к внедрению ML, улучшая пайплайн ранжирования.

В этой статье поподробнее раскроем наш подход.

+16

AlexKudryavtsev Jun 19 at 10:30

Повышаем Data Quality: щепотка Soda для ваших данных

Easy

9 min

2.8K

Банки.ру corporate blogBig Data*Data storage*Data Engineering*

Tutorial

Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.

DmKrg Apr 25 at 12:08

Yandex Data Proc для ML: ускоряем Embedding на Spark

Hard

9 min

1.5K

Банки.ру corporate blogBig Data*Machine learning*Cloud services*Data Engineering*

Tutorial

Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру.
Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Proc кластера через Airflow до оптимизации этапа применения Embedding с помощью Spark.
Материал в целом будет актуален для этапа применения (inference) любых моделей для больших наборов данных, работающих в batch режиме по расписанию.

SMdev Dec 18 2023 at 16:05

Тестируем приложение как сын маминой подруги или взгляд на Trace Based Testing

9 min

3.3K

Банки.ру corporate blogWebsite development*IT systems testing*Programming*DevOps*

Opinion

Привет! Меня зовут Сергей, я бэкенд разработчик команды SEO в Банки.ру.
В этой статье хочу описать свое знакомство с техникой Trace Based Testing (TBT):

• расскажу о концепциях, которые чаще всего используются сейчас в тестировании
• кратко опишу, что такое distributed tracing
• поделюсь опытом работы с TBT.

Статья — мой субъективный взгляд на технику как бэкенд-разработчика. QA инженеры могут со мной поспорить и, скорее всего, будут правы.

DmKrg Nov 16 2023 at 18:58

Как автоматизировать проверки данных в Airflow с Great Expectations

7 min

3.4K

Банки.ру corporate blogData Mining*Big Data*Data storage*Data Engineering*

Review

Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.

Как мы с помощью Kubeflow Pipelines оптимизировали обучение ML-моделей

Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске

Повышаем Data Quality: щепотка Soda для ваших данных

Yandex Data Proc для ML: ускоряем Embedding на Spark

Тестируем приложение как сын маминой подруги или взгляд на Trace Based Testing

Как автоматизировать проверки данных в Airflow с Great Expectations

Information

Specialization