Евгений @Jecki494

ML Engineer

Профиль Публикации Комментарии 1Закладки 100

dvlunin 11 авг 2021 в 15:45

Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 1

29 мин

66K

Блог компании AvitoTechТестирование веб-сервисов*Аналитика мобильных приложений*Управление продуктом*

Всем привет! Я Дмитрий Лунин, работаю аналитиком в команде ценообразования Авито. Наш юнит отвечает за все платные услуги площадки. Наша основная задача — сделать цены на них оптимальными.

Мы не только пытаемся максимизировать выручку Авито, но и думаем про счастье пользователей. Если установить слишком большие цены, то пользователи возмутятся и начнут уходить с площадки, а если сделать цены слишком маленькими, то мы недополучим часть оптимальной выручки. Низкие цены также увеличивают количество «спамовых» объявлений, которые портят поисковую выдачу пользователям. Поэтому нам очень важно уметь принимать математически обоснованные решения — любая наша ошибка напрямую отразится на выручке и имидже компании.

Одним из инструментов для решения наших задач является A/B-тестирование.

nickimpark 19 июл 2023 в 11:36

Единая нейросетевая модель кредитного скоринга

Средний

7 мин

8.6K

Блог компании Альфа-БанкBig Data*Машинное обучение*Искусственный интеллект

Кейс

✏️ Технотекст 2023

Сейчас в Альфа-Банке при построении моделей используется множество различных источников данных. Мы в Лаборатории машинного обучения уже несколько лет применяем нейронные сети на последовательностях для решения задачи кредитного скоринга и построили модели на данных карточных транзакций, транзакций расчетного счета и кредитных историй. Повышение качества в задаче кредитного скоринга позволяет банку выдавать большее количество кредитов при неизменном уровне риска, что напрямую влияет на его прибыль.

Моделей становится все больше, и возникает вопрос: почему бы нам не смешивать модели не на уровне их предсказаний, а на некотором более низком уровне? Эта идея приводит нас к новому способу смешивания - построению единой нейросетевой модели, работающей со всеми источниками последовательных данных и учитывающей их взаимное влияние друг на друга. В этой статье мы расскажем, как нам удалось разработать такую модель и каких результатов она позволяет добиться в задаче кредитного скоринга.

+31

erbanovanastasia 11 июл 2023 в 13:46

Полезные материалы и инструменты для погружения в Flask: выбор сотрудников Selectel

4 мин

8.7K

Блог компании SelectelFlask*IT-компанииPython*

Обзор

Часто Python-разработчики выбирают Flask в качестве «быстрого старта» для создания веб-приложений. Он прост в использовании и имеет много преимуществ перед другими фреймворками — например, легкий синтаксис, удобные шаблоны и инструменты для гибкой настройки сайтов.

Однако у начинающих могут быть трудности в работе с фреймворком. Чтобы свести их к минимуму и помочь с погружением в Flask, наши коллеги собрали полезные материалы. Сохраняйте подборку в закладки и делитесь своими вариантами в комментариях.

Читать дальше →

+19

greck 8 июл 2022 в 13:41

ML для оптимизации цен на основе эластичности по цене

25 мин

20K

Управление продажами*Управление e-commerce*Машинное обучение*Разработка под e-commerce*

Туториал

Кривая эластичности спроса по цене – это то, как продажи зависят от цены.Чем меньше цена, тем больше продаж и наоборот.

В этой статье рассказывается про ML методы получения кривых спроса сразу для сотен тысяч товаров (нейросети, pyTorch), а также как, имея кривые спроса, решать бизнес задачу про баланс оборота и прибыли – в этом нам поможет метод множителей Лагранжа. Что первично – ограничение на прибыль или множитель Лагранжа? Как инженерам объяснить, что такое kvi-товары и товары-герои? Это и многое другое

Sagidullin 8 дек 2022 в 15:50

Что такое MLOps? Самый подробный текст про работу с ML-системами, который вы найдете в интернете

25 мин

28K

Блог компании SelectelDevOps*IT-инфраструктура*Высокая производительность*Машинное обучение*

Технотекст 2022

В этом материале мы подробно разбираем концепцию MLOps. Более того, делаем это тремя способами. Сначала теоретически — через самую толковую, на наш взгляд, схему MLOps. Затем — концептуально, через артефакты, которые заложены в подходе. И наконец, через понимание MLOps как информационной системы.

Сохраняйте текст в закладки, потому что на данный момент это, возможно, самое полное описание MLOps на русском языке (и не перевод очередной англоязычной статьи!). Подарим мерч Selectel тому, кто пришлет ссылку на более развернутое описание концепции в комментариях.

Читать дальше →

+43

nstrek 31 мар 2023 в 19:18

Пора забывать GridSearch — встречайте ProgressiveGridSearch. Фракталы в ML, постепенно увеличиваем разрешение

Средний

8 мин

7.7K

Open source*Python*Математика*Машинное обучение*Искусственный интеллект

Cезон machine learning

Здравствуйте, меня зовут Николай Стрекопытов и я придумал как подбирать гиперпараметры бескомпромиссно лучше GridSearch’а. Нужно лишь изменить порядок вычислений. И да, это заявка на обновление индустриального стандарта - скоро вы сможете улучшить свои ML-пайплайны заменой нескольких строчек кода.

+32

NewTechAudit 28 мар 2023 в 13:13

YOLOv7 для определения поз людей на видео

Средний

16 мин

9.7K

Машинное обучение*Обработка изображений*Алгоритмы*Программирование*

Кейс

Cезон machine learning

Привет, Хабр!

С вами Максим Алёшин, Data Scientist и участник профессионального сообщества NTA.

В этом посте мы познакомимся с возможностями YOLOv7 для определения поз людей на видео, обсудим принцип работы алгоритма, разберёмся, чем принципиально отличается подход к детекции скелетов человека в модели YOLOv7 и других фреймворках, подробно пройдёмся по всем шагам запуска на инференс предобученной модели YOLOv7-pose для детекции людей с их скелетами.

В процессе копания в первоисточниках и не только, мне удалось почерпнуть несколько интересных фактов о YOLO, чем я поделюсь с читателями. Некоторые труднопереводимые термины будут оставаться как есть.

Узнать больше

feanoref 21 мар 2023 в 17:21

Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов

Простой

8 мин

25K

Блог компании SelectelData Engineering*Искусственный интеллектМатематика*Машинное обучение*

Мнение

Привет, Хабр! Меня зовут Ефим, я MLOps-инженер в Selectel. В прошлом был автоматизатором, ML-инженером, дата-аналитиком и дата-инженером — и уже несколько лет падаю в пропасть машинного обучения и Data Science. Это буквально необъятная сфера, в которой почти нет ориентиров. Основная проблема в том, что разделов математики довольно много и все они, на первый взгляд, нужны в том же машинном обучении.

В этой статье делюсь полезными материалами, которые помогут найти и заполнить теоретические и практические проблемы и основательно подойти к своему профессиональному развитию. Добро пожаловать под кат!

Читать дальше →

+59

avsmal 23 апр 2020 в 13:05

Теории вероятностей: готовимся к собеседованию и разрешаем «парадоксы»

17 мин

94K

Блог компании Образовательные проекты JetBrainsМатематика*Учебный процесс в IT

Каждый год я участвую примерно в сотне собеседований в образовательных проектах JetBrains: собеседую абитуриентов в Computer Science Center и корпоративную магистратуру ИТМО (кстати, набор на программу идёт прямо сейчас). Все собеседования устроены по одному шаблону: мы просим на месте порешать задачи и задаём базовые вопросы по дисциплинам, которые студенты изучали в университетах. Большинство вопросов, которые мы задаём, довольно простые — нужно дать определение некоторого понятия, сформулировать свойство или теорему. К сожалению, у значительной доли студентов все эти определения выветриваются сразу после экзаменов в университетах. Казалось бы, что тут удивительного? В современном мире любое определение можно за пару секунд нагуглить, если это нужно. Но невозможность восстановить базовое определение свидетельствует о непонимании сути предмета.

Если непонимание алгебры или математического анализа может мало влиять на вашу жизнь, то непонимание теории вероятностей делает из вас лёгкую мишень для обмана и манипулирования. Суждения о вероятностях различных событий настолько глубоко вошли в нашу повседневную жизнь, что умение правильно рассуждать и отличать правду от невежества или манипуляции является необходимым. В этом небольшом обзоре мы поговорим о базовых понятиях теории вероятностей, научимся правильно формулировать утверждения про простые случайные процессы и разберём несколько парадоксов. Часть материала позаимствована из брошюры А. Шеня «Вероятность: примеры и задачи», которую я очень рекомендую для самостоятельного изучения.

Читать дальше →

+17

101

Atmyre 14 сен 2022 в 16:00

Структурное мышление или важное отличие человека от ИИ

28 мин

22K

Обработка изображений*Машинное обучение*Искусственный интеллект

В этой статье я расскажу об одном из самых важных отличий человеческого мышления от того, как работают нейросети: о структурном восприятии мира. Мы поймем, как это отличие мешает ИИ эффективно решать многие задачи, а также поговорим об идеях, с помощью которых можно внедрить в нейросети понимание структуры. В том числе обсудим недавние работы таких известных в области AI людей, как Джеффри Хинтон и Ян ЛеКун.

Начнем мы с понимания того, что вообще такое “структурное мышление” и почему люди им обладают:

+40

itmo_nsslab 21 июн 2022 в 10:56

Про настройку гиперпараметров ансамблей моделей машинного обучения

13 мин

Искусственный интеллектМашинное обучение*Алгоритмы*Python*Open source*

Привет Хабр!

Под катом хочется затронуть тему настройки гиперпараметров в моделях машинного обучения, получаемых при помощи блендинга. В таких ансамблях предсказания из одной модели машинного обучения становятся предикторами для другой (следующего уровня). На рисунке ниже представлены некоторые варианты ансамблей, где данные передаются слева направо. Называть такие ансамбли мы будем в рамках поста также пайплайнами или композитными моделями (композитные пайплайны).

А мемы про гиперпараметры?

avanmw 3 мар 2023 в 14:55

Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh

Простой

11 мин

6.4K

Блог компании WhooshBig Data*Машинное обучение*

Кейс

Cезон machine learning

Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города — будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию.

Нужен ~~хоббит~~ алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток.

Меня зовут Никита Зеленский, я руковожу отделом по работе с данными в Whoosh, разработчике технологических решений и операторе микромобильности. Эту статью мы написали вместе с Иваном Маричевым, дата‑сайнтистом Whoosh. Он же и автор алгоритма, о котором пойдет речь.

Здесь мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т. п. (Самокат, самокаты Whoosh передают привет!)

История получилась про наши подходы и грабли, которые мы в итоге собрали. Чуть‑чуть про технику, чуть‑чуть про бизнес — нескучно и с ветерком (как на самокате).

Whoosh!

+12

iKintosh 24 мар 2022 в 19:26

Как прогнозировать временные ряды с ETNA

7 мин

14K

Блог компании Т-БанкOpen source*Python*Машинное обучение*

Туториал

Меня зовут Андрей, я разработчик библиотеки ETNA в Тинькофф. В статье расскажу, как быстро и легко анализировать временные ряды с помощью ETNA, зачем временным рядам столько фич, и покажу, что даже простой линейной моделью можно получить хороший результат прогнозирования.

[Под катом много картинок и GIF]

+14

karpovcourses 25 фев 2023 в 15:58

10 первых ошибок в карьере ML-инженера

Простой

12 мин

27K

Python*Машинное обучение*Учебный процесс в ITКарьера в IT-индустрии

Cезон machine learning

Работа ML-инженера заключается не только в обучении моделей — хороший специалист погружается в бизнес-контекст, умеет доносить мысли до коллег без ML-бэкграунда, а также не забывает про тесты, дизайн-документы и документацию.

Богдан Печёнкин, автор Симулятора ML, собрал 10 ошибок специалистов, которые зачастую встречаются в первые годы карьеры.

Узнать больше

+39

Efaldgent 21 фев 2023 в 14:00

АБ-тесты — это не только ценный мех… Но еще и процессы

20 мин

6.7K

Блог компании Open Data ScienceБизнес-модели*Статистика в IT

О математических нюансах АБ-тестирования есть много замечательной литературы, но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.

При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема. На практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.

В этой статье я поделюсь своим опытом и советами о том, как это сделать.

+12

Mr-Geekman 14 фев 2023 в 12:00

Стратегии прогнозирования временных рядов в ETNA

7 мин

7.6K

Блог компании Т-БанкOpen source*Python*Машинное обучение*

Туториал

Меня зовут Дима, я разработчик библиотеки ETNA в Тинькофф. Расскажу о том, как в задаче прогнозирования временных рядов появляются стратегии, какими они бывают и как воспользоваться стратегией в библиотеке ETNA.

+22

volinski 8 фев 2023 в 13:01

MLOps в облаке: как организовать работу над ML-экспериментами с помощью MLflow

Сложный

10 мин

4.5K

Блог компании VKМашинное обучение*Big Data*

Туториал

В свое время DevOps заметно изменил подход к разработке программного обеспечения. Последние пару лет благодаря практикам MLOps меняются принципы и подходы к работе дата-специалистов. Александр Волынский (Technical Product Manager ML Platform VK Cloud) и Сергей Артюхин (преподаватель программы «Симулятор ML» в Karpov Courses) рассказывают, почему MLOps — «новый черный» и как безболезненно реализовать этот подход в своем проекте.

Читать дальше →

+26

boygenius 31 янв 2023 в 14:29

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

28 мин

26K

Блог компании Open Data ScienceМатематика*Машинное обучение*Статистика в ITИскусственный интеллект

В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.

В следующей части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax и как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Затем перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей - рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

+23

ShashkovS 26 фев 2018 в 09:23

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

25 мин

1.5M

Python*Регулярные выражения*Совершенный код*Спортивное программирование*Читальный зал

Регулярные выражения в Python от простого к сложному

Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения. А к задачкам нужна какая-нибудь теория. И стал я искать хорошие тексты на русском. Пяток сносных нашёл, но всё не то. Что-то смято, что-то упущено. У этих текстов был не только фатальный недостаток. Мало картинок, мало примеров. И почти нет разумных задач. Ну неужели поиск IP-адреса — это самая частая задача для регулярных выражений? Вот и я думаю, что нет.
Про разницу (?:...) / (...) фиг найдёшь, а без этого знания в некоторых случаях можно только страдать.

Плюс в питоне есть немало регулярных плюшек. Например, re.split может добавлять тот кусок текста, по которому был разрез, в список частей. А в re.sub можно вместо шаблона для замены передать функцию. Это — реальные вещи, которые прямо очень нужны, но никто про это не пишет.
Так и родился этот достаточно многобуквенный материал с подробностями, тонкостями, картинками и задачами.

Надеюсь, вам удастся из него извлечь что-нибудь новое и полезное, даже если вы уже в ладах с регулярками.

Читать дальше →

+97

izakharkin 10 июл 2019 в 15:54

Вижу, значит существую: обзор Deep Learning в Computer Vision (часть 2)

18 мин

40K

Блог компании Московский физико-технический институт (МФТИ)Искусственный интеллектМашинное обучение*Обработка изображений*Программирование*

Продолжаем постигать современную магию (компьютерное зрение). Часть 2 не значит, что нужно сначала читать часть 1. Часть 2 значит, что теперь всё серьёзно — мы хотим понять всю мощь нейросетей в зрении. Детектирование, трекинг, сегментация, оценка позы, распознавание действий… Самые модные и крутые архитектуры, сотни слоёв и десятки гениальных идей уже ждут вас под катом!

Читать дальше →

+27

3 4 5

Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 1

Единая нейросетевая модель кредитного скоринга

Полезные материалы и инструменты для погружения в Flask: выбор сотрудников Selectel

ML для оптимизации цен на основе эластичности по цене

Что такое MLOps? Самый подробный текст про работу с ML-системами, который вы найдете в интернете

Пора забывать GridSearch — встречайте ProgressiveGridSearch. Фракталы в ML, постепенно увеличиваем разрешение

YOLOv7 для определения поз людей на видео

Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов

Теории вероятностей: готовимся к собеседованию и разрешаем «парадоксы»

Структурное мышление или важное отличие человека от ИИ

Про настройку гиперпараметров ансамблей моделей машинного обучения

Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh

Как прогнозировать временные ряды с ETNA

10 первых ошибок в карьере ML-инженера

АБ-тесты — это не только ценный мех… Но еще и процессы

Стратегии прогнозирования временных рядов в ETNA

MLOps в облаке: как организовать работу над ML-экспериментами с помощью MLflow

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

Регулярные выражения в Python от простого к сложному

Вижу, значит существую: обзор Deep Learning в Computer Vision (часть 2)

Информация

Специализация