Articles / Bookmarks / Profile of Eth

Игорь Моисеев @Eth_Moses

Experimentation Analysis Team Lead, Ozon Tech

Profile Publications 2Comments 9Bookmarks 147

AlexanderVolkovInvest Jan 6 2023 at 09:10

Торговые роботы на Python

5 min

45K

Python*Т-Банк corporate blog

Привет! На связи команда Тинькофф Инвестиций. В этой статье рассказываем про Tinkoff Invest API, объясняем, как написать робота на Python, и разбираем плюсы этого языка в сравнении с другими. А вместо заключения ловите гайд по созданию робота на примере работы победителя нашего конкурса Tinkoff Invest Robot Contest.

+12

Mr-Geekman Feb 14 2023 at 12:00

Стратегии прогнозирования временных рядов в ETNA

7 min

7.4K

Open source*Python*Т-Банк corporate blogMachine learning*

Tutorial

Меня зовут Дима, я разработчик библиотеки ETNA в Тинькофф. Расскажу о том, как в задаче прогнозирования временных рядов появляются стратегии, какими они бывают и как воспользоваться стратегией в библиотеке ETNA.

+22

Siarshai Jan 4 2017 at 14:18

Методы оптимизации нейронных сетей

17 min

218K

Algorithms*Mathematics*Machine learning*

В подавляющем большинстве источников информации о нейронных сетях под «а теперь давайте обучим нашу сеть» понимается «скормим целевую функцию оптимизатору» лишь с минимальной настройкой скорости обучения. Иногда говорится, что обновлять веса сети можно не только стохастическим градиентным спуском, но безо всякого объяснения, чем же примечательны другие алгоритмы и что означают загадочные $\inline \beta$ и $\inline \gamma$ в их параметрах. Даже преподаватели на курсах машинного обучения зачастую не заостряют на этом внимание. Я бы хотел исправить недостаток информации в рунете о различных оптимизаторах, которые могут встретиться вам в современных пакетах машинного обучения. Надеюсь, моя статья будет полезна людям, которые хотят углубить своё понимание машинного обучения или даже изобрести что-то своё.

Под катом много картинок, в том числе анимированных gif.

Читать дальше →

+78

alex_golubev13 Oct 14 2022 at 12:08

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

11 min

12K

Python*Image processing*Machine learning*Natural Language Processing*Ozon Tech corporate blog

Technotext 2022

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

+42

alex_golubev13 Jan 28 2022 at 10:59

Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов

5 min

17K

Data Mining*Image processing*Machine learning*Natural Language Processing*Ozon Tech corporate blog

Привет! Меня зовут Александр, я работаю в команде матчинга Ozon. Ежедневно мы имеем дело с десятками миллионов товаров, и наша задача — поиск и сопоставление одинаковых предложений (нахождение матчей) на нашей площадке, чтобы вы не видели бесконечную ленту одинаковых товаров.
На странице любого товара на Ozon есть картинки, заголовок, описание и дополнительные атрибуты. Всю эту информацию мы хотим извлекать и обрабатывать для решения разных задач. И особенно она важна для команды матчинга.
Чтобы извлекать признаки из товара, мы строим его векторные представления (эмбеддинги), используя различные текстовые модели (fastText, трансформеры) для описаний и заголовков и целый набор архитектур свёрточных сетей (ResNet, Effnet, NFNet) — для картинок. Далее эти векторы используются для генерации фичей и товарного сопоставления.
На Ozon ежедневно появляются миллионы обновлений — и считать эмбеддинги для всех моделей становится проблематично. А что, если вместо этого (где каждый вектор описывает отдельную часть товара) мы получим один вектор для всего товара сразу? Звучит неплохо, только как бы это грамотно реализовать…

Читать дальше →

+30

karpovcourses Feb 25 2023 at 15:58

10 первых ошибок в карьере ML-инженера

Easy

12 min

26K

Python*Machine learning*Studying in ITIT career

Machine learning season

Работа ML-инженера заключается не только в обучении моделей — хороший специалист погружается в бизнес-контекст, умеет доносить мысли до коллег без ML-бэкграунда, а также не забывает про тесты, дизайн-документы и документацию.

Богдан Печёнкин, автор Симулятора ML, собрал 10 ошибок специалистов, которые зачастую встречаются в первые годы карьеры.

Узнать больше

+39

sterling239 Feb 20 2023 at 16:09

Как я сделал синтез своего голоса

Easy

12 min

31K

Machine learning*Artificial IntelligenceSoundVoice user interfaces*SberDevices corporate blog

Case

Всем привет! Меня зовут Гриша Стерлинг, я занимаюсь синтезом речи в SberDevices. Недавно прошла конференция AI Journey, где я рассказал, как сделал синтез своего голоса. За 15 минут выступления я не успел рассказать все, поэтому решил написать большой пост с деталями. Он будет интересен датасаентистам, людям из бизнеса и ai‑энтузиастам. Приглашаю всех под кат.

+25

evpak Jan 20 2023 at 18:30

Приглашаем на Ozon Tech Community A/B-testing Meetup

2 min

1.9K

High performance*System Analysis and Design*Product Management*ConferencesOzon Tech corporate blog

UPD: Добавили записи докладов и слайды

Привет!

Ваши A/B-тесты не работают? Тогда мы идём к вам! Ну или вы к нам…

На связи Женя Пак, я руковожу отделом разработки инструментов A/B-тестирования и стендов метрик.

Так часто бывает, что А/В-тесты обходятся дорого и ощущаются больно. Особенно если до конца не понимать зачем они вам нужны. Открываю секрет – они нужны вам, чтобы помочь бизнесу быть эффективным. И в угоду этой эффективности мы не раз оптимизировали нашу платформу, оперативно решали проблемы горящего продакшена, меняли процессы и придумывали инновационные решения.

И мы хотим поделиться этим опытом, поэтому приглашаем вас на открытый Ozon Tech Community A/B-testing Meetup, 25 января в 18:00 в Москве.

+16

worldbug Jan 26 2023 at 13:28

Краткий гайд по эргономике для трудяг IT-индустрии

9 min

20K

Desktop PC'sPeripheryHealthOzon Tech corporate blogRemote work

Review

Боль в кистях рук, сухость глаз, перенапряжение шейного отдела позвоночника и другие симптомы продолжительных сессий за компьютером — с этим сталкивается почти каждый наш коллега, будь то DevOps-специалист или дизайнер. А самое неприятное это всё ломает рабочий дзен. Сегодня мы с вами попробуем разобраться, что не так с нашими рабочими местами, и исправить это.

+38

Spoilt333 May 8 2018 at 21:13

Dive into pyTorch

5 min

14K

Python*Machine learning*OTUS corporate blog

Tutorial

Всем привет. Меня зовут Артур Кадурин, я руковожу исследованиями в области глубокого обучения для разработки новых лекарственных препаратов в компании Insilico Medicine. В Insilico мы используем самые современные методы машинного обучения, а также сами разрабатываем и публикуем множество статей для того чтобы вылечить такие заболевания как рак или болезнь Альцгеймера, а возможно и старение как таковое.

В рамках подготовки своего курса по глубокому обучению я собираюсь опубликовать серию статей на тему Состязательных(Adversarial) сетей с разбором того что же это такое и как этим пользоваться. Эта серия статей не будет очередным обзором GANов(Generative Adversarial Networks), но позволит глубже заглянуть под капот нейронных сетей и охватит более широкий спектр архитектур. Хотя GANы мы конечно тоже разберем.

Читать дальше →

+30

mephistopheies Apr 5 2017 at 14:23

Байесовские многорукие бандиты против A/B тестов

20 min

64K

Python*Mathematics*Web services testing*Machine learning*Open Data Science corporate blog

Здравствуйте, коллеги. Рассмотрим обычный онлайн-эксперимент в некоторой компании «Усы и когти». У неё есть веб-сайт, на котором есть красная кнопка в форме прямоугольника с закругленными краями. Если пользователь нажимает на эту кнопку, то где-то в мире мурлычет от радости один котенок. Задача компании — максимизация мурлыкания. Также есть отдел маркетинга, который усердно исследует формы кнопок и то, как они влияют на конверсию показов в клико-мурлыкания. Потратив почти весь бюджет компании на уникальные исследования, отдел маркетинга разделился на четыре противоборствующие группировоки. У каждой группировки есть своя гениальная идея того, как должна выглядеть кнопка. В целом никто не против формы кнопки, но красный цвет раздражает всех маркетологов, и в итоге было предложено четыре альтернативных варианта. На самом деле, даже не так важно, какие именно это варианты, нас интересует тот вариант, который максимизирует мурлыкания. Маркетинг предлагает провести A/B/n-тест, но мы не согласны: и так на эти сомнительные исследования спущено денег немерено. Попробуем осчастливить как можно больше котят и сэкономить на трафике. Для оптимизации трафика, пущенного на тесты, мы будем использовать шайку многоруких байесовских бандитов (bayesian multi-armed bandits). Вперед.

Читать дальше →

+63

X5Tech Sep 5 2019 at 16:28

Как проводить A/B-тестирование на 15 000 офлайн-магазинах

10 min

26K

Big Data*X5 Tech corporate blog

Привет! На связи команда Ad-hoc аналитики Big Data из X5 Retail Group.

В этой статье мы расскажем о нашей методологии A/B-тестирования и сложностях, с которыми мы ежедневно сталкиваемся.

В Big Data Х5 работает около 200 человек, среди которых 70 дата сайентистов и дата аналитиков. Основная наша часть занимается конкретными продуктами – спросом, ассортиментом, промо-кампаниями и т.д. Помимо них, есть наша отдельная команда Ad-hoc аналитики.

Читать дальше →

+28

boygenius Feb 3 2023 at 14:19

Теория вероятностей в машинном обучении. Часть 2: модель классификации

14 min

16K

Mathematics*Machine learning*Open Data Science corporate blogStatistics in ITArtificial Intelligence

В предыдущей части мы рассматривали вероятностную постановку задачи машинного обучения, статистические модели, модель регрессии как частный случай и ее обучение методом максимизации правдоподобия.

В данной части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax, как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Данная часть содержит много отсылок к формулам и понятиям, введенным в первой части, поэтому рекомендуется читать их последовательно.

В третьей части (статья планируется) перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей - рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

+29

boygenius Jan 31 2023 at 14:29

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

28 min

25K

Mathematics*Machine learning*Open Data Science corporate blogStatistics in ITArtificial Intelligence

В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.

В следующей части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax и как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Затем перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

+23

soines Dec 29 2022 at 13:50

Одна платформа, чтобы править всеми

18 min

30K

High performance*System Analysis and Design*IT Infrastructure*Microservices*Ozon Tech corporate blog

Review

Привет! Меня зовут Миша, я работаю в Ozon Tech — руковожу направлением базовых сервисов в платформе. Ozon сегодня — это порядка 4000 разработчиков и более 3500 сервисов. Разработка постоянно развивается, количество сервисов увеличивается, и одна из сложных задач — это найти удобный для всех способ управлять тем, что происходит под капотом.

Для этого мы сделали платформу: это внутренние стандарты, сервисы, процессы, инфраструктура для разработки. Можно сказать, что это такой «сервис для продуктовых разработчиков», который предоставляет удобные инструменты во все команды, обеспечивает единообразие подходов в разных командах, помогает внедрять изменения и новые технологии. Для нас платформа теперь — основа для разработки, на ней строятся все информационные системы, и сложно представить Ozon без неё.

В этой статье я расскажу, как и на каких принципах мы построили нашу платформу, зачем она нужна и куда движется. Будет полезно и интересно всем, кто связан с разработкой больших приложений с множеством микросервисов.

+68

stalkermustang Jan 26 2023 at 11:55

ChatGPT как инструмент для поиска: решаем основную проблему

40 min

117K

Python*Machine learning*Open Data Science corporate blogNatural Language Processing*

Review

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а Microsoft планирует интеграцию в поисковик Bing - чем, кстати, безумно обеспокоен СЕО Alphabet (Google) Сундар Пичаи. Настолько обеспокоен, что в своём письме-обращении к сотрудникам объявляет "Code Red" ситуацию. В то же время Сэм Альтман, CEO OpenAI - компании, разработавшей эту модель - заявляет, что полагаться на ответы ChatGPT пока не стоит.

Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы, как может выглядеть новый интерфейс взаимодействия, и какие основные проблемы есть на пути интеграции? Могут ли модели сёрфить интернет бок о бок с традиционными поисковиками? На эти и многие другие вопросы постараемся ответить под катом.

Погрузиться с головой →

+96

X5Tech Dec 17 2021 at 17:55

Стратификация. Как разбиение выборки повышает чувствительность A/B теста

15 min

36K

Python*Mathematics*Statistics in ITX5 Tech corporate blog

Всем привет! На связи команда ad-hoc аналитики X5 Tech.

Сегодня подробно обсудим применение стратификации для повышения чувствительности оценки AB экспериментов.

X5Tech Aug 2 2022 at 16:59

Бутстреп и А/Б тестирование

10 min

58K

Python*Mathematics*Statistics in ITX5 Tech corporate blog

Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его недостатки.

+12

nnazarov Dec 19 2022 at 16:32

Проверка корректности А/Б тестов

8 min

19K

Python*Mathematics*Statistics in ITX5 Tech corporate blog

Хабр, привет! Сегодня поговорим о том, что такое корректность статистических критериев в контексте А/Б тестирования. Узнаем, как проверить, является критерий корректным или нет. Разберём пример, в котором тест Стьюдента не работает.

+13

koshkinoko Feb 1 2023 at 10:50

Как определить размер выборки для бутстрэпа старым дедовским способом

13 min

12K

Mathematics*Mobile App Analytics*Product Management*Statistics in ITLamoda Tech corporate blog

Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda. Как и во многих других продуктовых компаниях, решения о том, раскатывать ли новую фичу, принимаются в Lamoda на основе данных, в частности на основе результатов A/B-тестирования.

Бутстрэп — один из популярных методов обработки результатов тестов. В этой статье я расскажу о том, каким образом можно определить размер выборки при расчете результатов A/B-теста с помощью бутстрэпа.

+28

1 2 ...

5 6