Обновить
4
Александр Наумцев@naumtsevalex

ML Engineer

15
Подписчики
Отправить сообщение

Вокруг RecSys ML 1: универсальный план по MLSD и основные проблемы RecSys

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели9.9K

Время идет и каждая из областей в МЛ развивается, часто сложно уловить особенности и прорывы в каждом домене. Я предлагаю начать разбирать вглубь RecSys и постепенно отвечать на вопросы: что общего со всеми, а что стало доменным.

Вдохновением стал курс от ШАДа 2025 года, буду использовать оттуда множество чудесных картинок.

Объявим главные вопросы, на который нужно дать ответ, для решения задачи ML-ем. А также, основные проблемы в рексисе о которых нужно думать заранее.

Читать →

goYSDA: Как мы в ШАДе переизобрели и сделали непрерывную игру Го, выкинув из него сетку

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4K

Привет, Хабр!

Все мы знаем Го — глубокую, медитативную игру на доске 19x19. Камни, пересечения, территории... А что, если выкинуть саму сетку и разрешить ставить камни куда угодно в пределах доски?

Мы в команде YSDA (Yandex School of Data Analysis или Школа Анализа Данных, ШАД) задались этим вопросом и решили проверить. Получилось азартно, хаотично и, что самое главное для нас как разработчиков, — чертовски интересно с точки зрения алгоритмов.

В этой статье я расскажу, как мы реализовали эту идею на Python и Pygame, с какими геометрическими головоломками столкнулись и как Диаграмма Вороного помогает считать очки в реальном времени, превращая статичную доску в живое поле битвы.

А в конце встретим неожиданный твист! Узнаем, что такое такое Суго.

Погрузиться в игру →

Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисковых выдач

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели2.9K

Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.

Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.

Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информацией и проанализируем изменения поисковых выдач.

И под конец обсудим каких технологий еще не хватает и можно добавить, если возникают соответствующие трудности.

Погрузиться в семантический поиск →

Главное по ML/DL, часть 2: Вопрос → Краткий ответ → Разбор → Пример кода. SVD/PCA. Bias-variance. Деревья. Бустинг

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели5.8K

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение.

Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять, но так же не лишая полноты!

💻 Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу! Это самое важное, оно происходит в секции с кодом. Поэтому попробуйте сами решить предложенную задачку и придумать свою!

Будет здорово получить ваши задачи и в следующих выпусках разобрать!

Мы продолжаем. Обязательно испытайте себя в предыдущей [1] части!

Взглянуть на старое под новым углом →

Фундаментальные вопросы по ML/DL, часть 1: Вопрос → Краткий ответ → Разбор → Пример кода. Линейки. Байес. Регуляризация

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели12K

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение.

Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять, но так же не лишая полноты!

Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу! Это самое важное, оно происходит в секции с кодом.

Будет здорово получить ваши задачи и разобрать в следующих выпусках!

Как только разберетесь приступайте к части 2!

Взглянуть на старое под новым углом →

Валерий Бабушкин & MLinside, часть 1 | Автократия. System Design. Lego & Sport. Срезание углов

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели9.4K

На днях посмотрел подкаст с Валерием Бабушкиным. Как всегда, было очень приятно слушать, и я хочу поделиться с вами основными тезисами, которые я для себя вынес.

Узнаем как быстро вникнуть в ML System Design, чем лего и спорт помогают, и почему важно уметь срезать углы на работе!

Порассуждать вместе с Валерой Бабушкиным

RecSys + DSSM + FPSLoss is all you need

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели3.4K

Упрощать и искать похожие детали, очень полезный навык! Предлагаю быстро пробежаться и попробовать найти ту самую серебряную пулю в RecSys !

Поехали →

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Ученый по данным, ML разработчик
Старший
Машинное обучение
Deep Learning
Обработка естественного языка
Computer Science
PyTorch
NumPy
Python
SQL
Fullstack
ETL