Недавно FunCorp приобщился к прекрасному — машинному обучению. Наш бэкенд-инженер научил поисковики читать мемы. По такому случаю мы решили собрать ML-митап, дабы поделиться своими наработками, а заодно и поучиться у более опытных специалистов из других компаний, где машинное обучение уже является важной составляющей бизнеса. Решили собрать — собрали. Проведём 9-го февраля. Программа под катом.
Программа
«Опыт запуска Discover для 90 млн пользователей: пять рекомендаций ML-разработчикам», Андрей Законов, vk.com
О докладе
- Важна не только модель: правильно формулируем задачи и выбираем метрики.
- Разные способы оптимизировать свои решения под нагрузки.
- Правильно оцениваем эксперименты: изучаем графики и работаем с обратной связью.
«Production в ML», Марк Андреев, Conundrum.ai
О докладе
В докладе пойдёт речь:
- о видах предсказаний: realtime, offline, realtime + offline
- о том, как от прототипа в Jupyter Notebook дойти до контейнера
- о масштабировании решения и о контроле качества.
«Как научить поисковики читать мемы», Григорий Кузовников, FunCorp
О докладе
iFunny — приложение со смешными картинками и видео. Единственный текстовый контент, который есть, — это пользовательские комментарии, но для того, чтобы привлечь трафик с поисковиков, его недостаточно, поэтому было решено извлечь текст с картинок и разместить его на страницах. Специально для этого был создан сервис, который:
- находит на картинке область, содержащую «основную шутку»
- извлекает текст из этой области
- проверяет качество распознанного текста.
Сервис написан на Python с использованием tensorflow. Опыта в разработке ML-сервисов ни у кого в команде не было, поэтому мы прошли все этапы:
- Постановка задания.
- Первые эксперименты, когда мы пытались сделать что-то, что хоть как-то работает, экспериментируя с архитектурой нейронных сетей.
- Составление обучающей выборки.
- Обучение и подбор коэффициентов модели.
- Создание сервиса, использующего нашу обученную модель. Оборачивание его в docker-контейнер.
- Деплой и привязка сервиса к нашему php-монолиту. Холостой запуск.
- Первые результаты работы и замечания от прокатов.
- Использование результатов распознавания в бою.
- Анализ результатов.
- Сейчас мы здесь. Нам всё ещё только предстоит переделать и переобучить модели для повышения количества корректно распознанных мемов.
«Машинное обучение в Yandex.Taxi», Роман Халкечев, Yandex.Taxi
О докладе
В докладе пойдёт речь про устройство Яндекс.Такси.
Будет подробный рассказ:
- про задачи, которые мы решаем с помощью анализа данных и технологий машинного обучения
- про наш конвейер разработки, тестирования и запуска в продакшн моделей машинного обучения
- пройдёмся по всем этапам: от экспериментов в Jupyter Notebook до полноценного ML-продакшна.
«Избавляемся от проклятия Sklearn: пишем XGBoost с нуля», Артём Хапкин, Mail.ru Group
О докладе
Рассказ про бустинг. Что нужно знать, чтобы самому его написать. Какие есть подводные камни, как можно улучшать его работу.
В настоящее время сложно представить место, где не используются ансамблевые алгоритмы бустинга над решающими деревьями. Это и поисковые движки, алгоритмы ранжирования рекомендаций, соревнования на Kaggle и ещё много где.
Существуют много готовых реализаций алгоритма: Catboost, Lightgbm, Xgboost и прочее. Однако, бывают случаи, когда пользоваться готовыми решениями из коробки не очень хорошо — теряется понимание работы алгоритма, а для определённых задач такие реализации не очень подходят и пр.
В этом докладе мы разберём принципы работы алгоритма, и, двигаясь от простого к сложному, реализуем свой собственный алгоритм Xgboosting’а, который потом можно будет подстраивать для любых задач машинного обучения — классификации, регрессии, ранжирования и т.д.
Больше информации в Telegram
Зарегистрироваться можно в Timepad. Количество мест ограничено.
Для тех, кто не сможет приехать или не успеет записаться, на нашем канале будет вестись трансляция.