Что будет на конференции UseData Conf 2019?
Ура! Мы завершили формирование программы конференции UseData Conf 2019! Эта конференция для тех, кто решает практические задачи с помощью методов машинного обучения. Между идеальным алгоритмом в вакууме и его применением на реальных данных часто лежит пропасть. Мы хотим, чтобы те, кто умеет преодолевать эту пропасть, встретились и смогли обменяться опытом.
Магия машинного обучения для управленцев, истории применения ML для анализа эффективности рекламы в телевизоре, беспилотные игрушечные машинки, нефть и автомобильные номера — это лишь часть докладов на UseData 2019. Об этих и других темах подробнее под катом.
В программе мы сформировали 5 секций. Доклады секции сгруппированы по направлениям задач, которые они решают.
- Машинное обучение и анализ данных в коммерции.
- Компьютерное зрение.
- Обработка текстов на естественных языках.
- Системы принятия решений.
- Фреймворки и инструменты по машинному обучению.
По каждой из этих тем нашлось что-то интересное.
Машинное обучение и анализ данных в коммерции
Эффект от ТВ-рекламы: оценка и оптимизация
Александра Ломакина, JOOM
Половина моего рекламного бюджета тратится впустую. Проблема в том, что я не знаю, какая именно.
Это цитата Джона Уонамейкера, американского предпринимателя, который открыл первый универмаг и первым применил ценники. Он что-то понимал в коммерции.
Александра прошла этот путь до конца и готова поделиться ответами. Спойлер: пространство для оптимизации огромно.
Машинное обучение для предсказания продаж интернет-магазина OZON.RU. Оптимизация цен с помощью моделей предсказания спроса.
Александр Алексейцев, OZON.RU
Например, товара долго не было на складе, а потом он появился и модель ошибается с прогнозом. Ничего страшного для одного товара, но в OZON.ru таких товаров сотни каждый день. Из-за ошибки складу может не хватать товаров или он будет переполнен.
Как работать с ошибками прогноза и поставок, и как страховаться от ошибок расскажет Александр. Его доклад это не только успешный кейс применения машинного обучения, но и интереснейший экскурс в предметную область. Если вы строите модели для прогнозов продаж, найдёте для себя много нового.
Компьютерное зрение
В этой секции поговорим о распознавании гос. номеров, проблемах ресурсов и послушаем научный доклад.
512 КБ памяти хватит всем! Идентификация человека по лицу на микроконтроллере с камерой
Александр Сморкалов, Xperience.ai
Wasserstein Regularization for Generative and Discriminative Learning
Guido Montufar, институт Макса Планка
Я не эксперт в этой теме, но, мне кажется, что такие задачи вынуждают создавать нейросети с большим количеством слоёв. Это усугубляет проблему затухания градиента и бесконечная борьба брони и снаряда бесцельно расходует сотни нефти вычислительных ресурсов. Методы, которые исследует Гвидо, позволяют решать задачи с большим разбросом внутри каждого класса дешевле и быстрее.
Как найти и закрыть гос. номер на фото автомобиля и помешать копированию контента c помощью adversarial attack
Илья Сергеев, Авито
В Авито для похожей задачи тоже сделали своё решение. В 2019 году эта задача уже не выглядит захватывающе. Кажется, что сейчас кто угодно в состоянии научиться закрывать гос. номер за час на коленке. Но так только кажется. Оказалось, что некоторым компаниям проще копировать изображения у Авито, заменяя на картинке знак своим, потому что задетектить его проще, чем номер. Авито пришлось предпринимать специальные усилия, чтобы и вывести на чистую воду контентных воришек.
Части этой истории уже были опубликованы на Хабре, но на нашей конференции Илья представит её целиком в форме рассказа, а не статьи.
Как нейросети могут помочь построить картину происходящего под землей и определить, где искать нефть
Дарима Мылзенова, Gazprom Neft
Мы очень любим задачи из реального сектора, потому что на них хорошо видна разница между данными на которых люди привыкли учиться и данными из жизни: неточными, с ошибками и ограничениями, с разной разрешающей способностью, с пробелами. Дарима расскажет не только о том, на что способны нейросетевые модели в области анализа земных недр, но и том, сколько всего пока не умеют, а хотелось бы.
Обработка текстов на естественных языках
Может ли машина понимать анекдоты и шутки? Как научить модель понимать странные имена? А распознавать код?
Поиск аномалий в анкетных данных на примере ФИО
Георгий Шушуев, ЦФТ
Мы любим истории об успешном обучении без учителя, и это как раз одна из них. Георгий расскажет про эволюцию детектора аномалий в анкетных данных от марковской модели до нейросетевой и поделится лайфхаками разработки таких детекторов для наборов коротких текстов.
Machine Learning for Code
Егор Булычев, source{d}
Можно ли научить машину чувству юмора?
Владислав Блинов, Валерия Баранова, Тинькофф
С практической точки зрения всё как мы любим: размеченных датасетов почти нет, воды нет, растительности нет, населена роботами. Серьёзная работа на весёлую тему.
Как реализовать быстрый и эффективный семантический поиск в своем проекте на основе кликстрима, трансформеров и приблизительного поиска (ANNS)
Владимир Бугай, Knoema
Некоторые данные содержатся в базе непосредственно, некоторые — вычислимые. Чтобы искать хорошо, приходится строить модель связей между данными. Сейчас это уже нейросетевая модель на основе USE. Владимир расскажет о нескольких важных шагах в разработке поиска по нестандартным данным: как относительно быстро собрать такой поиск из готовых компонентов, как дообучить его с помощью своей дополнительной информации, например, кликов, как уменьшать размер индекса и оптимизировать прочие узкие места.
Системы принятия решений
Modern Neural Net Architectures / Year 2019 version
Григорий Сапунов, Intento
Это как раз тот уровень экспертизы, на котором можно сделать интересный обзор новинок в мире нейросетей за последние пару лет. Какие новые задачи сети научились решать? Что для этого пришлось сделать? В каких направлениях ждём следующих прорывов?
Что такое хорошо и что такое плохо: метрики для рекомендательных систем
Ирина Пчелинцева, Яндекс
Большинство уверенно скажет, что «Крестный отец» или «Список Шиндлера» хорошие фильмы, даже если сам их не видел. Но, представьте, как вы возвращаетесь с работы. День был тяжелый: проект не клеится, начальник съел весь мозг, и завтра будет так же. В таком состоянии вряд ли захочется смотреть умный и глубокий фильм, а тупой боевик, которому красная цена шесть из десяти — зайдет. Поэтому рекомендательная система должна предлагать то, что вы посмотрите, а не то, что принято хвалить.
Это лишь одна из неожиданных сторон задачи, и таких сторон — много. Чтобы узнать о них, приходите на выступление Ирины.
Разработка и внедрение интеллектуальных агентов
Андрей Иванов, Тинькофф
У Андрея очень практическое выступление: как в Тинькофф используются интеллектуальные агенты (на примере «историй»), какие трудности возникают с их разработкой и какие инструменты в этом помогают.
Прогнозирование инцидентов в процессе бурения
Иван Исаев, Altarix
Machine Learning Based Autonomous Car Driving Algorithms
Saloni Garg
В бедном регионе топливо для автобуса ценный ресурс. Водители экономят его с помощью множества удивительных техник: не включают фары, едут на нейтрали, не соблюдают рядность. Как в таких условиях принудить его к безопасному вождению?
Денег вокруг мало, поэтому железо для решения задачи самое примитивное, строить большинство оценок нужно локально, видео с камеры на сервер не передать. Как работать в таких условиях, и расскажет Saloni Garg.
Фреймворки и инструменты по машинному обучению
Добавляем контроль данных в ML pipeline
Артём Селезнёв, Мегафон
AWS DeepRacer: учимся сложному через игру
Александр Патрушев, AWS
Управленческий доклад вне секций
Project Management 2.0: AI Transformation
Эдуард Тянтов, Mail.ru Group
Эдуард в своём докладе посмотрит на проблему со стороны руководства командой и продуктом. Что меняется в цикле разработки, в постановке задач, в проверке качества? Он — как раз тот человек, который может много об этом сказать, так как уже много лет успешно ведёт проекты на базе машинного обучения в Mail.ru. Самый известный проект, на мой взгляд, — Artisto, приложение для стилизации видео.
Бонус-трек
А ещё у нас будет трёхчасовой hands-on воркшоп от Яндекса по сбору данных при помощи Яндекс.Толоки! Вести его будут люди, которые разрабатывают Толоку, и те, кто ею пользуется на постоянной основе: Алексей Друца и Ольга Мегорская.
Вы получите общее представление о работе механизмов краудсорсинга, подобного Толоке или Mechanical Turk. Дальше сможете выбрать одну из нескольких предлагаемых задач по разметке данных, сформировать задание для толокеров, подготовить проверочные задания и задания-«ловушки» для читеров. В конце попробуете определить истинные оценки по полученной разметке и подозрительных толокеров при помощи алгоритмов, которые предлагает система.
Воркшоп будет полезен тем, кто задумывался о сборе данных через Толоку, но не решался из-за опасности потратить весь бюджет без подготовки.
Чтобы перейти через пропасть между алгоритмами в вакууме и реальными, ждем 16 сентября. Целый день докладов, митапов, общения, машинного обучения и кейсов — красота! Следующее и окончательное повышение цен на UseData Conf 2019 уже 9 сентября, поэтому бронируйте билеты уже сейчас, чтобы зафиксировать цену. До встречи в Инфопространстве!