27 апреля на Мансарде RAMBLER&Co пройдет первый митап, посвященный работе с Apache Spark.
Apache Spark уже успел зарекомендовать себя как один из основных фреймворков работы с большими данными и успешно применяется в таких крупных компаниях, как Amazon, Baidu, IBM, Databricks, NASA JPL и TripAdvisor. Нам известно, что и в России Spark используется во многих небольших и в некоторых крупных компаниях, причем весьма результативно.
В Rambler&Co мы уже около года используем Spark почти для всех задач департамента рекламных технологий, связанных с ETL и машинным обучением. Более того, в начале года мы успешно обновились до версии 2.1.0.
На митапе мы бы хотели поделиться нашим опытом внедрения Spark в продакшен, рассказать о проблемах, с которыми мы столкнулись, и обсудить решения, которые применили. Выяснить, какие новые и крутые фишки появились в Spark 2, и какие баги успешно мигрировали из предыдущих версий Ну и, конечно же, познакомиться с другими энтузиастами и практиками этого замечательного инструмента и сделать наше мероприятие регулярным! Приходите, будет интересно!
Темы докладов:
1. Павел Клеменков (руководитель отдела машинного обучения)
Пайплайн машинного обучения на Apache Spark
Что у нас было до Spark, как мы к нему пришли, и при чем здесь математики-программисты?
2. Константин Колоколов (математик-программист) и Владимир Штанько (математик-программист)
Как правильно программировать на PySpark?
Краткое введение в архитектуру фреймворка. Что может пойти не так, куда смотреть и как бороться? Как не выстрелить себе в ногу?
3. Дмитрий Носов (математик-программист)
Criteo 1TB benchmark
Тестируем Vowpal Wabbit, XGBoost и Spark ML на датасете Criteo
4. Шорин Александр (инженер-разработчик devops)
Минуты из жизни со Spark
Как у нас живет Spark, как мы с ним живем, истории эксплуатации, поддержки, борьбы с подводными граблями.
Сбор гостей в 18.30.
Начало первого доклада в 19.00.
Регистрация: rambler-co-e-org.timepad.ru/event/470664
Ссылка трансляции: www.facebook.com/afishamansarda