Всем привет! Новый год, новый Spark, новый Moscow Spark! Мы стартуем новый сезон нашего замечательного мероприятия 19 апреля на Мансарде Rambler&Co. Фреймворк не стоит на месте и мы тоже, в этот раз представим новый сайт сообщества и опробуем формат со звездой из-за рубежа.

1. Что нового в Spark 2.3? – Павел Клеменков, Chief Data Scientist @ Nvidia / Data Wizard @ BigDataTeam
В докладе я рассмотрю три главные, на мой взгляд, новые фичи Apache Spark: continuous streaming, streaming ml и vectorized udf. На примерах рассмотрим, чем отличается continuous streaming от microbatch, насколько он быстрее и какие ограничения с этим связаны. Разберем насущную проблему всех специалистов по машинному обучению: как же запилить модель в прод и сделаем это с помощью нового, унифицированного интерфейса Streaming ML. И, в заключении, рассмотрим, как разработчики побороли, кажется, финальную боль производительности PySpark c помощью векторизации UDF.
2. MOOC по Big Data: дать каждому по кластеру и проверить решения! – Олег Ивченко, Ассистент @ МФТИ / Data Wizard @ BigDataTeam, и Павел Ахтямов, Разработчик-аналитик @ Vicman Development / Data Wizard @ BigDataTeam
В прошлом году наша команда (BigDataTeam) совместно с Яндекс запустила специализацию Big Data for Data Engineers. Уникальность этой специализации состоит в том, что решения студентов тестируются на реальном кластере. Запуск подобной инфраструктуры и её интеграция с Coursera оказался довольно трудоемким делом и поставил перед нами множество интересных инженерных задач. О них мы и расскажем в докладе. А именно:

1) как собрать Spark-кластер с Jupyter внутри Docker-контейнера
2) как встроить в Coursera свой pipeline проверки заданий с помощью интерфейса LTI
3) как передать Jupyter-ноутбук на production-кластер и проверить его на нём
3. Apache Spark on Kubernetes the easy way – Дмитрий Лахвич [KrivdaTheTriewe], Senior Research Engineer @ Tookitaki / Data Engineer @ Максимателеком
Одним из новшеств Apache Spark 2.3 стала экспериментальная поддержка Kubernetes в основной ветке. В данном докладе я рассмотрю как архитектуру самого Kubernetes, его деплой, базовую настройку в минимальной конфигурации, так и деплой Apache Spark приложений в Kubernetes. Будут рассмотрены некоторые тонкости настройки, а также вопрос зачем же нам нужен еще один планировщик (scheduler) и какие он приносит бенефиты.
Мероприятие бесплатное, а регистрация обязательна.

С нас пицца и чай!

Начало в 19.00
Место: Варшавское шоссе, д. 9, стр. 1, подъезд №5. Мансарда Rambler&Co



Обязательно зарегистрируйтесь и возьмите с собой паспорт, чтобы вас пропустила охрана бизнес-центра!

Приходите, будет интересно!