Анонс Moscow Spark #4

    image

    Всем привет! Новый год, новый Spark, новый Moscow Spark! Мы стартуем новый сезон нашего замечательного мероприятия 19 апреля на Мансарде Rambler&Co. Фреймворк не стоит на месте и мы тоже, в этот раз представим новый сайт сообщества и опробуем формат со звездой из-за рубежа.

    1. Что нового в Spark 2.3? – Павел Клеменков, Chief Data Scientist @ Nvidia / Data Wizard @ BigDataTeam
    В докладе я рассмотрю три главные, на мой взгляд, новые фичи Apache Spark: continuous streaming, streaming ml и vectorized udf. На примерах рассмотрим, чем отличается continuous streaming от microbatch, насколько он быстрее и какие ограничения с этим связаны. Разберем насущную проблему всех специалистов по машинному обучению: как же запилить модель в прод и сделаем это с помощью нового, унифицированного интерфейса Streaming ML. И, в заключении, рассмотрим, как разработчики побороли, кажется, финальную боль производительности PySpark c помощью векторизации UDF.
    2. MOOC по Big Data: дать каждому по кластеру и проверить решения! – Олег Ивченко, Ассистент @ МФТИ / Data Wizard @ BigDataTeam, и Павел Ахтямов, Разработчик-аналитик @ Vicman Development / Data Wizard @ BigDataTeam
    В прошлом году наша команда (BigDataTeam) совместно с Яндекс запустила специализацию Big Data for Data Engineers. Уникальность этой специализации состоит в том, что решения студентов тестируются на реальном кластере. Запуск подобной инфраструктуры и её интеграция с Coursera оказался довольно трудоемким делом и поставил перед нами множество интересных инженерных задач. О них мы и расскажем в докладе. А именно:

    1) как собрать Spark-кластер с Jupyter внутри Docker-контейнера
    2) как встроить в Coursera свой pipeline проверки заданий с помощью интерфейса LTI
    3) как передать Jupyter-ноутбук на production-кластер и проверить его на нём
    3. Apache Spark on Kubernetes the easy way – Дмитрий Лахвич [KrivdaTheTriewe], Senior Research Engineer @ Tookitaki / Data Engineer @ Максимателеком
    Одним из новшеств Apache Spark 2.3 стала экспериментальная поддержка Kubernetes в основной ветке. В данном докладе я рассмотрю как архитектуру самого Kubernetes, его деплой, базовую настройку в минимальной конфигурации, так и деплой Apache Spark приложений в Kubernetes. Будут рассмотрены некоторые тонкости настройки, а также вопрос зачем же нам нужен еще один планировщик (scheduler) и какие он приносит бенефиты.
    Мероприятие бесплатное, а регистрация обязательна.

    С нас пицца и чай!

    Начало в 19.00
    Место: Варшавское шоссе, д. 9, стр. 1, подъезд №5. Мансарда Rambler&Co

    image

    Обязательно зарегистрируйтесь и возьмите с собой паспорт, чтобы вас пропустила охрана бизнес-центра!

    Приходите, будет интересно!

    Rambler Group

    81,00

    Компания

    Поделиться публикацией

    Похожие публикации

    Комментарии 0

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

    Самое читаемое