В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал»

    Продолжаем рассказ об олимпиаде для бакалавров, магистров и специалистов «Я — профессионал». Она проводится при поддержке сильнейших вузов. Сегодня мы расскажем о новом соревновательном направлении, которое курирует Университет ИТМО, — «Большие данные».

    Генеральный партнер олимпиады «Я — профессионал» по направлениям Университета ИТМО — «Компьютерные науки», «Информационная и кибербезопасность», «Большие данные» — Сбербанк.


    Christoph Scholz / Flickr / CC BY-SA

    Пара слов об олимпиаде «Я — профессионал»


    Олимпиада проводится для студентов самых разных специальностей.

    В этом году зарегистрированы 54 направления: есть математика, искусственный интеллект, программная инженерия, интернет вещей, фотоника и многие другие.

    Зачем участвовать. Победители получают возможность поступить в российские вузы без экзаменов и пройти стажировку в крупных компаниях-партнерах олимпиады: Яндексе, Сбербанке, MRG и так далее. Студенты, которые покажут хорошие результаты, получат возможность посетить зимние школы. Там можно будет познакомиться с экспертами индустрии.

    Формат участияРегистрация — до 22 ноября. С 24 ноября по 9 декабря в режиме онлайн состоится отборочный тур. Его могут пропустить те, кто прошел не менее двух онлайн-курсов из утвержденного организаторами списка. В феврале 2019 года начнутся заключительные этапы.

    Они пройдут очно в разных университетах страны. Университет ИТМО курирует сразу пять направлений олимпиады. О некоторых из них, в частности, о «Робототехнике», мы рассказывали ранее. Сегодня представим направление «Большие данные». Это — новинка олимпиады этого года.

    Направление «Большие данные»: что нужно знать


    В мире проводится множество мероприятий и семинаров, посвященных Big Data.

    Стоит упомянуть международные конференции SIGMOD, SIGKDD или ICML. Все больше подобных событий проходит и в нашей стране. Например, DataFest, Big Data Conference от Rusbase и многочисленные митапы по технологиям управления и анализа Big Data.

    Университет ИТМО также участвует в различных мероприятиях и проводит собственные. Такие как серия конференций YSC (Young Science Conference), лекция Германа Грефа и недавний закрытый воркшоп, прошедший в MRG. Большие данные занимают важное место в разработке новых IT-систем и решений в других сферах деятельности. В Университете ИТМО идет активная работа с применением и развитием технологий Big Data во всех плоскостях.
    Например, сотрудники кафедры высокопроизводительных вычислений Университета ИТМО создали семантическое распределенное хранилище данных Exarch. Оно обеспечивает быстрый доступ к данным, оптимизирует процессы их обработки. Exarch позволяет в два раза сократить время выполнения простых задач, по сравнению с инструментами вроде HDFS и Cassandra.
    Учитывая опыт и научные интересы вуза в области работы с большими данными, мы не могли упустить возможность открыть такое направление в рамках проекта «Я — профессионал». Курирует этот трек олимпиады Александр Валерьевич Бухановский, доктор технических наук, директор мегафакультета трансляционных информационных технологий Университета ИТМО. Сейчас он с командой, в которую входят и аспиранты вуза, занимается подготовкой заданий.

    В направление «Большие данные» входит Анализ данных, статистика и машинное обучение плюс Технологии распределенных вычислений и систем. Первое поднаправление связано с математикой и подходами к обработке больших объемов данных. Второе — строится вокруг программирования и высокопроизводительных вычислений, направленных на оптимизацию аналитических процессов.

    Участники будут использовать платформу Яндекс.Контест и самые популярные языки программирования для работы с Big Data. Речь идет о Java, Scala и Python.

    Java и Scala в большей мере используются специалистами, которых называют Data Engineer, для ETL и ELT и реализации базовых алгоритмов. Python же чаще выступает инструментом в руках тех, кого называют Data Scientist. При этом все указанные языки поддерживаются самым распространенным и популярным на сегодняшний момент решением для обработки больших данных Apache Spark.

    Отметим, что на заочном этапе задачи по программированию предлагаться не будут. Это связано с некоторыми ограничениями площадки Яндекс.Контест — пока нет возможности подключить реальные массивы данных для обработки. К очному этапу состязания этот момент будет разрешен.

    Подготовка к олимпиаде


    Для участников подготовлена специальная программа, которая включает три вебинара по профильному направлению. Лекции читают преподаватели ведущих вузов, объясняя и разбирая примеры олимпиадных заданий.

    Вот пример одного из базовых вопросов по большим данным
    Большой массив разных растровых фотоизображений в 64-битном формате bmp равномерно распределен по 1000 независимым узлам хранения в единой локальной сети. Для выделения изображений лиц на этих файлах задействован кластер, имеющий 100 вычислительных узлов.

    При однократном запуске процесса обработки на всех узлах, по сравнению с одним узлом получено ускорение обработки всего в 52 раза. Значит ли это что:

    • А. Кластер слишком маленький, нужно больше вычислительных узлов, чтобы повысить эффективность;
    • Б. Размеры изображений разные, и из-за этого объективно не удается достичь большей эффективности;
    • А. Коммуникационный канал между хранилищем и кластером слишком слабый;
    • Г. Пока непонятно. Нужно провести серию дополнительных экспериментов в различных конфигурациях.

    Ответ: Г. На основе одного измерения причину установить невозможно, так как в зависимости от условий может быть как вариант А, так и В.

    Лекция, которую читает Александр Бухановский:


    Вторая лекция — о технологических аспектах обработки больших данных. Провел старший научный сотрудник НИИ НКТ Университета ИТМО Александр Вишератин:


    В целом для решения заданий олимпиады, необходимо изучить типичные механизмы, лежащие в основе базовых операций обработки Big Data. Речь идет о паттернах во фреймворках Apache Spark и Apache Flink (например, операциях shuffle или broadcast). Неплохо будет изучить работу итеративных алгоритмов, использующихся для машинного обучения на больших данных, таких как Expectation — Maximization. Не помешает и знание структур данных и принципов организации хранения данных, применяемых в современных хранилищах Cassandra или Clickhouse.

    Также рекомендуем обратить внимание на курсы от «Яндекса», посвящённые обработке Big Data:


    Кстати, прохождение двух из этих курсов позволит миновать отборочный тур по направлению «Большие данные» и попасть сразу на очный этап олимпиады.
    Университет ИТМО
    74,00
    IT's MOre than a University
    Поделиться публикацией

    Комментарии 0

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

    Самое читаемое