Как стать автором
Обновить

1-я лабораторная работа программы Data Engineer

Время на прочтение 7 мин
Количество просмотров 14K
Всего голосов 11: ↑8 и ↓3 +5
Комментарии 4

Комментарии 4

Зарегимся на облачном сервисе.
Поднимем на нем 4 виртуальных машины.
Развернем кластер при помощи Ambari.
Поднимем сайт на nginx на одной из виртуалок.
Добавим специальный javascript на каждую страницу этого сайта.
Соберем кликстрим на HDFS.
Соберем его же в Kafka.


Простите, а не могли бы Вы пояснить подробнее в комментарии, зачем всё вышеперечисленное нужно?
Конечно :)

Что мы хотим сделать в целом — это построить пайплайн обработки данных: от их сбора с нашего сайта (кликстрим) до их визуализации в каком-нибудь BI-инструменте. В промежутке разный ML.

Соответственно, в нашей первой лабе мы только начинаем этот процесс. Разворачиваем кластер со всеми сервисами, которые могут понадобиться позднее. Поднимаем «учебный сайт», с которого и будем собирать данные и т.д.

Будут ли ещё лабораторные работы?

Нет, другие лабораторные будут доступны непосредственно на нашей программе ¯\_(ツ)_/¯
Зарегистрируйтесь на Хабре , чтобы оставить комментарий