Как говорится, никогда такого не было, и вот опять. Мы подумали и решили выложить в свободный доступ первую лабораторную работу нашей новой программы Data Engineer. Бесплатно. Без смс.
Чуть ранее мы писали, зачем вообще стоит присмотреться к этой профессии. Недавно взяли интервью у одного из таких специалистов, и по совместительству, нашего преподавателя.
Так вот. Потенциально каждый самостоятельно может пройти эту лабу и почувствовать себя немножко этим дата инженером. Для этого будет все, что требуется.
А делать в этой лабе мы будем следующее.
- Зарегимся на облачном сервисе.
- Поднимем на нем 4 виртуальных машины.
- Развернем кластер при помощи Ambari.
- Поднимем сайт на nginx на одной из виртуалок.
- Добавим специальный javascript на каждую страницу этого сайта.
- Соберем кликстрим на HDFS.
- Соберем его же в Kafka.