Комментарии 3
А где ваш набор данных? Или хотя-бы описание его структуры?
Добрый день!
Из соображений конфиденциальности мы не можем дать ссылку на датасет и на его структуру. Повторимся, что датасет содержит как численные, так и категориальные переменные, работу с которыми мы и показали. Нашей целью было показать методы PySpark работы с ними, поэтому конкретная структура таблицы и значения признаков для демонстрации необязательны.
Спасибо за интерес к посту!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Feature engineering и кластерный анализ клиентов на PySpark