Comments 2
Catboost и xgboost, кажется, имеют спарковские реализации. Почему используете UDF?
Привет, хороший вопрос. Применяя udf в spark, мы можем извлечь любую информацию, дополняя ту, которая уже была упомянута. В контексте той же самой udf мы дополнительно извлекаем: размер батча, вес батча в мегабайтах, доля целевой переменной, некоторые статистики по категориальным переменным. Все это - не ключевая, но тоже важная информация для мониторинга и анализа. Ее быстрее и проще достать за один прогон spark udf функции, а не каждую по отдельности
Sign up to leave a comment.
Быстрая Data Quality проверка на базе алгоритма adversarial validation