Попробуйте проанализировать лог приложения spark. Информация о разбивке на стейджи и количеству байт там есть. Насчёт сбора количества строк и прочих метрик: стоит через metrics.properties подключить Gpahite. Например, по динамике использованной памяти и памяти на драйвер там есть метрики
[0-9]*.jvm.heap.used
[0-9]*.jvm.heap.used