Comments 1
Можно рассмотреть еще вариант с dataclass-like подходом. Несколько сложнее реализовать, чем парсить строки из JSON/CSV но и гораздо гибче получается.
Например тут задается описание полей: https://github.com/alex7c4/databricks_pipelines/blob/5cc8be29e471f5354433cf3ed0b909ad4d24b957/src/pipelines_lib/schemas/data_schemas.py#L38-L46
А в BaseSchema.dummy_df можно создать Spark Dataframe из этих данных.
Sign up to leave a comment.
Information
- Website
- vk.com
- Registered
- Founded
- Employees
- 5,001–10,000 employees
- Location
- Россия
- Representative
- Миша Берггрен
Пять подходов к созданию ad-hoc-датафреймов в PySpark