Pull to refresh

Comments 6

что прилетело то и записали. интересно, что потом партнер с успешной экспертизой говорит, когда аудит у клиента в такой неконтролируемой помойке найдут персональные данные и натянет по полной за хранение?
Вопросы деперсонализации данных и организации контролируемого хранилища или хранилища по типу неконтролируемой помойки лежат за рамками темы статьи. Почему вы решили, что данные там открыты и что хранилище неуправляемое? В статье рассматривается всего лишь небольшой вопрос о создании витрины из слабо структурированных данных. Есть там персональная информация или нет, правильно сделано хранилище или нет, это не влияет на необходимость парсить данные и предоставлять их в виде доступном для аналитиков. О подводных камнях этой маленькой задачи и написана статья.
то в папке партиции будут лежать служебные файлы Spark, например, флаг успешности операции _SUCCESS


Насколько я понимаю, это не спарк. Это скорее кто-то из пары Hive/Hadoop (OutputFormat). Это не так важно, я это просто к тому, что есть много компонентов, которые на это могут влиять.
Это именно спарк. Он добавляет в папку флаг успешности завершения и метаданные. Если дописывать партицию отдельно, то в ней появятся эти файлы, и прочитать всю папку будет нельзя. И отключается это именно в настройках спарка.
Ага. В настройках спарка. Вот этих?

mapreduce.fileoutputcommitter.marksuccessfuljobs?

А название настройки вам не намекает ни на что? И то что такая константа определена в файле FileOutputCommitter (хадуп, а не спарк)?
Кстати да. Правильное уточнение. Конкретно это опция mapreduce. В частности hive работает с ней сам.
Sign up to leave a comment.