В дейта инжиниринге бывают любые странные сочетания форматов и их преобразований и разные странные кейсы. Например, огромные CSV могут прилетать через какую-то интеграцию извне и конвертировать их в какой-нибудь Parquet, поддерживать преобразованные файлы в актуальном состоянии и т.п. -- лишний геморой, усложнение пайплайна и занятие времени инженеров. Нужны веские причины это делать. А этот SIMD-код нужно написать и поддерживать тольо внутри условного Spark, дальше его все просто используют (даже не зная об этом).
честно говоря не понял, чего и ради чего ускоряется
CSV -- популярный формат для самых разных данных. Если 50 гигабайт CSV приходится перелопачивать много раз за день, то хорошо чтобы бы это происходило быстро.
В случае DMCA решение суда не нужно, применяется «notice and take down». В суд может подать другая сторона, если считает действия держателя копирайта неправомерными.
Да, есть задачи, для которых классические реляционные БД подходят лучше
Их примерно 99% :)
Любое (почти) достаточно сложное хранилище данных на Кассандре содержит заново написанную, неспецифицированную, глючную и медленную реализацию половины PostgreSQL.
В дейта инжиниринге бывают любые странные сочетания форматов и их преобразований и разные странные кейсы. Например, огромные CSV могут прилетать через какую-то интеграцию извне и конвертировать их в какой-нибудь Parquet, поддерживать преобразованные файлы в актуальном состоянии и т.п. -- лишний геморой, усложнение пайплайна и занятие времени инженеров. Нужны веские причины это делать. А этот SIMD-код нужно написать и поддерживать тольо внутри условного Spark, дальше его все просто используют (даже не зная об этом).
CSV -- популярный формат для самых разных данных. Если 50 гигабайт CSV приходится перелопачивать много раз за день, то хорошо чтобы бы это происходило быстро.
Наоборот, первое - это худший случай, а второе -- лучший :)
С одной машины трафика будет, наверное, как с просмотра ролика на Ютьюбе. Т.е. так мало, что можно не считать.
Да.
Как там было в анекдоте: «Вот и вы не берите» :)
Пробовали обсуждать это с командой? Принять соглашение, что вне нормальных рабочих часов телефон только для «прод в огне»?
BPF и bpftrace.
Брэндан Грегг даже книжку уже выпустил.
Любое (почти) достаточно сложное хранилище данных на Кассандре содержит заново написанную, неспецифицированную, глючную и медленную реализацию половины PostgreSQL.