asmalyshev1 17 янв 2020 в 18:59

Выбор архиватора для бэкапа логов

11 мин

8.3K

Блог компании Хоум БанкPowerShell*Разработка под Windows*

Комментарии 48

Crazyvlad 17 янв 2020 в 19:02

5000 пользователей в сутки? Может 5 млн?

Revertis 17 янв 2020 в 19:14

Пять миллионов в сутки для какого-то ООО «Хоум Кредит Энд Финанс Банк»?
Просто у всех разные представления о высокой нагрузке ;)

asmalyshev1 17 янв 2020 в 20:11

У нас приложение для сотрудников, это около 2500 одновременно работающих операторов за 5 мин

FFiX 17 янв 2020 в 19:33

А с zstd не экспериментировали? Для 7-zip есть форк с его поддержкой или же плагин для официальной версии.

asmalyshev1 17 янв 2020 в 20:12

Нет я выбирал из масмаркета, чтобы бала возможность быстро разархивировать в случае необходимости на любом ПК.

fougasse 17 янв 2020 в 20:56

Какой резон подобной манипуляции?
Распаковывать сотни гигов продакшн логов на любом ПК — выглядит очень странно со многих сторон.
Например, безопасности.

asmalyshev1 18 янв 2020 в 11:06

На любой ПК — имеется ввиду ПК администраторов приложения, в сырых логах есть StackTrace ошибок которые мы не пишем в ElasticSearch чтобы экономить место.

gudvinr 17 янв 2020 в 22:29

zstd не самый лучший выбор, если интересует скорость компрессии, например

edo1h 22 янв 2020 в 21:38

вы серьёзно? скорость компрессии как раз сильная сторона zstd (например, на дефолтном уровне коэффициент сжатия примерно как у deflate, но сжатие в разы быстрее)

atd 17 янв 2020 в 19:34

ZStandard ещё попробуйте

iig 17 янв 2020 в 19:41

Возможно, для логов имеет смысл запилить свой собственный архиватор. Логи они как правило структурированы, и упаковать их можно эффективнее чем произвольный поток байтов.

Lachezis 18 янв 2020 в 01:29

Аномалии можно не упаковывать, это позволит их находить вовремя.

a-l-e-x 17 янв 2020 в 19:56

Думаю, что это довольно сильная работа… но хотелось бы написать несколько о другом. О структуре расходов в IT.
Работал я в одной компании не очень давно. 200Gb в день — это только с Firebase Analytics приходило… В общем всё жило в BigQuery. Ничего (очень сложного) писать было не нужно. Дешевле использовать что предлагают по умолчанию, чем писать (а главное поддерживать) специализированные решения. Главные расходы — люди.

asmalyshev1 17 янв 2020 в 20:40

Сегодня мы осуществляем поддержку приложения в троем, а 8 лет назад нас было 12 человек! При этом тогда это был только фрон-офис и 4 тестовые среды, а сейчас 2 фронт-офиса куча микросервисов и более 20 тестовых сред. Все это благодаря автоматизации нашей работы.
Согласен, что поддерживать специализированные решения не простая задача, но компьютер способен работать в 1000 раз эффективнее человека, надо только научить. Поэтому мы стараемся автоматизировать все к чему прикасаемся. :-)
Это позволяет нам постоянно развиваться, а также оставаться эффективными не увеличивая расходы на людей.

Naves 18 янв 2020 в 00:00

Один уехал в отпуск, второй заболел, третий спит. Сервис упал по непонятной причине. Ваши действия?
Ещё был случай, когда один посреди пустыни, а двое отравились обедом, и как всегда именно в этот момент…

asmalyshev1 18 янв 2020 в 11:28

Да, такие ситуации могут случиться, но я глубоко убежден, что самая устойчивая в мире фигура треугольник. Поэтому мы ориентируемся на минимальное необходимое число 3, это касается как людей в командах так и конфигурации серверов.
Ситуации «Сервис упал по непонятной причине» мы стараемся не допускать, для этого внедряем всесторонний мониторинг, следим за показателями SLO/SLA, проводим нагрузочное, авто и регрессионное тестирование, выполняем канареечные деплои, а также автоматизируем ручные процессы администраторов. Ведь как известно самые частые действия приводящие к ошибке, это человеческий фактор.

OleksiyT 17 янв 2020 в 19:59

"rar, 7z и zip"?
Многопоточный pigz должен их всех уделать.
Попробуйте и покажите результаты...

FFiX 17 янв 2020 в 20:04

Судя по статье, автор тестировал архиваторы/упаковщики под винду. С pigz надо использовать tar, а это для винды не совсем нативный сценарий. Ну и тогда уж сравнивать надо с zstd (zstdmt), а не pigz ибо последний в большинстве тестов проигрывает как по скорости, так и по степени сжатия

asmalyshev1 17 янв 2020 в 20:09

Спасибо попробуем.

HSerg 17 янв 2020 в 21:07

В 7-Zip поддерживается несколько алгоритмов сжатия (напр. PPMd), для логов имеет смысл попробовать и альтернативные алгоритмы.

НЛО прилетело и опубликовало эту надпись здесь

FFiX 17 янв 2020 в 21:56

Если я правильно понял пост, то в нем не идёт речи про бекап

zapimir 17 янв 2020 в 22:06

Попробуйте Winzip и его формат zipx. У меня на логах получалось заметно лучше сжатие, чем 7z и rar. На моих данных логи ужимаются в 15-17 раз (размер данных в архиве 17-30 ГБ до сжатия), winrar и 7zip на максималках давали сжатие 10-11 раз. При этом 7zip на максималке сильно медленнее winzip.

odiemius 18 янв 2020 в 11:33

А почему не попробовали xz?
по сжатию он показывает одни из наилучших результатов, особоенно для повторяющегося текстового контента типа логов.

GCU 18 янв 2020 в 12:07

Если там NTFS, можно поставить папке с логами атрибут сжатия. Бекапу это не поможет, но логов влезет больше и делается просто.

asmalyshev1 18 янв 2020 в 12:23

Я давно от этого отказался, так как есть существенное влияние на cpu, для файл сервера это применимо, но для сервера приложений нет.

thealfest 18 янв 2020 в 18:18

Если можно, поделитесь оценкой влияния на cpu NTFS-сжатия.

asmalyshev1 20 янв 2020 в 09:45

Сейчас уже не воспроизведу, есть неплохая статья: www.thg.ru/storage/ntfs_osvobozhdaem_mesto_na_ssd/print.html.
Недостатки: согласно Microsoft, NTFS-сжатие сильно нагружает CPU, и не рекомендуется для использования в серверах, содержащих большие тома для чтения и записи. Есть запреты даже для домашнего использования. Сжатие стоит использовать для папок с относительно редкой записью и чтением. Что ещё более важно, не сжимайте системную папку Windows. Также, в теории, операции копирования должны происходить медленнее, потому как файловая система сначала распаковывает нужный файл, копирует или перемещает его и затем снова сжимает. Если послать такие файлы по сети, они тоже сначала распакуются и как следствие не сэкономят трафик.

thealfest 20 янв 2020 в 19:38

Спасибо. Теорию я знаю, думал у вас есть результаты замеров.

suffix_ixbt 18 янв 2020 в 12:18

Если эти логи архиважны то по моему скромному мнению ни о какой архивации бэкапов логов речь идти не может. Правильнее увеличить и задублировать в нужное кол-во раз место для этих бэкапов. Да — стоит денег, но не будет никаких проблем (возможность которых навскидку вижу аж несколько и случится они могут в самый неподходящий момент)

-1

asmalyshev1 18 янв 2020 в 15:08

Сырые логи не так важны как обработанные, но хранить их надо потому, что в 5% случаев мы к ним обращаемся, в других случаях мы используем собственную систему обработки и хранения логов LV, а также ENG стек(быстрый поиск, аналитика, графики в Grafana)

НЛО прилетело и опубликовало эту надпись здесь

asmalyshev1 18 янв 2020 в 15:03

Я сторонник применять максимально простые, но в то же время эффективные решения для конкретной задачи. Наша задача эффективно хранить логи приложения в течении 30 дней при этом не создавать лишней нагрузки на сервера приложений и не требовать дополнительных вложений в инфраструктуру.

iig 18 янв 2020 в 16:36

Максимально простое решение в этом случае. +2 ширпотребных накопителя по 8 тб. Ваши логи за 30 дней в несжатом виде занимают 4тб, в сжатом пусть 2 — все равно под них нужно выделить место. Да, это +$600, но никаких костылей с упаковкой-распаковкой, отличная скорость доступа и никакой нагрузки на процессор. Эксперименты с выбором правильного архиватора обошлись конторе немного дешевле ;)

-2

geher 19 янв 2020 в 21:57

Ваши логи за 30 дней в несжатом виде занимают 4тб, в сжатом пусть 2

Пес его знает, что там за логи, но, как показывает практика, в силу некоторых особенностей логи обычно жмутся заметно сильнее, чем в два раза.

НЛО прилетело и опубликовало эту надпись здесь

zapimir 21 янв 2020 в 00:39

Дедупликация скорее всего мало что даст. Так как в логах как минимум постоянно вставляется дата и время события в каждую строку, и сами строки обычно меньше размера блока, который используется для дедупликации.

iwram 18 янв 2020 в 17:57

Странно что никто не спросил. Не пробовали дедупликацию? Под виндой очень даже хорошо работает и очень хорошо экономит место на диске. Особенно если для последующего анализа их надо распаковать, а тут просто задедуплицированны и можно спокойно смотреть. Или я не так понял посыл статьи для решения задач?

НЛО прилетело и опубликовало эту надпись здесь

yleo 18 янв 2020 в 18:29

Если вам действительно нужен рационально выверенный баланс между скоростью сжатия/разжатия и уровнем компрессии, то нужно использовать современные алгоритмы. Соответственно см https://github.com/mcmilk/7-Zip-zstd (там несколько алгоритмов, не только zstd).

yleo 18 янв 2020 в 18:37

Louie 19 янв 2020 в 22:13

Интересные тесты со странной интерпретацией. Вот нужное место:

ArchFileName5.7z -mx=5 7z 31239355 35169 118 943 825
ArchFileName4.rar -m4 rar 33514693 11426 126 306 180

Тут rar обеспечивает близкий результат компресии за время в 3 раза меньшее, чем 7z. И этот качественный скачок виден даже при беглом взгляде на график.
Предпочитая ему mx8, вы покупаете крохи в виде 26% относительного сжатия за умопомрачительные 1368% дополнительного времени.
Крохи — это не иносказательно. Хранение 130 ГБ — это грубо 250 рублей. Для верности представим, что вы так дорожите логами, что кладете их на RAID1. За 500 рублей. Месячный запас RAID1 для ваших ничем не жатых логов — 15000 руб.
То есть, ваша задача — не экономия пары банковских серебрянников, а возможность это добро передавать по сети. И для этого время важнее размера. Пока вы «кипятите», менее жатый архив уже можно было передать по сети на другое хранилище, в другой регион, облако и т.д.

Так, например, сливая файлы с vds, я сжимаю их «на лету» в gzip-2. Если поставить gzip-3 — архив будет немного меньше, но получу я файлы гораздо позже.

yleo 19 янв 2020 в 23:47

Хм, только сейчас обратил внимание на то, как вычисляется "Result %".
Некий "шарообразный в вакууме" оптимум точно найден, осталось понять для чего он оптимален )

Их линейка кривовата относительно здравого смысла. Оптимум выбирается видимо "по-банковски", как лучшая сделка из совершенных по покупке сжатия за время. Но ошибка в том, что в "пропорцию" на равных попадают все варианты, включая самые долгие, хотя жмут лишь чуточку лучше. Соответственно, время обесценивается относительно степени сжатия.

Нельзя сказать что это как-то совсем не правильно, критерии могут быть разные.
Но один из вариантов (с точки зрения оптимизации) — нулевое время без сжатия, и он линейку ломает.
А если добавить еще несколько экстремально долгих вариантов, то перекос будет еще больше.

Louie 20 янв 2020 в 00:42

Меня тоже сначала дизайн исследования привлек. Очень необычно, смело, без прелюдий. Относительное сравнение сразу бабашится в относительных величинах, без конвертации абсолютных значений. Такая жесткая военная логика: «Возьмем n танков. Нет, n мало. Возьмем k!».

Сама задача, конечно, не имеет практической ценности, так как узкое место всех этих самопальных скриптовых бэкап-экзерсисов — контроль ошибок и мониторинг. Надо проверять дожалось ли все корректно в убер-режиме, не было ли сбоя питания, не заполнен ли диск, запущены ли службы и так далее. Т.е., изобретать все, что испокон веков есть в стандартных открытых системах типа Bacula/Bareos.

asmalyshev1 20 янв 2020 в 09:49

Согласен rar -m4 тоже не плохой вариант.

azudem 19 янв 2020 в 22:27

Меня как будто откинуло на 20-30 лет назад. Arctest, fido ru.compress… Спасибо за ностальгию, конечно, но в 2020 реальность такова, что можно считать все архиваторы примерно одинаковыми, выбрать дефолтный zip и желаемую скорость.

UPD. Прикиньте, arctest ещё жив. Правда не обновлялся лет 20.

zapimir 21 янв 2020 в 00:23

выбрать дефолтный zip и желаемую скорость

Ну да конечно, особенно если Вам нужно архивировать логи, которых с десяток гигов каждый день. Тут же уже речь не о том, чтобы игрушку на меньше дискет записать. Речь о месте для бэкапа, за которое нужно платить деньги.
Вот для примера, сжал несколько лог-файлов, на максималках каждого архиватора.

Без сжатия 3758 МБ

zip 618 МБ

rar 532 МБ

7z 426 МБ

zipx 345 МБ

При этом zipx сжимал 5 минут, а 7z — 25 минут, zip (с помощью 7-zip) — 20, rar — 12.

Т.е. простой выбор zipx вместо zip, получаем почти в 2 раза меньше платить бабла за хранилище, и в 4 раза меньше нагрузка на проц, вот и жмите теперь всё в zip. Причем когда логов за большее количество дней, то сжатие zipx еще лучше. В то время, как zip не поддерживает общий словарь.

asmalyshev1 21 янв 2020 в 06:32

Спасибо попробую zipx

Зарегистрируйтесь на Хабре, чтобы оставить комментарий