SSP_blog Jan 16 2023 at 10:02

Движение по магистрали без аварий. Или как передавать 1,5 терабайта в сутки и ни одного не потерять?

3 min

2.7K

SSP SOFT corporate blogHigh performance*Java*Distributed systems*

Case

Comments 13

net_men Jan 16 2023 at 10:54

что-то вы путаетесь: то 150 тысяч, то 150 миллионов... это немного разные поток.

SSP_blog Jan 16 2023 at 10:57

увидел. 150 тысяч, конечно во всех случаях должно быть! Спасибо, сейчас исправлю.

Filex Jan 16 2023 at 11:16

Я правильно понял, что все документы кешируются в Redis? А сколько у вас оперативной памяти выделено для кеша?

evseevvd Jan 16 2023 at 11:24

в кеш кладется информация по операциям, не бинарники которые летают. в моменте кеш около 1Гб (это если передавать 150 000 файлов), т.е. оперативки надо минимум 2 Гб (1 Гб системе, 1 Гб редису). И это можно настраивать из сервиса выставляя TTL для ключей.

MasterMentor Jan 16 2023 at 11:46

150 000 файлов в сутки - и это скорость?!

Да, ладно, ребята. Вот если бы 150 000 файлов в минуту, то, да, ещё можно было бы почитать.

Но главное: вообще нет никаких данных о скорости каналов передачи/приёма информации, частоте прихода файлов, скорости хранилища файлов, итд.

Хотя бы какие-то выкладки должны быть, чтобы видеть, что ваше решение с Redis, Kafka, MinIO, Archive, Agent, Detector, Task-manager имеет преимущество над скриптом в 20 строк, кладущим входящие файлы в папку файловой системы и отдающим их, например, через curl.

evseevvd Jan 16 2023 at 12:37

Да, ладно, ребята. Вот если бы 150 000 файлов в минуту, то, да, ещё можно было бы почитать.

оперировать надо не кол-вом файлов, а объемом. В среднем получается 1.5 Тб. Нет задачи передать 1.5 Тб за минуту, задача передать все до последнего байта.

Но главное: вообще нет никаких данных о скорости каналов передачи/приёма информации, частоте прихода файлов, скорости хранилища файлов, итд.

Канал гигабитный. Нет определенной частоты прихода файлов, может 10 прилететь, а может 100 000 прилететь. Что имеется ввиду под скоростью хранилища файлов?

Хотя бы какие-то выкладки должны быть, чтобы видеть, что ваше решение с Redis, Kafka, MinIO, Archive, Agent, Detector, Task-manager имеет преимущество над скриптом в 20 строк, кладущим входящие файлы в папку файловой системы и отдающим их, например, через curl.

Среди готовых решений рассматривали Spring Data Flow, но от всего функционала подходил лишь транспортный уровень, так как у нас есть нетривиальная бизнес логика, то приняли решение разрабатывать своё решение на тех же компонентах что и Spring Data Flow.

Скрипт из 20 строк это конечно мощно. Очень хотел бы глянуть )))

-2

Filex Jan 16 2023 at 13:13

В статье https://habr.com/ru/company/veeam/blog/517392/ в комментариях описали проблемы minio при работе с большим количеством файлов. Вы как-то дополнительно тюнили MinIO?

evseevvd Jan 16 2023 at 14:03

Ну большое кол-во как то абстрактно, если это в пределах миллиарда то у нас столько не будет, min io как временно хранилище, т.е. есть ttl у объекта, второй кейс это архив, что тоже временное хранилище с последующим перемещением на ленточные накопители.

Filex Jan 16 2023 at 14:37

В комментариях к статье - при количестве более 10 млн. объектов начинается деградация.

evseevvd Jan 16 2023 at 15:21

у нас и такого не будет в моменте. TTL не большой. но спасибо учтем в будущем

drblez Jan 16 2023 at 13:39

И это все ради 18 мб/сек?

stone_evil Jan 17 2023 at 07:45

Использовать Oracle как персистентное хранилище правил и их истории - ну, такое себе (вроде как платное и тяжелое, есть куча бесплатных легких решений для этого).

Использовать Kafka для транспорта файлов - ну, такое себе (вроде как есть ограничения по размеру и более простые паттерны).

Ну и вообще непонятно, куда надо эти файлы транспортировать, зачем, какие требования? Почему просто не положить в S3 и не транспортировать линки? Речь вроде как идет о внутренней инфраструктуре.

evseevvd Jan 17 2023 at 10:32

Использовать Oracle как персистентное хранилище правил и их истории - ну, такое себе (вроде как платное и тяжелое, есть куча бесплатных легких решений для этого).

требование заказчика

Использовать Kafka для транспорта файлов - ну, такое себе (вроде как есть ограничения по размеру и более простые паттерны).

кафка для передачи событий а не файлов

Ну и вообще непонятно, куда надо эти файлы транспортировать, зачем, какие требования? Почему просто не положить в S3 и не транспортировать линки? Речь вроде как идет о внутренней инфраструктуре.

переместить файл с SMB на FTP, выполнить кучу проверок до и после перемещения, положить в архив если надо и т.д. Защитится от того что кто то файл дописывает на источнике, восстановить работу если приемник отвалился. это если кратко о требованиях

-1