x4team_only5 мар в 16:16

Как я искал замену MinIO S3 и написал свой S4 на Rust

Средний

6 мин

21K

Rust * DevOps * Linux * Хранение данных * Системное администрирование *

Из песочницы

+81

Комментарии 53

Canti 5 мар в 18:01

Круто, интересно, пойду изучать

QtRoS 5 мар в 19:59

А вот эта БД-шка redb - она тоже на memory mapped files, как и lmdb? Судя по беглому поиску - да. Похоже, в текущей архитектуре это слабое звено и потенциально станет точкой отказа. Хороший материал по теме: Are You Sure You Want to Use MMAP in Your Database Management System? Еще в документации SQLite тоже есть по теме, для удобства процитирую:

But there are also disadvantages:
An I/O error on a memory-mapped file cannot be caught and dealt with by SQLite. Instead, the I/O error causes a signal which, if not caught by the application, results in a program crash.
The operating system must have a unified buffer cache in order for the memory-mapped I/O extension to work correctly, especially in situations where two processes are accessing the same database file and one process is using memory-mapped I/O while the other is not. Not all operating systems have a unified buffer cache. In some operating systems that claim to have a unified buffer cache, the implementation is buggy and can lead to corrupt databases.
Performance does not always increase with memory-mapped I/O. In fact, it is possible to construct test cases where performance is reduced by the use of memory-mapped I/O.
Windows is unable to truncate a memory-mapped file. Hence, on Windows, if an operation such as VACUUM or auto_vacuum tries to reduce the size of a memory-mapped database file, the size reduction attempt will silently fail, leaving unused space at the end of the database file. No data is lost due to this problem, and the unused space will be reused again the next time the database grows. However if a version of SQLite prior to 3.7.0 runs PRAGMA integrity_check on such a database, it will (incorrectly) report database corruption due to the unused space at the end. Or if a version of SQLite prior to 3.7.0 writes to the database while it still has unused space at the end, it may make that unused space inaccessible and unavailable for reuse until after the next VACUUM.
Because of the potential disadvantages, memory-mapped I/O is disabled by default

Похоже в redb похожим вопросом уже задавались.

x4team_only 6 мар в 07:10

Привет! Спасибо за развернутый комментарий
В контексте архитектуры S4 с redb и mmap выбор осознанный, и оно не станет точкой отказа. Главная проблема mmap это падение процесса при I/O ошибке диска, в S4 это норм, redb тут используется как индекс метаданных, а сами данные лежат в append-only логах. В случае жесткого краша (или потери файла БД) срабатывает механизм Crash Recovery: S4 сканирует заголовки томов и с нуля перестраивает индекс

Далее, описанные в SQLite баги с унифицированным кэшем на Windows остаются проблемой windows)) S4 core делал с прицелом на серверный Linux

I/O. Запись/чтение самих объектов не проходит через mmap, большие блобы пишутся и читаются через tokio fs прямо в append-only тома , redb держит только крошечные < 4KB

Отказ от mmap требует реализации собственного buffer pool manager, ну или альтернативы к примеру rocksdb, что невероятно усложняет код и повышает вероятность багов, на что не подписывался пока)

В целом, на днях будет новая альфа релиз, загоню синтетические тесты на краш, отпишусь тут

dvglab 6 мар в 07:26

LMDB Garage на NFS разваливается, тут похоже будет тоже самое.

x4team_only 6 мар в 08:10

Зачем такое делать на NFS? Какой-то антипаттерн
S4 core это сверхбыстрая single-нода, которая изначально проектировалась для работы исключительно на локальных дисках. У S4Core есть crash recovery, ну а для для серьезных кластеров с петабайт данных выбирайте Ceph или Ozon, они из коробки по архитектуре созданы для таких вариантов

hapcode 6 мар в 10:49

А вы не сравнивали redb c fjall? Я так понимаю, сейчас это основные key-value либы на расте, наряду со sled, который уже не поддерживается.

x4team_only 6 мар в 11:54

Привет, нет. Посмотрел сейчас, это отличия lsm дерево vs b дерево, немного не моя архитектура - у меня B)
разница в скорости чтения и записи, по факту примерно одинаково, только в первом случае скорость чтения будет ниже, а во втором быстрее, ну и другие подводные камни тоже. Попробую изучить на выходных

x4team_only 7 мар в 20:09

Привет еще раз) Мне понравилась архитектура fjall и его подход, пока в раздумьях перейти на этот вариант

Revertis 6 мар в 11:22

redb тут используется как индекс метаданных, а сами данные лежат в append-only логах.

Но в статье вы гордитесь тем, что все файлы меньше 4кб помещаются прямо в мету. Как быть?

x4team_only 6 мар в 12:19

Изначально архитектура на этом и основывалась, что все что меньше 4кб это в основном метаданные (теги, acl и тд). Возможно, все таки стоит добавить флаг strick_wal, при котором абсолютно все файлы (даже < 4KB) будут дублироваться в append-only , но тут есть подводный камень - падение IOPS, ну и перерасход места, компактор(мусоросборщик) ахренеет от таких мелких файлов, чтение упадет. Но как вариант можно такое сделать как альтернативу если ваши данные настолько мелкозернистые

QtRoS 6 мар в 22:17

@x4team_only поддержу комментарий - основная мысль статьи считывается как "у меня все очень надежно". При этом как минимум в одном компоненте есть признанный индустрией коварный антипаттерн. Коварный потому, что в основном работает, но ломается в граничных случаях из-за отсутствия контроля. Такое очень трудно отлаживать и чинить в час X.

И уже на уровне мнения - я, например, попросту игнорирую все статьи по типу "наша новая замечательная БД не обладает недостатками всех существующих баз данных и не содержит tradeoff'ов", когда вижу под капотом memory mapped files. Сразу можно сделать выводы о том, какая боль в конечном счете ждет пользователей. Сама по себе это отличная технология, но кейсы ее применения в БД eventually неудачные.

x4team_only 7 мар в 20:28

Привет, все-таки когда писал статью, были раздумья, чего можно опасаться в архитектуре. И пока нет распределенности/репликации/масштабирования, думать что single нода это что-то супер надежное - както слишком наивно, лично для меня. Для текущей версии, стабильность можно проверить только краш рекавери на сложных смешанных данных .
Вчера увидел комментарий от @hapcode про fjall , и стало интересно, и сегодня весь день провел на чтение этой темы про fjall + lsm tree, вероятно это будет следующим шагом для дальнейшего апгрейда архитектуры S4Core.

Если есть какие-либо предложения, буду рад помощи

babaiiika 6 мар в 03:28

Очень круто!

x4team_only 6 мар в 07:11

Спасибо) За последние 2 недели было очень много работы с модулями S4, следите за релизами

bbc_69 6 мар в 04:56

Круто! Добавил в закладки.

x4team_only 6 мар в 06:51

Спасибо 👏 На прод пока рано ставить, еще даже не бета. Думаю в течении нескольких недель смогу подготовиться к стабильной бете)

ComputerPers 6 мар в 05:23

Вы указываете про миллиарды объектов в тысяче файлов на хранилище.

Это будет приводить к фрагментации фнутреннего хранилища и деградации производительности.

Вы сами проверяли работу вашего кластера на 1-5-50 миллиардах объектах?

x4team_only 6 мар в 06:46

Привет. С момента написания статьи многое изменилось, сегодня-завтра планируется апдейт, нужно заново запускать тесты, учту пожелания про миллиарды)

QtRoS 6 мар в 07:14

За 14 часов включая ночь многое изменилось? 😅 Поберегите себя немного 🙏

x4team_only 6 мар в 07:24

Как я понял это публикация модераторами) Статья долгое время лежала в песочнице неделю или больше

lov4ble 6 мар в 07:29

Буду рад найти единомышленников в развитии проекта, а также в тестировании 🤝

Привет, интересный проект. Если хочешь найти потенциальных контрибьютеров или пользователей в проект то тебе бы в сообщество опенсорс разрабов: https://t.me/OpenSource_Chat
Там можно поделится своим проектом, задачами из него, они будут опубликованы на https://opensourcehub.tech
Удачи с проектом, выглядит перспективно!

x4team_only 6 мар в 09:20

Привет, спасибо! Пока не думал о сообществах, занят поуши в разработке), но записал себе. Как релиз стабильной беты допишу, то пойду в опенсорс)

Grand_piano 6 мар в 07:38

Добрый день. Тут надо уточнить - minio уже форкнули и даже выкатили заплатку. Развивать не планируют, но закрывать дырки да. https://github.com/pgsty/minio. Да и в интерфейсе вернули всё убранное.

А так да, заинересовал ваш проект, желаю удачи и побольше сил и желания всё реализовать. Подписался на github. LDAP в community версии оставьте... :-)

x4team_only 6 мар в 10:08

Привет. Жаль что " Развивать не планируют ". К сожалению, когда нет хозяина у проекта, это превращается в забвение, ентерпрайзом конечно оно останется жить, наверное на это и целились. Мне больше всего близка политика Gitlab и их лицензирование. Даже если я поставлю EE версию, то без лицензии оно останется CE. Большинство небольших компаний ограничиваются CE, а для крупняков у них спец условия)

iamkisly 6 мар в 09:14

Считаю это достойно поддержки звездой )

x4team_only 6 мар в 10:04

Класс, спасибо)

vikaz 6 мар в 12:17

Классный проект! Приятно видеть, что на Rust.Всё собирается, всё работает. Как написали выше: "Считаю это достойно поддержки звездой ) ".

x4team_only 6 мар в 13:02

Спасибо за поддержку проекта!

Dhwtj 7 мар в 09:28

Да, у Раст гораздо меньше проблем сборки чем, скажем, на плюсах

funca 6 мар в 12:57

Интересный проект. Насколько сложно будет добавить альтернативый сторадж на базе обычной файловой системы?

MinIO удобно заводится поверх любой существующей директори. Триллионы файлов и наносекунды производительности не критичны. Ценна возможность встроить в существующую архитектуру.

x4team_only 6 мар в 13:09

Привет. Хороший вопрос, я подумаю на счет этого, вероятно сделаю отдельный флаг и может быть еще чтото интересное)

JuriM 6 мар в 14:17

Вот это по нашему, взял и запилил.
Я был заинтересован в растфс, даже контрибьютил немного.
Но в итоге разочаровался в проекте
- Ты создаешь PR, в следуещей версии его ломают
- Не факт что новая версия вообще заработает
- Растфс просто разваливался после рестарта подов в кубе (это починили, но не скоро)
- Перманентная альфа, чтото рефакторят (ломают) каждый час и конца этому не видно

andreymal 6 мар в 14:33

После такого смотреть на RustFS как-то неохота https://habr.com/ru/news/982688/

JuriM 6 мар в 16:28

Все равно навайбкожено и здесь и там, может у автора получится лучше.

x4team_only 6 мар в 17:48

Согласен, все хотят простым путем пойти) "Я подрублю тыщу агентов и завтра с утра у меня будет супер проект, я сам не буду ничего писать, буду пить пина коладу и вайбкодить!". Но так не работает, когда начинаешь писать с нуля, появляются слишком много сложных вопросов по архитектуре и не только, которые ИИ не сможет нормально найти и обьяснить, разгрести все и принять решение. У меня только неделя минимум ушла на исследование по Минио и aws s3 sdk с signature v2 и signature v4, куча документации пришлось лопатить, я не вылазил до 2 ночи из компа, и к концу недели уже почти пропало желание чтото создавать с нуля, понимая фронт работы 😁 А еще куча других вопросов и сотни тестов по каждому чиху) Если где-то поправил, главное чтобы это не отразилось на другом функционале, просто это не реально для одного человека.

Сейчас вот только в 20:00 я подготовил новую альфу более стабильную, которая прошла все тысячу тестов, включая mint от minio на s3 full compatibility, и уже готовлю к публикации)

JuriM 6 мар в 19:33

а почему именно раст? У вас вроде бэк это питон и гоу или еще на раст можете?
Иначе легко выстрелить себе в ногу

x4team_only 7 мар в 07:21

Мне понравился rust, у меня уже были несколько проектов на нем. Может быть это даже дань моде) а так скорость, надежность, работа с памятью отличная

Dhwtj 7 мар в 09:31

создаёшь PR, в следующей версии его ломают

Значит, там нет тестов или PR автоматически не создаёт требования и тесты. Хреново

werter_l 6 мар в 16:37

Спасибо за интересный и нужный проект.

x4team_only 6 мар в 17:38

Спасибо!

fuCtor 6 мар в 19:01

Так понял, что сейчас это single node server? И как раз для масштабирования планируется добавление raft и тп., а почему не смотрите в сторону распределенных БД чтобы там хранить мету (распространенная практика) или смотрели, но сознательно решили не идти туда?

x4team_only 6 мар в 20:26

Привет. Да, изначально это только single node, про масштабирование даже не зарекался) Сейчас много чего в процессе и "на бумаге", вероятно через пару месяцев что-то получится реализовать с маштабированием

MaximKiselev 7 мар в 10:50

Про rustfs . Я сначало тоже как увидел побежал смотреть что это по описание все круто. А на деле оказалось , что куча багов . Программа даже в single node криво работает. И каждый новый выпуск ломает что-то что раньше работало. Парни активной вайбят. Поэтому решил пока задержаться на minio. Покрацне мере все что заявлено пашет. Единственное что сделал обновил go до последней версии потому, что там типа ускорили сборщик мусора - х3 как на деле это будет пахать.
У вас мне кажется такая же шляпа будет нельзя просто взять и написать аналог программы которую писали 10 лет) может конечно я ошибаюсь, но самое оптимальное на мой взгляд это просто перенести код минио на раст без изменения архитектуры - большая вероятность того, что все будет работать как надо.
Ps вы рано начади думать о том, что будет в Enterprise,а что нет. Поясню - ранние ограничение на возможности лишает вас потенциальной базы тестеров - именно тех людей и компаний с большими объемами, те потенциальных покупателей. А если пойдут баги скажем по безопасности и хранению у корпоративных клиентов, то все считай на продукте черная метка ). Одно дело когда бесплатно , а другое когда за 💸)

x4team_only 7 мар в 21:01

Привет, идея переписать Minio на раст возможно имеет место быть, но Minio это не просто бинарник, а целая экосистема, сюда же накладывается слой совместимости с версией на Go, и соотвесттвенно весь этот зоопарк придется поддерживать, и этот проект придется вести, а иначе и начинать не стоило. По архитектуре и надежности Minio не самое лучшее решение, и я изначально хотел убежать от этой архитектуры, и чтобы в моем решении была обязательно дедупликация с каким то уровнем безопасности данных, отсутвием проблемы с inode, наличие краш рекавери плана при сбоях, сингл нода на старте, и новый, достаточно быстрый вариант хранения данных. Стартовал я этот проект только ради спортивного интереса и с желанием углубленного знакомства с rust.

По поводу Enterprise согласен на 100%, не хочется идти по дороге rustfs) Но у проекта должна быть цель, я считаю это главное в его развитии, к примеру можно взять Gitlab, их модель для меня идеал.

MaximKiselev 8 мар в 17:05

Надо, просто в проект привлечь пару умных людей. Кто шарить хорошо за распределенные хранилища - если делаешь что-то новое, то надо у других разрабов узнать, почему они этого делать не стали(как минимум собрать пару умных вопросов и отправить разрабам всех известных систем хранения, может кто ответит, это отсылка к верхним комментариям по форматам). Идея то на самом деле хорошая (импортозамещение и тд). Но учиться яп на таких системах врятли стоит - а то получиться как у cloudflare, когда в один день лягут все кластеры после обновления).
В таких системах - не спец, вам только можно пожелать силы воли и духа допилить эту систему все до рабочего состояния)

x4team_only 8 мар в 20:37

Спасибо за дельный советы! Както общался с разработчиком блокчейнов на Rust. Вероятно продолжу поиски таких спецов) Пока изучаю книгу "Распределенные данные. .." от Алекс Петров, ну и deepresearch от гугла тоже хорошо помогает понять все алгоритмы и поиск новых

MaximKiselev 15 мар в 11:42

привет. у меня тут пару вопрос возникло. отпишите вообще мысли. Может кому еще полезно будет.

Как будет работать дедупликация файлов. Например, если надо перенести с обычного хранилища s3 на s4core. Прямым копирование бакетов не получиться перенести?
Что будет например volume - будет битый сектор на диске. Потеря всего или потеря только части?
Как будет работать дедупликация на кластере?
Потоковая отдача - куча параллельных потоков читают большой файл например в 5 гб. RustFs в тестах приводил файлы по 4кб) На деле таких файлов мало. Больше интересна скорость отдачи больших. Может сейчас, пока не известно еще) Но в целом, какие мысли? Спасибо.

x4team_only 15 мар в 21:02

Привет.

1) Миграция делается стандартными средствами, так как S4Core полностью совместим с S3 API:

aws s3 sync s3://source-bucket s3://dest-bucket --endpoint-url http://s4-server

или

rclone copy s3:source s4:dest

* дедупликация определяется по sha и ставится линк (но в кластерном режиме будет репликация по шардам, то есть если нода умрёт - данные не потеряются)

2)Битый сектор затронет только тот объект, в чьи байты он попал. Остальные объекты в том же volume остаются целыми, а метаданные хранятся отдельно

3) На текущий момент S4 это single-node (сейчас уже почти завершена миграция с redb на fjall - были проблемы с multipart upload, поэтому долго релизится s4core-fjall). Дедупликация будет работать внутри каждого шарда в кластерном режиме

4) Отдача полностью стриминговая , сервер не грузит весь объект в ram. Ну и все ограничение только в скорости диска, никак иначе

MaximKiselev 16 мар в 02:08

А не смотрели turso/surrealist /pogocache? В плане как средство хранения индекса и метаданных? Может они конечно немного раздуты, но приколы там свои хорошие есть.
Почему именно redb, fjall?

x4team_only 16 мар в 07:49

это и есть базы, лишние слои не нужны
fjall используется для индекса метаданных, и дает чтение без локов, атомарные batch-записи, lsm-tree

Virtualik 10 мар в 22:45

Посмотрите на Ambry, о нём многие просто не в курсе, его нечасто вспоминают, (т.к. там нет S3-совместимости; да и не на Rust; но зато реально EB-battle tested), но в смысле архитектуры Вы идёте прямо по его следам и то что у вас в TODO (репликация, ...) можно прямо оттуда заимствовать.

x4team_only 11 мар в 19:01

Привет! Спасибо почитаю о нем

fuCtor 12 мар в 09:04

Тогда можно и на https://github.com/deepseek-ai/3FS посмотреть, не S3 совместимое, но распределенное хранилище.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий