Обновить

Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели12K
Всего голосов 37: ↑36 и ↓1+37
Комментарии17

Комментарии 17

Вы сделали свой Databricks и у вас не так чтобы сразу получилось?

До платформизации формата датабрикса нам только предстоит дорасти, но мы его себе ставим в пример :)

О, авито.
Это те самые которые "если вас кинул работодатель на оплату, предоставьте доказательство оплаты что бы опубликовать отзыв"?
Привет с пикабу кстати.

Сенсация: В Avito выяснили, что если метаданные Ceph не хранить на HDD, то latency внезапно снижается, а throughput растёт. Следующий шаг — проверить в 2026-м правда ли эффективные менеджеры эффективны правда ли NVMe быстрее SATA.

Им еще предстоит открыть, что RGW и MON следует выносить на отдельные сервера.

Безотносительно цефостроения — я уже как-то давно перестал удивляться, а не так давно и сформировал по случаю:

https://habr.com/ru/articles/965246/comments/#comment_29098624

Ух ты! А поделитесь своим кейсом? Что именно дает вынос RGW и MON на отдельные сервера? С какой проблемой столкнулись? Какие метрики и на сколько улучшились? Будем рады использовать ваш опыт!

Здорово, что вы об этом знали! Жаль, не поделились с комьюнити Ceph раньше – в самом Ceph такая конфигурация не являлась рекомендованной до 24/25 года, кажется.

Что касается NVMe vs SATA – отличное замечание! Спасибо, что подметили) Однако, важным моментом в нашем сетапе является то, что наша задача – построить дешевое бесконечное хранилище для аналитики. Боюсь, что NVMe диски стоят в несколько раз дороже, поэтому мы не рассматриваем их как основное хранилище.

не хочу тратить время на разжевывание очевидных истин, к счастью сейчас даже 4o компетентней, чем фронтмены Авито на Хабре 😅

Критика решения Авито интересная, но все-таки хотелось бы поменьше перехода на личности в их адрес, пожалуйста, а то щас быстро в срач свалится, а мне при проектировании хотелось бы узнать и учесть как можно больше нюансов...

Почему Ceph, а не Minio выбран (мб другие on-premise варианты перебирали, SeaweedFS например)? Было бы полезно узнать

Мы не выбирали Ceph, это он выбрал нас ))
Ceph используется в Авито уже много лет и предоставляется отдельной командой как сервис. Если я правильно помню, в свое время от minio отказались в пользу Ceph потому что minio не масштабировался. Но здесь речь про масштабы Авито.

Тем не менее, за рынком S3-решений мы активно следим и пока для наших масштабов ничего лучше Ceph не нашли.

minio, кстати, закрылся, они теперь AIStor, а репо на github перешла в maintenance mode.

Боюсь показаться ханжой, но почему нельзя было найти более подходящее слово чем "сторадж"? Ну например "хранилище" или "storage"...

Неужели никого не смущает выбор S3 (бинарного хранилища общего назначения) в качестве аналитического хранилища? Оно ж само по себе не предназначено для этого. Конечно, потом наворачивается вся эта лабуда, изобретаются велосипеды с квадратными колесами и потаемся выжать из железа максимум. Да, беда. Опыт предыдущих поколений фф топку!

Весь мир смущается. И мы смущается =)

Однако ничего лучше в качестве shared storage с теми же свойствами отказоустойчивости, масштабируемости, открытости и доступности для разных клиентов пока не изобретено. Если вам известно, расскажите пожалуйста. Будет особенно здорово, если у вас получится подкрепить примерами успешных инсталляций больших масштабов.

Ну у аналитического хранилища на базе s3 практически нет альтернатив. Доминирует databriks, в терии альтернатива ему - snowflake, но он внезапно тоже все хранит в s3 только в проприетарном формате, хотя и очень эффективно.

Еще вопрос появился - у вас указана обычная репликация в посте, ни слова не вижу про erasure coding - ключевую фишку S3 и например Minio, в Ceph судя по всему тоже доступна эта опция (хотя ее не было изначально, судя по прочитанным мной материалам).

Вы используете erasure coding в своем Ceph?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
avito.tech
Дата регистрации
Дата основания
2007
Численность
5 001–10 000 человек
Местоположение
Россия
Представитель
vvroschin