Комментарии 17
Вы сделали свой Databricks и у вас не так чтобы сразу получилось?
О, авито.
Это те самые которые "если вас кинул работодатель на оплату, предоставьте доказательство оплаты что бы опубликовать отзыв"?
Привет с пикабу кстати.
Сенсация: В Avito выяснили, что если метаданные Ceph не хранить на HDD, то latency внезапно снижается, а throughput растёт. Следующий шаг — проверить в 2026-м правда ли эффективные менеджеры эффективны правда ли NVMe быстрее SATA.
Им еще предстоит открыть, что RGW и MON следует выносить на отдельные сервера.
Безотносительно цефостроения — я уже как-то давно перестал удивляться, а не так давно и сформировал по случаю:
https://habr.com/ru/articles/965246/comments/#comment_29098624
Ух ты! А поделитесь своим кейсом? Что именно дает вынос RGW и MON на отдельные сервера? С какой проблемой столкнулись? Какие метрики и на сколько улучшились? Будем рады использовать ваш опыт!
Здорово, что вы об этом знали! Жаль, не поделились с комьюнити Ceph раньше – в самом Ceph такая конфигурация не являлась рекомендованной до 24/25 года, кажется.
Что касается NVMe vs SATA – отличное замечание! Спасибо, что подметили) Однако, важным моментом в нашем сетапе является то, что наша задача – построить дешевое бесконечное хранилище для аналитики. Боюсь, что NVMe диски стоят в несколько раз дороже, поэтому мы не рассматриваем их как основное хранилище.
не хочу тратить время на разжевывание очевидных истин, к счастью сейчас даже 4o компетентней, чем фронтмены Авито на Хабре 😅

Почему Ceph, а не Minio выбран (мб другие on-premise варианты перебирали, SeaweedFS например)? Было бы полезно узнать
Мы не выбирали Ceph, это он выбрал нас ))
Ceph используется в Авито уже много лет и предоставляется отдельной командой как сервис. Если я правильно помню, в свое время от minio отказались в пользу Ceph потому что minio не масштабировался. Но здесь речь про масштабы Авито.
Тем не менее, за рынком S3-решений мы активно следим и пока для наших масштабов ничего лучше Ceph не нашли.
minio, кстати, закрылся, они теперь AIStor, а репо на github перешла в maintenance mode.
Боюсь показаться ханжой, но почему нельзя было найти более подходящее слово чем "сторадж"? Ну например "хранилище" или "storage"...
Неужели никого не смущает выбор S3 (бинарного хранилища общего назначения) в качестве аналитического хранилища? Оно ж само по себе не предназначено для этого. Конечно, потом наворачивается вся эта лабуда, изобретаются велосипеды с квадратными колесами и потаемся выжать из железа максимум. Да, беда. Опыт предыдущих поколений фф топку!
Весь мир смущается. И мы смущается =)
Однако ничего лучше в качестве shared storage с теми же свойствами отказоустойчивости, масштабируемости, открытости и доступности для разных клиентов пока не изобретено. Если вам известно, расскажите пожалуйста. Будет особенно здорово, если у вас получится подкрепить примерами успешных инсталляций больших масштабов.
Ну у аналитического хранилища на базе s3 практически нет альтернатив. Доминирует databriks, в терии альтернатива ему - snowflake, но он внезапно тоже все хранит в s3 только в проприетарном формате, хотя и очень эффективно.
Еще вопрос появился - у вас указана обычная репликация в посте, ни слова не вижу про erasure coding - ключевую фишку S3 и например Minio, в Ceph судя по всему тоже доступна эта опция (хотя ее не было изначально, судя по прочитанным мной материалам).
Вы используете erasure coding в своем Ceph?
Информация
- Сайт
- avito.tech
- Дата регистрации
- Дата основания
- 2007
- Численность
- 5 001–10 000 человек
- Местоположение
- Россия
- Представитель
- vvroschin
Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?