Собирал себе простенькую систему для небольших домашних экспериментов пару лет назад. Старенький Xeon + 64гб ОЗУ + 3060 12гб. Я не сталкивался с тем что описано в статье, но пошел чуть другим путем и настроил на нем полностью серверный Linux, без интерфейса и подключался к нему по SSH. Вот там тоже начинаются свои танцы с бубном. Настроить ГПУ в докере было тем еще приколом, нормальных инструкций в интернете не нашел, только кусками. Сервер это всегда весело)
Как аналитик из Авито вставлю еще одну интересную особенность которая была вскользь упомянута в статье. После перехода на Trino аналитикам гораздо проще стало получать доступ к архивным данным. Раньше в Vertica у витрин имелась глубина в зависимости от ее размера, и чтобы получить доступ в архиву приходилось писать запросы к архивной схеме которые очень долго работали. После переезда на Trino и актуальные данные и архивные стали одними и теми же файлами на Ceph, это позволило нам удобно рассчитывать признаки для МЛ-моделей, например. Если получаем от партнера выгрузку за 2023 год, то больше не страдаем, а просто запускаем регламентный расчет признаков на Trino ничего не меняя в запросах и через небольшое время получаем свои признаки на старые даты чтобы делать аналитику)
Сейчас все аналитические базы это MPP. Не до конца понимаю как кодирование и сжатие данных на диске связано с проекциями, у проекций другое назначение. Сегментирование в статье было специально опущено, чтобы примеры получились максимально понятными.
Спасибо за уточнения, это действительно важно. Про сегментирование в статье я уточнил что проекция может иметь отличное от супер-проекции сегментирование, а примеры таблиц специально были упрощены, чтобы все внимание сместить на проекции.
Собирал себе простенькую систему для небольших домашних экспериментов пару лет назад. Старенький Xeon + 64гб ОЗУ + 3060 12гб. Я не сталкивался с тем что описано в статье, но пошел чуть другим путем и настроил на нем полностью серверный Linux, без интерфейса и подключался к нему по SSH. Вот там тоже начинаются свои танцы с бубном. Настроить ГПУ в докере было тем еще приколом, нормальных инструкций в интернете не нашел, только кусками. Сервер это всегда весело)
Как аналитик из Авито вставлю еще одну интересную особенность которая была вскользь упомянута в статье. После перехода на Trino аналитикам гораздо проще стало получать доступ к архивным данным. Раньше в Vertica у витрин имелась глубина в зависимости от ее размера, и чтобы получить доступ в архиву приходилось писать запросы к архивной схеме которые очень долго работали. После переезда на Trino и актуальные данные и архивные стали одними и теми же файлами на Ceph, это позволило нам удобно рассчитывать признаки для МЛ-моделей, например. Если получаем от партнера выгрузку за 2023 год, то больше не страдаем, а просто запускаем регламентный расчет признаков на Trino ничего не меняя в запросах и через небольшое время получаем свои признаки на старые даты чтобы делать аналитику)
Сейчас все аналитические базы это MPP. Не до конца понимаю как кодирование и сжатие данных на диске связано с проекциями, у проекций другое назначение. Сегментирование в статье было специально опущено, чтобы примеры получились максимально понятными.
Спасибо за уточнения, это действительно важно. Про сегментирование в статье я уточнил что проекция может иметь отличное от супер-проекции сегментирование, а примеры таблиц специально были упрощены, чтобы все внимание сместить на проекции.
Если запросить GET_PROJECTIONS по таблице (в статье есть), то можно посмотреть на значение UpToDate.