python_leader14 часов назад

Как DuckDB обрабатывает 1 ТБ данных менее чем за 30 секунд

Простой

5 мин

6.7K

Программирование * Python * Базы данных * Высоконагруженные системы *

Обзор

Перевод

Комментарии 7

Metotron0 13 часов назад

Почему-то SSD два раза называют жёстким диском. Потому что Solid?

Mingun 7 часов назад

Вот дураки, на картинке же видно, что он мягкий.

Metotron0 3 часа назад

И круглый. Диск ведь.

Dhwtj 13 часов назад

Запросы картинками такое себе.

Olap быстр при определенных условиях, да. Даже (иногда) при disk io.

Исследования тут не увидел кроме детского удивления

kovserg 13 часов назад

Рекордная скорость передачи информации на малые расстояния была достигнута сегодня в офисе одной из компьютерных фирм при падении со стеллажа высотой в 1 (один) метр коробки, содержавшей 20 накопителей Seagate Barracuda 300 GB.
Общий объем переданной на расстояние 1 (одного) метра информации составил 300х20х8=48 000 гигабит;
Время передачи составило t=sqrt(2h/g)=0,4 секунды.
Таким образом, средняя скорость передачи информации составила 120 терабит/с !

Andrey_Solomatin 13 часов назад

Как DuckDB обрабатывает 1 ТБ данных менее чем за 30 секунд

Как и любая другая DB по индексам. Добавьте вывод EXPLAIN в статью.

kmatveev 5 часов назад

Эээ какие индексы, тут же нет никакой фильтрации и джойнов.

Прикол статьи скорее всего вот в чём: если посмотреть скрипт, которым генерируются случайные данные, то видно, что там 10 полей (одно из которых - строка случайной длины), а селектятся 2 поля. Поскольку DuckDB - колоночная база, а Parquet - колоночный формат, то из этих терабайт читаются с диска, по моим прикидкам, 5-10%. А когда включили сортировку по дате, то и столбец с датой почти перестал читаться с диска: там повторяющиеся значения, столбец хранится компактно: записывают само значение и количество повторений. И остался единственный полноценно читаемый столбец. А если она достаточно умная, то, поняв, что все значения в загруженной странице суммируемого столбца относятся к одному ключу агрегации, она векторно сложит идущие подряд значения в памяти.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий