Pull to refresh

Comments 9

Вот дураки, на картинке же видно, что он мягкий.

И круглый. Диск ведь.

Запросы картинками такое себе.

Olap быстр при определенных условиях, да. Даже (иногда) при disk io.

Исследования тут не увидел кроме детского удивления

Рекордная скорость передачи информации на малые расстояния была достигнута сегодня в офисе одной из компьютерных фирм при падении со стеллажа высотой в 1 (один) метр коробки, содержавшей 20 накопителей Seagate Barracuda 300 GB.

Общий объем переданной на расстояние 1 (одного) метра информации составил 300х20х8=48 000 гигабит;
Время передачи составило t=sqrt(2h/g)=0,4 секунды.

Таким образом, средняя скорость передачи информации составила 120 терабит/с !

Как DuckDB обрабатывает 1 ТБ данных менее чем за 30 секунд

Как и любая другая DB по индексам. Добавьте вывод EXPLAIN в статью.

Эээ какие индексы, тут же нет никакой фильтрации и джойнов.

Прикол статьи скорее всего вот в чём: если посмотреть скрипт, которым генерируются случайные данные, то видно, что там 10 полей (одно из которых - строка случайной длины), а селектятся 2 поля. Поскольку DuckDB - колоночная база, а Parquet - колоночный формат, то из этих терабайт читаются с диска, по моим прикидкам, 5-10%. А когда включили сортировку по дате, то и столбец с датой почти перестал читаться с диска: там повторяющиеся значения, столбец хранится компактно: записывают само значение и количество повторений. И остался единственный полноценно читаемый столбец. А если она достаточно умная, то, поняв, что все значения в загруженной странице суммируемого столбца относятся к одному ключу агрегации, она векторно сложит идущие подряд значения в памяти.

Верно подмечено. Но верно также и то что старый подход со строковыми и оттого медленными БД повсюду - устарел. "Утка" удивляет безсерверностью, безукоризненной документацией, скорой работой, продуманностью и полнотой параметров тех же read_csv(). Не просто занять место SQLite и Access/ACE/JET в 80% проектов, а занять его с 4-кратным ускорением запросов (в подарок) - вот что должно реально произойти со временем.

К сожалению не все еще в порядке с работой JDBC-драйверов при работе самого массового семента малопользовательского самописного ПО (MSO, LibreOffice, и в т.ч. по причине из самих), мало историй успеха. Статья полезна - воодушевляет, и fullscan ей совершенно ни к чему. DuckDB близка или лишь слегка отстает от in-memory Pandas/SQLite и ее будущее прекрасно даже со средне-большими данными.

Откуда число 80% ? В особенности напротив SQLite, это же очень разные базы. У меня есть подозрение, что DuckDB плохо покажет себя в случае, когда будут update/delete, паркету поплохеет, а SQLite нормульчик.

Sign up to leave a comment.

Articles