Как стать автором
Обновить

Комментарии 2

Познавательно. Добавлю что в мелком "крупном бизнесе" (2-50 млрд. выр. в год) - все данные бухучета за 5 лет обычно легко помещаются в RAM на ПК аналитика (32 GB, конечно же), но уже после оптимизации типов хранимых значений. Но брать сырые (свежие, "грязные") данные - все равно приходится SQL-запросом из БД и партицировать уже в аналитической БД для BI-дэшбордов. Тут все чаще вместо быстрой SQLite можно встретить еще более быстрый DuckDB (и даже Feather-файлы для Pandas, которой хватает, если BI ведется в одно лицо).

Очень хорошо что инженеры Магнита думают о пользователях. Быстрое получение данных провоцирует на озарения и наоборот: запросы с откликом больше 10 секунд обычно сводят полет мысли "на нет". А "из под-палки" хорошие исследования обычно не начинаются. Языку SQL нужно учить уже в школах, но не уходить слишком глубоко (например, в оконные ф-ии).

Вы правильно отметили, что иногда можно целиком все данные загрузить в оперативную память на более-менее мощном ПК и работать с ними - и это будет идеально. Когда так можно сделать - так и надо делать и надо использовать соответствующие инструменты, которые предоставляют достаточно широкий функционал для работы по такому сценарию. Наш случай, над которым мы работаем все эти годы - это случай существенно большего объема данных. И тогда приходится использовать и мощные СУБД с терабайтами или петабайтами данных, и соответствующие средства доступа к ним. И здесь возникает своя специфика.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий