Извините, но где здесь BigData?
Покупаем сервак с десятками ядер и сотнями гигабайт RAM, создаем виртуальный диск в оперативной памяти, распараллеливаем все запросы. Вот было бы 100 ТБ данных — тогда да
Мыло уместно в бане. Используется обычный комп, если не нравится скорость работы — покупается сервак. А вот если на серваке нельзя выполнить расчеты или это занимает слишком много времени — тогда это BigData и нужен кластер.
А у меня другой подход, мне интересно выжать из железа максимум.
Если я могу решить такую задачу на завалящем десктопе, то и на серваке раздвигаются границы допустимого.
Gnuplot супротив 2MASS