alexzaitsev Jul 6 2012 at 14:28

Эволюция аналитической инфраструктуры (продолжение)

10 min

8.1K

«LifeStreet Media» corporate blogSQL*

Comments 6

kliss Jul 6 2012 at 15:02

Вроде хорошая база. Только вот драйвера для руби не могу найти официального. Тот что нашел — не обновлялся три года :)

alexzaitsev Jul 6 2012 at 15:07

Там есть драйвера JDBC и ODBC. Мы пользуемся драйверами двух-трех летней давности, но недавно было обновление. Если протокол не меняется, то зачем менять драйвера? Вертиковцы сразу поддержали JDBC-спецификацию в полном объеме.

Geckelberryfinn Oct 31 2013 at 14:01

Не могли бы вы написать, в кластере из скольких машин Вертика обрабатывает 5 миллиардов фактов за 5-10 секунд? ну и примерную их конфигурацию, если это не секрет)

alexzaitsev Oct 31 2013 at 14:05

Вопрос не совсем корректен. Что Вы понимаете под словом «обрабатывает»? Запрос к таблице из 5 миллиардов записей может занимать 5-10 секунд и меньше, но это зависит от запроса и дизайна проекций в первую очередь, а от конфигурации кластера во вторую.

Geckelberryfinn Oct 31 2013 at 14:27

Да, вы правы, согласен. Я просто хотел прикинуть какие в среднем размеры кластера используются под Вертику в реальных приложениях при анализе данных прибывающих на 1 млрд записей в день. На примере ваших проектов, чтобы иметь хоть какую-то цифру в голове.

alexzaitsev Oct 31 2013 at 14:39

У нас есть и однонодовая система, «кушающая „1 миллиард записей в день, и системы с большим количеством серверов. Они решают разные задачи. По нашим оценкам, на одном сервере или ноде кластера можно “комфортно» хранить до 5TB сырых данных (то есть примерно 500-1000GB на дисковой системе). Естественно, если все правильно настроить в первую очередь с точки зрения физического дизайна проекций. Для дисковой системы мы используем RAID5 или RAID10 на SATA или SAS дисках. SSD не дает выигрыша, Вертика не делает random I/O.