Comments / Profile of skullodrom / Habr

Роман Белкин@skullodrom

DB, Econimics, MBTI, Science, Stock exchange

ProfileArticles3Posts1NewsComments164

Oracle vs Teradata vs Hadoop

@skullodrom Sep 3 2014 at 13:11

Ок, постараюсь добавить.

На счет OLTP я просто упомянул одним словом, и не планирую детализировать.

Oracle vs Teradata vs Hadoop

@skullodrom Sep 3 2014 at 12:34

Довольно сложно сравнить, да и простое сравнение ничего не даст. Я думаю по этому вы и не найдете в сети заголовка подобного этой теме.

Опишите критерии по каким сравнивать?

Oracle vs Teradata vs Hadoop

@skullodrom Sep 3 2014 at 12:30

Брр, какое-то сумбурное у вас сравнение. К тому же, многие высказывания либо запутаны, либо неверны. Вот, например:
Так же упомяну общий недостаток Teradata и Hadoop. Это необходимость как-то распределить данные по нодам.

Все сложнее. В Терадата только ручное распределение, и это правильно. Если неправильно распределить, то вы проиграете Ораклу. Это и есть недостаток Терадаты, что требуется думать о том, о чем не нужно думать в Оракле в принципе.

На счет HDFS вы правы, там нельзя распределять данные по нодам, и это плохо или я не совсем понимаю модель MapReduce.

Расскажу на примере фейла DB2:
Смысл в том, что каждая из 1000 нод обрабатывает только свои данные, тем самым минимизируется сетевой трафик. А если данные для обработки нужно пересылать он нода к ноду, как например в DB2, то это плохо. Поэтому DB2 и загнулась на больших данных.
Смысл в том, что бы минимизировать сетевой трафик. Если Hadoop, сам правильно умеет распределять данные, а потом с помощью MapReduce распараллелить все так, что бы каждый нод обрабатывал только свои локальный данные, то я прислоняюсь перед Hadoop. Но я сомневаюсь, что он сможет так сделать. Если уж Терадата и Оракл и DB2 не смогли.

Я думаю если использовать не HDFS, а HBase, то там можно по ключу, например региону распределить данные или еще как и использовать это в MapReduce.

>Если надо параллельно обрабатывать терабайты данных, то Oracle со своим ETL подходом уходит в сторону
Hadoop будет быстрее за счет отсутствия ACID, а в Оракле есть Undo and Redo logs. Которые существенно замедляют работу, но позволяют не беспокоиться о то, что данные могут и читать и изменяться параллельно 10 процессов. Оракл — это удобство!

>ну подняли вы 25Гб за секунду
Это не скорость чтения с винта, это скорость обработки данных согласно пресрелизу Оракла. Получается count(*) по таблице в 100 Гб должна занимать 4 секунды. Но я лично не проверял.

>А кластер Hadoop-а сразу работает и как хранилище, и как обработчик
Так же и Терадата, у них нет разделения на числогрыз и хранилку.

>И по той же причине при оценке электроэнергии нужно рассматривать сразу всю систем
Ок, жду от вас статьи об этом =)

Oracle vs Teradata vs Hadoop

@skullodrom Sep 3 2014 at 12:12

Да, есть такое. Про сеть я начал рассуждать, что бы показать слабость архитектуры Оракл, почему она чисто теоретически не справится с Петабайтами.

1 2 ...

7 8