Брр, какое-то сумбурное у вас сравнение. К тому же, многие высказывания либо запутаны, либо неверны. Вот, например:
Так же упомяну общий недостаток Teradata и Hadoop. Это необходимость как-то распределить данные по нодам.
Все сложнее. В Терадата только ручное распределение, и это правильно. Если неправильно распределить, то вы проиграете Ораклу. Это и есть недостаток Терадаты, что требуется думать о том, о чем не нужно думать в Оракле в принципе.
На счет HDFS вы правы, там нельзя распределять данные по нодам, и это плохо или я не совсем понимаю модель MapReduce.
Расскажу на примере фейла DB2:
Смысл в том, что каждая из 1000 нод обрабатывает только свои данные, тем самым минимизируется сетевой трафик. А если данные для обработки нужно пересылать он нода к ноду, как например в DB2, то это плохо. Поэтому DB2 и загнулась на больших данных.
Смысл в том, что бы минимизировать сетевой трафик. Если Hadoop, сам правильно умеет распределять данные, а потом с помощью MapReduce распараллелить все так, что бы каждый нод обрабатывал только свои локальный данные, то я прислоняюсь перед Hadoop. Но я сомневаюсь, что он сможет так сделать. Если уж Терадата и Оракл и DB2 не смогли.
Я думаю если использовать не HDFS, а HBase, то там можно по ключу, например региону распределить данные или еще как и использовать это в MapReduce.
>Если надо параллельно обрабатывать терабайты данных, то Oracle со своим ETL подходом уходит в сторону
Hadoop будет быстрее за счет отсутствия ACID, а в Оракле есть Undo and Redo logs. Которые существенно замедляют работу, но позволяют не беспокоиться о то, что данные могут и читать и изменяться параллельно 10 процессов. Оракл — это удобство!
>ну подняли вы 25Гб за секунду
Это не скорость чтения с винта, это скорость обработки данных согласно пресрелизу Оракла. Получается count(*) по таблице в 100 Гб должна занимать 4 секунды. Но я лично не проверял.
>А кластер Hadoop-а сразу работает и как хранилище, и как обработчик
Так же и Терадата, у них нет разделения на числогрыз и хранилку.
>И по той же причине при оценке электроэнергии нужно рассматривать сразу всю систем
Ок, жду от вас статьи об этом =)
На счет OLTP я просто упомянул одним словом, и не планирую детализировать.
Опишите критерии по каким сравнивать?
Все сложнее. В Терадата только ручное распределение, и это правильно. Если неправильно распределить, то вы проиграете Ораклу. Это и есть недостаток Терадаты, что требуется думать о том, о чем не нужно думать в Оракле в принципе.
На счет HDFS вы правы, там нельзя распределять данные по нодам, и это плохо или я не совсем понимаю модель MapReduce.
Расскажу на примере фейла DB2:
Смысл в том, что каждая из 1000 нод обрабатывает только свои данные, тем самым минимизируется сетевой трафик. А если данные для обработки нужно пересылать он нода к ноду, как например в DB2, то это плохо. Поэтому DB2 и загнулась на больших данных.
Смысл в том, что бы минимизировать сетевой трафик. Если Hadoop, сам правильно умеет распределять данные, а потом с помощью MapReduce распараллелить все так, что бы каждый нод обрабатывал только свои локальный данные, то я прислоняюсь перед Hadoop. Но я сомневаюсь, что он сможет так сделать. Если уж Терадата и Оракл и DB2 не смогли.
Я думаю если использовать не HDFS, а HBase, то там можно по ключу, например региону распределить данные или еще как и использовать это в MapReduce.
>Если надо параллельно обрабатывать терабайты данных, то Oracle со своим ETL подходом уходит в сторону
Hadoop будет быстрее за счет отсутствия ACID, а в Оракле есть Undo and Redo logs. Которые существенно замедляют работу, но позволяют не беспокоиться о то, что данные могут и читать и изменяться параллельно 10 процессов. Оракл — это удобство!
>ну подняли вы 25Гб за секунду
Это не скорость чтения с винта, это скорость обработки данных согласно пресрелизу Оракла. Получается count(*) по таблице в 100 Гб должна занимать 4 секунды. Но я лично не проверял.
>А кластер Hadoop-а сразу работает и как хранилище, и как обработчик
Так же и Терадата, у них нет разделения на числогрыз и хранилку.
>И по той же причине при оценке электроэнергии нужно рассматривать сразу всю систем
Ок, жду от вас статьи об этом =)