Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Так же Impala совсем не fault-tolerance
скоростью работы и ограничением на объем.
работа с MR в свое время показала, что чем меньше диска мы трогаем, тем спокойней на душе
никто не говорит что они не база данных
Это они говорят, что они База данных. Есть суть, есть контекст. В контексте Хадупа нет ни одной БД, либо нашлепки в виде Импалы, либо трансляторы SQL в граф MR джобов в виде Хайва. Про транзакции, ACID я вообще не говорю. Cloudera Impala is the industry’s leading massively parallel processing (MPP) SQL query engine that runs natively in Apache Hadoop.MPP системы, это Терадата, Экзадата, Вертика и т.д. Если MPP система ограничена оперативной памятью, то это не MPP система, потому что есть рыночные стандарты де-факто и ожидания к MPP системе.
REFRESH, как по мне, является временным решениемкостыль, проще говоря.
сделать доп слушателя к namenode и чекать любые изменения в положении блоков,Неймнода не хранит информацию о блоках. ДатаНоды шлют блок-репорты о том, какие у них есть блоки. На основании репортов НеймНода получает знание о расположении блоков. Почему не сделали? Потому что ДатаНод сотни. Это сложная инженерная задача. Мы же не будем рассматривать БигДату на трех тестовых виртуалках :)
MemSQL’s distributed in-memory data management platform
стоимость самых дешевых узлов терадаты можно узнать?
. А за стоимость Терадата/Экзадата можно поднять кластер не с одним десятком терабайт памяти
именно поэтому сейчас у многих в моде spark
чтобы собрать карту, где и что сейчас валяется
Hive vs Pig. На что мне столько ETL?