Comments 5
hstreaming.com/ вот вам real-time Hadoop
Built on Apache Hadoop, HStreaming adds unparalleled real-time data processing and analytics capabilities to this leading batch-processing platform.
UFO just landed and posted this here
То был посыл на вот эти строки из новости:
К сожалению, они никак не предназначены для работы в реальном режиме времени, и нет способа сделать realtime-систему на Hadoop.
HStreaming — это очень хитрая штука. Там от Hadoop по сути только API: т.е. идея в том, чтобы существующие алгоритмы, написанные под mapreduce интерфейсы и классы Hadoop безболезненно переносить в новую среду. Самого Hadoop (т.е. демонов, HDFS и т.д.) там практически нет — их заменяет некая проприетарная система, которая запускает в своем контексте mappers и reducers, соединяет их, таскает между ними данные, позволяет смотреть на результаты, обновляющиеся в реальном времени и т.д.
Оно всё бы ничего, но продукт закрытый, проприетарный и их цены очень кусачие. 1.5-2$ за час работы кластера из, допустим, хотя бы 50 машин — это ~2000$ в день или ~60000$ в месяц (не говоря уже о том, что данные нужно таскать в Штаты и обратно и это всё небесплатно).
Для сравнения — если закупить такой физический кластер и поставить у себя (условно — 100K-120K$) — он окупится за 2 месяца работы.
Оно всё бы ничего, но продукт закрытый, проприетарный и их цены очень кусачие. 1.5-2$ за час работы кластера из, допустим, хотя бы 50 машин — это ~2000$ в день или ~60000$ в месяц (не говоря уже о том, что данные нужно таскать в Штаты и обратно и это всё небесплатно).
Для сравнения — если закупить такой физический кластер и поставить у себя (условно — 100K-120K$) — он окупится за 2 месяца работы.
unparalleled — (общ.) беспримерный, не имеющий аналогов, непревзойденный
А отнюдь не «не умеющий работать параллельно».
А отнюдь не «не умеющий работать параллельно».
Sign up to leave a comment.
Storm («Hadoop в реальном времени») теперь Open Source