Pull to refresh
80
0
Dmitry Petukhov @codezombie

ML Preacher, Cloud Architect && Coffee Addicted

Send message
Где? Cлова другие, картинки — тоже.)
Про Parquet Вы совершенно точно отметили. А Impala еще также поддерживает объединение таблиц и распространяется под Apache лицензией, в то время как Dremel поддерживает только single-table queries (что нивелируется поддержкой запросов по вложенным данным) и является проприетарным продуктом.
Но все же я бы не делал из слов 'аналог' (как это указано в статье) и 'копия' синонимы.
Я так и знал, что разные заголовки не помогают) Буду исправляться.
> Не поддерживает репликацию между несколькими датацентрами (маловероятно)
Уточните, Вы о репликации critical state (метаданные системы) или о репликации всех данных хранилища?
Речь о репликации всех данных хранилища в статье и не шла. А способа не синхронизировать critical state в распределенных системах совсем я еще не знаю (если не синхронизировать state, то в конце концов узлы, входящие в распределенную систему, станут независимыми системами).

> Поддерживает 1) асинхронную репликацию в расположенные недалеко друг от друга датацентры с целью DR и 2) не интерактивной аналитики
Ничего, из написанного в посте, не противоречит первому утверждению. Про интерактивную аналитику (2-ое утверждение) также упоминания в статье нет.

> вторая часть статьи неточна
Поэтому, что 'неточно' по не ясно.)
Все актуально. Зачем люди делают что-то просто так? (например, я отвечаю на Ваш комментарий) — просто нравится помогать людям.)

Справедливости ради: не только Google помогает развитию IT/Big Data-сообщества, есть еще Яндекс, Yahoo, Microsoft и многие другие компании и просто хорошие люди.
Если прочитать содержимое поста, то ответ очевиден.
Да, заголовок неоднозначно 'мрачноват' получился. Обязательно поправлю.
Вопрос по терминологии: определение 'Forex' дано, но кто такие Forex-брокеры — не ясно. Отсюда недопонимание — есть ли разница между Forex-брокерами и ECN-брокерами?
P.S. статья читалась на одном дыхании. Спасибо.
Очень полезно. Уже плюсанул)
Владимир, буду ждать и как всегда с интересом почитаю Вашу статью.
Это open source — всегда можно поправить, что не работает. Это, конечно, (от части) шутка. В любом случае, роль (и вклад) Hadoop в современный Big Data сложно переоценить, как бы он там не работал.
Совершенно верно. Этот не безрадостный факт я даже упоминал в своем одном посте на хабре, посвященном YARN.

… промежуток времени между выходом release-версии YARN и release-версий распределенных алгоритмов
В посте я вел речь именно рисках, связанных с 'затягиванием' выхода release-версий реализаций распределенных алгоритмов.
Microsoft не сделал из Dryad коммерческого продукта (но он изначально таким и не был, да и я обратного не утверждал).

Для клиентов Windows Azure фреймворком распределенных вычислений стал Hadoop. И я об этом хорошо знаю — даже на хабре месяца 3 назад пост писал).

Про 'полностью похоронил' или все же развивается (например, проект Naiad) — еще надо хорошо подумать прежде, чем категорично утверждать один из вариантов.

Ну и к теме: все-таки предметом моего внимания (предположу, что и Вашего) в этом проекте является не (около)маркетинговая составляющая, а инновационная.
Linux для продакшна, Win для игрушек
Вы, наверное, про XP?
Ну, а вообще: сомнение — признак интеллекта; а с процитированным категоричным высказыванием лучше на форум, чем в хабр.
Со степенью напутал. Исправлюсь: >10^4 вычислительных узлов.
> Вы пишите о 10к в 2013 году?
Первое, я пишу: >10^5 вычислительных узла.
Второе: я не пишу, что это порог масштабирования.

Последнее: искренне поздравляю команду Pelican'а!
Спасибо, за факты. Очень конструктивно.
Не мешало бы Ваше замечание разбавить фактами.
Интересный пост (не удержался — плюсанул). Но все же вопросы есть:
мы получали данные в виде exml, которые закачивались в нашу базу.
Из текста статьи, так и не стало понятно, что за СУБД использовалась? Если SQL Azure, то тогда почему '127 БД', а не шардинг одной БД?
Читал, как и читал How to Map CDN Content to a Custom Domain. И еще много чего, но не помогало. На stackoverflow также до ответа было далеко. Поэтому (вчера) я удалил custom domain в manage.azure.com и Azure CDN enpoint, удалил CNAME-записи у своего регистратора. Пересоздал все заново. Через 8 часов связка 'кастомный поддомен + Azure CDN + WABS' уже заработала.

Я исследователь в в одном из фед. университетов и разработчик с более чем трехлетним стажем, поэтому не очень верю в неведомую полтергейст, силу магии и древнешаманские бубны, но в чем было дело (в описанной мной ситуации) для меня как черный квадрат Малевича — тайна, покрытая мраком.

В любом случае, спасибо за интересные статьи. Надеюсь посетить Ваш доклад на Azure Summit ('надеюсь' потому, что в списке докладчиков Вы есть, а какие именно доклады читаете — не написано [или я не нашел]).

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Data Scientist, ML Engineer
Senior
People management
Development management