Большое спасибо за статью. Есть несколько не связанных между собой вопросов. Если можете, ответьте пожалуйста.
— Когда мы выбираем Avro Source и Avro Sink, Аvro используется только для передачи? Или данные сохраняются в Avro?
— Насколько flume конкурент новомодной kafka?
— Interseptors можно писать только на java?
Технические проблемы, вроде недостатка инфраструктурных мощностей, можно решить с помощью использования новых технологий — например, облаков.
Объясните, кто-нибудь, где в "облаке" предполагается хранить данные? Если это EBS или S3 (предположим, у нас aws), не будет data-locality. Если это ephimeral — диски, тогда кластер нужно все время держать включенным, что дорого.
Вычислительные узлы и узлы хранения данных BDRA связывает высокоскоростная сеть.
Было бы интересно почитать, почему выбрано такое решение. Много где рекомендуют обратное — использовать по возможности одинаковые воркер-узлы, не разбивать их на "хранение" и "обработку". При таком подходе сводится к минимуму использование сети (кластер пытается обрабатывать данные там, где они храняться; сеть не ложится при выходе из строя одного из серверов с данными, ...).
Пожалуйста, расскажите подробней, какую задачу решает вся эта инфраструктура. Вы вскользь упомянули про «при помощи анализа больших массивов данных в режиме реального времени позволяет персонифицировать взаимодействие с игроком через рекомендации». Но что именно там такое анализируется и зачем оно пользователю? Могли бы привести конкретные примеры?
Kudu может хранить и отдавать данные, так что, наверное, надо немного перефразировать вопрос) Может ли хайв работать с таблицами в Kudu? Пока нет. Есть jira issue, но он пока без движения.
> но несколько лет назад они заменили MapReduce реализацией BigTable
Меня терзают смутные сомненья… Аналог BigTable в экосистеме Hadoop это HBase. HBase и MapReduce прекрасно в этой экосистеме сосуществуют: HBase — для random read, MapReduce — для batch. Другими словами, BigTable и MapReduce — это сравнение теплого с мягким.
Слышал про GPS краем уха. Расскажите, пожалуйста, или дайте ссылку, что именно закроют. Всегда считал, что GPS — это спутники. Ан нет. Есть и какие-то наземные станции.
IT-шникам проще. Перед тем, как вносить изменения в «продакшн» можно протестировать все в «виртуалочке». У медиков такой возможности нет. Ну и уровень ответственности отличается. Даже если IT-шник где-то очень сильно накосячит — все останутся живы :-)
Конкретно к Mars One у меня нет ни капли доверия. Уверен, что под эгидой этого проекта ничего к Марсу не полетит. Пособирают заявки (и донейты), попродают с сайта чашки… Этим все и кончится.
— Когда мы выбираем Avro Source и Avro Sink, Аvro используется только для передачи? Или данные сохраняются в Avro?
— Насколько flume конкурент новомодной kafka?
— Interseptors можно писать только на java?
Вопрос немного не по теме. Вы alluxio не пробовали для этих целей?
Объясните, кто-нибудь, где в "облаке" предполагается хранить данные? Если это EBS или S3 (предположим, у нас aws), не будет data-locality. Если это ephimeral — диски, тогда кластер нужно все время держать включенным, что дорого.
Было бы интересно почитать, почему выбрано такое решение. Много где рекомендуют обратное — использовать по возможности одинаковые воркер-узлы, не разбивать их на "хранение" и "обработку". При таком подходе сводится к минимуму использование сети (кластер пытается обрабатывать данные там, где они храняться; сеть не ложится при выходе из строя одного из серверов с данными, ...).
Меня терзают смутные сомненья… Аналог BigTable в экосистеме Hadoop это HBase. HBase и MapReduce прекрасно в этой экосистеме сосуществуют: HBase — для random read, MapReduce — для batch. Другими словами, BigTable и MapReduce — это сравнение теплого с мягким.