Pull to refresh
39
0
facha @facha

User

Send message
Большое спасибо за статью. Есть несколько не связанных между собой вопросов. Если можете, ответьте пожалуйста.
— Когда мы выбираем Avro Source и Avro Sink, Аvro используется только для передачи? Или данные сохраняются в Avro?
— Насколько flume конкурент новомодной kafka?
— Interseptors можно писать только на java?
Не пойму, в чем принципиальное отличие от Kaggle. В том, где исполнятется код (у меня дома или организаторов)? Но суть самой «игры» ведь та же…
Можно вопрос немного не в тему? Каких размеров у вас кластер (сколько нод, дисков, ядер, памяти)?
Покер. Дурак — слишком прямолинейная игра. Да и знают о нем только на просторах бывшего СССР.
а также нам было интересно использовать его как единую платформу для spark и Hadoop.

Вопрос немного не по теме. Вы alluxio не пробовали для этих целей?
Технические проблемы, вроде недостатка инфраструктурных мощностей, можно решить с помощью использования новых технологий — например, облаков.

Объясните, кто-нибудь, где в "облаке" предполагается хранить данные? Если это EBS или S3 (предположим, у нас aws), не будет data-locality. Если это ephimeral — диски, тогда кластер нужно все время держать включенным, что дорого.
Расскажите, какое вы используете хранилище (насколько я понял, это не HDFS) в кластере.
Вычислительные узлы и узлы хранения данных BDRA связывает высокоскоростная сеть.

Было бы интересно почитать, почему выбрано такое решение. Много где рекомендуют обратное — использовать по возможности одинаковые воркер-узлы, не разбивать их на "хранение" и "обработку". При таком подходе сводится к минимуму использование сети (кластер пытается обрабатывать данные там, где они храняться; сеть не ложится при выходе из строя одного из серверов с данными, ...).
Пожалуйста, расскажите подробней, какую задачу решает вся эта инфраструктура. Вы вскользь упомянули про «при помощи анализа больших массивов данных в режиме реального времени позволяет персонифицировать взаимодействие с игроком через рекомендации». Но что именно там такое анализируется и зачем оно пользователю? Могли бы привести конкретные примеры?
Kudu может хранить и отдавать данные, так что, наверное, надо немного перефразировать вопрос) Может ли хайв работать с таблицами в Kudu? Пока нет. Есть jira issue, но он пока без движения.
Спасибо за комментарии. Расскажите, пожалуйста, что такое pull и push модели в контексте всех этих фреймворков. Или ссылку, если найдете.
> но несколько лет назад они заменили MapReduce реализацией BigTable

Меня терзают смутные сомненья… Аналог BigTable в экосистеме Hadoop это HBase. HBase и MapReduce прекрасно в этой экосистеме сосуществуют: HBase — для random read, MapReduce — для batch. Другими словами, BigTable и MapReduce — это сравнение теплого с мягким.
Слышал про GPS краем уха. Расскажите, пожалуйста, или дайте ссылку, что именно закроют. Всегда считал, что GPS — это спутники. Ан нет. Есть и какие-то наземные станции.
IT-шникам проще. Перед тем, как вносить изменения в «продакшн» можно протестировать все в «виртуалочке». У медиков такой возможности нет. Ну и уровень ответственности отличается. Даже если IT-шник где-то очень сильно накосячит — все останутся живы :-)
Ну, я это, собственно, и имел в виду. Если водителем является робот, а хозяин машины — пассажир (у него водительских прав, скажем, нет).
Как-то слабо верится. Если этот робот-автомобиль попадет в дтп, кто будет нести ответственность?
Никак не найду это «Connect to my application».
В доме нет света.
Конкретно к Mars One у меня нет ни капли доверия. Уверен, что под эгидой этого проекта ничего к Марсу не полетит. Пособирают заявки (и донейты), попродают с сайта чашки… Этим все и кончится.

Information

Rating
Does not participate
Registered
Activity