По-моему кейс чересчур надуманный: при выполнении потоковой обработки сообщений нужно "оставаться в потоке" и все необходимые данные хранить под ногами у сервиса-обработчика ровно столько времени, сколько это ему необходимо.
А что лучше монолит или микросервис?
Кафка, в частности ее клиент, позволяет решить эти задачи из коробки, причем позволяет хранить только данные необходимые конкретному обработчику в данный момент времени для обработки конкретных партиций топика, а не все подряд, масштабироваться примерно по щелчку пальцев по сравнению с тарантулом.
В статье как раз и показано как можно маштабировиться с одного инстанса до шардированного отказоустойчивого кластера.
В случае включения в эту историю Тарантула появляются проблемы и накладные расходы, которые перевешивают весь профит от подключения: дополнительные инфраструктурные компоненты тарантула, которые требуют большее количества железа и отдельной команды сопровождения, проблемы синхронизации топиков кафки и структур тарантула, сложность или невозможность обеспечения транзакционности обработки сообщений, обеспечение fault tolerance и т.д.. А плюсы от включения далеко не очевидны.
То есть вы предлагаете все это перенести на клиента? А если клиентских сервисов несколько? А при динамическом маштабировании? А когда количество данных в каждом топике по несколько гигабайт? А когда часть данных уже ушла из кафки?
Мне кажется что тут стоит остановиться, так как данная тема сама по себе достойна отдельной статьи, и если вы ее напишите, добавьте плиз в комментариях ссылку мне очень интересна данная тема и пути их решения в кешах и витринах данных.
Тарантул был бы интересен как конкурент Redis/Ignite, в том числе при взаимодействии с БД. Но, например, реализации JSR 107 в нем нет, и только его подключение в проект будет нести дополнительные сложности.
В целом редис или тарантул это, в узких кругах довольно холиварная тема. Ну и существует tarantooldb где частично имплементирован протокол редиса.
Наверное Вы правы. Тем не менее быстром поиском, подобных исследований, по зарубежным выборам я не увидел(может плохо искал, а может не хватает знаний языка). Хотя как мне кажется это интересная тема для разных статистических исследований.
Было бы здорово, увидеть подобную статистику например по США, или Европе, на этих данных уже можно будет проводить аналогии. Если я правильно нашел то данные можно взять — catalog.data.gov/dataset?tags=elections
Я не увидел в стандарте, какой диапазон у числовых значений. Вполне возможно, что старые версии JS сверху были ограничены 32 бита, а новые или те что только планируют будут ограничены 64 битами ну или другим количеством.
Я имел ввиду, что можно пред очищать данные если я праельно понял то данных с чипа идет много часть из них повторяется часть из за того что чип не совсем хорошо очищен может быть искажена. И с помощью нейросетей которые хорошо работают с искаженными данными, попытаться их вытащить.
Для того чтобы развить свою мысль и попросил уточнить в каком виде приходят данные.
Было бы супер, добавить немного больше информации о каждой системе, что установлено как работает, с какими трудностями или удобствами столкнулись в процессе создания системы.
А что лучше монолит или микросервис?
В статье как раз и показано как можно маштабировиться с одного инстанса до шардированного отказоустойчивого кластера.
То есть вы предлагаете все это перенести на клиента? А если клиентских сервисов несколько? А при динамическом маштабировании? А когда количество данных в каждом топике по несколько гигабайт? А когда часть данных уже ушла из кафки?
Мне кажется что тут стоит остановиться, так как данная тема сама по себе достойна отдельной статьи, и если вы ее напишите, добавьте плиз в комментариях ссылку мне очень интересна данная тема и пути их решения в кешах и витринах данных.
В целом редис или тарантул это, в узких кругах довольно холиварная тема. Ну и существует tarantooldb где частично имплементирован протокол редиса.
Очень странно, поправил.
Подробнее на РБК:
http://www.rbc.ru/politics/08/02/2017/589b03ff9a7947ee950637de
Для того чтобы развить свою мысль и попросил уточнить в каком виде приходят данные.
Не могли бы поподробнее рассказать как формируются данные?
Есть Опенсорс реализация?