Комментарии 4
Очень хорошо, что в стране есть такие специалисты, выполняющие такую сложную работу с большими потоками данных.
А результат вашей классной работы - я не беру трубку с незнакомых номеров, практически не пользуюсь смартфоном как телефоном, так как эта таргетированная реклама задолбала. К вам, как специалистам, претензий нет. Но в целом к отрасли мобильной связи, да и электронной почты, есть - вы собираете в одном месте кучу связанной информации о каждом абоненте и затем продаёте её - пускай и обезличенно, в виде массива данных.
Что бы я хотел - чтобы появилась возможность запретить продажу информации обо мне, пускай это будет даже в виде отдельного повышенного тарифа. Лучше бы и сбор информации запретить, но в сказки я не очень верю.
Мы просто отдаем новую Avro-схему в приложение, и оно начинает работать по-новому, с новой структурой, если для этого не требуется никаких дополнительных преобразований.
что значит "отдаем новую Avro-схему в приложение"? Обычно такое действие- процедура добавления схемы называется регистрацией схемы (компоненты, ДЛЛ-ки, ...). Похоже вам еще надо осознать какие процедуры для вас важны и поэтому требуют особого внимания как отдельные процедуры. Также неплохо было бы определиться с тем что является тригером и/или расписанием для запуска процедуры.
Вообще идея добавлять (навешивать) новый-дополнительный фильтр-сплитер данных на поток данных в реальном времени и на лету так, чтобы этот новый добавленный фильтр ни как не влиял на работу уже действующих фильтров не нова настолько, что близка к тривиальной, но детали ее реализации всегда очень сложны, впрочем как и любой другой алгоритм реального времени.
Мда... 4й Спарк уже не за горами, а они всё ещё на 2.3 сидят.
Статью можно даже особенно и не читать, в терминологии телеграмного чатика Data Engineers такое решение это сплошная «глина». (На самом деле даже не удивляет.)
Apache Flink: Flink Table API & SQL, часть 1