А почему вы считаете, что 5000 перебор? А сколько надо по вашему и почему? Вы же не знаете какие там подсистемы, бизнес-логика, компромиссы, на которые когда-то пошли при каких-то обстоятельствах и пр. Да и вроде бы речь не идет про то, что Кафка только про обработку событий на сайте от клиентов. Наверняка там какие-то синхронизации данных между подсистемами, попутные подсчеты счетчиков и пр. и пр.
И даже если представить, что есть какая-то часть неоптимальностей с микросервисами, то вы же не будете сейчас рекомендовать ребятам переписать все микросервисы, перестроить процессы и пр. Это тоже денег стоит, да и статья же конкретная и про другое вообще, а вы уводите в то, что как вам кажется, все это вообще не нужно и вы бы не так там с самого начала делали.
Спасибо. Я немного не про то. Я скорее про гайды (от начала и до конца) как правильно скомпилить с граалем, чтобы оно потом заработало. Можно в ЛС если там будет удобнее, я просто как раз сейчас новый проект начинаю и есть все шансы сделать супер быстро и обкатать что-то, пока проект еще не в проде. Мб Dockerfile есть, например. Он же two step build должен быть поидее
Так надо не latest качать, а что-то более точное. Вроде бы этого хватает, чтобы скачать обновленные версии. У нас сборки тегируются хешем коммита в git. Вы сталкивались с проблемами (кроме проблем с secrets) даже в таком случае?
Вообще сотни гигабайт каждый день прокачиваем через него.
Контекстные системы -> BigQuery
Google Analytics, Yandex Metrika -> BigQuery
Postgres -> BigQuery
ClickHouse -> BigQuery
Реагрегация по расписанию BigQuery -> BigQuery
Данные из BigQuery -> Yandex Object Storage в виде xml файлов
Сейчас еще подъедут http endpoint-s. т.е. данные например из BigQuery в виде json, csv по url с фильтрами по датам. С авторизацией, конечно.
К сожалению часто без хранения где-то просто не обойтись, поэтому есть например https://garpun.com/garpunfeeds/ там и бесплатные потоки и хранение в вашем bigquery, например и уход от семплирования в Гугле по максимуму и поддержка ga360
У нас с pg 9.6 все хорошо кроме проблем с очисткой временных файлов pg в случае, если бд вошла с рекавери мод. Например, если кончилось место на диске с данными из-за большого запроса или если хранимка на питоне вылетела и pg странно это обработал (не с каждой питон ошибкой бывает).
В остальном для почти всех задач подходит, а там, где не подходит юзаем google bigquery и yandex clickhouse
Все приводит к тому, что бд надо регулярно ребутать. (
Вот как бы и у меня сложилось впечатление, что по сути в статье почти ничего нет, а подход — внедряй постепенно, если можешь вроде все знают. Ну да, пропиарили, что вы как и все крупные чуваки запилили свой собственный велик (я за, если что, для вас это оправдано).
А мы уже давно для 3000+ клиентов несколько раз в день и из директа, гугла, критео, матаргета, фб, вк и пр. перегружаем в google bigquery и, что главное, обновляем данные за предыдущие периоды, если рекламные системы вычищают из статы кликфрод через какое то время.
Данные в разрезе дней, девайсов, объявлений, ключевиков и пр. Делаем обобщенное VIEW в BQ и выводим к себе в систему или Google DataStudio, Tableu и пр. Ну а маркетологи, контекстники и аналитики уже в bigquery sql запросы пишут если очень надо или если нужна какая-то сильно глубокая аналитика с заковыристыми sql-запросами.
Все круто, но только потом сайты тормозят =(
Просто потому, что все вокруг начинают 100500 вызовов делать на несжатую статику, картинки, пиксели и прочую шамбалу, часто к сожалению впрок, не думая о последствиях
А почему вы считаете, что 5000 перебор? А сколько надо по вашему и почему? Вы же не знаете какие там подсистемы, бизнес-логика, компромиссы, на которые когда-то пошли при каких-то обстоятельствах и пр. Да и вроде бы речь не идет про то, что Кафка только про обработку событий на сайте от клиентов. Наверняка там какие-то синхронизации данных между подсистемами, попутные подсчеты счетчиков и пр. и пр.
И даже если представить, что есть какая-то часть неоптимальностей с микросервисами, то вы же не будете сейчас рекомендовать ребятам переписать все микросервисы, перестроить процессы и пр. Это тоже денег стоит, да и статья же конкретная и про другое вообще, а вы уводите в то, что как вам кажется, все это вообще не нужно и вы бы не так там с самого начала делали.
Спасибо! Будет интересно узнать новости по этому поводу.
С граалем
Извините, это есть в статье, интересно как именно компилили с гравием, какие подводные камни были
Скажите пожалуйста — в чем именно были проблемы с производительностью и как именно вы их решили?
И pull always ))) вместе с зависимыми проверками в readness probe это просто катастрофа
DCM, DBM, Директ, Фейсбук, ВК и пр пр
Контекстные системы -> BigQuery
Google Analytics, Yandex Metrika -> BigQuery
Postgres -> BigQuery
ClickHouse -> BigQuery
Реагрегация по расписанию BigQuery -> BigQuery
Данные из BigQuery -> Yandex Object Storage в виде xml файлов
Сейчас еще подъедут http endpoint-s. т.е. данные например из BigQuery в виде json, csv по url с фильтрами по датам. С авторизацией, конечно.
К сожалению часто без хранения где-то просто не обойтись, поэтому есть например https://garpun.com/garpunfeeds/ там и бесплатные потоки и хранение в вашем bigquery, например и уход от семплирования в Гугле по максимуму и поддержка ga360
Сори, 2 и 3 абзацы надо поменять местами
У нас с pg 9.6 все хорошо кроме проблем с очисткой временных файлов pg в случае, если бд вошла с рекавери мод. Например, если кончилось место на диске с данными из-за большого запроса или если хранимка на питоне вылетела и pg странно это обработал (не с каждой питон ошибкой бывает).
В остальном для почти всех задач подходит, а там, где не подходит юзаем google bigquery и yandex clickhouse
Все приводит к тому, что бд надо регулярно ребутать. (
Вот как бы и у меня сложилось впечатление, что по сути в статье почти ничего нет, а подход — внедряй постепенно, если можешь вроде все знают. Ну да, пропиарили, что вы как и все крупные чуваки запилили свой собственный велик (я за, если что, для вас это оправдано).
Ну и как бы все.
Данные в разрезе дней, девайсов, объявлений, ключевиков и пр. Делаем обобщенное VIEW в BQ и выводим к себе в систему или Google DataStudio, Tableu и пр. Ну а маркетологи, контекстники и аналитики уже в bigquery sql запросы пишут если очень надо или если нужна какая-то сильно глубокая аналитика с заковыристыми sql-запросами.
Все круто, но только потом сайты тормозят =(
Просто потому, что все вокруг начинают 100500 вызовов делать на несжатую статику, картинки, пиксели и прочую шамбалу, часто к сожалению впрок, не думая о последствиях