Спасибо за большой вопрос) попробую ответить коротко по порядку:
Heatmap есть, используется для анализа географии открытия новых торговых точек.
Анализ траффика по сезонности и неделя к недели есть, учитывается при планировании подготовки сервисов к росту нагрузки. Начиная с ковида 2020 года, год к году сильно отличается и необходимо делать поправку. + у нас не такой бизнес когда может произойти резкий всплеск траффика даже в распродажи, не тот сегмент товаров.
Анализ проводится при написании посмортемов и есть деление сервисов на критичные и не критичные для бизнеса. Считаем стоимость минуты простоя от выручки, либо потерянные заказы. По поводу резервирования, большинство сервисов одновременно работают в 3 ДЦ и это также требование для разработки новы , трафик идёт сразу в 3, в случае инцидента трафик снимается с 1го ДЦ или сервиса в этом ДЦ и дальше уже разбираемся с проблемой. То же самое касается обновлений сервисов, раскатывать можем на 1ДЦ и в случае отсутствия проблем, продолжать с другими.
Нет, сейчас инфраструктура это colocation + cloud под определённые сервисы.
Про SLI/SLO/SLA: Grafana + Prometheus + алерты на команды в зависимости от их графика дежурства на сервисе и эскалации. Влияние на бизнес-метрики считаем, но пока это больше при написании посмортемов сводим вместе и считаем конечное влияние на бизнес например в потерянных заказах, подведенных клиентах, относительно того когда обещали клиенту доставить заказ, ....
Mysql полностью устраивает для тех задач где используется, кроме наверное того что это не версия 8.x, а 5.7. Касаемо подготовки по изоляции данных - мы стараемся уйти от зависимости конкретной РСУБД, в новых проектах заставляя организовывать всю логику работы внутри приложения. Но это очень сложно сделать с монолитами. Касаемо восстановление - дробления нет, восстанавливается все целиком. Есть реплики, где можно снять бэкап приостановив репликацию. PostgreSQL + Patroni у нас тоже есть, из крупных инсталляций это WMS и CRM, работает так же на мультицод.
Про Rabbitmq: Мы уже успели перейти на Kafka, в статье это не затронуто, так как делалось отдельно от ребят из Фланта
170 разработчиков это суммарно по системам - ERP, WMS, PDM, CRM, сайт, мобильное приложение, 1C, системы отчётности, ценообразование, поиск, логистика, телефония, закупки, ... и это далеко не всё. Получается не так и много на каждый сервис.
Спасибо за большой вопрос) попробую ответить коротко по порядку:
Heatmap есть, используется для анализа географии открытия новых торговых точек.
Анализ траффика по сезонности и неделя к недели есть, учитывается при планировании подготовки сервисов к росту нагрузки. Начиная с ковида 2020 года, год к году сильно отличается и необходимо делать поправку. + у нас не такой бизнес когда может произойти резкий всплеск траффика даже в распродажи, не тот сегмент товаров.
Анализ проводится при написании посмортемов и есть деление сервисов на критичные и не критичные для бизнеса. Считаем стоимость минуты простоя от выручки, либо потерянные заказы.
По поводу резервирования, большинство сервисов одновременно работают в 3 ДЦ и это также требование для разработки новы , трафик идёт сразу в 3, в случае инцидента трафик снимается с 1го ДЦ или сервиса в этом ДЦ и дальше уже разбираемся с проблемой. То же самое касается обновлений сервисов, раскатывать можем на 1ДЦ и в случае отсутствия проблем, продолжать с другими.
Нет, сейчас инфраструктура это colocation + cloud под определённые сервисы.
Про SLI/SLO/SLA: Grafana + Prometheus + алерты на команды в зависимости от их графика дежурства на сервисе и эскалации. Влияние на бизнес-метрики считаем, но пока это больше при написании посмортемов сводим вместе и считаем конечное влияние на бизнес например в потерянных заказах, подведенных клиентах, относительно того когда обещали клиенту доставить заказ, ....
Mysql полностью устраивает для тех задач где используется, кроме наверное того что это не версия 8.x, а 5.7.
Касаемо подготовки по изоляции данных - мы стараемся уйти от зависимости конкретной РСУБД, в новых проектах заставляя организовывать всю логику работы внутри приложения. Но это очень сложно сделать с монолитами.
Касаемо восстановление - дробления нет, восстанавливается все целиком. Есть реплики, где можно снять бэкап приостановив репликацию.
PostgreSQL + Patroni у нас тоже есть, из крупных инсталляций это WMS и CRM, работает так же на мультицод.
Про Rabbitmq: Мы уже успели перейти на Kafka, в статье это не затронуто, так как делалось отдельно от ребят из Фланта
170 разработчиков это суммарно по системам - ERP, WMS, PDM, CRM, сайт, мобильное приложение, 1C, системы отчётности, ценообразование, поиск, логистика, телефония, закупки, ... и это далеко не всё. Получается не так и много на каждый сервис.
За обратную связь спасибо, передал коллегам!
Мы используем его как веб-сервис, взаимодействуя через API
Несколько лет, в качестве локального сервиса/микросервиса, используем https://morpher.ru/
Спасибо за статью, интересно! А какой реальный на данный момент, укладываетесь ли в 30 дней и кто несёт ответственность за этот показатель?