Как мы обеспечили 99.7% аптайм на платформе с миллионами запросов в день: опыт разработки для закрытой БК

Medium

4 min

1.4K

DevOps*Information Security*High performance*Microservices*System administration*

Case

Проектирование и поддержка высоконагруженной платформы для букмекерской конторы almsports.net потребовало особого подхода к обеспечению стабильности, отказоустойчивости и производительности. Мы, как команда разработчиков, ставили перед собой цель обеспечить не только стабильную работу, но и гибкость для масштабирования, отвечая на растущий трафик. В этом посте я поделюсь опытом того, как с использованием DevOps практик и CI/CD процессов мы смогли достичь 99.99% аптайма и эффективно обслуживать миллионы запросов в день на платформе almsports.

1. Построение непрерывной интеграции и развертывания (CI/CD)

Процесс разработки был построен с учетом концепции Continuous Integration (CI) и Continuous Deployment (CD), что позволило минимизировать риски ошибок при развертывании новых функций и ускорить процесс доставки.

Инструменты: Мы использовали GitLab CI для автоматизации пайплайнов, где каждый коммит автоматически запускал линты, юнит-тесты и интеграционные тесты. Для тестирования использовали Jest, Mocha и Cypress.
Blue/Green Deployment: Для минимизации простоя и гарантии того, что новая версия приложения не приведет к ошибкам, использовался метод blue-green deployment. Это позволило иметь две идентичные среды, одну из которых мы обновляли, а вторую оставляли рабочей.
Docker: Контейнеризация с помощью Docker позволила изолировать окружения и убедиться, что приложение будет работать одинаково везде, будь то на локальных машинах или в облаке.

2. Мониторинг, алерты и обработка ошибок

Для обеспечения высокой доступности и минимизации возможных сбоев важно было не только вовремя реагировать на проблемы, но и предотвратить их. Поэтому мы построили эффективную систему мониторинга и алертов.

Prometheus + Grafana: Все микросервисы были интегрированы с Prometheus, что позволило нам собирать метрики о производительности и нагрузке. Графики на Grafana показывали ключевые показатели: время отклика, использование памяти, количество запросов в секунду. Также мониторинг включал специфические показатели для almsports, такие как успешные ставки, отказы в обработке запросов и другие важные данные.
Alertmanager: Используя Alertmanager, мы настроили систему уведомлений для различных команд (операторов, разработчиков и администраторов). В случае сбоев или превышения пороговых значений по меткам, система отправляла уведомления в Slack, email и другие каналы связи.
Ошибки и ретраи: Использование Sentry для отслеживания исключений позволило быстро реагировать на ошибки на продакшн-окружении. Все исключения с ошибками фиксировались и ретраялись через механизм обработки с использованием Retry-Pattern.

3. Горизонтальное масштабирование и балансировка нагрузки

Нагрузка на платформу может значительно колебаться, особенно в пиковые моменты. Для обеспечения стабильности мы настроили горизонтальное масштабирование и балансировку нагрузки.

Kubernetes: Использование Kubernetes позволило нам настроить автоматическое масштабирование контейнеров. Мы использовали Horizontal Pod Autoscaler, который динамически увеличивает или уменьшает количество экземпляров приложения в зависимости от нагрузки. Это позволило эффективно реагировать на рост трафика, поддерживая стабильную работу системы.
Ingress Controllers и Load Balancer: Для распределения нагрузки между подами мы использовали NGINX Ingress Controller, который действовал как балансировщик нагрузки. Это обеспечивало правильное распределение трафика и минимизацию задержек.
Caching: Для ускорения отклика использовались распределенные кеши через Redis. Это значительно снизило нагрузку на базу данных и уменьшило количество запросов на сервер.

4. Облачная инфраструктура и отказоустойчивость

Платформа была развернута в облачной инфраструктуре, что дало нам возможность легко масштабировать ресурсы в ответ на растущие запросы и повышать отказоустойчивость системы.

AWS + Azure: Использование гибридного облака позволило эффективно распределять нагрузку между несколькими облачными провайдерами (AWS и Azure), минимизируя риски сбоев в случае проблем с одним из провайдеров.
Сетевые изоляции: Для предотвращения DDoS атак мы использовали Cloudflare для фильтрации трафика и защиты от нежелательных запросов.
Резервное копирование: Все данные на платформе almsports регулярно бэкапились с использованием AWS S3 с автоматическими снепшотами баз данных, что обеспечивало быстрое восстановление в случае потери данных.

5. Плавные обновления и управление версиями

Canary Releases: Мы использовали метод Canary Releases для постепенного развертывания новых версий. Это позволило нам наблюдать за поведением новых функций на малом проценте пользователей, прежде чем они попадали на всех.
API Versioning: Для обеспечения совместимости с клиентскими приложениями мы внедрили версионирование API. Это помогло избежать поломок в работе с уже интегрированными системами и дало возможность вносить изменения без остановки всей системы.

6. Обеспечение безопасности

Для защиты данных пользователей и минимизации рисков утечек использовались следующие меры безопасности:

TLS/SSL: Вся платформа использовала шифрование с помощью SSL/TLS для защиты данных, передаваемых между клиентами и серверами.
JWT и OAuth: Для аутентификации пользователей был настроен механизм с использованием JWT и OAuth 2.0, что позволяло обеспечивать безопасный доступ без необходимости часто вводить пароль.

Заключение

Используя эффективную архитектуру с облачными технологиями, автоматизацией развертываний и средствами мониторинга, нам удалось добиться стабильности работы на уровне 99.99% аптайма, несмотря на большие объемы трафика. Гибкость в масштабировании, отказоустойчивость и скорость развертывания обеспечили высокую производительность и безопасность для пользователей almsports. Этот опыт стал важным шагом в улучшении процессов DevOps и CI/CD в высоконагруженных системах.

Hubs: