Pull to refresh

Отказоустойчивость систем на базе HP Storageworks P4xxx без третьего дата центра

Information Security *System Analysis and Design *

Предыстория

Года два назад, руководство решило вложиться в проект виртуализации нашего датацентра. Задача стояла достаточно простая, около 50 серверов, в основном Windows, пара линукс машин, ничего нестандартного. Датацентр хоть и небольшой но очень гордый важный, являемся европейской штаб-квартирой крупной организации – хостим сервисы для 30 стран (Европа+СНГ). Два датацентра, связь надежная и дублированная, по определенным причинам выбрали связку VMWare ESXi (4 затем 5) и HP Lefthand P4000(первый транш) и P4500 (второй транш). Причины чисто субъективные, VMWare и HP являются стратегическими партнерами и т.д.
Читать дальше →
Total votes 8: ↑6 and ↓2 +4
Views 4.2K
Comments 1

Настойка можжевельника: готовим Juniper SRX. Часть 1

Nexign corporate blog
juniper — можжевельник (англ.)

Намедни в мои цепкие лапы попали два Juniper SRX 550. Попали не просто так, а для организации надежного ipsec и NAT-шлюза, а также OSPF-роутера. Ну а так как главное для нас — надежность, то именно с нее и начнем.

Для того, чтобы обеспечить отказоустойчивость сервисов, критично важные узлы обычно дублируют. Для ЦОДов это уже практически стандарт — N+N или хотя бы N+1. При этом устройства могут работать как независимо друг от друга, так и в кластере. Для обоих типов есть свои плюсы и минусы, но если нужен не просто роутинг/свитчинг, но нечто более «интеллектуальное» (например, те же NAT или IPSec), то без кластера тут точно не обойтись. Так что при плановом апгрейде в качестве замены Cisco 7201 рассматривались именно роутеры, способные работать в кластере. В связи с этим ASR 1k отправился лесом (как и ISR), ASA не рассматривалась (потому как готовить ее не умею), а VSS из Cat6503 — это уж слишком жирно и в плане цены, и в плане съедаемой электроэнергии.

Герой нашего рассказа. (Здесь и далее — картинки с официального сайта Juniper)
Читать дальше →
Total votes 11: ↑8 and ↓3 +5
Views 29K
Comments 28

HighLoad++, Евгений Кузовлев (EcommPay IT): что делать, когда минута простоя стоит $100000

ua-hosting.company corporate blog Hosting IT Infrastructure *Big Data *Conferences
Все рассказывают про процессы разработки и тестирования, обучения персонала, повышение мотивации, но этих процессов мало, когда минута простоя сервиса стоит космических денег. Что делать, когда вы проводите финансовые транзакции под жесткий SLA? Как повысить надежность и отказоустойчивость ваших систем, вынося за скобки разработку и тестирование?



Следующая конференция HighLoad++ пройдет 6 и 7 апреля 2020 года в Санкт-Петербурге. Подробности и билеты по ссылке. 9 ноября, 18:00. HighLoad++ Moscow 2018, зал «Дели + Калькутта». Тезисы и презентация.
Total votes 31: ↑30 and ↓1 +29
Views 16K
Comments 12

Kafka как хранилище данных: реальный пример от Twitter

Издательский дом «Питер» corporate blog Data recovery *Apache *Big Data *Professional literature *
Translation
Привет, Хабр!

Нас давно занимала тема использования Apache Kafka в качестве хранилища данных, рассмотренная с теоретической точки зрения, например, здесь. Тем интереснее предложить вашему вниманию перевод материала из блога Twitter (оригинал — декабрь 2020), в котором описан нетрадиционный вариант использования Kafka в качестве базы данных для обработки и воспроизведения событий. Надеемся, статья будет интересна и натолкнет вас на свежие мысли и решения при работе с Kafka.
Читать дальше →
Total votes 14: ↑14 and ↓0 +14
Views 9.2K
Comments 0

4 часа и ни минутой больше: тактика и стратегия Uptime

Lamoda corporate blog Information Security *IT Infrastructure *Network technologies *Systems engineering *

Привет, я Владислав Алмазов, директор по сопровождению информационных технологий (IT Operations) в Lamoda. Одно из направлений, за которое я отвечаю — uptime. Это количественный показатель непрерывной работы нашей платформы.


Дать возможность клиенту найти товар в каталоге, положить его в корзину, выбрать способ доставки, рассчитать скидки и оплатить — все это значит «оформить заказ». Одноименная кнопка доступна на сайте 99,95% времени в году. Оставшиеся 0,05% — это 4 часа в год, которые клиенты не замечают. Эта метрика отражает основное бизнес-требование к непрерывности самых критичных IT-систем. Час простоя для Lamoda — это потери десятков миллионов рублей.


По итогам прошлого года мы превысили план и наш uptime составил 99,96%. Дальше я расскажу, за счет чего это удалось.


Читать дальше →
Total votes 13: ↑13 and ↓0 +13
Views 4K
Comments 10

Systematic coding and digital signature

Cryptography *Perfect code *
Tutorial

Once the Teacher asked the Author:

Are there methods of redundancy introducing at an informational level, other than those that are studied by the theory of error-correcting codes? Emphasizing that he is talking about information redundancy, the Teacher thus made it clear that the question does not imply various ways of energy redundancy introducing, which are well studied in communication theory. After all, the noise immunity of information transmission is traditionally assessed by means of a threshold value that is calculated as the ratio of signal energy to noise energy. It is known that the methods of the theory of error-correcting codes offer an alternative solution, allowing energy saving.

After a cogitative pause, the Author answered in the affirmative, following intuition rather than rational knowledge. Upon hearing the answer, the Teacher noticed that this is a wrong conclusion and there are no such methods.

However, over time, the Author began to suspect that the immutability of the paradigm formulated above could be questioned.

Read more
Rating 0
Views 2.1K
Comments 0