Pull to refresh

Крупные проблемы у AWS в сегменте US East

Amazon Web Services *Cloud services
Вечером в среду 25-го ноября пользователи us-east-1 сегмента AWS начали жаловаться на ошибки и медленную работу сервисов — приведшие к ограниченной доступности магазина Amazon и многих других ведущих сайтов.

По информации AWS — первым «упал» сервис Kinesis Data Streams, потянув за собой все остальное:
ACM, Amplify Console, API Gateway, AppStream2, AppSync, Athena, CloudFormation, CloudTrail, CloudWatch, Cognito, Connect, DynamoDB, EventBridge, IoT Services, Lambda, LEX, Managed Blockchain, Resource Groups, SageMaker, Support Console и Workspaces.

Сервис CloudFront работает с повышенной нагрузкой по всему миру (вероятно из-за переконфигурации пользовательских систем на резервные).

К сожалению, сбой в Kinesis Data Streams повлиял и на работу дэшборда AWS — и информация там сейчас появляется в ручном режиме.
Total votes 8: ↑8 and ↓0 +8
Views 5.3K
Comments 6

Митап для инженеров: маршрутизация и резервирование в L2-сетях

Selectel corporate blog Backup *Network hardware

Привет, Хабр!

15 декабря мы собираемся компанией инженеров. Поговорим про технологии и кейсы резервирования. 

Тема митапа: «Сети L2: маршрутизация и резервное копирование». 

Обсудим особенности оборудования, практик и способов резервирования. Разберем реальные кейсы, ответим на вопросы и обменяемся опытом.  

Можно прийти в наш офис в Санкт-Петербурге или посмотреть трансляцию.

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 966
Comments 4

Аналог Time Machine для Windows

Website development *
Time Machine Каждый из нас иногда теряет информацию. По своей ошибке (дрогнувшая рука, не вовремя нажатые клавиши CTRL+S), либо по неудачному стечению обстоятельств (выбило пробки, завис компьютер). Иногда речь идет о пустяках. Бывает, что приходится заново выполнять работу. В худшем же случае, ценная информация оказывается безвозвратно утеряна.

Все мы знаем, что необходимо периодически делать бэкапы. Знаем, но не делаем. А если и делаем, то, по закону подлости, когда надо, копия месячной давности — это лучшее, что удается найти. А ведь случается и так, что утерянный файл было создан всего лишь пару часов назад.
Когда я не мог определиться с темой диплома, один знакомый рассказал мне про TimeMachine от Apple и предложил сделать аналог для Windows. Непрерывная защита данных – это то, о чем я всегда подсознательно мечтал.
Читать дальше →
Total votes 131: ↑127 and ↓4 +123
Views 22K
Comments 110

Что сделать, чтобы фокусы всяких Макхостов были не страшны?

Lumber room
Прелюдия всем известна. Макхост повел себя нехорошо, Оверсан, Космические технологии и Хостинг Комьюнити долго что-то терли и торговались, но сейчас все работает. Хочется верить, что будет работать и впредь, и может даже без смены ip-адресов, цен и других условий.

А если не будет? Один хостер, один ДЦ, одна площадка для колокейшена все равно имеют пусть ничтожную, но вероятность падения. Что делать?
Читать дальше →
Total votes 61: ↑40 and ↓21 +19
Views 311
Comments 92

«Неваляшка», или как сделать так, чтобы эксплуатация call-центра исключала возможные перерывы в его работе

Телефонные Системы Oktell corporate blog
Работа справочной службы (call-центра) предполагает обработку вызовов 24 часа в сутки, 7 дней в неделю, 365 дней в году, иными словами круглосуточно и непрерывно. Это требование является весьма желательным для call-центров, оказывающих коммерческие услуги. Но есть ряд call-центров, для которых это условие является обязательным. Такими call-центрами являются службы «09» или службы экстренного реагирования «01»–«04» и «112». Несмотря на заверения поставщиков платформ call-центра о высокой надежности и безотказности системы, все равно случается, что случаются такие ситуации, когда программно-аппаратный комплекс дает сбой. И обработка поступающих в call-центр вызовов становится невозможной. Связано ли это падение с проблемами программного обеспечения или с проблемами аппаратной составляющей уже не важно, поскольку перерыв в обслуживании вызовов уже сам по себе критичен.

Не все платформы call-центра предполагают возможность полного «горячего» резервирования, а во многих платформах, предполагающих полное «горячее» резервирование, бюджет на него сравним с покупкой второго такого call-центра.

Так как сделать так, чтобы зарезервировать мощности call-центра даже в том случае, если архитектура call-центра не позволяет делать «горячее» резервирование или оптимизировать свои затраты на организацию схемы резервирования. Оговорюсь сразу, такое решение в основном ориентировано на большие call-центры, хотя в ряде случаев, оно может быть полезно и для небольшого количества операторов тоже.

image
Читать дальше →
Total votes 4: ↑4 and ↓0 +4
Views 8K
Comments 2

Что дает серверам 10-гигабитный Ethernet?

Hewlett Packard Enterprise corporate blog
На фоне бурного развития интернет-технологий, быстрой смены поколений сотовой связи и всестороннего прогресса в разных областях, технологии высокоскоростной передачи данных по медным проводам в последние годы демонстрировали удручающий консерватизм. Пропускная полоса в 10 и более гигабит в секунду достигнута технологически уже давно, однако 10-гигабитный Ethernet, как логическое развитие наиболее массовой сегодня технологии, до сих пор во многом остается экзотикой, недоступной массовому пользователю. Но, вполне вероятно, что ситуация серьезно изменится уже в ближайшем будущем. В рамках развития своей линейки телекоммуникационных продуктов HP делает ставку на технологию 10-гигабитного Ethernet, что обещает сделать скоростную передачу данных гораздо «ближе к народу».

10-гигабитный Ethernet представляет собой отличную технологию, лежащую в основе гетерогенных и конвергентных сетей в дата-центре. Как и предшественница, она отлично подходит для протокола IP, и самых привычных приложений – передачи веб-данных, организации электронной почты, управления устройствами, IP-телефонии и видео по запросу. Немаловажна и полноценная поддержка серверного протокола iSCSI для организации взаимодействия между серверами, системами хранения данных и клиентами. Теперь на более высокой скорости.

Ключевые характеристики любой современной сети – скорость передачи данных и низкий уровень задержек. Это то, чего хотят клиенты, операторы, администраторы и вообще все те, кто работает с сетями. 10-гигабитный Ethernet обладает обеими характеристиками, одновременно предоставляя широкие возможности для резервирования и конвергенции трафика.

Дело в том, что в большинстве уже существующих сетевых архитектур используются различные типы сетевых протоколов для передачи различных видов трафика. Различные типы сетевых протоколов и межуровневых соединений усложняют процесс эксплуатации сетей и многократно увеличивают вероятность возникновения ошибок, особенно если пытаться увязать их воедино. Именно поэтому Ассоциацией стандартов международного института инженеров электротехники и радиоэлектроники (IEEE-SA) при разработке 10-гигабитного Ethernet заранее учитывался тот факт, что технология будет использоваться для объединения локальных (LAN), городских (MAN), распределенных (WAN) и региональных (RAN) сетей. Важным компонентом здесь является возможность использовать уже существующую инфраструктуру Ethernet в процессе плавного перехода на более новую технологию.

Каковы факторы влияния на новые технологии передачи данных сегодня?

Прежде всего это потребность в агрегации межуровневых соединений с целью снижения затрат, требования к пропускной способности, растущие вместе с производительностью многоядерных процессоров, чувствительные к скорости передачи данных приложения, такие как видео по запросу, резервное и сетевое хранение данных. Кроме того, к списку добавляются кластерные вычисления, идущие рука об руку с финансовым сектором и быстрый рост консолидации вычислительных ресурсов, подстегиваемый совершенствованием софта для виртуализации и необходимостью в большем количестве сетевых портов. Все это, по большому счету, и есть причины для перехода на 10-гигабитный Ethernet, потому что технология создавалась и работает с прямым ориентиром на удовлетворение именно таких запросов. О надежности работы тоже не забыли – 10-гигабитный Ethernet работает только в полнодуплексном режиме, поддерживая функциональность качества обслуживания трафика (QoS) и соответствующие механизмы выделения необходимой полосы пропускания.
Читать дальше →
Total votes 30: ↑25 and ↓5 +20
Views 34K
Comments 46

shared hotspare для mdadm

Configuring Linux *
(сомневался сюда писать или в системное администрирование)

Я обнаружил, что в интернете очень мало (и не очень внятно) объяснено, как mdadm работает с общими (глобальными) дисками горячей подмены. В заметке я опишу, что это такое, и объясню, почему shared hotspare не отмечены в /proc/mdstat как общие, а вместо этого выглядят как вполне себе локальные.

Что такое hot-spare?


(Я пишу не для новичков, так что галопом по европам)
Если массив обладает избыточностью и один из его дисков вышел из строя, то существует возможность восстановить избыточную информацию на резервный диск. Если диск добавляется в массив руками (админу пришло письмо о сбое, он прочитал письмо, проснулся/оделся, приехал на работу, вынул сбойный диск, вставил запасной, добавил его в массив, дал команду на восстановление избыточности), то такой диск называется cold-spare. Просто «запасной диск».

Если же в сервере есть простаивающий диск, на который осуществляется восстановление избыточности сразу после сбоя любого из дисков массива, то такой диск называется hot-spare. Главное достоинство — оно отребилдится (восстановит избыточность) даже если админ письмо прозевал или не успел вовремя приехать.

Локальные hot-spare

Читать дальше →
Total votes 71: ↑67 and ↓4 +63
Views 12K
Comments 28

VRRP в Linux

Configuring Linux *
Sandbox
У одного молодого развивающегося провайдера на заре становления организации доступа для физ. лиц была принята следующая архитектура для сети:
  • IPoE
  • привязка порт-ip
  • выдача адресов по DHCP (опция 82)
  • маршрутизирующий сервер на Linux (CentOS)

По мере роста абонентской базы все проблемы из первых трех пунктов решались успешно. А с последним прогнозировались небольшие проблемы:
Читать дальше →
Total votes 43: ↑41 and ↓2 +39
Views 30K
Comments 40

Вебинар по Mirroring в Caché и Ensemble: High Availability и резервирное копирование

InterSystems corporate blog
Уважаемые дамы и господа IT-специалисты!
В СУБД Caché и интеграционной платформе Ensemble есть полезная технология Mirroring, позволяющая создавать High Availability решения или систему резервного копирования для данных в Caché или Ensemble.
10 июля 2012 компания InterSystems проводит вебинар на тему:
Caché/Ensemble Mirroring — от распределенной системы резервирования до High Availability.
О чем вебинар?
Total votes 1: ↑0 and ↓1 -1
Views 1.4K
Comments 2

InterSystems Database Mirroring. Создание и тестирование зеркала. Часть 1

InterSystems corporate blog

О технологии


Caché Database Mirroring появилась в продуктах InterSystems Caché и Ensemble в 2010 году.
Технология позволяет снабдить информационные системы(ИС), построенные на Caché и Ensemble, опцией FAILOVER — возможностью преодоления некоторых неисправных состояний СУБД, операционной системы или аппаратного обеспечения.
Для чего информационной системе необходим failover — вопрос давно изученный, но в двух словах failover позволяет минимизировать время простоя пользователей в случае неисправностей, приводящих к отказу обслуживания сервера с информационной системой.
Читать дальше →
Total votes 2: ↑2 and ↓0 +2
Views 3.4K
Comments 0

Правильный бэкап в ЦОДе

КРОК corporate blog

EMC Avamar в ЦОД КРОК

Вот этот здоровенный шкаф из нескольких серверов называется EMC Avamar. Он стоит у нас в дата-центре, занимается резервным копированием, и делает это очень интересно.

Что внутри шкафа?


Технологически – это блок x86-серверов, сейчас их 10 штук. Архитектура следующая: есть запасной узел и узел управления, а на остальные 8 пишутся данные. Учитывая избыточность (принцип кода Хэмминга, равномерное распределение RAIN – Redundant Array of Independent Nodes), при выходе из строя любого из узлов, данные сохраняются. Запасной узел в этот момент заменяет убитый. Итого в системе непосредственно используется только 50% каждого узла — резервный узел, узел четности и вторая половина уходит на нужды обеспечения сохранности данных. Физическая ёмкость массива 200 Тб превращается в 62,5 Тб.
Читать дальше →
Total votes 28: ↑21 and ↓7 +14
Views 33K
Comments 27

Законы Мерфи в IT

System administration *IT Infrastructure *Network technologies *
Translation
Не так давно мне довелось беседовать с разработчиком, не понимавшим, почему полностью резервированная связь между ЦОДами не может гарантировать 100% доступность сервиса.
Читать дальше →
Total votes 86: ↑81 and ↓5 +76
Views 48K
Comments 82

Реализация резервирования сервера Asterisk

Asterisk *Development of communication systems *
Одним из главных критериев при выборе новой АТС это надежность, отказоустойчивость и возможность резервирования системы. Маленьким и средним компаниям обычно хватает простого бэкапа с возможностью восстановиться в течение 24 часов, в то время как для больших компании это очень критично и не может быть и речи о простое телефонной связи. На это обычно компания тратят много ресурсов и денег. С появлением R800 и R850 от компании DIGIUM, asterisk становится действительно надежной системой с полноценным резервированием PSTN линий Е1/T1/BRI и FXO. Под катом подробности установки и настройки двух серверов Asterisk и R850.
Читать дальше →
Total votes 13: ↑12 and ↓1 +11
Views 31K
Comments 12

Планирование архитектуры проекта

Selectel corporate blog Website development *System Analysis and Design *
Планирование архитектуры проекта

Необходимость планирования


Думаю, что не ошибусь, если скажу, что соблазн переложить все свои риски на плечи сервис-провайдера, совсем забывая о собственной архитектуре проекта, всегда очень велик. Развернуть всё на одном сервере, сэкономить на инфраструктуре, потратить сэкономленный бюджет на раскрутку проекта — всё это работает до того, как проект становится посещаемым.
Читать дальше →
Total votes 32: ↑14 and ↓18 -4
Views 10K
Comments 4

Риски ЦОД: резервирование инженерных систем

Группа Компаний ХОСТ corporate blog
Recovery mode
Начинать чинить надо, пока не сломалось — сломанное поддаётся ремонту гораздо неохотней.
Юрий Татаркин

После того как обеспечены надежные стены и крыша над головой для ЦОД (статья «Риски ЦОД: выбираем месторасположение»), следующим шагом на пути обеспечения его отказоустойчивости должно стать резервирование инженерных систем. Строя дата-центры более 10 лет, мы убедились, что не все заказчики в полной мере осознают важность дублирования основных коммуникаций. Космические корабли и те падают, а оборудование в ЦОД в идеале должно работать 365 дней в году и 24 часа в сутки. Любая вышедшая из строя или нуждающаяся в профилактике деталь должна быть заменена без остановки работы всех критичных сервисов.

Как справедливо отметили наши читатели, далеко не всем компаниям нужен надежный ЦОД. Для некоторых его бесперебойная работа не предмет переживаний, а многие предпочтут хранить свои данные в публичном облаке. Данный паблик предназначен в большей степени для тех, кто по тем или иным соображениям безопасности или проходимости каналов связи сделал свой выбор в пользу собственного дата-центра и работы сервисов с уровнем доступности не менее трех девяток (простоя не более 1,6 часов в год).

Читать дальше →
Total votes 11: ↑11 and ↓0 +11
Views 24K
Comments 2

А у вас есть бэкап-план?

Programming *System Analysis and Design *
Нет-нет, статья не про план резервного копирования. Статья про план «Б».
Поддавшись массовой истерии, решил я перейти в НПФ. (Нет! Статья не про НПФ!)
Почитал обзоры и рейтинги, выяснил, что разные источники без зазрения совести публикуют разную доходность по одним и тем же НПФ (опять отвлекаюсь)… и решил перевести в ХХХ24 (нет смысла обсуждать).

Прихожу в отделение, сижу с талончиком 1 час (один час) в очереди из трех человек, наконец попадаю на приём и выясняю, что «у нас сегодня система висит и почти не работает». (Вот! Вот про это статья.)
Ну что ж, я понимаю, бывает.
Через два дня, в эту пятницу, я прихожу в другое отделение ХХХ24 и уже совершенно без очереди узнаю, что у них тоже система «висит и не работает». И нет, без системы они не могут принять заявление.
— Как же так? — говорю — Все отделения что-ли не работают?
— Вот в понедельник ещё всё работало нормально. Вы приходите на следующей неделе.
Я даже на минуту задумался, когда у меня на следующей неделе будет возможность уйти с работы, чтобы прийти в банк, но тут же меня осенило:
— Нельзя в такой банк переводить свои деньги!

Нет, это не реакция капризного ребенка. Да, системы, бывает, глючат. Но как себя ведет этой ситуации банк и НПФ? А никак. Они ничего не делают. У них нет плана «Б».
Как раз в те дни, когда всплеск активности переводов в НПФ.
А ведь это не мгновенные переводы, тут система вообще не нужна. Им достаточно принять от меня заявление с подписью, с правильно заполненными реквизитами, с бесполезной ксерокопией паспорта и СНИЛС-а, чтобы потом отослать его в пенсионный фонд и завести в систему.
То есть, где-то в банке сидит большой человек, ответственный за НПФ, получающий бонусы за его успешность, но ему пофигу, что клиенты несколько дней не могут написать заявления.
А ведь мог бы построить всех, разослать хоть по электронке, хоть курьером инструкции по приему заявлений в бумажном виде, отправил бы бланки для заполнения и процедуру, как их потом вводить при восстановлении работоспособности. Понятно, не сам, через подчиненных. Но он не делает этого.
Могу я быть уверенным, что когда нужно будет быстро отреагировать на изменения на рынке и перевести мои инвестиции из одних финансовых инструментов в другие, этот банк сможет быть эффективным?
Нет. Я не уверен.
Читать дальше про план Б
Total votes 99: ↑91 and ↓8 +83
Views 31K
Comments 73

Как умирает техника? Элементы теории надёжности

ua-hosting.company corporate blog
Некоторые люди, которые интересуются нашими услугами, задают вопрос: «Серверы, которые вы предоставляете, новые или б/у?» Именно этот вопрос побудил нас немного углубиться в теорию надёжности и рассказать, чем не совсем новый сервер лучше совсем нового, а также какой смысл надписи «Срок службы» в документации к Вашему холодильнику, почему и из каких соображений нужно заранее думать о замене рабочего ноута и некоторые другие интересные вещи.


Читать дальше →
Total votes 56: ↑52 and ↓4 +48
Views 54K
Comments 53

О чём стоит помнить при выборе облака для резервирования

ua-hosting.company corporate blog
В век информационных технологий появляется всё больше компаний, для которых данные — их хлеб. Потерять данные для них значит потерять всё. Известны случаи, когда предприниматели и небольшие компании разорялись из-за неверно организованного подхода к резервному копированию. Именно поэтому мы рассказывали и продолжаем рассказывать как нашим пользователям, так и всему сообществу читателей о важности бэкапов и правильного подхода к их созданию и хранению. Сегодня мы хотим немного взглянуть на такой замечательный инструмент резервирования, как облачные технологии, и представить Вашему вниманию несколько достаточно очевидных, но порой забываемых рекомендаций по выбору лучшего облака для Ваших данных и его использованию.

image
Читать дальше →
Total votes 13: ↑9 and ↓4 +5
Views 12K
Comments 8

Гроза, молния и средства защиты электросети своими силами

DIY
По итогам майских гроз пришлось провести ревизию сгоревшего оборудования и хотя ущерб был не так велик материально, но выход из строя некоторого оборудования нарушил устоявшийся комфорт проживания в собственном доме. Так я решил обратиться к специалистам в своей области, проконсультироваться и расширить систему защиты.

Исходные данные: дом, 3 фазы (15 кВт на дом), заземление штырем в 3 м длиной, автономная электросистема на базе солнечных батарей



Читать дальше →
Total votes 45: ↑43 and ↓2 +41
Views 79K
Comments 64

Компания Delta потеряла $150 млн из-за желания производителя аварийных генераторов для ЦОД

King Servers corporate blog IT Infrastructure *Network technologies *Server Administration *
Recovery mode


В прошлом году авиакомпания Delta потеряла более $150 млн. Причина убытков — сбой в работе дата-центра Delta, о чем мы в свое время писали. Речь о компании Delta Air Lines, многие тысячи пассажиров которой не смогли никуда улететь из-за сбоя в ДЦ, расположенном в Атланте, США. Как и у практически любой компании, в дата-центрах Delta Air Lines есть дублирующие системы, которые начинают работать, если что-то идет не так. В резервные системы были вложены десятки миллионов долларов США, но в нужное время они просто не сработали должным образом.
Читать дальше →
Total votes 34: ↑29 and ↓5 +24
Views 12K
Comments 62