Search
Write a publication
Pull to refresh
186
157.5
Никита Цаплин @ntsaplin

2.3.5 Математическое и программное обеспечение

Send message

Все врут-2: чем закончился детектив про медленные NVMe и невозможность делать RAID

Reading time6 min
Views42K
Напомню: когда мы решили ввести тарифы на VDS на машинах с NVMe-дисками, то очень удивились тому, что они несильно лучше SSD. Второй неожиданностью была практическая невозможность собрать из таких дисков рейд-массив, то есть при вылете диска нужно будет не ребилдить массив прозрачно для пользователя, а выкатывать бекап.

Прозвучала мысль, что мы кривые ламеры и не умеем всё правильно готовить. Альтернативой была гипотеза «все врут».

Прошло полгода. Мы научились всё это готовить, но заодно поняли, что гипотеза «все врут» куда более вероятная.


Тут видно, что RAM подключена к CPU1, а NVME-диски — к CPU2. Это будет критически важно дальше по сюжету.

В общем, сейчас расскажу, чего именно нам стоило ввести нормальные NVMe-тарифы и почему при всём этом очень важно разбираться в архитектуре сервера.
Читать дальше →

Про ЦОД Останкино — тот самый, который вообще без дизеля

Reading time5 min
Views43K


У нас кончилось место на московских площадках, и мы довольно долго выбирали новый ЦОД. Отсмотрели с десяток вариантов и пришли в гости в Останкино. ЦОД, конечно, удивительный.

Во-первых, у него нет и не будет уровня по Uptime Institute, несмотря на то что он фактически соответствует уровню Tier III, потому что это объект Федерального значения России.

Во-вторых, у него нет дизельного питания. Вообще! Есть 4 (четыре, Карл!) независимых ввода питания повышенной надежности. Ну как вы понимаете, поскольку там самое главное телевидение, если бы свет хотя бы моргнул за последние 55 лет, стук «летящих голов» было бы слышно на много сотен километров от Москвы.

В-третьих, охрану осуществляет отдельный батальон Росгвардии. Помните, как в 93-м штурмовали телецентр? Ну так вот, с тех пор там все несколько настороже.

В общем, я просто не могу не рассказать про это место. Но с некоторыми ограничениями, поскольку безопасники не всегда рады публичности некоторых вещей. Фотографии, например, мы делали так: вставали на точку и говорили, что нужно сфотографировать. Дальше приходил их сотрудник и фотографировал. Что-то из архива, чтобы не было видно конкретного оборудования их заказчиков. Где-то вообще нельзя было снимать.
Читать дальше →

Как мы чуть не поседели 3 раза до того, как это стало мейнстримом: кризисы декабря и января

Reading time8 min
Views20K

Я обещал рассказать, что у нас случилось в ЦОДе и хотел дописать всё это к концу февраля. Дальше стало немного не до того, но всё же, раз обещал, рассказываю. Ха, тогда эти проблемы казались нам невероятно огромными.

Сначала в декабре мы потеряли один луч городского питания на ЦОД, а потом почти сразу — второй. И не только мы, поэтому с дизелями отрабатывали впритык. Потом у банка ККБ отозвали лицензию, из-за чего прилегло примерно 10% российской электронной коммерции, потому что кроме Вебмани он обеспечивал очень крупные платёжные шлюзы. И, наконец, у нас был брутфорс на RDP эпических масштабов.

В промежутке между этими историями я ещё неприятно болел, поэтому не мог рассказать сразу. Теперь немного отдышался и могу обстоятельно рассказать про приключения нашего ИТ-бизнеса в России дальше. Они, скажем так, очень расширили мои представления о рисках бизнеса.

Первая кризисная ситуация началась 18 декабря прошлого года достаточно заурядно: несколько серверов взяли и перезапустились. Когда мы начали разбираться, что же случилось, выяснилось, что сгорел «их» ИБП. Почему сгорел ИБП? Потому что был скачок напряжения на подстанции, подающей городское питание. Дальше у нас вообще пропал этот самый ввод, автоматика отработала штатно и перекинула нас на второй луч. Мы сразу же сделали тестовый пуск дизелей. Всё на первый взгляд выглядело довольно рутинно.
Читать дальше →

Ещё эпические фейлы при открытии в Казахстане (почему мы так задержались)

Level of difficultyEasy
Reading time10 min
Views7.5K
ЦОД в Астане, где мы встали

В прошлый раз я рассказал про то, как «учёный изнасиловал журналиста». Кратко: мы выпустили релиз, что встаём в ЦОДы «Транстелекома», «Форбс Казахстан» написал, что мы совместно открываем два ЦОДа, дальше наши «новообретённые» партнёры узнали много нового о себе и своих стратегических партнёрствах и очень удивились. Про эти приключения в прошлом посте.

Это не первый опыт наших эпик фейлов в Казахстане.

Оставалось купить железо, настроить оплаты и заехать в ЦОДы.

Естественно, кое-что пошло не так.
Читать дальше →

Самый длинный простой за нашу историю: я обещал рассказать про аварию

Level of difficultyEasy
Reading time9 min
Views57K
Коротко: 17 июня около часа ночи мы потеряли два ввода питания от города из-за аварии на подстанции, затем — один из дизелей, что вызвало «мигание» питания в подземном дата-центре. Итог инцидента — простой около 12 часов примерно 7–10 % машин одного из 14 наших ЦОДов.

Это просто дикая цепочка событий.

image
Это патрубок дизеля, перевязанный бинтом из админской аптечки. Сейчас расскажу, какую роль он тут сыграл.

Итак, мы потеряли оба городских ввода — всё как в худших домах Парижа. Как мы уже потом узнаем, вроде бы авария была на трансформаторе 110 кВт: при перераспределении мощностей с первого произошло замыкание второго. За полтора года это уже третий раз, когда пропадают оба луча, и вот тут я рассказывал, как мы почти сутки стояли на дизеле. Для клиентов это прошло незаметно (кроме той стойки, где при мигании света сгорел ИБП: там был простой на перезагрузку).

Штатно сработали ИБП, автоматически завелись дизель-генераторы, ЦОД продолжил работу. У нас общая энергосеть с соседним ЦОДом всё в том же подземном бомбоубежище. Общее потребление — 0,5 МВт, дизелей — на 1,05 МВт.

Через два часа, около 3:30 ночи, лопнул патрубок дизеля 0,5 МВт, отчего он внезапно перестал работать. Админы убежища переключили мощности на дизели 2 х 100 КВт и 2 х 200 КВт. В момент переключения нагрузка снова легла на ИБП, а за два часа они не успели восстановиться, и часть оборудования выключилась.

Это запустило целую цепочку последствий, потому что при этом выключении погорела одна из плат коммутатора, обеспечивавшего доступ в нашу сеть управления ЦОДом, то есть все удалённые доступы.

На площадке остались два админа, которым нужно было включить вручную коммутаторы и стойки, починить дизель и понять, что вообще происходит.
Читать дальше →

Отвечаю на вопросы после аварии

Level of difficultyEasy
Reading time10 min
Views35K
image
Мы шутили про эти телефоны, а они пригодились на прошлых выходных. Точнее, пригодилось резервирование телефонии. Не конкретно эти, но похожие)

Вот тут пост про нашу аварию на прошлых выходных. Там всё было по горячим следам, потом я обещал подробнее ответить на вопросы. Отвечаю. Самое главное, пожалуй, что бы я хотел донести, — в комментариях к первому посту было очень много советов, что можно сделать, чтобы избежать такой же аварии. Но большинство из этого мы делать не будем. Потому что это ошибка выжившего: защищаться надо от вероятных рисков, а не от крайне маловероятных, где совпадает сразу пять факторов. Точнее, можно и от них, но есть критерий экономической обоснованности.

Но давайте обо всём по порядку.

— Сколько клиентов пострадало?

— На три часа и более в одном ЦОДе отключилось 7–10 % из 14 наших, то есть менее 0,5 % от общего числа клиентов хостинга (точнее, хостов). Тем не менее мы очень подробно рассказываем про эту аварию, потому что она вызвала очень много вопросов.
Читать дальше →

Почему мы не торопимся применять новые технологии

Level of difficultyEasy
Reading time8 min
Views15K
image

В комментариях к постам про разбор аварии (тут и тут) было развёрнутое обсуждение про новые технологии в ИБП, которые можно внедрить. Коротко — мы не будем внедрять ничего ультрасверхсовременного. Потому что лучшая версия для знакомства с софтом — это 2.4. В случае MS ещё хорошо, когда за цифрами написано что-то вроде SP2. Потому что если пробовать на себе все новые технологии, то это, конечно, дико интересно и прогрессивно, но мешает бизнесу. У нас дефицит свободного времени и рук. Вот, собственно, несколько прикладных историй, почему мы не торопимся нырять в новые технологии.

Пример с новым железом, на котором может строиться вся инфраструктура, думаю, знаком всем, поэтому начну не с него, а с холивара про IPv6 против IPv4.

Протокол v6 невероятно хорош. Его писали думающие люди, он снимает море проблем интернета, он реально крут. Адреса IPv6 практически бесплатные. Они не кончаются. В свою очередь, IPv4 стоят совершенно неприличных уже денег (это вторая статья в себестоимости виртуальной машины после железа), постоянно дорожают — и, что гораздо хуже, не всегда можно взять в аренду нужное их количество. Бывает, что к нам заезжает крупный клиент, мы хотим арендовать ещё 256 адресов v4 — и блок освобождается не через 15 минут, а через несколько дней. То есть нам надо постоянно ковыряться с тем, чтобы они были.

Но при этом IPv6 ещё хуже с точки зрения реального применения. Вообще, я лично не совсем понимаю, кому сейчас он нужен. Многие наши коллеги, кто пользуется, говорят просто: «В РФ v6 нет и не будет в ближайшее время, наверное». А специалисты по ИБ ещё категоричнее: «Я его просто отрубаю от греха подальше».
Читать дальше →

Про космический мусор и другие вещи: истории космонавта

Reading time7 min
Views17K
image
Экипаж отлетает от гориллы, проникшей в американский сегмент МКС (на самом деле — нет, но это не фотошоп)

Орбитальная станция имеет микроатмосферу. Рядом скапливаются газы и частички от прилетающих кораблей, сама станция немного газит из различных сочленений и разъёмов. Но большинство частиц всё же образуется от прилетающих грузовых и пилотируемых кораблей.

Поэтому, например, иллюминаторы загрязняются снаружи, особенно от частиц топлива.

Соответственно, бортинженер «Союзов» ТМА-18 и ТМА-16М Михаил Борисович Корниенко как-то выходил в открытый космос протирать стёкла. Ну, то есть снимать плёнку с иллюминатора, потому что она ухудшала качество обзора.

МКС вообще постоянно уворачивается от разного рода мусора. На Земле есть станции слежения: если крупные куски мусора идут на расчётное сближение, то отреагировать на это можно за сутки.

В плоскости орбиты каждый более-менее крупный объект опознан, поэтому нужно его отследить, рассчитать положение и траекторию, и если она проходит в опасной близости от станции, то включить двигатели и подняться выше: песчинка на скорости 10 километров в секунду может оставить трещину на иллюминаторе.

Самый неприятный случай: однажды американская служба слежения слишком поздно передала, что возможно пересечение с отработанным спутником. Перекрёстные скорости составляли 14 километров в секунду.
Читать дальше →

Стратосферный сброс админов, трещина, срочная эвакуация арктической базы

Reading time8 min
Views12K
image

Кое-что пошло не так, поэтому российскую научную базу пришлось эвакуировать.

2 апреля мы должны были сбросить экспериментальный арктический мини-ЦОД (из одного сервера и двух систем спутниковой связи) на дрейфующую льдину со временной российской полярной базой. Потом — подняться в стратосферу и выпустить орбитального админа, который вместе с двумя напарниками поставит рекорд высотного парашютного прыжка.

Потом мы должны были поднять и подключить ЦОД и провести программу экспериментов, где бы он использовал наш же собственный спутник для связи.

История получилась немного фееричнее, чем мы ждали, потому что льдина, на которой стояла база Барнео (она разворачивается так каждый год и дрейфует несколько недель), треснула прямо по расчищенной взлётно-посадочной полосе. То есть самолёты не могли бы туда приземлиться в принципе. Вероятность новых трещин вынуждала убираться оттуда как можно быстрее.

Но кое-что сделать удалось.

Собственно, начну по порядку.
Читать дальше →

Энергосистемы орбитальной станции — рассказывает космонавт А.И. Лазуткин

Reading time12 min
Views7.1K
image
Источник

На орбитальной станции очень жёсткая энергетическая дисциплина. Генерация только с солнечных панелей, для теневой стороны — аккумуляторы, а потребители — всё вокруг. Поэтому даже пульты светятся только тогда, когда нужна красивая картинка для научпопа. Обычное состояние светодиодов на пультах — если система работает нормально, то диоды выключены. Включаются они для временно включаемых потребителей и по запросу на статус. То есть экономят даже на такой, казалось бы, мелочи.

Ещё для некоторых экспериментов нужно было копить энергию в особом режиме несколько дней.

Но самое неприятное — это когда при столкновении транспорта «Прогресс М-34» с модулем «Спектр» и последующим отсечением модуля для восстановления герметичности станция лишилась 40% генерации. В этот момент началась настоящая энергетическая экономия.

В общем, раз уж мы подписали с Александром Ивановичем Лазуткиным контракт на рекламу и ссылаемся на то, что энергопотребление станции сопоставимо с потреблением нашего ЦОДа, стоит рассказать про детали этого самого потребления. Рассказывает непосредственно Александр Иванович с нашими небольшими пояснениями. Итак, поехали!
Читать дальше →

Авария на М9 в начале июля — я обещал разбор

Reading time6 min
Views30K
image

Возможно, вы ждали, что мы затолкаем этот косяк под ковёр, как и следовало бы сделать обычному хостинг-провайдеру. Но я обещал рассказать подробнее о причинах простоя.

Итак, оператор связи в дата-центре М9 запланировал техработы с 23:00 4 июля до часу ночи 5 июля по Москве. Предварительно — им нужно было обслужить и при необходимости поменять коммутатор уровня ядра плюс провести ещё ряд сопутствующих работ. Обещали до 2 часов без связи. Для нас это считается простоем (несмотря на то, что виртуальные машины работают и некоторые VDS-хостинги не рассматривают ситуацию без отключения сервера как простой) — мы оповестили своих клиентов, чьи ВМ физически были размещены в этом ЦОДе.

Примерно под конец планового времени простоя дата-центр сообщил про продление работ до 06:00 5 июля, то есть ещё на 5 часов. Уведомить об этом продлении в адекватное время мы не успели, потому что в этот момент как раз и закрутилась история.
Читать дальше →

Почему крупный бизнес неэффективен (на нашем примере)

Reading time7 min
Views12K
В любом малом бизнесе есть процесс перешагивания из малого в средний или крупный. Ну или уютная самозанятость для предпенсионера. Например, для малого бизнеса достаточно 1–2–3–4, может, в край, 5 разработчиков. Эти люди могут взять отдельные направления и работать крайне эффективно. Как только их становится больше, начинают появляться внутренние коммуникативные издержки. То есть вклад следующего будет уже не 1/N, а размытым.

При не очень продуманном руководстве, где-то до 20–30 человек, можно и не особо заметить прироста эффективности в плане решения практических задач — и только после этого выйти на рост заново. С другой стороны, начиная примерно от 30 человек у вас появляется полная взаимозаменяемость и стабильность, что на малой команде просто невозможно.

Я сейчас очень упрощаю, конечно, но почувствовать бюрократию вы можете довольно легко и на других объёмах.

Примерно похожие принципы действуют и в других аспектах. Поэтому, с одной стороны, бизнес хочет стать большим, а с другой — по возможности как можно дольше сохранять структуру малого.

image
Читать дальше →

Какие именно админы нужны на российском рынке и как получать больше разработчика

Reading time6 min
Views14K
image
Играет в «черепашку»

Привет, Хабр! В прошлом посте вы неожиданно сильно начали интересоваться тем, какие же именно админы нужны в России. Если коротко, то пока по Долине ходят толпы голодных уволенных девопсов, в России админ может спокойно получать больше разработчика.

Понятное дело — не любой.

Если очень коротко, то есть дефицит железных админов, которые прямо занимаются конфигурацией железа и немного кодят. Немного — это когда железа уже не 10 стоек, а 100 и больше, и нужно обновить конфиги на всём. И потом подключить какие-то мониторинги. И следить за ними, чтобы просыпаться в три ночи из-за экскаваторщика.

Руками этого уже не сделать.

Сейчас я расскажу об общих вещах и конкретно — о практике наших админов. Понятно, что наша практика не очень показательна: из отчёта по крупной аварии может сложиться впечатление, что работа админа — держать руками патрубок дизеля. Но всё же наша практика может быть полезной для оценки рынка. Если вы админ, то, надеюсь, вы тоже поможете дополнить это со своей точки зрения.
Читать дальше →

Почему мы перешли на RAID 10

Reading time7 min
Views39K


Недавно у нас развалился RAID 5. Один диск на первом году своей жизни умер сам от естественных причин. Такое может быть и в период трёхлетней гарантии — нечасто, но может. Мы вынули его, поставили на его место диск из горячего резерва — и во время ребилда в массиве умер второй диск. Данные умерли вместе с ним.

Один из пользователей, чьи данные там были, очень живо интересовался тем, что за конфигурация у нас была. Вплоть до моделей дисков, дат их производства и серийных номеров. Он, вероятно, считал, что там стоит какое-то старьё, и до последнего не верил, что так бывает на новом железе. Потом очень искренне смеялся над фразой, что ни одна схема резервирования RAID не даёт стопроцентной гарантии сохранности данных.

Это правда: ни одна схема резервирования никогда не гарантирует 100 %. Случается всякое. Диски из одной партии могут умереть в один день: у нас такое было только один раз несколько лет тому назад, но было. Разболтавшийся кулер может вызвать резонансные вибрации, которые убьют два массива целиком: такое было больше пяти лет тому назад, и мы долго расследовали ту ситуацию.

Бывает всё.

В России не очень принято выплачивать компенсации за простои и потерю данных. В прошлом году мы поняли, что это важно делать, и включили такие пункты в соглашение.

Это привело к целой цепочке последствий, в частности, к тому, что мы перешли на RAID 10 как на новый для нас стандарт хранения данных.
Читать дальше →

25-й год будет весёлым для ИТ в России

Reading time5 min
Views102K
image

Внезапный Трамп, внезапные китайцы и связанные со всем этим процессы сейчас довольно сильно перекроят ИТ-ландшафт.

Кажется, нас ждёт новая космическая гонка, но на этот раз — за AGI.

Новый взлёт крипты, потому что доллару что-то поплохело, и нужен новый цифровой «доллар».

Интернету — вилы. Штука, которая задумывалась как глобальная Сеть, кажется, окончательно перестаёт быть таковой. Сначала отделилась Северная Корея с Кванмёном, Китай, потом — мы с суверенным Чебурнетом, а сейчас такой же тренд наблюдается в Европе. Потому что Трамп вроде бы конкретно намерен разрывать с ней, и там сейчас будут расти требования к хранению данных у себя. Вероятно, их ждут свой пакет Яровой и ещё пакет с пакетами.
Читать дальше →

От проблем большого геймдева — к соло-разработке и внутреннему миру: беседуем с геймдизайнером Ричардом Levelord Греем

Level of difficultyEasy
Reading time7 min
Views4.8K

Ричард Levelord Грей — известный гейм-дизайнер, один из основателей Ritual Entertainment, активно участвовавший в создании таких легендарных игр, как Duke Nukem, American McGee’s Alice и Serious Sam. В 2019 году мы беседовали с Ричардом о его пути в индустрию и работе над «дюком». Сегодня мы поговорим о более поздних (и нередко скандальных) проектах Ричарда по известным франшизам, о его независимой разработке и о том, как Levelord видит геймдев сегодня.
Читать дальше →

IT-2025: взгляд из прошлого

Level of difficultyEasy
Reading time11 min
Views4.8K
Прошлый год закончился тревожно, на нервах. Многое было непонятно, неопределённо, неуютно. Не скажу, что 2024 был сильно лучше, но всё же на тупиках появились надписи «тупик», на тоннелях — «глубокая нора», для тех, что со светом в конце, стало возможно предсказать, свет тот или ещё этот. Ладно, это всё мрачный юмор матёрых айтишников, привыкших слышать шёпот в шуме серверной и подсказки в верещании оборудования. На самом деле 2024 год вышел довольно приличным хотя бы потому, что мы добрались до его конца и даже готовы предсказать, что будет в 2025. 


Читать дальше →

Блог RUVDS 2024: держим марку

Reading time6 min
Views1.4K
Каждый раз, когда мы видим критику читателей, направленную на блоги компаний на Хабре, мы испытываем горение ж… лёгкое раздражение. На Хабре непросто вести даже посредственный блог, что уж говорить о топовом блоге, который семь лет подряд держит пальму первенства. И речь сейчас даже не об экономике, не о редактуре и не о труде менеджеров. Речь прежде всего о талантливых и продуктивных авторах, которых мы привлекаем для публикации в блог. С нашей точки зрения это однозначный win-win-win: мы удерживаем блог на топовых позициях, читатели получают качественный и проверенный контент, авторы — вознаграждение за свой труд, опыт и талант. При этом мы относимся к авторам бережно: не душим их правками и «особыми» требованиями, не даём ТЗ, не читаем всем колхозом, предъявляя построчно претензии (мы узнавали, таких много). Пользуясь случаем, мы благодарим всех, кто делает с нами наш блог! 

Конец года — отличное время оценить итоги, подсчитать просмотры, вспомнить лучшие статьи, а заодно поделиться некоторыми наблюдениями.

Читать дальше →

Экономика хостера — не, она устроена не так, и зачем действительно мы запускали спутник

Reading time10 min
Views7.5K

Я тут иногда рассказываю про то, как устроен хостинг в блоге VDS-хостинга (знаю, для многих это уже неожиданно), а вы часто спрашиваете, почему у меня волосы на груди окрасились зачем нужны промотарифы за 40 и 130 рублей. И ещё:

  • Зачем хостинг запускает свой спутник.
  • Дидосим ли мы клиентов, чтобы продать им услугу DDoS-защиты.
  • Сколько мы тратим на рекламу.

Волосы на груди у меня окрасились, потому что я пролил на них ракетный окислитель.

  • На рекламу и маркетинг мы тратим 11,21% от общих расходов.
  • Софт — 15,79%.
  • Дата-центры — 11,36%.
  • ФОТ — 10,24%.
  • Железо — 9,62% + кредиты в разных формах на него — 18,97% (я видел отчётность Хетзнера, у них кредитная нагрузка выше).
  • IP-адреса — 5,91%.
  • Налоги — 5,75% (иногда здесь тоже короткий кредит, чтобы не вынимать сумму из оборота).

Возможно, неожиданным для вас будет то, что лицензии на ПО стоят примерно столько же, сколько аренда места в ЦОДах по миру, и что айпишники вообще-то занимают существенную долю затрат хостера.

Сейчас объясню.
Читать дальше →

Готовьтесь к росту цен

Reading time8 min
Views151K
Это был тяжёлый год, был он тяжелей, чем тот.

В этом году Центробанк выставил высокие ставки и фактически перекрыл возможность строить ЦОДы за кредитные деньги. А если что, то дата-центры строятся за колоссальные деньги. То есть исключительно на кредиты — с тем, чтобы потом продавать их мощности и постепенно отбивать кредитные деньги. То же самое происходит в других областях бизнеса, и почти везде практическая невозможность взять кредит означает стагнацию многих направлений бизнеса. За ипотеку же вообще можно слетать в космос!

Почему нельзя взять кредит? Потому что почти нет такого бизнеса, который даст денег больше, чем если просто положить их на счёт в банк. Правда, банкам я бы тоже не стал доверять на 100 % даже в случае депозитов, но это уже другая история.

А дефицит стойко-мест растёт. Уже в прошлые годы всё, что строилось, на 80 % раскупалось ещё на стадии строительства. То есть речь идёт даже не про текущие свободные стойки, а про предзаказы на то, что будет готово только в следующем году.

Цена размещения стойки уже выросла на 9–21 % в зависимости от колокации в России.

Кстати, познакомьтесь со звездой рынка — киргизскими серверами:

imageЭто экспорт из Германии в Кыргызстан. Примерно такие же графики — по Польше, Австрии, Италии и т. п.
Читать дальше →

Information

Rating
55-th
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity