Как стать автором
Обновить
Со стороны кажется, что новый дата-центр, построенный с нуля за полгода — это тривиальный проект. Но, во-первых, в дело вкрались всем известные события 2020-го. А во-вторых, Утконос ОНЛАЙН не нужен был просто дата-центр; им нужно было решение, на котором можно основать будущее компании. Эта статья о том, как мы создавали такое решение и почему в процессе создания вдруг почувствовали себя настоящими зодчими.
Читать далее
Всего голосов 25: ↑25 и ↓0 +25
Просмотры 17K
Комментарии 41

Комментарии 41

Большое спасибо! Будем готовить новые интересные проекты

САП, согласно историческим данным, мог обработать в штатном режиме до 12 тысяч заказов за день. Новая WMS, по нашим оценкам, легко справится с 40–50 тысячами.

Не уловил, зачем индивидуальный ЦОД для такой нагрузки?

Неплохая идея, попробуем проработать на следующем проекте!)

Ну не всё же сайтики на joomla в этом мире :-)

Зачем огромные ЦОД OZON'у и X5?

Так это ж микроЦОД :) всего на 100 кв.м.

Все же к "микроЦодам" внутри нас принято относить отдельные стойки с нагрузкой до 10 кВт. Как раз 32 подобных узла мы установили на территории помимо основного ЦОД.

Тоже сразу такой вопрос возник. Это же смешная нагрузка совершенно, с которой одна стоечка справится в клодовке. А тут ЦОД будто под скейлинг до уровня какого-нить озона.

К сожалению, одна стойка не справится с нагрузкой в 100 кВт, ввиду того, что будет необходимо отвести достаточно большое количество тепла. К тому же одна стойка не выдержит заявленное количество оборудования по весу и объему.

Я о другом. Заявленная нагрузка, по идее, должна уместиться в куда более скромные железные ресурсы. Конкретно, я предполагаю, что хватило бы и одной стойки небольшой. 12тыс заказов в день это смех просто, если конечно все более менее написано. С учетом указанного стека конечно не удивлюсь, что там столько оверхеда, что и требуется целый ЦОД.

Это сделано с прицелом на перспективу, т.к. в будущем к дата-центру подключатся другие сервисы и отделы компании. Здесь будут работать службы распознавания лиц и видеоаналитики, храниться архивные видео и т.д.

Интересная статься, спасибо.

Почему не одно из трёх облаков? Сложили всё в одну корзину, особенно с "прицелом на перспективу".

На какой срок закладывали смену оборудования три года или пять лет?

Добрый день! Спасибо за комментарий! По поводу вашего вопроса про то, какой срок закладывали на смену оборудования. Обычно мы считаем ТСО модель со сроком службы оборудования 10 лет.

Как скоро надо будет менять эту коллекцию аккумуляторов?

Заявленный производителем срок службы АКБ составляет 10 лет. Как оно будет на самом деле покажет эксплуатация, в любом случае есть гарантия от производителя. В данном проекте за АКБ следит специальная система мониторинга "iBattery". В систему диспетчеризации поступают параметры с каждого АКБ. Что позволяет точно определить проблемную батарею и поменять её.

А вообще Утконос ОНЛАЙН сразу начал пользоваться новеньким ЦОДом на полную
Если уже сейчас пользуется на полную, то следует ли из этого, что адски тормозить сайт уже не перестанет никогда?

А инженерка та тут причем? Смотри на стек - Стек реализован с помощью Java/Kotlin, Spring Boot, Camunda .......

Это не может не тормозить:)

За то модно - молодежно

Смотрю я на книжку по Java 1.0 от 1991 года c Афтографом Гослинга и.......:)

Это МОЖЕТ не тормозить, если грамотно это использовать. В прошлом году разбирал рабочий пример, человек запиливает на Spring Boot / Hibernate сервис, который умудряется карточку контрагента с десятком полей читать из БД по 30 секунд, просто потому что настроил ORM и вызовы её так, что при этом с карточкой контрагента извлекают все его сотни магазинов и тысячи сотрудников со всеми их параметрами. После модификации запрос выполняется за 0.5 сек.

Странный мини ЦОД

  • 19 стоек и 300кВт, ну ок - минуснем тепло с коэффициентом в 3 и прочими ПСН - получим порядка 150кВт(3*35 = 105кВт, хотя вопрос какая там мощность указана тепловая или электрическая) на 19 стоек мене 10 кВт на стойку - сейчас Одно процессорник с NVME + GPU это от 700ват и выше те порядка 8-10 серверов на стойку - с такими мощностями Должен быть ЦОД или в 2-3 раза меньше или или раза в 3 мощнее......

  • еще вопрос балансировки тепловой нагрузки на ЦОД(особенно Блейды или Мульти GPU) да и фрикулинга - у нас так-то 9 месяцев Зима

  • Нет сейчас то понятно - в принципе если использовать старое железо и хранение то так и получится, но вот что они через 6-7 лет делать будут?

  • Отдельный вопрос Аккумуляторная станция - оно конечно весело придумано заложить батарей на час(!) удержания, но зачем? Запуск ДГУ нормативный 5-7 минут с выходом на полную мощность, это ГТУ нужно минут 30 раскручивать.... ИМХО емкость батареи сильно избыточна.....

  • по пожаротушению вопрос а те легкие перегородки которые отрисованы в проекте они газ-то Удержат? а Дымо удаление когда включится? и смогут ли люди подойти к Дверям ЦОДа что бы подтащить Мобильное дымо удаление?

Ни слова про регламенты, про обучение работам, про тестирование Системы пожаротушения. Газодымо-удаление и прочюю ЖИЗНЕНО важную инженерку....

Одно процессорник с NVME + GPU это от 700ват и выше те порядка 8-10 серверов на стойку - с такими мощностями Должен быть ЦОД или в 2-3 раза меньше или или раза в 3 мощнее......

Зачем нужен GPU для складского софта?
300W сервер это вполне себе однопроцессорник с NVME и парой HDD. Я молчу, что реальная нагрузка там ватт 100-150 будет. В стойке 42 юнита - грубо 5-7 юнитов технических итого 35 юнитов. Грубо по 150W на юнит будет стандартная 5кВт стойка.
Вы путаете максимальную мощность БП и реальную нагрузку в среднем. Даже если у тебя все сервера с БП 500W - СРЕДНЯЯ нагрузка в стойке в 70% это уже идеал, а в БП обычно закладывают хотя бы 30% резерва. Итого 200W на сервер В СРЕДНЕМ это прям потолок. А в ДЦ куча стоек и максимальная нагрузка будет сглаживаться.

Отдельный вопрос Аккумуляторная станция - оно конечно весело придумано заложить батарей на час(!) удержания, но зачем? Запуск ДГУ нормативный 5-7 минут с выходом на полную мощность, это ГТУ нужно минут 30 раскручивать.... ИМХО емкость батареи сильно избыточна.....

Я читаю, что ДГУ+Батареи выдержат час. Запас топлива не большой. Но это топикстартер должен ответить)

Зачем нужен GPU для складского софта?

как не странно много для чего в основном Распознование Образов - Номера машин, вагонов, контейнеров, коробок, документов, лиц.....

Отдельно почти вся упреждающая оптимизация свешивается на модели и нейросети, а крутят их на GPU

Энергия это деньги......

про загрузку серверов у вас Два основных лимита надежность и память, третий лимит вычислительная мощность - сейчас уже не так критичен, т.к. или ты используешь CPU в Общих задачах и не грузиш его более 30-40% или только на обслуживание нагрузки на GPU/FPGA/ASIC или загрузка проца почти никогда не опускается ниже 70%....

насчет мощностей ну давайте прикинем проц загружен на 60-70% иначе не эффективно и проще погасить машину а нагрузку размазать по другим 70% от 250 ватт(да там не совсем линейно и тп) - это уже 175 ватт + 10 NVME по 12-15 ватт + 8 каналов памяти по 5-8 Ватт это уже 400ватт плюс КПД БП в 80% и вот уже на сервак вылазит минимум 480 ватт + GPU ватт на 200 уже 680-700Ватт если взять 42U стойку минус 4-6U на Свитчи, Патч-панели и мониторинг, то 18-19 серверов на стойку при 700Ваттах на сервер 12-14кВт на стойку МИНИМУМ сейчас надо закладывать, а лучше 20-25кВт... и это еще без учета нагрузки от сетевого оборудования, сетевых карт на 10/25/40/100G и вся кого прочего типа 6 вентиляторов по 8-12 Ватт каждый итп

при стройке заложить лишние пару линий питания и запас по трубам для охлаждения КУДА дешевле чем потом перестраивать всё.

как не странно много для чего в основном Распознование Образов - Номера машин, вагонов, контейнеров, коробок, документов, лиц.....

А надо? Я понимаю программисты любят всякие умные штуки, но гораздо проще поставить сканер штрих кодов, а не распознавание лиц, RFID метки на машине-вагоне и прочем - для распознавания машин, вагонов и прочего. Распознавание документов - вообще фича беспроблемная. Особенно, когда у тебя ЭДО.

при стройке заложить лишние пару линий питания и запас по трубам для охлаждения КУДА дешевле чем потом перестраивать всё.

Сразу видно человека, который никогда не строил такие штуки в такой стране, как Россия. В статье есть намек на проблему, которая вам не видна. Когда они пишут, что вторую линию им не дали.
Стоимость МОЩНОСТИ в Москве мягко говоря не маленькая. И свободных мощностей не много.
https://mosoblenergo.ru/consumer/tech/tarif/
И мощность не дают по щелчку пальцев. Заявку подавай и надейся, что свободная мощность будет и тебе ее выделят.
И вот от этой самой свободной мощности считается все остальное. А не наоборот.
Смысл делать 20кВт на стойку и тратить на охлаждение еще 10, когда у тебя 50 стоек, а выделенная мощность 250 кВт?
Довольно смешно на этом фоне выглядят планы по суперчаржерам теслы на каждом шагу. Там примерно 100+ млн будет стоить только мощность подведенная. Просто за выделенный фидер на подстанции.
И построить инфраструктуру с запасом, киловатт до 10 на стойку это разумно. Больше - смысла никакого нет - можно 10 лет ждать выделения мощности.

RFID - дороже на порядок выйдет..... А если учесть что большинство товаров имеет ту или иную маркировку.....

А еще есть сотрудники, плановые и не плановые происшествия, контроль наполнения товарами, движения авто и ЖД транспорта по территории - не сколько сотен своих машин и не сколько тысяч чужих в месяц.... и у всех текучка с кадрами - распознанием образов это делать на много порядков дешевле и проще чем пинать людей и заставлять их менять свои привычные алгоритмы.

Про то что У вас двойной контроль СКУД(почитайте статьи от КРОКА), сильно лучше защита от Хищений, и проще расследования я вобще молчу. А еще есть КОВИД с его требованиями и проблемами - один зараженный может на пару недель радикально так осложнить работу участка, а то и предприятия....

Вот сразу видно человека который никогда не попадал в в конторы надолго и не планировал Срок жизни проекта на +5 лет - реальность такова что через 5 лет они захотят больше мощности в ЦОДе, а у него ROI порядка 10 лет МИНИМУМ и если не заложено что можно увеличить мощность - и вопрос будет приближаться к сумме затрат как на постройку нового ЦОДа особенно весело если вдруг компания или Холдинг активно расти начинают........ Вы инвесторам или Владельцу как будет объяснять что вы в еще почти новый ЦОД по мощности не влазите? И почему сумма затрат почти постройке равна, тк надо останавливать Работу, разбирать, дотягивать и тп

я же не говорю закладывать сразу всё просто предусмотреть адекватную возможность расширения Аккумуляторной станции, ИБП, Тепловых возможностей ЦОДа, произвести монтаж Внутренних тепловых и питающих коммуникаций когда это просто и легко и не потребует остановки всего - в сумме стоимости Работ при монтаже ЦОДа это будет +5-7% зато потом это будут почти 80% экономии.

вот на сколько я в курсе в МСК имея ГТУ и ГАЗ дешевле гонять ГТУ.....

RFID - дороже на порядок выйдет..... А если учесть что большинство товаров имеет ту или иную маркировку.....

RFID для "вагонов", для палетов - ШК. Для коробок ШК. Маркировка вообще 2d QR код. В масштабе 10 фур в день разработка "умной системы" против 10 RFID меток это даже не два порядка разницы в ценнике.

А еще есть сотрудники, плановые и не плановые происшествия, контроль наполнения товарами, движения авто и ЖД транспорта по территории - не сколько сотен своих машин и не сколько тысяч чужих в месяц.... и у всех текучка с кадрами - распознанием образов это делать на много порядков дешевле и проще чем пинать людей и заставлять их менять свои привычные алгоритмы.

Вы в одну кучу навалили работу службы персонала, складской учет и работу с остатками и кучу всего.
Вот примерно что надо сделать:
Распознавание лиц. Надо каждое новое лицо занести в базу. Ручками. "Старых" оно будет распознавать. Зачем, если проще сделать разбивку по зонам (погрузка, разгрузка, курьеры) - как скорее всего уже сделано и сделать постоянные/временные пропуска. Трудозатраты меньше, программистам платить не надо. Но не так айтишно, да.

Распознавание номеров. Охрана остается там же, пропуска так же выпускаются, но мы прикрутили фичу, которая просто есть. Зачем? Ну айтишно..

Контроль склада. Я хз как вы там распознавать образы собрались, инвентаризацию это не отменит, остатки мы видим в учетной системе, которая и заказы поставщикам автоматом по лимитам создает, и подсвечивает проблемные позиции. И манагера, который этим занимается не уволить. Остается вопрос - зачем? И сколько обойдется денег эта фича и в каком месте оно даст экономию на бОльшую сумму, чем стоит? Правильный ответ - экономии не будет деньги пойдут на зарплату программистам с нулевым результатом.

Про то что У вас двойной контроль СКУД(почитайте статьи от КРОКА), сильно лучше защита от Хищений, и проще расследования я вобще молчу.

Вы наверное плохо понимаете как устроен интернет-магазин. Грубо, без поправок на то, что утконос торгует продуктами - работа происходит так:
У вас есть склад. Есть курьеры. Склад ночью каждому курьеру в ячейку хранения собирает его заказы. С началом смены курьер (авто там или пешком - вообще пофиг) приходит в зону отгрузки и его грузят из ячейки проверяя заказы поштучно. То есть у него 50 заказов, он принял 50 заказов и поехал. То есть на моменте спереть заказ - ответственность переходит со склада на курьера.
Что же делать, если в заказе сперли позицию? А тут очень просто. Столы сборки заказов под видеонаблюдением. Находится сборка конкретного заказа, проводится заказ по камерам с момента упаковки до момента погрузки. Если не допаковали - ответственность склада, если оно погружено нормально - ответственность водителя.
Остается вариант хищений со склада? Еженедельная инвентаризация (требования закона) + видеонаблюдение + физический доступ на склад только ответственных лиц (курьеры и прочие в принципе на склад не попадают. Загрузка и выгрузка исключительно через буферные зоны. Фуру разгрузили в тамбур - посчитали паллеты, приняли, фура уехала, товары повезли на склад. Не хватает на инвентуре? Поднимаем видео разгрузок, хранения, отгрузок. Это не так долго, когда у тебя нормальная автоматизация и все расписано поминутно.

Вот сразу видно человека который никогда не попадал в в конторы надолго и не планировал Срок жизни проекта на +5 лет - реальность такова что через 5 лет они захотят больше мощности в ЦОДе, а у него ROI порядка 10 лет МИНИМУМ и если не заложено что можно увеличить мощность - и вопрос будет приближаться к сумме затрат как на постройку нового ЦОДа особенно весело если вдруг компания или Холдинг активно расти начинают........ Вы инвесторам или Владельцу как будет объяснять что вы в еще почти новый ЦОД по мощности не влазите? И почему сумма затрат почти постройке равна, тк надо останавливать Работу, разбирать, дотягивать и тп

Реальность такова, что нигде на данный момент не строят ЦОДы с плановой мощностью по 20 кВт на стойку. Потому что капитальные расходы кратно выше.
Фиг с ним с питанием. Охлаждение этого дела это боль. Они используют кондеи в машзале. Их надо кратно больше. Надо решать кучу других задач (подвод питания, резервирование и тд) Под "может быть нам когда-нибудь дадут мощность.

вот на сколько я в курсе в МСК имея ГТУ и ГАЗ дешевле гонять ГТУ.....

Везде дешевле. Киловатт 1,5 рубля получается + практически халявное тепло/холод. Только мощность по газу она тоже не бесконечная. Есть тех условия и больше чем тебе разрешили тебе не дадут. Иначе штраф. И мы опять упираемся в расширение. Только по газу оно еще и кратно дороже, потому что трубу придется перекладывать.

Все правильно и подробно расписано! Спасибо за такой развернутый комментарий

В данном случае проектировать место под высоконагруженные стойки не требовалось. Как отвечали к комментарию выше, требование по мощности на стойку было прописано в ТЗ. Компания Утконос ОНЛАЙН прекрасно понимает, какое ИТ-оборудование будет размещено в данном ЦОД и сколько его будет. Также важен момент, какой резерв по мощности существует на объекте, и имеется ли возможность его увеличить. Мощности у города обычно есть, но бывает не там где нужно!

Если отвлечься от данного проекта. Да, все чаще появляются задачи, в которых ИТ-оборудование потребляет 10 и 15 кВт на стойку. Пути решения в таком случае разные, зависят от конкретной ситуации.

P.S. Согласно статистике одного из крупнейших провайдеров Colocation (не будем его называть, дабы не делать рекламу), в распоряжении которого несколько тысяч стоек по всей территории нашей необъятной страны, средняя мощность по всем ЦОД в их распоряжении составляет 4 кВт. Средний рост в год составляет 100вт. Материал можно поискать на просторах Хабр, в ветке IT-инфраструктура.

Что касается состава парка серверов. Компании, наподобие Утконос ОНЛАЙН, имеют определенную стратегию развития, и понимают какие ресурсы, в части ИТ-оборудования, и в каком объеме могут им понадобиться, и что компания может себе позволить в перспективе нескольких лет. Исходя из этого, формируются требования к ЦОД и отражаются в виде ТЗ, по которому мы уже проектируем и строим ЦОД.

Если ничего не изменилось в последние 5 лет, то с отводом более 15 кВт со стойки с обеспечением резервирования есть проблемы, так как это фактически предел для воздуха. Имхо, самое типичное решение это принять, что "о боже" юниты будут пустовать (на самом деле ничего страшного в этом нет). Альтернативный вариант - специфические системы охлаждения (водянки, маслице, иммерсионка) - но это для других масштабов.

Доброго времени суток, благодарим за неподдельный интерес!

  1. Нагрузка на стойку в ЦОД составляет 5 кВт электрической мощности. Суммарно ИТ-мощность в ЦОД составляет 95 кВт, остальное потребляют EDGE узлы на территории 42 шт. и инженерная инфраструктура. Данная нагрузка удовлетворяет потребноcтям заказчика, именно такая мощность была прописана в ТЗ.

  2. В статье мы написали, что изначально ставить ДЭС не было в планах. Его решено было поставить по ходу реализации проекта, так как второй ввод должен был обеспечить газогенератор. Возможно по этой причине изначально в ТЗ требовалось 30 минут автономной работы.

  3. Прочности возводимых перегородок более чем достаточно, чтобы удержать давление в случае выпуска газа. Людям подходить с мобильным дымососом к ЦОД не нужно, на этот случай предусмотрена стационарная система дымоудаления с щитом управления и со всей необходимой системой воздуховодов.

  4. Благодарим за идею, обязательно остараемся подготовить материал про прохождение комплексных испытаний и эксплуатации.

Рады за коллег по цеху. Красиво сделано. ЦОДы рулят. Молодцы.

Спасибо за положительный отзыв! Мы стараемся)


А почему фрикулинг то не применили?

Этож какая экономия то

Чем свой ЦОД лучше Яндекс.Облако? Дешевле?

Добрый день!

1. "Единственное, с чем NetEco интегрировался не идеально — некоторые дополнительные системы, например пожаротушение и клапаны вентиляции". Какие конкретные проблемы были с этими системами? Какие вентиляционные клапана - противопожарные или регулировочные? Сейчас все они выпускаются с любыми приводами по уровню интеграции.

2.Раннее упомянули фрикулинг. Но есть еще более дешевый (даже практически бесплатный) вариант, который почему-то никогда не используется. Это наружный воздух при температурах на улице до плюс 16 градусов. Для зоны Москвы - это более 60% времени в течение года.

Михаил

Добрый день! Отвечаем сразу на вопросы по теме использования фрикулинга на данном конкретном проекте. Да, современные тенденции в отрасли все чаще заставляют нас смотреть в сторону систем со свободным охлаждением. Но далеко не всегда и не везде решение на фрикулинге будет: а) экономически целесообразно; б) возможно, ввиду конструктивных или технологических ограничений площадки. Не стоит забывать про капитальные затраты и окупаемость ЦОДа. Покупка чиллера с фрикулингом или с отдельной градирней несет в себе значительные капитальные затраты, также даную систему стоит дополнить операционными затратами: сложной системой автоматики, техническим обслуживанием и сервисом.

При проработке предложений по созданию ЦОД, совместно с заказчиками подготавливаем TCO модель обычно сроком на 10 лет. В конкретном случае результат модели показал, что применение системы фрикулинга экономически не целесообразно. Также конструктивные ограничения не позволяли организовать самостоятельную воздушную систему.

Это вы с жадными вентиляционщиками работаете.

Это сколько надо зарядить в теплообменники, чтоб экономика с потреблением кондиционеров не сошлась.

Добрый день! Спасибо за интерес к статье! Основной вклад - это стоимость чиллеров, а также их последующее сервисное обслуживание. Организовать прямой фрикулинг без дополнительных систем доохлаждения в нашем регионе не получится. В проектах ЦОДов, мощностью меньше 500 кВт, окупить капитальные затраты на сложные чиллерные системы с фрикулингом, за счет последующей экономии на потреблении электричества кондиционерами, весьма проблематично.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.