Обновить
701.37

IT-инфраструктура *

Инфоцентры + базы данных + системы связи

Сначала показывать
Период
Уровень сложности

Как настроить EVPN/VXLAN на коммутаторе: разбираемся на примере KORNFELD

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели11K

Привет, Хабр! Меня зовут Алексей Августинович, я принимаю участие в разработке операционной системы для линейки коммутаторов KORNFELD. В этом материале расскажу о возможностях нашей сетевой операционной системы, а именно — о поддержке функциональности L2 VXLAN. 

Настройка EVPN/VXLAN в сетях дата-центров — задача не из простых. Поэтому в материале я поделюсь шаблонами конфигураций, которые вы можете адаптировать под свои задачи, так как логика настройки и синтаксис у KORNFELD схожи с популярными вендорами.

Читать далее

От векторной графики до трассировки лучей: руководства и материалы для погружения в GPU-тематику

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7.9K

Собрали для вас материалы, посвященные графическим процессорам: как развивалась архитектура GPU, интерактивный глоссарий CUDA, перспективы GPU-хостинга и не только.

Нужна ли вам GPU для VDI расскажем на вебинаре о виртуальных десктопах в облаке, присоединяйтесь.  

Читать далее

Подводные камни у материнских плат из Поднебесной

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.8K

Сегодня я расскажу, как мы обнаружили проблемы с производительностью на современном китайском оборудовании, которое можно встретить в ЦОДах крупных российских компаний.

Печальная история о том, как 10 материнских плат Gooxi из Шеньчженьска оказались критически непригодными для использования в НЕ самых сложных задачах.

График ниже показывает с чем мы столкнулись. При использовании серверного решения Труконф обнаружили проблему: служба видеоконференцсвязи нагружала систему значительно сильнее, чем должна была.

В первую очередь подумали на процессор, но замена укомплектованного Xeon Gold 6336Y на Xeon 4316 не решила проблему с производительностью.

А вот замена материнской платы Gooxi на проверенную SuperMicro при тех же составляющих дала ощутимый рост. При работе на 10 ядрах — более чем в 2 раза.

Для чистоты эксперимента на SuperMicro были протестированы на комплектном Xeon Gold 6336Y и на Xeon 4316, результаты можете наблюдать сами.

Читать далее

Почём ИИ для народа: протестировали платформу YADRO G4208P с восемью H100 NVL и RTX 4090 на десятке ИИ-моделей

Время на прочтение8 мин
Охват и читатели8.9K

Привет, Хабр! Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. Сегодня поговорим о готовящемся к выпуску сервере YADRO G4208P G3, к раннему образцу которого мы получили полный доступ, чтобы оценить его эффективность работы с нейросетями.

Мы провели масштабное тестирование разных ИИ-моделей на платформах с восемью H100 NVL и RTX 4090, адаптированных для установки в сервер. Когда выгоднее взять RTX 4090, а в каких случаях не обойтись без серверных карт? Давайте вместе разберемся.

Читать далее

Нет вендорской поддержки? Нет проблем! Как мы внедрили подменные СХД

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели2K

Привет, Хабр! Меня зовут Иван Звонилкин, я эксперт направления сервисной поддержки вычислительной инфраструктуры в компании K2Tех. Сегодня хочу рассказать, как в новых реалиях мы сохранили высокий уровень обслуживания систем хранения данных после ухода западных вендоров с российского рынка.

Читать далее

Расширение возможностей веб-сервера при помощи WASM на примере Angie

Уровень сложностиСложный
Время на прочтение19 мин
Охват и читатели1.9K

Наверное, не секрет, что одна из причин популярности nginx — это развитая экосистема сторонних модулей. Модули позволяют не просто настраивать какие-то детали обработки запроса, но и глубоко изменять поведение сервера.

Помимо модулей, которые решают конкретные задачи, существуют модули, которые добавляют поддержку расширений на различных языках программирования: PerlLuaJavaScript и других.

Теперь в этот набор добавляется ещё и модуль WASM, который мы разработали для нашего веб-сервера Angie (здесь и далее ссылки на нашу документацию). Зачем понадобился WASM на сервере, чем нас не устраивают существующие методы расширения и что в итоге получилось?

Данная статья — транскрипт выступления Владимира Хомутова на конференции HighLoad++. Владимир с 2012 года разработчик nginx, а с 2022 разработчик Angie.

Читать далее

Оператор LinkedIn для stateful-приложений в Kubernetes

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели1.3K

Сложности при работе со stateful-приложениями в Kubernetes знакомы многим. Недавно инженеры LinkedIn поделились своим подходом к их решению: они написали собственный Stateful Workload Operator, который базируется на пяти кастомных ресурсах. На сегодня кластеры компании со stateful-системами полностью переведены на новый оператор. Теперь владельцы систем могут сосредоточиться на управлении ими, не думая о сложностях эксплуатации. Под катом — перевод статьи, которую тепло приняли в сообществе.

Читать далее

Удобные дашборды для быстрой диагностики

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели2.1K

Привет, Хабр! Меня зовут Станислав Егоркин, я инженер юнита IaaS департамента разработки Infrastructure в Авито. Эта статья посвящена дашбордам для Grafana, существенно упрощающим диагностику различных систем. Рассказываю про новые подходы, которые я использовал при создании дашбордов, и демонстрирую, как эти подходы реализованы на практике в отношении серверов и кластеров Kubernetes.

Читать далее

Как мы построили отказоустойчивую open-source-инфраструктуру для управления пользовательскими Linux-устройствами

Уровень сложностиСложный
Время на прочтение14 мин
Охват и читатели6.4K

Всем привет! Меня зовут Владислав, я руководитель направления развития пользовательских Linux-систем в Т-Банке. Мы работаем над проектом Linux Desktop. 

Проект зародился во времена блокировки иностранного софта. Нам нужен был опенсорсный продукт, который никуда не исчезнет и на закроется. Но прежде чем развивать Linux Desktop, в компании нужно было выбрать систему управления конфигурациями, которая сможет выдержать больше 15 000 хостов. А еще построить инфраструктуру, которая будет отказоустойчивой и не рассыпаться, если один из ЦОДов упадет.

Расскажу, как мы создали инфраструктуру, которая контролирует системы безопасности, магазин приложений, конфигурации ядра и многое другое. А еще такая инфраструктура — запасной аэродром, если вдруг придется отказаться от западного вендора.

Читать далее

Лучшие практики настройки кэширования DNS на рабочих станциях Linux в домене

Уровень сложностиСредний
Время на прочтение28 мин
Охват и читатели8K

Привет, Хабр! C вами сегодня Владимир Кудрявцев, Илья Князев и Иван Пономарев.

Дело было вечером, дебажить было нечего. К нам пришел Анатолий, менеджер продукта ALD Pro, и попросил разобраться, с чего это Linux приходит в такую задумчивость от недоступности первых двух DNS-серверов, в то время как Windows вполне нормально справляется с таким сценарием. «Да, как два байта переслать», – подумали мы. И начался квест длиной в две недели.

Материалы будут полезны, даже если вы все ещё используете обычные Linux-системы с ванильными версиями компонентов.

Knock, knock, Neo.

DeepSeek обучила LLM за 294 тыс. долларов. Как это удалось и чем этот путь отличается от OpenAI

Время на прочтение5 мин
Охват и читатели7.4K

Разработка больших языковых моделей обычно ассоциируется с астрономическими затратами. Но пример китайской компании DeepSeek показывает, что эта логика не всегда работает: их модель R1 была дообучена всего за 294 тыс. долларов США (на базовую версию ушло около 6 млн). Для сравнения, создание ChatGPT обошлось OpenAI в суммы на порядки выше.

Если информация китайских разработчиков верна, создавать LLM смогут не только корпорации уровня OpenAI, но и относительно небольшие компании. Правда, данные от DeepSeek вызывают сомнения у специалистов: не исключено, что часть расходов осталась «за кадром». Сегодня посмотрим, какие методы применяла DeepSeek, чем их стратегия отличается от подхода OpenAI и почему ИИ-сообщество оказалось разделено на оптимистов и скептиков.

Читать далее

Сетевой нейтралитет: как развивались законы, регулирующие интернет

Время на прочтение7 мин
Охват и читатели4.6K

Сетевой нейтралитет — это не только технический или академический концепт, а часть сложной правовой и политической истории, где ключевую роль играют законы, интерпретации Federal Communications Commission (FCC, Федеральная Комиссия по связи) и решения судов. За красивыми фразами об «открытом интернете» стоит длительная борьба за формулировки и полномочия, и чтобы понимать суть споров, важно видеть контекст — историю законодательства и юридических классификаций.

Меня зовут Ольга Макарова, я директор департамента коммерческого управления ресурсами технического блока МТС. Вы читаете второй материал из цикла «Сетевой нейтралитет: не совсем то, что так называют». Я расскажу, как академическое понятие превратилось в юридическую категорию, к каким важным определениям и тезисам пришло американское законодательство.

Читать далее

Проактивное обслуживание для OceanStor Dorado: решаем проблему старения системных SSD

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5.8K

Привет! Я руковожу группой технической поддержки и сопровождения в компании «Онланта». Наша команда заметила, что в процессе эксплуатации All‑Flash систем хранения данных OceanStor Dorado 5000 V6 примерно после двух и более лет в работе начинают проявляться дефекты, которые потенциально могут повлиять на доступность данных и работу СХД в целом.

Одна из таких проблем — встроенные M2 SATA SSD накопители. Они используются и как системные, храня на себе ОС контроллера, и как конфигурационные базы данных, и как Coffer — диски, куда сбрасывается Write‑cache при аварийном отключении системы, пока BBU (модуль резервного питания) обеспечивает работу оборудования.

В этой статье — рассказ о том, как мы анализировали, решали и предотвращали подобные неприятности.

Читать далее

Ближайшие события

Обзор нововведений Kubernetes 1.34: новая YAML-конфигурация и отслеживание здоровья устройств при DRA

Уровень сложностиСредний
Время на прочтение32 мин
Охват и читатели7.3K

Сегодня официально выпустили новую версию Kubernetes — 1.34. Собрали обзор со всеми изменениями. Среди главных нововведений — отслеживание здоровья устройств при DRA, тонкая настройка рестарта контейнеров в подах, асинхронная обработка API-вызовов, нативная доставка сертификатов X.509 в поды и новая разновидность YAML для описания конфигураций.

Читать далее

Искусственный интеллект на орбите: как Эрик Шмидт собирается строить дата-центры в космосе

Время на прочтение5 мин
Охват и читатели862

Эрик Шмидт, экс-CEO Google, купил частную космическую компанию Relativity Space и собирается отправить дата-центры в космос. Зачем? Все просто — чтобы решить проблему дефицита энергии. Рассказываем, как это может работать, какие сложности есть у проекта, что уже делают другие и почему сама идея — не просто фантазия миллиардера.

Читать далее

«Теплый ламповый» опенсорс — новые мега-подборки, пет-проекты, комиксы и книги, абсурдные и полезные лицензии

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели2.1K

Впереди несколько свободных дней — хорошая возможность полистать что-то новое, выбрать интересные материалы и опенсорс-проекты для изучения.

В помощь —> большая подборка экспериментального, развлекательного и управленческого в опенсорсе: от новых шуточных (и не очень) лицензий до awesome-листингов, комиксов и книг по теме (на выходные точно хватит). Поехали!

Читать далее

DevOps инфраструктура для стартапов ч.1

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8K

Мы — команда студентов из ИТМО, которая прошла путь от хакатонов до продуктовой разработки. На собственном опыте расскажем, как выстроили инфраструктуру, способную масштабироваться, переживать сбои и не стоить, как полкоманды в найме.

Когда вы только начинаете делать стартап, инфраструктура кажется чем-то второстепенным. Важнее MVP, фичи, дизайн, пичдек. Но в какой-то момент всё внезапно перестаёт помещаться на одном сервере, руками деплоить становится больно, SSL не обновляется, а продакшн падает из-за перегрузки или забытого docker-compose up.

Kubernetes? Слишком сложно, долго и дорого. Монолит? Неудобно масштабировать. Мы искали третий путь — и нашли его.

Читать далее

Дело о несрабатывающем тайм-ауте. Проблемы гистограмм Prometheus

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели1.9K

Привет! Меня зовут Олег Стрекаловский, я старший разработчик в команде корзины маркетплейса. Сервис корзины Ozon отвечает за хранение корзин покупателей и за отрисовку соответствующего экрана в приложении и на сайте. Слежение за стабильностью сервиса — важная задача. В этой статье я расскажу о нюансах интерпретации данных, которые предоставляет система мониторинга Prometheus. Если вы тоже часто всматриваетесь в графики, чтобы понять, как чувствует себя сервис, эта статья для вас.

Читать далее

Стековые канарейки и где они обитают. Приручаем один из ключевых харденингов

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели1.6K

Хабр, привет! Меня зовут Мария Недяк, я специализируюсь на разработке харденингов нашей собственной микроядерной операционной системы «Лаборатории Касперского» KasperskyOS. Если вкратце: мы стараемся сделать любые атаки на нашу ОС невозможными — или хотя бы очень дорогими :-)

Один из главных инструментов в нашей нелегкой работе — «канарейка» (ну или Stack Canary), которая защищает от базовой атаки переполнения стека. Лично я к работе с этой птичкой уже давно привыкла — набила руку во время многократных CTF-турниров, где без такого харденинга было никуда… Этот бэкграунд очень пригодился мне в «Лаборатории Касперского», когда перед нашей командой встала задача усилить «канарейку» в KasperskyOS.

В статье я подробно объясню, как работает Stack Canary, как ее ломают — и как от этих методов взлома защититься. Сразу скажу: тема непростая, так что для самых любопытных я оставила список полезной литературы в конце текста. Поехали!

Читать далее

Как СберМобайл завод оцифровал, и кому это вообще нужно. Часть 2

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели1K

Напомню, что в первой части моего рассказа мы разобрались с тем, что такое цифровой двойник, поняли, зачем его делать, и определились с этапами его создания. И даже начали делать настоящий двойник на настоящем заводе. Давайте продолжим этот процесс. Мы остановились на возвращении нашего архитектора с обследования. Необходимо переходить к следующему этапу — проектированию и подготовке. В двух словах поясню специфику этого этапа, и мы, наконец, узнаем, что за сложности были на «Благо».

Читать далее

Вклад авторов