Yandex Cloud & Yandex Infrastructure - Строим публичное облако и инфраструктуру Яндекса / Статьи / Хабр

Как стать автором

ПрофильСтатьи121Посты31Новости6Подписчики26K

vadvolo 4 апр 2024 в 07:30

Автоматизируем сеть Яндекса с Милошем: сервис конфигураций оборудования

19 мин

11K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура * Сетевые технологии * Сетевое оборудование

Задумывались ли вы о том, как изменить конфигурацию сразу на нескольких сетевых устройствах? Что, если нужно сделать это на всей сети с сотнями и тысячами единиц оборудования? А что, если приходится делать это каждый месяц на железе от пяти разных производителей? Очевидное решение для подобных задач — автоматизация. Но реализовать её можно не одним способом, а в процессе наткнуться не на одни грабли.

Меня зовут Вадим Воловик, и я руковожу проектами разработки в Yandex Infrastructure. Наша команда NOCDEV отвечает за автоматизацию сетей всего Яндекса. Давно хотелось рассказать о задачах такого масштаба, но по ходу написания материала стало понятно, что тема тянет на целый цикл. Так что мы с коллегами расскажем о самых интересных примерах автоматизации в отдельных постах.

В этой статье проведём небольшую экскурсию по нашему сетевому «хозяйству» в десятки тысяч устройств и остановимся подробнее на том, как при таком объёме мы автоматически обновляем конфигурации.

Читать далее

+26

levdikpavel 29 мар 2024 в 07:00

Внутри S3. Доклад Яндекса

12 мин

26K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureВысоконагруженные системы * PostgreSQL * Go *

Привет, я Паша, разработчик в Yandex Infrastructure, и я катаю гусей. С 2019 года я развиваю S3-хранилище как для внутренних пользователей Яндекса, так и для клиентов Yandex Cloud. А «гусём» называется наш бэкенд S3 API: он написан на Go, а из словосочетания Go + S3 получился goose. Возможно, вы также слышали про GeeseFS — это наш высокопроизводительный FUSE-клиент для S3. C его помощью вы можете на своём ноутбуке или виртуалке подмонтировать папку, которая будет работать с бакетом S3.

Для чего нам «гуси» и прочая орнитология? Яндексовая инсталляция хранилища S3 хранит миллиарды файлов. Это огромные объёмы данных, а также метаданных. Для хранения метаданных мы научились использовать умное шардирование, и теперь сами управляем распределением занятого места и нагрузкой между шардами баз.

Так что сегодня я расскажу, как сделать так, чтобы ни один клиент, даже с самым неудобным паттерном нагрузки, не положил сервис.

Читать далее

+84

venicum 21 мар 2024 в 10:00

Обновление кешей сервисов в реальном времени с помощью YDB CDC на примере Yandex Monitoring

15 мин

3K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании Конференции Олега Бунина (Онтико)Хранение данных * Базы данных * Высоконагруженные системы *

Меня зовут Егор Литвиненко. Я старший разработчик Yandex Observability Platform. Летом 2023 года я рассказывал на Saint Highload в Санкт-Петербурге про наш путь внедрения YDB CDC для обновления данных в сервисах, чтобы решить проблему инвалидации кешей.

В этой статье будет вся история внедрения с теорией, вопросами, ответами, ошибками, о которых я говорил на выступлении. Но кроме того, в конце есть обновления: что произошло и изменилось за это время. Мы рассмотрим весь процесс от появления задачи до результата:

• Какие подходы к доставке изменений мы использовали.

• Почему выбрали переход на CDC и в чём были сложности в работе с изменениями до этого.

• Чем YDB CDC отличается от других решений, как настроить правильно, и на какие грабли мы наступили в процессе.

• Какую модель данных выбрать, чтобы решить проблемы с конкурентными изменениями.

• Как поддерживать решение после внедрения.

Читать далее

+23

w84mepls 6 мар 2024 в 07:00

Обучение системного инженера. Путеводитель по ключевым навыкам и знаниям

Простой

9 мин

25K

Блог компании Яндекс ПрактикумБлог компании Yandex Cloud & Yandex InfrastructureКарьера в IT-индустрииDevOps *

Роадмэп

Всем привет! Меня зовут Максим, я работаю системным инженером в Yandex Cloud и в Яндекс Практикуме на курсе «Системный администратор». В этой статье я опишу свой субъективный взгляд на путь развития системного инженера (DevOps‑инженера, SRE, системного администратора).

Системный инженер — ключевой игрок в создании и поддержании сложных информационных систем. Он объединяет в себе знания из различных областей: от аппаратной части и инфраструктуры до программного обеспечения и сетей.

В дополнение к этой статье я создал:

- диаграмму на roadmap.sh;

- git‑репозиторий со ссылками на ресурсы для изучения (жду ваших пул‑реквестов).

Читать далее

+14

olegbunin 1 мар 2024 в 09:00

Самый шерстяной волчара: тимлид с технической ролью и без

Средний

16 мин

14K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureУправление разработкой * Управление сообществом *

Туториал

Извечный вопрос: должен ли тимлид обладать самой крутой технической экспертизой в команде? Споры будут идти ещё много тысячелетий, но где, как не в крупной компании, лучше в этом разобраться?

Сегодня поговорим о техническом лидерстве, где оно может лежать в команде разработки, обязательно ли это тимлид или всё-таки не обязательно. А поможет нам в этом Анастасия Абрашитова, руководитель службы инструментов репозитория в Yandex Infrastructure.

Читать далее

+36

zhurus 21 фев 2024 в 08:00

Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов

17 мин

17K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureМашинное обучение * Data Engineering * Научно-популярное

На территории России насчитывается от 200 до 300 вулканов. Около 13 из них находятся под особым наблюдением: это действующие вулканы, которые извергались в течение последних 25 лет. Самые активные расположены на территории Камчатки и Курильских островов, так что экстренные службы в этих регионах живут в постоянной готовности к последствиям извержений.

Оценкой вулканической активности на Камчатке занимается подразделение Единой геофизической службы РАН. В прошлом году её вулканологи совместно с командами Яндекс Погоды, Yandex Cloud, Школы Анализа Данных (ШАД) и Геоинтеллекта запустили проект, который позволяет визуализировать данные по результатам извержений и предсказывать пеплопады в конкретных населённых пунктах. В дальнейшем разработанный сервис можно будет использовать для других подобных задач, например, прогнозировать пеплопады в регионах за пределами Камчатского края.

Читать далее

+36

BorisKhasanov 15 фев 2024 в 07:45

Эволюция Traffic Engineering. Основы, распределённый и централизованный расчёт туннелей, магия PCE

Сложный

38 мин

4.1K

Блог компании Yandex Cloud & Yandex InfrastructureСистемное администрирование * Сетевые технологии * Сетевое оборудование

Как оптимизировать путь данных внутри чёрного ящика под названием «сеть» и гарантировать необходимый уровень сервиса пользователям своего приложения? Эта задача может волновать не только сетевых инженеров и архитекторов, но и разработчиков, и DevOps-команды. Для глубокого понимания вопроса потребуется разобраться, что такое Traffic Engineering и как он эволюционировал в современных сетях.

Как сетевой архитектор в Yandex Infrastructure я не раз возвращался к этой теме и в роли спикера на отраслевых конференциях, и в роли преподавателя. С 2017 года я также участвую в разработке черновиков стандартов в рабочих группах IETF и могу сказать, что за каждым черновиком стоит выдающаяся работа коллег из индустрии. Так что в этой статье я буду часто опираться на уже полюбившийся мне своей логикой RFC 9522 и другие связанные документы.

Читать далее

+11

SerjN 25 янв 2024 в 11:30

Запускаем локальный ML-процесс в облаке с помощью DataSphere Jobs

Простой

7 мин

3.4K

Блог компании Yandex Cloud & Yandex InfrastructureМашинное обучение * Облачные сервисы * Искусственный интеллект

Обзор

В сообществе ML-инженеров и дата-сайентистов популярны инструменты с быстрой обратной связью наподобие JupyterLab — они помогают легко и без лишних обвязок проверять гипотезы или создавать прототипы. Но довольно часто бывает, что при разработке ML-пайплайна, будь то инференс или обучение модели, хочется пользоваться установленной локально полноценной IDE, в которой открыт проект со многими зависимостями, окружением, сложной структурой. При написании кода и его отладке хочется пользоваться дебагером и уметь быстро менять код, а при запуске — скейлить ресурсы исполнения и не думать о том, как перенести код и окружение на продакшн-сервера. Всех этих возможностей в Jupyter-экосистеме из коробки нет, поэтому разработчикам часто приходится создавать костыли.

Помочь в решении этих задач могут инструменты для удалённого исполнения кода в ML. Сегодня на конкретном примере покажу, как устроен и как работает один из таких инструментов, созданный нами для пользователей облака, — DataSphere Jobs. А в следующий раз вместе с моими коллегами рассмотрим опенсорс-инструменты для подобных задач.

Читать далее

+10

savrus_pub 18 янв 2024 в 07:00

Улучшаем динамические таблицы YTsaurus с помощью алгоритмов

17 мин

5.8K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureАлгоритмы * Big Data * Хранение данных *

✏️ Технотекст 2023

Динамические таблицы в YTsaurus занимают заметное место во внутренней инфраструктуре Яндекса. В них можно хранить огромные массивы данных, и читать их можно настолько быстро, что многие сервисы Яндекса используют YTsaurus при построении ответа внешним пользователям.

Всё это звучит здорово, но стоять на месте никак нельзя. Поэтому мы постоянно работаем над всякого рода улучшениями и оптимизациями. Зачастую новые фичи хранят под капотом не самую тривиальную идею. И сегодня я хочу рассказать о нескольких таких улучшениях, которые мы затащили в виде новых фич в последнем релизе.

В этой статье разберёмся, как работает xor-фильтр, в чём особенность чанкового хеш-индекса и как overload controller повышает стабильность работы. Все примеры разберём на примере YTsaurus, но они будут полезны любому разработчику СУБД.

Читать далее

+34

olegbunin 17 янв 2024 в 09:03

Современная безопасность контейнерных приложений

11 мин

8.7K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureИнформационная безопасность * DevOps * Kubernetes *

Чем раньше команда задумается о проблеме безопасности, тем лучше. В этой статье обсудим, какие проблемы ИБ есть в стандартном контейнерном приложении, поговорим о безопасности использования Docker, Kubernetes и Terraform и разберём, как можно встроить проверки в стандартный пайплайн деплоя.

Материал написан и дополнен по мотивам выступления Любови Гринкевич и Алексея Миртова из Yandex Cloud на DevOpsConf. Он будет интересен DevOps-инженерам, специалистам по безопасности, владельцам продуктов и всем, кто хочет:

Читать далее

+10

mishad_0 16 янв 2024 в 07:30

Как нейросети помогают изучать снежных барсов: о проекте Сайлюгемского парка и Yandex Cloud

Простой

12 мин

6.1K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureМашинное обучение * Искусственный интеллектЭкология

Кейс

Снежный барс (ирбис) — один из самых редких видов больших кошачьих, который обитает в горных районах. С 2000 года снежный барс занесён в Красный список МСОП как «находящийся под угрозой исчезновения», а с 2017 года ирбисам присвоен статус уязвимого вида.

Такие животные нуждаются в особом наблюдении. Для мониторинга их поведения, состояния и численности учёные используют фотоловушки — автоматические камеры, которые устанавливаются на звериных тропах. Но чтобы отсмотреть и отсортировать все изображения c ловушек вручную, исследователи могут потратить несколько недель.

Меня зовут Михаил Добрицын, я учусь в Школе Анализа Данных Яндекса. В 2023 году совместно с Сайлюгемским национальным парком и другими студентами мы обучили нейросеть, которая поможет учёным быстрее находить снежных барсов и других животных на снимках и узнавать больше об их маршрутах. В этой статье расскажем, как создали собственный датасет для обучения такой нейросети, как тренировали модель, какие результаты получили сейчас и как планируем развивать это решение.

Читать далее

+35

ToSHiC 29 дек 2023 в 07:00

Видео — это вам не фото: о чём нужно знать разработчикам видеостриминговых сервисов

12 мин

6.6K

Блог компании Yandex Cloud & Yandex InfrastructureРабота с видео * Обработка изображений * Звук

Обзор

В видеостриминге есть два типа инженеров: разработчики, которые создают сервисы потокового вещания, и инженеры, которые делают контент. Два этих множества практически не пересекаются — в результате не все айтишники понимают, насколько легко может пострадать качество видео во время его обработки.

Привет, меня зовут Антон Кортунов, я техлид Yandex Infrastructure. В 2017 году мы запустили новый для Яндекса проект — платформу потокового видео Яндекс Эфир. Сам проект закрылся, но на основе платформы работают Кинопоиск, видеокарточки товаров в Яндекс Маркете, Реклама и множество других сервисов.

Как разработчик тогда я столкнулся с чудным дивным миром телевидения и кино, и понял, что видео — не просто последовательность кадров на фоне звуковой дорожки. Под катом расскажу о тонкостях, о которых я узнал от видеоинженеров за последние 5 лет.

Читать далее

+37

olegbunin 25 дек 2023 в 09:01

БД — это скальпель или мультитул? Куда привела эволюция СУБД в 2023 году

10 мин

13K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании Конференции Олега Бунина (Онтико)Хранение данных * Базы данных *

За последние пару десятилетий с ростом объёма данных на рынке СУБД сложился интересный ландшафт. Появились новые СУБД, при этом старые продолжали развиваться — и сориентироваться среди них становилось всё сложнее.

В этой статье предлагаем рассмотреть эволюцию разных СУБД и сравнить их между собой. Поможет нам в этом Олег Бондарь, директор по продукту в Yandex Cloud, который отвечает за развитие YDB — это транзакционная реляционная база данных с открытым исходным кодом. Статья написана по материалам его доклада на Saint Highload++.

Читать далее

+20

dpivovarov 14 дек 2023 в 07:30

Переход на Serverless: как выстроить архитектуру своего приложения

Простой

6 мин

3.3K

Блог компании Yandex Cloud & Yandex InfrastructureServerless * Облачные вычисления *

Обзор

Как менеджер продукта и один из амбассадоров serverless я регулярно рассказываю о преимуществах этого подхода и показываю, как с помощью бессерверных вычислений повысить эффективность затрат на инфраструктуру. Но как и у любого подхода, у serverless есть свои ограничения, которые важно учесть в своей IT-стратегии.

В этой статье расскажу о затруднениях, с которыми сталкиваются разработчики при переходе на serverless, и покажу, как можно их избежать на уровне архитектуры приложения.

Читать далее

+9

karpenko_mar 30 ноя 2023 в 14:35

Перенести терабайты канбан-досок в облако: опыт команды Yandex Tracker

Простой

7 мин

3.9K

Блог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура * MongoDB * Базы данных * Облачные сервисы *

Кейс

Привет, меня зовут Мария Карпенко, я разработчик в команде Yandex Tracker — сервиса для управления процессами и проектами. Внутри Яндекса сервис используется для постановки задач практически во всех командах, так что общее количество событий по задачам исчисляется уже миллиардами.

Как внутренний сервис Tracker существует с 2012 года, и старые инстансы исторически использовали базы данных on-premise. Но к 2023 году многие части даже из списка легаси должны были переехать в облако — и нам понадобилось продумать бесшовный переезд для достаточно объёмных БД.

В этой статье расскажу, как мы решили эту задачу, — рассказ будет интересен всем, кто планирует переезд в облачную инфраструктуру.

Читать далее

+13

eucariot 20 ноя 2023 в 07:02

Что ты такое, dhclient?

19 мин

52K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureНастройка Linux * Сетевые технологии * DevOps *

Кейс

Лучший Техноавтор 2023

Сетевой стек Linux не прост даже на первый взгляд: приложение — в юзерспейсе, а всё, что после сокета, — в ядре операционки. И там тысяча реализаций TCP. Любое взаимодействие с сетью — системный вызов с переключением контекста в ядре.

Чтобы лишний раз не дёргать ядро прерываниями, придумали DMA — Direct Memory Access. И это дало жизнь классу софта с режимом работы kernel bypass: например при DPDK (Intel Data Plane Development Kit). Потом был BPF. А за ним — eBPF.

Но даже помимо хаков работы с ядром есть такие штуки, как sk_buff, в которой хранятся метаданные всех миллионов протоколов. Есть NAPI (New API), которая призвана уменьшить число прерываний. Есть 100500 вариантов разных tables.

И копать можно безгранично далеко. Но сегодня мы всё же поговорим о вещах более приземлённых и повседневных, которые лишь приоткрывают вход в эту разветвлённую сеть кроличьих нор. Мы разберём одну любопытную задачку, на примере которой ужаснёмся тому, как сложно может быть реализован такой простой протокол, как DHCP.

Начать погружение

+218

impressionableracoon 16 ноя 2023 в 12:05

Собираем статистику по телеграм-каналу и строим кастомные графики

8 мин

4.9K

Блог компании Yandex Cloud & Yandex InfrastructureServerless * Облачные сервисы * Go *

Туториал

Привет, Хабр! Меня зовут Вадим Владимиров, я разработчик и у меня есть свой канал в Телеграме. Как и многие уважающие себя телеграм‑админы, я хочу следить за статистикой: оценивать эффективность, когда что‑то делаю для привлечения подписчиков, мониторить прирост аудитории и знать, какие именно пользователи и когда подписались/отписались.

В Телеграме из коробки можно посмотреть какие‑то графики. Но, например, количество подписчиков отображается с точностью до дня, что не очень удобно. Сделать оттуда drill down до конкретного действия тоже нельзя.

При этом как администратор канала через API я могу получить гораздо больше нужной информации. В этой статье покажу, какие кастомные графики и как я собрал с использованием доступных инструментов: YDB в режиме serverless и DataLens.

Читать далее

+15

AlexeyW100 15 ноя 2023 в 07:01

Дизайн-система Gravity UI: как легко построить свой интерфейс

Простой

7 мин

52K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureOpen source * Интерфейсы * Графический дизайн *

Всем привет, я Алексей Сизиков, руководитель отдела User Experience в Yandex Cloud. В этой статье я хочу поделиться новостью: мы выпустили нашу дизайн-систему и библиотеку компонентов Gravity UI в опенсорс.

Под катом — рассказ, зачем мы сделали Gravity UI, как его используем, в чём особенности и преимущества нашего подхода и как мы планируем развивать его дальше. А ещё — как настроить разные цветовые схемы в своих проектах и почему у нас четыре темы вместо двух стандартных.

Читать далее

+67

maxkachinsky 2 ноя 2023 в 11:30

История облачного переезда: как мы отказались от гибридного деплоя и полюбили Terraform

Простой

12 мин

6.7K

Блог компании Yandex Cloud & Yandex InfrastructureМикросервисы * Облачные сервисы * DevOps * IT-инфраструктура *

Кейс

Привет, меня зовут Максим Качинский, я ведущий DevOps-инженер в компании RocketData. Более 6 лет мы развиваем одноимённую платформу для управления репутацией — за это время она выросла с монолитного MVP на единственном сервере до 15+ микросервисов с пятью разными видами баз данных. И всё это в гибридной инфраструктуре.

Чем больше рос проект, тем сложнее нам было его поддерживать. Чтобы облегчить жизнь DevOps-инженерам, мы начали постепенно переходить на managed-решения. Но этот путь не был идеально прямым, и нам пришлось пересмотреть многие привычные рабочие инструменты.

В этом посте поделюсь нашим опытом: покажу, как мы используем Terraform, и расскажу, что стоит учесть при масштабировании гибридной инфраструктуры и переезде в облако.

Читать далее

+12

Flexxxey 19 окт 2023 в 10:00

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

Сложный

13 мин

2.9K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureBig Data * Data Engineering *

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.

Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».

Читать далее

+17

5