Yandex Cloud & Yandex Infrastructure - Строим публичное облако и инфраструктуру Яндекса / Статьи / Хабр

Как стать автором

ПрофильСтатьи120Посты31Новости5Подписчики26K

e-antonov 16 авг 2024 в 07:00

Система онбординга комфорт-класса

Простой

15 мин

4.6K

Блог компании Yandex Cloud & Yandex InfrastructureКарьера в IT-индустрииУправление персоналом*Developer Relations*

Привет! Я Евгений Антонов, ведущий технический менеджер проектов в Yandex Infrastructure. В ИТ‑индустрии за 17 лет успел поадминистрировать, поразрабатывать и поруководить. Работал на многих позициях в разных компаниях — аутсорсных и продуктовых.

Я был тем, кого онбордят, кто онбордит, кто придумывает, как онбордить, и несёт ответственность за производительность команд и онбординга в том числе.

Я пообщался по этой теме с десятками людей из десятков разных компаний, изучил их опыт и смог увидеть похожие боли. В этой статье я хочу поделиться основными трудностями онбординга, которые заметил, и предложить своё решение.

Читать далее

+26

alkir 12 авг 2024 в 07:00

Как избежать проблем с производительностью S3 в своём приложении

Простой

12 мин

6K

Блог компании Yandex Cloud & Yandex InfrastructureХранение данных*Облачные сервисы*

За время работы с объектными хранилищами я встречал немало «подводных рифов» на пути к быстрому и эффективному хранению.

В этой статье я покажу, где чаще всего проседает производительность при работе с S3-совместимым хранилищем, — на примерах из реальных кейсов технической поддержки.

Читать далее

+11

bettapo 9 авг 2024 в 13:02

Свой плеер для DASH: вошли и вышли, приключение на 20 минут. Доклад Яндекса

20 мин

4.4K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureРабота с видео*Программирование*

Меня зовут Оля, я разработчик в Yandex Infrastructure и я делаю веб‑плеер — библиотеку для воспроизведения видео на разных сервисах Яндекса (например, на Кинопоиске, Диске, Практикуме и Погоде).

Эта история о том, как мы отказались от опенсорс‑решения для воспроизведения потокового видео и написали свой велосипед. Я расскажу об архитектуре нашего решения и о том, с чем мы столкнулись, когда воплощали его в жизнь. Также покажу, какие эксперименты мы проводили и на какие метрики ориентировались.

Читать далее

+24

leborchuk 31 июл 2024 в 07:00

Greenplum: эффективное хранение данных с Hybrid Storage

16 мин

2.5K

Блог компании Yandex Cloud & Yandex InfrastructureOpen source*Базы данных*Распределённые системы*Хранение данных*

В 2021 году мы запустили Greenplum в нашем облаке. И очень скоро столкнулись с тем, что эластичность систем расчёта и хранения — это must have в облачных аналитических БД. А Greenplum — совсем не такой.

Чтобы поменять ситуацию, мы научились отгружать часть данных в S3 и назвали получившееся решение Hybrid Storage. В этой статье расскажу о нём подробнее.

Читать далее

+10

SomeEditor 19 июл 2024 в 07:00

Как вырастить динозавра: масштабирование платформы YTsaurus от 200 до 20 000 хостов. Доклад Яндекса

16 мин

3K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании ЯндексАнализ и проектирование систем*Высоконагруженные системы*

Привет! Меня зовут Паша Сушин. Уже больше десяти лет я занимаюсь в Яндексе развитием платформы YTsaurus — нашего внутреннего инструмента, который в марте 2023 года вышел в опенсорс и теперь доступен всем на GitHub по лицензии Apache 2.0.

Сегодня мой рассказ будет о том, какие ограничения архитектуры мы преодолели, чтобы масштабировать наши кластеры больше чем в сотню раз.

Читать далее

+20

savrus_pub 17 июл 2024 в 07:00

Как ломаются большие системы и как их траблшутить — инсайты из интенсива ШАДа Яндекса

10 мин

8.1K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureВысоконагруженные системы*Сетевые технологии*Инженерные системы*

Привет, меня зовут Руслан Савченко, я руководитель службы разработки динамических таблиц в Yandex Infrastructure и преподаватель в Школе анализа данных. Сегодня я поделюсь актуальными инсайтами о том, как ломаются большие системы и как их траблшутить. Думаю, это будет полезно разработчикам и студентам, которые интересуются Site Reliability Engineering. Вообще, мало где сейчас обучают SRE, хотя в индустрии такие задачи очень востребованы.

В основе статьи — материалы SRE Week, открытого интенсива ШАДа по работе с большими нагруженными системами.

Читать далее

+28

SomeEditor 9 июл 2024 в 07:30

Советы бывалых: как и зачем проходить сертификацию Yandex Cloud Certified Engineer Associate

Простой

10 мин

4.1K

Блог компании Yandex Cloud & Yandex InfrastructureОблачные сервисы*Карьера в IT-индустрииУчебный процесс в IT

Интервью

В начале апреля мы запустили первую программу сертификации специалистов по облачным технологиям — до этого не было экзаменов по работе с российскими облачными платформами, которые созданы в соответствии с отечественными и международными стандартами тестирования. За 3 месяца с момента запуска состоялось 12 экзаменов, в них участвовали 88 специалистов разного профиля. Большинство участников — инженеры DevOps.

Мы спросили первых обладателей сертификата про их опыт: как сертификация помогает достичь профессиональных целей, как лучше подготовиться и чего стоит ждать тем, кто только собирается сдавать экзамен. Дадим слово четырём участникам с разной облачной специализацией.

Читать далее

+10

ShuraZ 27 июн 2024 в 09:30

Как мы повышали производительность очереди сообщений

14 мин

12K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureБлог компании YDBВысоконагруженные системы*IT-инфраструктура*

Работа в Яндексе ставит огромное количество технических вызовов, которые интересно решать. И один из них — это производительность основной очереди сообщений YDB Topics. Посмотрим, может ли опенсорсный продукт от Яндекса конкурировать с Apache Kafka по производительности.

Меня зовут Зевайкин Александр. Я уже практически 20 лет в IT. Начинал с преподавания в вузе, запускал множество стартапов, руководил командами разработки. В текущий момент я работаю в Яндексе в отделе, занимающимся одной из высоконагруженных систем. Это разработка распределённой базы YDB, в частности, функциональности YDB Topic.

Читать далее

+37

SomeEditor 14 июн 2024 в 13:00

Концентрат хардкор-инфры в стаканах для нетворкинга: чем запомнился infra.conf 2024

7 мин

1.1K

Блог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура*КонференцииСистемное администрирование*

Обзор

4 июня состоялась infra.conf 2024 — конференция про создание инфраструктуры и эксплуатацию высоконагруженных систем от команды Yandex Infrastructure. На мероприятии мы попросили поделиться своими инфраструктурными историями инженеров не только Яндекса, но и Ozon.Tech, T1, MTS Web Services, Т‑Банка, SberDevices, Альфа‑банка, «Лаборатории Касперского», Selectel, Postgres Pro, СберМаркета и Авито. В результате, по отзывам участников, «хардкор‑концентрат железа и DevOps зашкаливал и летал прямо в воздухе».

В этой статье мы собрали самые интересные моменты по тем докладам, которые вызвали наибольшую реакцию и восторг от полезности в кулуарах и чатах, — чтобы вам было проще сориентироваться, что стоит пересмотреть.

Читать далее

+3

SomeEditor 7 июн 2024 в 14:00

Фишки и «грабли» использования машинного обучения от спикеров ML2Business

Простой

8 мин

2.1K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании Инфосистемы ДжетМашинное обучение*КонференцииИскусственный интеллект

Кейс

В среду 29 мая мы провели ML2Business — первую конференцию от Yandex Cloud, посвящённую кейсам применения GenAI, NLP, CV и других технологий ML в бизнесе.

Реальный опыт внедрения машинного обучения был представлен в двух треках: GenAI&NLP и GenAI&CV. Их программа была полностью посвящена историям использования ML в разных компаниях. В этой статье мы собрали инсайты спикеров из компаний «Инфосистемы Джет», «ВкусВилл» и Банки.ру, которые могут быть интересны техническим специалистам.

Читать далее

+8

eucariot 6 июн 2024 в 07:30

TACACS in da Сloud

Сложный

25 мин

11K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureИнформационная безопасность*Серверное администрирование*Сетевое оборудование

Вот есть у вас сотня коммутаторов или маршрутизаторов. Это много или мало?

Ну вроде как мало. А если надо на всех разом нового сотрудника добавить? А потом удалить уволившегося? А потом поротировать скомпрометированные пароли и ключи?

И тут приходит служба безопасности, которая, во-первых, хочет централизованно контролировать, у кого какие доступы, во-вторых, актуальны ли они на железках, в-третьих, ещё и смотреть, кто что когда запускал, да ещё и разрешать или запрещать это делать («Просто продолжай, не останавливайся» © СИБ).

Ну вот совсем уже и не мало. Чувствуете, чем это пахнет? Даааа, TACACS-ом.

Сегодня мы разберём, как сделать аутентификацию и авторизацию на сетевом оборудовании на основе TACACS, сделать работу сервиса отказоустойчивой, обеспечить себе запасной ход на случай глобальных проблем и осчастливить безопасников.

Читать далее

+55

BorisKhasanov 23 мая 2024 в 08:30

Эволюция Traffic Engineering-3. Жизнь после MPLS

Средний

23 мин

4K

Блог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура*Сетевые технологии*Сетевое оборудование

Технологии MPLS более двадцати лет. Всё это время она широко использовалась операторами связи, а также в больших корпоративных сетях. Казалось бы, стоит ли искать «лучшее вместо хорошего»? Так, да не так.

В завершающей части нашего цикла про Traffic Engineering обсудим подробнее тему Segment Routing, к которой мы подошли в прошлый раз. И для этого нам будет нужно разобраться, что же не хватало в MPLS.

Читать далее

+9

SomeEditor 8 мая 2024 в 07:00

Удалённое исполнение кода в ML: подходы и инструменты. Доклад Яндекса

9 мин

2.5K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureOpen source*IT-инфраструктура*Машинное обучение*

Всем привет. На связи Артём Гойлик @ArtoLord и Владислав Волох @Chillintano из команды DataSphere в Yandex Cloud. Мы создаём инфраструктуру для ML-разработчиков. И сегодня расскажем про одну задачу, которая, как и многие другие, начиналась с болей наших пользователей.

Читать далее

+13

SloNN 2 мая 2024 в 06:00

Как Яндекс создал свою шину данных, чтобы передавать сотни гигабайт в секунду

Простой

7 мин

43K

Блог компании YDBБлог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура*Open source*Высоконагруженные системы*

Роадмэп

✏️ Технотекст 7

10 лет назад сотни серверов Яндекса работали на Apache Kafka®, но в этом продукте нам нравилось далеко не всё. Наши задачи требовали единой шины для передачи всех видов данных: от биллинговых до журналов приложений. Сегодня объёмы достигли уже десятков тысяч именованных наборов сообщений.

При таком количестве данных в Apache Kafka® становилось сложно управлять правами доступа, организовывать распределённую работу нескольких команд и многое другое. Проблемы роста и отсутствие подходящего решения в открытом доступе привели к тому, что мы разработали своё решение YDB Topics и выложили его в опенсорс в составе платформы данных YDB. В этом посте расскажу о предпосылках создания продукта, нашей архитектуре передачи данных, возникающих задачах и возможностях, которые появились вместе с YDB Topics.

Читать далее

+70

Alexeyafonin 25 апр 2024 в 07:00

Изменить цвета и кнопки сервиса — и не сломать дизайн-систему

13 мин

4.2K

Блог компании Yandex Cloud & Yandex InfrastructureДизайнИнтерфейсы*Open source*Веб-дизайн*

Кейс

Меня зовут Алексей Афонин, я старший дизайнер продукта в Yandex Cloud. В прошлом году нам понадобилось полностью изменить внешний вид нашего сервиса для бизнес‑аналитики DataLens перед его выходом в опенсорс. Разработчики и дизайнеры интерфейсов часто сталкиваются с подобными задачами: есть уже работающий сервис, но его нужно стилизовать, например, в случае ребрендинга или при необходимости учесть специфический пользовательский опыт.

В наших продуктах мы пользуемся дизайн‑системой и библиотекой компонентов Gravity UI — это проект Yandex Cloud, который не так давно тоже вышел в опенсорс. В этой статье я поделюсь опытом, как мы решили задачу «перекрашивания DataLens» с её помощью. Но даже если вы не используете DataLens и ещё не знакомы с Gravity UI, наши наработки могут пригодиться командам разработчиков и дизайнеров, которые хотят стилизовать свои продукты быстрее и удобнее.

Читать далее

+13

aozeritsky 24 апр 2024 в 07:00

Эволюция обработки данных: от MapReduce к стриминговому движку

7 мин

8.6K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureSQL*Базы данных*Хранение данных*

Кейс

Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут.

Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.

В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.

Читать далее

+39

AlexSerbul 15 апр 2024 в 07:00

Перенести проверенную схему бэкапа больших данных из S3 в Yandex Cloud: опыт Битрикс24

Средний

9 мин

2.8K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании YDBБазы данных*Резервное копирование*Облачные сервисы*

Кейс

Меня зовут Александр, я руковожу направлением больших данных в Битрикс24. Клиенты нашего сервиса хранят миллиарды файлов: от документов до фотографий, — а моя команда предоставляет возможность строить бизнес-аналитику на основе этого множества данных. И нам важно позаботиться об их сохранности.

Более 10 лет назад мы продумали необходимую нам схему репликации объектного хранилища в облаке. Затем файлы клиентов потребовалось перенести в другое облако, и нам очень хотелось также перенести все наши наработки в режиме «Ctrl+C, Сtrl+V».

В статье расскажу, как мы организовали резервирование данных в парадигме слабого связывания и как перенесли эту схему в Yandex Cloud без потери важных нам деталей.

Читать далее

+17

BorisKhasanov 11 апр 2024 в 07:00

Эволюция Traffic Engineering-2. От основ PCEP к новому взгляду на РСЕСС

Сложный

15 мин

1.6K

Блог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура*Сетевые технологии*Сетевое оборудование

Traffic Engineering помогает нам решать проблемы оценки и оптимизации производительности IP‑сетей, но при этом требует недюжинного понимания сетевых технологий и протоколов, которые используются в больших сетях. В прошлый раз мы остановились на магии работы PCE-контроллера и затронули Stateless и Stateful PCE. Как здесь не вспомнить комикс от Go Chronicles, посвящённый Stateful.

Конечно, на самом деле PCE-контроллер общается не так, а с использованием PCEP — Path Computation Element Communication Protocol, который описан в RFC 5440. Так что самое время начать с него вторую часть нашей истории про Traffic Engineering.

Читать далее

+5

snk4tr 9 апр 2024 в 07:15

Открываем YandexART API и рассказываем, как мы учили нейросеть создавать картинки, которые понравятся людям

16 мин

20K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureОбработка изображений*Машинное обучение*Искусственный интеллект

✏️ Технотекст 7

В Yandex Cloud с сегодняшнего дня открыт доступ к тестированию API YandexART — нейросети для генерации изображений и анимаций, которая лежит в основе приложения Шедеврум. Протестировать API можно в сервисе Foundation Models, в котором доступно несколько моделей машинного обучения, включая YandexGPT для генерации текстов и эмбеддинги для задач семантического поиска.

Читать далее

+38

vadvolo 4 апр 2024 в 07:30

Автоматизируем сеть Яндекса с Милошем: сервис конфигураций оборудования

19 мин

11K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура*Сетевые технологии*Сетевое оборудование

Задумывались ли вы о том, как изменить конфигурацию сразу на нескольких сетевых устройствах? Что, если нужно сделать это на всей сети с сотнями и тысячами единиц оборудования? А что, если приходится делать это каждый месяц на железе от пяти разных производителей? Очевидное решение для подобных задач — автоматизация. Но реализовать её можно не одним способом, а в процессе наткнуться не на одни грабли.

Меня зовут Вадим Воловик, и я руковожу проектами разработки в Yandex Infrastructure. Наша команда NOCDEV отвечает за автоматизацию сетей всего Яндекса. Давно хотелось рассказать о задачах такого масштаба, но по ходу написания материала стало понятно, что тема тянет на целый цикл. Так что мы с коллегами расскажем о самых интересных примерах автоматизации в отдельных постах.

В этой статье проведём небольшую экскурсию по нашему сетевому «хозяйству» в десятки тысяч устройств и остановимся подробнее на том, как при таком объёме мы автоматически обновляем конфигурации.

Читать далее

+26

4