YDB, Москва / Статьи / Хабр

Как стать автором

ПрофильСтатьи30Подписчики144Сотрудники5

ShuraZ 15 июл в 06:00

Запустили векторный поиск в YDB: рассказываем, как он работает

10 мин

13K

Блог компании ЯндексБлог компании YDBБлог компании Конференции Олега Бунина (Онтико)Высоконагруженные системы*Базы данных*

В новой версии YDB теперь доступны две версии векторного поиска — точный и приближённый. Приближённый поиск может работать с миллиардами векторов, если использовать векторный индекс. Такая технология есть у небольшого количества технологических компаний в мире.

Новый релиз СУБД Яндекса делает векторный поиск доступным для всех. Статья под катом написана по мотивам моего доклада на конференции HighLoad++, с которым я выступил 23 июня в Питере. В ней я расскажу про векторный поиск, индекс, RAG и о том, как эти технологии применяются в Алисе.

Читать далее

+110

vitalyisaev2 30 июн в 07:01

Федеративные возможности YDB: масштабируем разработку вместе со студентами

13 мин

5.2K

Блог компании ЯндексБлог компании YDBХранение данных*Базы данных*Карьера в IT-индустрии

YDB — это разработанная в Яндексе распределённая СУБД с открытым исходным кодом, предназначенная для построения высоконагруженных систем. Разработка СУБД, особенно таких масштабных, как YDB, считается одной из самых сложных и ресурсоёмких задач в IT-индустрии. Для её решения от программиста требуется большой опыт и разносторонние знания в области алгоритмов, операционных систем и компьютерного железа. Тем не менее у студентов есть возможность внести свой вклад в развитие различных подсистем YDB.

Меня зовут Виталий Исаев, я занимаюсь разработкой федеративных возможностей YDB — в этой области вклад студентов в развитие YDB чувствуется особенно сильно. В статье я расскажу о том, как в Яндекс Образовании удалось выстроить процесс совместной работы со студентами: они получают ценный, реальный опыт работы над сложным продуктом, а опенсорс-сообщество YDB — новые фичи. А ещё опишу задачи, которые им приходится решать, и, конечно, поделюсь наиболее яркими их результатами.

Читать далее

+62

eivanov 13 мая в 08:42

Шардированный не значит распределённый: что важно знать, когда PostgreSQL становится мало

Средний

9 мин

13K

Блог компании YDBБазы данных*Высоконагруженные системы*Программирование*PostgreSQL*

Шардирование, двухфазный коммит и распределенные транзакции окружены определенными мифами и заблуждениями. Например, может быть достаточно неочевидно, что двухфазный коммит обеспечивает только атомарность транзакций, но не их изоляцию. Поэтому мы решили написать пост, который бы помог разобраться в этих сложных вещах и сделать правильный выбор, когда Postgres'а Вам станет мало и Вы столкнётесь с шардированием.

Читать далее

+91

vgvoleg 30 апр в 11:52

Релиз диалекта YDB для SQLAlchemy: как мы сделали интеграцию с Apache Superset

Средний

5 мин

2K

Блог компании YDBПрограммирование*Высоконагруженные системы*Базы данных*Визуализация данных*

Меня зовут Олег, и в Яндексе мы с командой занимаемся Python-обвязкой вокруг нашей базы данных YDB. Python знаменит «батарейками в комплекте», широким ассортиментом библиотек на все случаи жизни, включая богатую экосистему для работы с базами данных. Есть свой интерфейс DBAPI (PEP-249), несколько конкурирующих ORM и многочисленные уровни абстракции между софтом и базами. В этой статье — о том, как мы делали полноценную интеграцию нашей базы данных с Apache Superset: чтобы достаточно было выбрать YDB из выпадающего меню и начать визуализировать аналитические данные.

Читать далее

+35

PavelVelikhov 18 апр в 15:07

Стоимостной оптимизатор: сердце гибридной базы данных YDB

8 мин

5.8K

Блог компании YDBПрограммирование*Высоконагруженные системы*IT-инфраструктура*Базы данных*

Я занимаюсь разработкой баз данных с 1999 года и сейчас работаю над YDB — базой данных, которую мы в Яндексе недавно выложили в опенсорс. Это моя шестая база данных и четвертая — массивно-параллельная. И каждый раз, когда основные задачи решены, я сажусь разрабатывать оптимизатор запросов. Под катом я кратко расскажу о том, что такое оптимизаторы запросов в базах данных и почему их непросто делать.

Читать далее

+42

SloNN 9 апр в 10:30

Почему сложно разработать OLAP-базу данных, если у тебя уже есть OLTP

14 мин

5.4K

Блог компании YDBБлог компании Yandex Cloud & Yandex InfrastructureПрограммирование*Высоконагруженные системы*Базы данных*

Это адаптированная для Хабра расшифровка доклада Алексея Дмитриева, директора аналитической платформы YDB DWH, которую создаёт команда Yandex Cloud, — компонента нашей гибридной базы данных YDB для обработки аналитических нагрузок. Когда проект только начинался, у нас было много наработок, которые мы успешно переиспользовали в других проектах. Но оказалось, что OLAP‑нагрузка так сильно отличается от OLTP, что за три года пришлось практически написать по ещё одной реализации многих частей системы. Под катом история о том, почему на рынке так мало гибридных баз данных класса Hybrid Transactional and Analytical Processing (HTAP) и какие сложности стоят на пути их разработки.

Читать далее

+37

elena_kalinina 17 янв в 07:30

Kafka API для работы с потоками данных Yandex Data Streams — топиками YDB

Простой

11 мин

6.5K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании YDBOpen source*Высоконагруженные системы*IT-инфраструктура*

Туториал

Всем привет! Меня зовут Елена Калинина, и я технический менеджер проектов в команде YDB — в рамках Yandex Infrastructure наша команда создаёт технологии для работы всего Яндекса.

YDB — это распределённая отказоустойчивая СУБД с открытым исходным кодом. Для потоковых нагрузок в YDB реализован механизм персистентных очередей сообщений под названием YDB Topics. Топики YDB используются в качестве основной шины данных в Яндексе, что позволяет многократно экономить на серверах и их обслуживании.

Но что если какая‑то компания соблазнится такой экономией и захочет перейти с Apache Kafka на YDB Topics? Без API‑совместимых решений придётся переписывать весь код? К счастью, для работы с топиками YDB можно использовать Kafka API — и в этой статье я подробно покажу, как это сделать, на примере чтения и записи в поток данных и дальнейшей выгрузки в объектное хранилище в облаке.

Читать далее

+10

orlov-pg 15 янв в 09:33

Как я сделал PR на 14К строк в проект YDB будучи студентом

12 мин

13K

Блог компании ЯндексБлог компании YDBБазы данных*SQL*

✏️ Технотекст 7

В этой статье я хотел бы рассказать о задаче, решение которой легло в основу моей дипломной работы. На момент ноября 2023 года я был студентом Физтеха — учился на базовой кафедре Яндекса, программа обучения которой реализуется совместно с ШАДом. Задача заключалась в переводе парсера языка запросов YQL (диалект SQL для YDB и YTsaurus) с ANTLR3 на ANTLR4. Мой наставник в ШАД и руководитель команды разработки клиентских библиотек YDB в Яндексе к. т. н. Алексей Мясников @asmyasnikovотметил еёе как особо сложную. Но меня это не отпугнуло:, тема работы из всех тем, предложенных в ШАД, эта показалась самой интересной и близкой мне.

Читать далее

+69

SloNN 17 окт 2024 в 07:00

Шины данных для очень больших инсталляций, или Почему большим компаниям сложно с опенсорсом

Средний

15 мин

4.2K

Блог компании YDBБлог компании Yandex Cloud & Yandex InfrastructureСистемное администрирование*IT-инфраструктура*Open source*

Как технический менеджер в Яндексе я отвечаю за эксплуатацию больших кластеров, через которые мы передаём данные, — для этого мы используем YDB Topics, собственный аналог Apache Kafka, о котором я уже рассказывал.

Но если посмотреть не только на нас, но и на примеры других крупных систем, то становится понятно, почему энтерпрайзу сложно брать готовые опенсорс‑решения. Стоит лишь представить, что бывает, если команда с большими масштабами начинает использовать Apache Kafka.

В этой статье я покажу собирательный образ такой крупной системы из нашего опыта общения с большими распределёнными командами, и мы увидим разницу в TCO Apache Kafka и YDB Topics на конкретных цифрах.

Читать далее

+22

eivanov 1 июл 2024 в 08:43

Стоит ли бояться serializable-транзакций больше, чем труднонаходимых багов?

Средний

9 мин

8.5K

Блог компании YDBБазы данных*PostgreSQL*Oracle*MySQL*

В базах данных транзакции обладают свойствами ACID, где «I» означает изоляцию транзакций при одновременном (concurrent) выполнении.

Наличие (serializable) изоляции гарантирует, что результат транзакций, выполненных параллельно, будет таким же, как если бы они были выполнены в некотором последовательном порядке.

Сериализация выполнения транзакций не бесплатна с точки зрения производительности.

Многие СУБД поддерживают более слабые уровни изоляции, оставляя за разработчиком выбор подходящего. В монолитных СУБД более слабый уровень изоляции часто используется по умолчанию. Так, в PostgreSQL и MySQL это «read committed». В распределённых СУБД чаще по умолчанию более строгие уровни: «repeatable read» в YugabyteDB и TiDB, «serializable» в CockroachDB и YDB.

Слабые уровни изоляции могут быть причиной очень труднонаходимых багов. Причём эти баги могут вызвать уязвимости в безопасности.

Из-за подобных багов уже были украдены миллионы долларов, в частности с биткоин-бирж. Мы расскажем о подобных случаях более детально в следующих разделах.

Читать далее

+16

m11 28 июн 2024 в 13:15

Что нового в документации YDB во втором квартале 2024 года

Простой

4 мин

1.7K

Блог компании YDBВысоконагруженные системы*Java*SQL*Базы данных*

Дайджест

Перевод

Документация YDB продолжает развиваться, отвечая на растущие потребности своей разнообразной аудитории. Наша цель остаётся прежней — улучшение ясности, доступности и глубины предоставляемой информации. В этом квартале мы ввели значительные обновления и новые разделы.

Читать далее

+7

ShuraZ 27 июн 2024 в 09:30

Как мы повышали производительность очереди сообщений

14 мин

12K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureБлог компании YDBВысоконагруженные системы*IT-инфраструктура*

Работа в Яндексе ставит огромное количество технических вызовов, которые интересно решать. И один из них — это производительность основной очереди сообщений YDB Topics. Посмотрим, может ли опенсорсный продукт от Яндекса конкурировать с Apache Kafka по производительности.

Меня зовут Зевайкин Александр. Я уже практически 20 лет в IT. Начинал с преподавания в вузе, запускал множество стартапов, руководил командами разработки. В текущий момент я работаю в Яндексе в отделе, занимающимся одной из высоконагруженных систем. Это разработка распределённой базы YDB, в частности, функциональности YDB Topic.

Читать далее

+37

KirillKurdyukov 17 мая 2024 в 10:34

Миграции схемы данных YDB с Flyway и распределенные блокировки

Средний

6 мин

2.2K

Блог компании YDB

Обзор

Ранее мы рассматривали интеграцию YDB c Liquibase, теперь поговорим о результатах поддержки инструмента Flyway для управления миграциями схемы данных YDB.

И дополнительно разберем, как мы реализовали распределенную блокировку в Flyway.

Читать далее

+11

asmyasnikov 7 мая 2024 в 07:00

database/sql: плохой, хороший, злой

Средний

20 мин

10K

Блог компании Конференции Олега Бунина (Онтико)Блог компании YDBSQL*Go*

Ретроспектива

Многие Golang-разработчики пробовали работать с БД в Go, и у каждого — свои боли. В этой статье разберём библиотеку database/sql как безотносительно конкретной СУБД, так и применительно к YDB. Рассмотрим трудности эксплуатации при использовании драйвера database/sql на проде. А также рассмотрим, что мы делали для решения проблем.

Меня зовут Алексей Мясников, я — руководитель Application Team в команде разработки YDB. Я очень люблю git blame за то, что с его помощью можно проследить, как развивалась инженерная мысль с течением времени и немножко побыть в шкуре разработчика той или иной классной штуки. В статье я расскажу, как реализовать драйвер database/sql для распределённой базы данных, какие проблемы при этом придётся преодолеть и как менялся подход с выходом новых версий Go.

Читать далее

+54

SloNN 2 мая 2024 в 06:00

Как Яндекс создал свою шину данных, чтобы передавать сотни гигабайт в секунду

Простой

7 мин

43K

Блог компании YDBБлог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура*Open source*Высоконагруженные системы*

Роадмэп

✏️ Технотекст 7

10 лет назад сотни серверов Яндекса работали на Apache Kafka®, но в этом продукте нам нравилось далеко не всё. Наши задачи требовали единой шины для передачи всех видов данных: от биллинговых до журналов приложений. Сегодня объёмы достигли уже десятков тысяч именованных наборов сообщений.

При таком количестве данных в Apache Kafka® становилось сложно управлять правами доступа, организовывать распределённую работу нескольких команд и многое другое. Проблемы роста и отсутствие подходящего решения в открытом доступе привели к тому, что мы разработали своё решение YDB Topics и выложили его в опенсорс в составе платформы данных YDB. В этом посте расскажу о предпосылках создания продукта, нашей архитектуре передачи данных, возникающих задачах и возможностях, которые появились вместе с YDB Topics.

Читать далее

+70

KirillKurdyukov 18 апр 2024 в 11:48

Поддержка диалекта YDB в инструменте миграции Liquibase

Средний

5 мин

1.6K

Блог компании YDB

Обзор

В этой статье мы подробно рассмотрим процесс интеграции одного из наиболее известных и широко используемых в мире Java инструментов для управления миграциями - Liquibase - с YDB.

Читать далее

+12

AlexSerbul 15 апр 2024 в 07:00

Перенести проверенную схему бэкапа больших данных из S3 в Yandex Cloud: опыт Битрикс24

Средний

9 мин

2.8K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании YDBБазы данных*Резервное копирование*Облачные сервисы*

Кейс

Меня зовут Александр, я руковожу направлением больших данных в Битрикс24. Клиенты нашего сервиса хранят миллиарды файлов: от документов до фотографий, — а моя команда предоставляет возможность строить бизнес-аналитику на основе этого множества данных. И нам важно позаботиться об их сохранности.

Более 10 лет назад мы продумали необходимую нам схему репликации объектного хранилища в облаке. Затем файлы клиентов потребовалось перенести в другое облако, и нам очень хотелось также перенести все наши наработки в режиме «Ctrl+C, Сtrl+V».

В статье расскажу, как мы организовали резервирование данных в парадигме слабого связывания и как перенесли эту схему в Yandex Cloud без потери важных нам деталей.

Читать далее

+17

m11 2 апр 2024 в 08:49

Что нового в документации YDB за 1 квартал 2024 года

Простой

3 мин

1.3K

Блог компании YDBDevOps*Базы данных*Системное администрирование*

Дайджест

Перевод

Первоначальная документация YDB, опубликованная в рамках open-source запуска в 2022 году, имела структуру, на которую в значительной степени повлиял закон Конвея. Создание проекта с открытым исходным кодом значительно повышает планку того, что ожидается от документации по технологии. В нашем случае для быстрого создания большого количества контента перед запуском потребовалась командная работа по принципу «разделяй и властвуй». На раннем этапе такое четкое владение каждым фрагментом было полезным. Однако, поскольку общий объем документации со временем продолжает расти, читателям становится всё труднее находить нужную им информацию. Чтобы решить эту проблему, мы перепроектируем структуру документации, чтобы она была ориентирована на пользователя. Таким образом, если вы являетесь командой, работающей с кластером YDB, каждый может иметь свою собственную любимую директорию в документации в соответствии со своей ролью в команде и не отвлекаться на контент, ориентированный на читателей с другой ролью.

Эта реструктуризация ещё в процессе: появился новый раздел для DevOps-инженеров, а также дополнительные разделы для администраторов баз данных, разработчиков приложений, инженеров по безопасности, аналитиков и т.д. Перемещение контента может потребовать выработки новых привычек, но в долгосрочной перспективе такая структура должна упростить навигацию. Мы создаём перенаправление со старого URL на новый при перемещении любой страницы документации, чтобы свести неудобства к минимуму.

Читать далее

+5

eivanov 20 мар 2024 в 08:07

Когда одного Postgres'a мало: сравнение производительности PostgreSQL и распределенных СУБД

Сложный

12 мин

18K

Блог компании YDBВысоконагруженные системы*PostgreSQL*Базы данных*Распределённые системы*

✏️ Технотекст 7

Общеизвестно, что PostgreSQL - крайне эффективная СУБД с богатой функциональностью. При этом не секрет, что PostgreSQL масштабируется только вертикально и её производительность ограничена возможностями одного сервера.

Написано много хороших постов, в которых сравнивают архитектуру монолитных и распределенных СУБД. К сожалению, обычно авторы ограничиваются теоретическим сравнением и не приводят конкретные цифры. Данный пост же наоборот основан на эмпирическом исследовании с использованием бенчмарка TPC-C, который является промышленным стандартом для оценки производительности транзакционных СУБД (On-Line Transaction Processing, OLTP).

Мы расскажем, когда именно одного Postgres'a становится мало, и какие возможны компромиссы между производительностью и надежностью. Для тех, кто не готов к компромиссам, мы покажем, что могут предложить такие распределенные СУБД, как CockroachDB и YDB.

Читать далее

+27

m11 16 янв 2024 в 06:13

Что нового в документации YDB в декабре 2023

Простой

2 мин

1.5K

Блог компании YDBПодготовка технической документации*Kubernetes*Apache*Open source*

Дайджест

Перевод

Краткий дайджест свежего контента и новой функциональности в документации YDB за декабрь прошлого года.

Читать далее

+4

1