Прощайте, базы данных, да здравствуют векторные базы данных / Habr

Революция в области искусственного интеллекта переформатирует все отрасли нашей жизни, с одной стороны обещая невероятные инновации, а с другой ー сталкивая нас с новыми вызовами. В безумном потоке изменений эффективная обработка данных становится приоритетом для приложений, на основе больших языковых моделей, генеративного ИИ и семантического поиска. В основе этих технологий лежат векторные представления (embeddings, дальше будем называть их Эмбеддинги), сложные представления данных, пронизанные критической семантической информацией. Эти вектора, созданные LLMs, охватывают множество атрибутов или характеристик, что делает управление ими сложной задачей. В области искусственного интеллекта и машинного обучения эти характеристики представляют различные измерения данных, необходимые для обнаружения закономерностей, взаимосвязей и базовых структур. Для удовлетворения уникальных требований к обработке этих вложений необходима специализированная база данных. Векторные базы данных специально созданы для обеспечения оптимизированного хранения и запросов векторов, сокращая разрыв между традиционными базами данных и самостоятельными векторными индексами, а также предоставляя ИИ-системам инструменты, необходимые для успешной работы в этой среде нагруженной данными.

Погнали

Содержание

Введение в векторные базы данных
Эмбеддинги
Векторный поиск
Приблизительный метод ближайших соседей (ANN)
Векторная база данных против реляционной базы данных
Принцип работы векторных баз данных
Значимость векторных баз данных
Топ-7 векторных баз данных
Применение векторных баз данных

Введение в векторные базы данных

Векторная база данных - это специализированный тип базы данных, который хранит данные в виде многомерных векторов, каждый из которых представляет определенные характеристики или качества. Эти векторы могут иметь различное количество измерений, в зависимости от сложности данных (в одном случае это может быть несколько измерений, а в другом ー тысячи). Для преобразования данных, включая текст, изображения, аудио и видео, в эти векторы используются различные методы, например, модели машинного обучения или извлечение признаков. Основное преимущество векторной базы данных заключается в ее способности эффективно и точно извлекать данные на основе близости или сходства векторов. Это позволяет выполнять поиски на основе семантической и контекстуальной значимости, а не только полагаться на точные совпадения или заранее определенные критерии, как в традиционных базах данных.

Эмбеддинги

Искусственный интеллект и машинное обучение произвели революцию в представлении неструктурированных данных с использованием эмбеддингов. Это массивы чисел, которые содержат семантическое значение объектов данных. Например, цвета в системе RGB представлены числами, указывающими их красную, зеленую и синюю составляющие. Однако представление более сложных данных, таких как слова или текст, в значимые числовые последовательности является сложной задачей. Именно здесь вступают в игру модели машинного обучения. Модели машинного обучения могут представлять смысл слов в виде векторов, изучая отношения между словами в векторном пространстве. Эти модели часто называют моделями эмбеддингов или векторизаторами.

Источник изображения: A Gentle Introduction to Vector Databases | Weaviate — vector database

Эмбеддинги кодируют семантическое значение объектов относительно друг друга. Похожие объекты группируются близко в векторном пространстве, что означает, что чем ближе два объекта, тем больше они похожи. Например, рассмотрим векторы слов. В этом случае слова, такие как "Волк" и "Собака", находятся близко друг к другу, потому что собаки являются потомками волков. "Кошка" также похожа, потому что она имеет сходство с "Собакой", поскольку обе являются животными и распространенными домашними питомцами. С другой стороны, слова, представляющие фрукты, такие как "Яблоко" и "Банан", находятся дальше от терминов, относящихся к животным, формируя отдельный кластер в векторном пространстве.

Векторный поиск

Эмбеддинги позволяют нам выполнять векторный поиск, поиск по сходству или семантический поиск, находя и извлекая схожие объекты в векторной базе данных. Эти процессы включают в себя поиск объектов, находящихся близко друг к другу в векторном пространстве. Точно так же, как мы можем найти схожие векторы для определенного объекта (например, собаки), мы также можем найти схожие векторы для поискового запроса. Например, чтобы найти слова, похожие на слово "Котенок", мы генерируем векторное вложение для "Котенка" и извлекаем все элементы, близкие к вектору запроса, такие как слово "Кошка".

Числовое представление объектов данных дает нам возможность применять математические операции, такие как расчет расстояния между двумя векторными вложениями, для определения их сходства. Это делает векторные вложения мощным инструментом для поиска и сравнения объектов данных на основе их семантического значения.

Метод ближайших соседей (ANN)

Индексация векторов упрощает извлечение данных путем эффективной организации векторных вложений. Она использует метод ближайших соседей (ANN) для предварительного расчета расстояний между векторными вложениями, кластеризации схожих векторов и их хранения вблизи друг от друга. Хотя этот подход жертвует некоторой точностью ради скорости, он позволяет более быстро извлекать приблизительные результаты. Например, в векторной базе данных можно предварительно рассчитать кластеры, такие как "животные" и "фрукты". При запросе базы данных на "Котенка" поиск начинается с ближайших животных, избегая расчетов расстояний между фруктами и объектами, не относящимися к животным. Алгоритм ANN начинает поиск в соответствующем регионе, таком как четырехногие животные, поддерживая близость к соответствующим результатам благодаря предварительно организованному сходству.

Векторная база данных против реляционной базы данных

Основное различие между традиционными реляционными базами данных и современными векторными базами данных заключается в их оптимизации для различных типов данных. Реляционные базы данных отлично справляются с обработкой структурированных данных, хранящихся в столбцах, полагаясь на совпадения ключевых слов для поиска. В отличие от этого, векторные базы данных хорошо подходят для структурированных и неструктурированных данных, включая текст, изображения и аудио, а также их эмдеддингов, что обеспечивает эффективный семантический поиск. Многие векторные базы данных хранят векторные вложения вместе с оригинальными данными, обеспечивая гибкость выполнения как векторных, так и традиционных поисков по ключевым словам.

Например, при поиске вопросов "Jeopardy", связанных с животными, традиционная база данных требует сложного запроса с указанием конкретных названий животных, тогда как векторная база данных упрощает поиск, позволяя запросить общее понятие "животные".

Принцип работы векторных баз данных

Источник изображения: What is a Vector Database & How Does it Work? Use Cases + Examples | Pinecone

В контексте приложения, такого как ChatGPT, которое работает с обширными данными, процесс включает следующее:

Пользователь вводит запрос в приложение.
Содержимое, которое должно быть проиндексировано, преобразуется в векторные вложения с использованием модели Эмбеддинга.
Эмбединг, вместе с ссылкой на исходное содержимое, сохраняется в векторной базе данных.
Когда приложение отправляет запрос, модель эмбеддинга генерирует вектор для запроса. Эти вектора запроса используются для поиска в базе данных похожих эмбедингов. В традиционных базах данных запросы обычно требуют точных совпадений, в то время как векторные базы данных используют метрики сходства для поиска наиболее похожего вектора на запрос.

Векторные базы данных используют комбинацию алгоритмов для поиска ближайших соседей (ANN). Эти алгоритмы, организованные в конвейер, оптимизируют скорость поиска с помощью методов, таких как хеширование, квантование и методы, основанные на графах. Балансировка точности и скорости является ключевым аспектом при использовании векторных баз данных, которые предоставляют приближенные результаты.

Запрос в векторной базе данных включает три основных этапа:

Индексация: Векторные вложения отображаются на структуры данных с использованием различных алгоритмов внутри векторной базы данных, тем самым улучшая скорость поиска.
Запрос: База данных сравнивает запрашиваемый вектор с проиндексированными векторами, используя метрику сходства для определения ближайшего соседа.
Постобработка: Векторная база данных выполняет постобработку ближайшего соседа для генерации окончательного выходного запроса, например, сортировку ближайших соседей для будущего использования.

Важность векторных баз данных

Векторные базы данных играют ключевую роль в индексации векторов, созданных с помощью эмбеддингов. Они позволяют осуществлять поиск похожих ресурсов с помощью соседних векторов. Разработчики используют эти базы данных для создания уникального пользовательского опыта, включая поиск изображений на основе снимков, сделанных пользователями. Автоматизация извлечения метаданных из контента, вместе с гибридным поисковым запросом на основе ключевых слов и векторов, дополнительно повышает возможности поиска. Векторные базы данных также служат внешними базами знаний для генеративных моделей искусственного интеллекта, таких как ChatGPT. Они обеспечивают надежную информацию и стабильное взаимодействие с пользователем, особенно в уменьшении проблем, таких как галлюцинации.

Топ-7 векторных баз данных

Ландшафт векторных баз данных динамичен и быстро развивается, с многочисленными крупными игроками, стимулирующими инновации. Каждая база данных представляет собой уникальные функции и возможности, удовлетворяя различные требования и приложения в области машинного обучения и искусственного интеллекта.

Источник изображения: The 5 Best Vector Databases | A List With Examples | DataCamp

Chroma - 1

Источник изображения: 🏡 Home | Chroma (trychroma.com)

Chroma - это открытая векторная база данных, разработанная для упрощения разработки приложений с использованием крупных языковых моделей (LLM), позволяя интегрировать знания, факты и навыки для этих моделей. Она предлагает такие функции, как управление текстовыми документами, преобразование текста в эмбеддинги и поиска.

Основные особенности:

Chroma предоставляет широкий спектр функций, включая запросы, фильтрацию, оценку плотности и многое другое.
Поддерживает LangChain (Python и JavaScript) и LlamaIndex.
API, используемый в блокноте Python, масштабируется без проблем на производственный кластер.

Pinecone

Pinecone - это управляемая платформа векторных баз данных, специально разработанная для работы с многомерными векторами. С помощью продвинутых функций индексации и поиска Pinecone позволяет инженерам и ученым создавать и развертывать масштабные приложения машинного обучения для эффективной обработки и анализа многомерных данных.

Основные особенности:

Полностью управляемый сервис.
Высокая масштабируемость для обработки больших наборов данных.
Поддержка добавления данных в реальном времени для поддержания информации в актуальном состоянии.
Возможности поиска с низкой задержкой.
Интеграция с LangChain.

Milvus

Milvus - это открытая векторная база данных с акцентом на поиске сходства эмбеддингов и применениях искусственного интеллекта. Она обеспечивает простой пользовательский опыт в различных средах развертывания. Распределенная архитектура Milvus 2.0 повышает эластичность и адаптивность, делая ее надежным выбором для ряда сценариев использования, включая поиск изображений, чат-ботов и даже поиск химических структур.

Основные особенности:

Способена искать триллионы векторных наборов данных за миллисекунды.
Предлагает простое управление неструктурированными данными.
Масштабируема и адаптируется к различным нагрузкам.
Поддерживает гибкие возможности поиска.
Включает объединенную структуру Лямбда для безупречной производительности.

Weaviate

Weaviate - это открытая векторная база данных, которая позволяет хранить объекты данных и эмбеддинги из различных моделей машинного обучения. Она может масштабироваться без проблем для вмещения миллиардов объектов данных.

Основные особенности:

Weaviate может быстро извлекать десять ближайших соседей из миллионов объектов всего за миллисекунды.
Пользователи могут импортировать или загружать свои векторизованные данные, а также интегрироваться с платформами, такими как OpenAI, HuggingFace и другими.
Weaviate подходит как для прототипов, так и для продакшена, обеспечивая масштабируемость, репликацию и безопасность.
Weaviate предлагает функции рекомендаций, суммирования и интеграции с нейронными поисковыми фреймворками.

Qdrant

Qdrant - это универсальная векторная база данных и сервис API, предназначенный для проведения поиска сходства векторов высокой размерности. Он преобразует эмбеддинги и кодировщики нейронных сетей в комплексные приложения, подходящие для сопостасравнения, поиска и рекомендаций.

Основные особенности:

Предоставляет спецификации OpenAPI v3 и предварительно построенные клиенты для нескольких языков программирования.
Использует собственный алгоритм HNSW для быстрого и точного поиска векторов.
Позволяет фильтровать результаты на основе связанных векторных данных.
Поддерживает различные типы данных, включая сопоставление строк, числовые диапазоны и географические местоположения.
Разработан для облачных сред с возможностями горизонтального масштабирования.

Elasticsearch

Elasticsearch - это механизм аналитики с открытым исходным кодом, который предлагает разносторонние возможности обработки данных, включая текстовые, числовые, географические, структурированные и неструктурированные данные. Он является ключевым компонентом Elastic Stack, набора открытых инструментов для обработки, хранения, анализа и визуализации данных. Elasticsearch превосходно работает в различных сценариях использования, обеспечивая централизованное хранение данных, мгновенный поиск, точную релевантность и масштабируемую аналитику.

Основные особенности:

Поддерживает конфигурации кластеров и обеспечивает высокую доступность.
Предлагает автоматическое восстановление узлов и распределение данных.
Масштабируется горизонтально для работы с большими нагрузками.
Поиск ошибок для поддержания доступности кластеров и данных.
Разработан для «вечного спокойствия»: распределенная архитектура, обеспечивающей надежность.

Faiss

Источник изображения: Faiss: A library for efficient similarity search — Engineering at Meta (fb.com)

Faiss, разработанный Facebook AI Research, - это библиотека с открытым исходным кодом, предназначенная для быстрого и эффективного поиска похожести и группировки плотных векторов. Он поддерживает поиск наборов векторов различного размера, включая те, которые могут не поместиться в оперативной памяти, что делает его универсальным для больших наборов данных.

Основные особенности:

Помимо возвращения ближайшего соседа, Faiss также возвращает второго, третьего и k-го ближайшего соседа.
Позволяет одновременно искать несколько векторов (пакетная обработка).
Использует поиск с максимальным скалярным произведением вместо минимального евклидова поиска.
Поддерживает различные метрики расстояния, включая L1, Linf и другие.

Применение векторных баз данных

Векторные базы данных оказывают значительное воздействие на различные отрасли. Частым применением векторных баз данных является поиск подобного.

В ритейле

Векторные базы данных в розничной торговле, обеспечивают продвинутые системы рекомендаций, которые выдают персонализированные предложения на основе атрибутов продуктов и предпочтений пользователей.

Обработка естественного языка (NLP)

Векторные базы данных улучшают приложения NLP, позволяя чат-ботам и виртуальным помощникам лучше понимать и отвечать на человеческий язык, улучшая взаимодействие между клиентами и агентами.

Анализ финансовых данных

В финансовой сфере векторные базы данных анализируют сложные данные, чтобы помочь аналитикам обнаруживать закономерности, принимать обоснованные инвестиционные решения и прогнозировать движение рынка.

Обнаружение аномалий

Векторные базы данных отлично подходят для обнаружения выбросов, особенно в секторах финансов, что делает процесс обнаружения аномалий быстрее и точнее, тем самым предотвращая мошенничество и нарушения безопасности.

Здравоохранение

Векторные базы данных персонализируют медицинское лечение, анализируя геномные последовательности и соотнося решения с индивидуальной генетической структурой.

Анализ медиа-материалов

Векторные базы данных упрощают анализ изображений, помогая в задачах, таких как интерпретация медицинских сканов и видеонаблюдение для оптимизации потока трафика и обеспечения общественной безопасности.

В отдельной статье разобрали как экспериментировать с векторными базами данных, такими как Chromadb, Pinecone, Weaviate и Pgvector. Переходите по следующей ссылке: Эксперименты с векторными базами данных: Chromadb, Pinecone, Weaviate и Pgvector | codemaker2016.medium.com

Спасибо за прочтение этой статьи. Благодарим Гаури М. Бхатт за рецензирование контента.

Если вам понравилась эта статья, пожалуйста, нажмите на кнопку сердечка ♥ и поделитесь ею, чтобы помочь другим найти ее!

Статья также доступна на Medium.