squirreldatafeed7 фев 2024 в 06:15

Прощайте, базы данных, да здравствуют векторные базы данных

Простой

11 мин

125K

Natural Language Processing * Open source * Искусственный интеллект

Из песочницы

Перевод

+48

Комментарии 58

saboteur_kiev 7 фев 2024 в 07:19

Как-то не очень понятно, как именно векторная база позволяет упрощать анализ изображений или медиа и так далее. Сама база ж не умеет работать с содержимым непосредственно данных.
Как я понял, она заточена под оптимизацию тегов и других метаданных, которые позволяют создавать сложные связи между данными.

Все остальное это уже варианты использования, так?

2ANikulin 7 фев 2024 в 10:11

Соседей позволяет искать быстро. Это их киллер фича. Т.е не строгие совпадения

Regis 7 фев 2024 в 21:17

Тут ещё стоит добавить, что сами вектора могут позволять делать операции над ними. Соответственно вы можете сделать какие-то преобразования над "смыслами" и потом в базе искать что-то близкое к цели.

Условный пример (работает для некоторых видов эмбеддингов): если из вектора для слова "король" вычесть вектор для слова "мужчина" и прибавить вектор для слова "женщина", то вы получите вектор, близкий к вектору для слова "королева".

bolk 8 фев 2024 в 05:10

К вектору для понятия «королевская особа», по идее. Если выбранные вектора обладают таким свойством, конечно.

win32nipuh 19 дек 2024 в 09:26

(вектора для слова "король") - (вектор для слова "мужчина") + (вектор для слова "женщина") = "корова"

vanxant 8 фев 2024 в 07:03

... вот только поиск соседей (похожих) далеко не самая частая задача для базы данных.

sneg2015 7 фев 2024 в 11:39

Спасибо за список бесплатных баз данных. Все хочу их попробовать.

gatoazul 7 фев 2024 в 14:17

Экспериментировал с weavite. Впечатления положительные.

sneg2015 7 фев 2024 в 16:00

Мне почему то показалось что weavite платная штука. Надо будет пересмотреть.

Tesy 9 фев 2024 в 05:49

Почти все из перечисленных БД - платные.

S0mbre 7 фев 2024 в 11:55

Статья явно написана не человеком. Привет, Тьюринг!

squirreldatafeed 7 фев 2024 в 15:17

Оригинал? Или перевод?

thekingoftheworld 7 фев 2024 в 13:44

Так а чем собственно такой "вектор" от строки в таблице отличается?

muxa_ru 7 фев 2024 в 13:56

Зарплатой разработчика?

gatoazul 7 фев 2024 в 14:16

Типичный вектор - это массив из 500 чисел float32

sim31r 7 фев 2024 в 18:06

Или float4

acc0unt 7 фев 2024 в 14:46

Вектор эмбеддинга - это, на низком уровне, координаты точки в n-мерном пространстве, полученные в результате обработки нейросетью каких-либо данных. А на высоком уровне эмбеддинг - это самый что ни на есть "смысл" данных в представлении этой нейросети.

Полезность векторной базы лежит в её способности быстро находить "расстояния" между разными векторами, вытягивать близкие к определённому векторы, высчитывать схожесть по отдельным признакам, и так далее.

Оттуда и термин "векторные базы данных". Потому что классические реляционные базы не обладают нужным функционалом. В SQL нельзя сделать SELECT точек, ближайших к массиву из 2048 координат.

sergeyns 7 фев 2024 в 14:51

апример, в векторной базе данных можно предварительно рассчитать кластеры, такие как "животные" и "фрукты". При запросе базы данных на "Котенка" поиск начинается с ближайших животных, избегая расчетов расстояний между фруктами и объектами, не относящимися к животным.

в SQL можно сделать то же самое... В смысле предварительно.

А вообще все эти сравнения с SQL ради хайпа. Помню сколько его было лет 15 назад с No-SQL базами.... Но никуда требования знать SQL не делось )))

squirreldatafeed 7 фев 2024 в 15:19

правильно. никуда не делись. no-sql заняли свое почетное место

Spiritschaser 7 фев 2024 в 17:01

Ну да. Колонки и JSON в Postgres.
Ну и BULK INSERT (самый популярный no-SQL подход) всегда был.

AngusMetall 7 фев 2024 в 15:26

Мне помню один товарищ рассказывал, что все эти новомодные fts штуки типа эластика нахер не нужны, и он всё тоже самое делает на оракле и plsql. Правда разобраться в этом мог только он(и то не факт), писалось два года, по скорости иногда было всего в 20 раз медленне чем Solar, а так да, не нужны эти ваши fts системы, и no-sql, и графовые бд. Только гениальные программисты и миллионы на ФОТ нужны. Их же всегда в достатке, да?

gatoazul 7 фев 2024 в 15:59

Векторные базы - отдельный узкоспециализированный тип. Универсальные базы они не заменяют и на это не претендуют.

SwingoPingo 7 фев 2024 в 14:54

На первый взгляд смотря как хранить, но остается преобразованиель "сущность"-"вектор" и обратно.

muxa_ru 7 фев 2024 в 14:55

В SQL нельзя сделать SELECT точек, ближайших к массиву из 2048 координат.

А технически, как этот поиск осуществляется в векторной базе данныз?

squirreldatafeed 7 фев 2024 в 15:22

Давольно просто: находится модуль вектора и угол между вектором и осями. и дальше вы можете сравнивать модули и углы. либо просто вычитать одни векторы из других, ища минимальную разность

muxa_ru 7 фев 2024 в 15:24

Типа вот так, да?

makkarpov 7 фев 2024 в 18:57

Типа вот так, но только типичные размерности не 2, а 128-256-512 и выше (т.е. PostGIS сразу мимо), и время поиска должно быть лучше, чем фулл-скан.

Т.е. если взять постгрес и прикрутить ему в качестве индексного движка один из ANN-методов, то он тоже станет вполне себе неплохой векторной базой (а по сравнению с некоторыми - даже отличной векторной базой). Но у постгреса такого индексного движка нет, а у векторных баз есть.

rssdev10 8 фев 2024 в 04:59

https://tembo.io/blog/vector-indexes-in-pgvector

ptr128 8 фев 2024 в 06:07

Но у постгреса такого индексного движка нет

SP-GIST

makkarpov 8 фев 2024 в 09:14

SP-GIST вообще не об этом. Попытаться можно, но итоговая производительность будет очень грустной для реальных задач. Индустрия сдвинулась в сторону ANN (approximate nearest neighbor) не от хорошей жизни, а от того, что точные методы слишком медленные.

Вот pgvector по ссылке выше уже ближе, HNSW работает довольно хорошо.

tumikosha 8 фев 2024 в 10:02

ParadeDB - это Postgres с 2 векторными плагинами для работы со dense & sparse векторами прямо из SQL
Индексы тоже есть

ozand 12 фев 2024 в 06:11

в pgvector есть HNSW

rssdev10 8 фев 2024 в 04:54

SELECT * FROM items ORDER BY embedding <-> '[3,1,2]' LIMIT 5;

https://github.com/pgvector/pgvector?tab=readme-ov-file#hnsw

tumikosha 8 фев 2024 в 10:04

Это только для dense vectors
Для Sparse другой плагин
оба есть в ParadeDB там можно делать гибридный поиск

Ravmos 7 фев 2024 в 16:25

Спасибо за публикацию. Векторные бд интересны для обратного реверса мышления, чтобы попробовать мыслить (например планировать) векторами. Как указано в эпилоге статьи, так удобно находить выбросы например.
Пока я встречал только кибернетические модели мышления у Бейтсона.
Если столкнетесь с моделями векторного мышления, буду рад если поделитесь.

chernish2 7 фев 2024 в 16:45

Что ещё за векторное мышление? Расскажите подробнее пожалуйста. Речь о человеках, или о чём?

Ravmos 7 фев 2024 в 17:12

Речь о человеках. Кручу идею, что можно мыслить представляя не причинно-следственные связи, а векторы. Это должно быть удобно при планировании, т.к. можно представлять вектор изменения объектов во времени.
В статье хорошая идея, что качество объекта тоже можно представлять вектором, поэтому добавив параметр об изменениях качеств во времени можно реализовать эту идею.
Кажется, что с таким подходом можно более быстро и экономно думать.

win32nipuh 19 дек 2024 в 09:31

"векторное мышление" ...., потом безалкогольное пиво, потом резиновая женщина

CrazyElf 7 фев 2024 в 16:35

Не очень понял, как в статью попала библиотека Faiss. Если говорить о библиотеках для быстрого поиска похожих векторов, то их нынче вагон, но к базам данных это никакого отношения не имеет.

PsihXMak 7 фев 2024 в 16:49

Балансировка точности и скорости является ключевым аспектом при использовании векторных баз данных, которые предоставляют приближенные результаты.

Есть данные, какова приближённая точность результатов? Какова вероятность, что человека с фамилией "Кошкин" модель запихнёт в раздел "животные"?

rssdev10 8 фев 2024 в 05:10

Это вопрос к модели, которая вычисляет векторы-эмбединги. Векторному поиску всё равно к чему близость считать. Но в целом, эмбединги сильно зависят от контекста. На коротком контексте могут быть ошибки. Одно слово "кошкин" даст совершенно непредсказуемый вектор. А вот фраза "фамилия: Кошкин" - здесь уже любая современная модель даст вполне сносный результат и точно к животным это близко не будет.

PsihXMak 8 фев 2024 в 10:49

вполне сносный результат

Есть конкретные цифры? Реляционные БД во всех случаях дают точность близкую к 100%. С векторными базами пока непонятно как работать. Кроме как в областях, связанных с самими моделями, я им применения пока не вижу.

muxa_ru 8 фев 2024 в 14:34

Реляционные БД во всех случаях дают точность близкую к 100%.

Это в теории, а что в итоге будет на стороне пользователя - никому не ведома, кроме тех кто сам продукт делает.

Там же между самой базой и пользователем будет куча прокладок со своей логикой, которые сперва запрос исковеркают, а потом ответ сформируют.

Так что, если сравнивать точность ПРОДУКТА В ЦЕЛОМ, то хз что там получится.

rssdev10 8 фев 2024 в 16:02

Векторный приближенный поиск - это совершенно отдельное направление поиска данных. Чаще всего его используют как замену полнотекстового поиска. Или как рекомендацию похожего (например товаров). Но приближенный поиск абсолютно не годится для замены формальных фильтров по значению.

Например, если задача - фильтровать по фамилии - то СУБД с реляционной моделью будет идеальным решением. А вот если мы храним резюме и надо обеспечить поиск по навыкам - ситуация иная. Допустим имеем три резюме. У одного запись "программирую на Java, знаю Spring Framework". У второго "Использую в работе NodeJS, React, Anglular". У третьего - "разрабатываю приложения для браузера". А запрос получили "веб-разработка". Эмбединг этого запроса на основании статистического контекста модели типа GPT3.5, скорее всего, вытащит близкие вектора второго и третьего резюме. При этом, для обычного полнотекстового поиска, в этих фразах нет общих ключевых слов. Ну и общий подход при подобном поиске, что если мы потеряли какие-то конкретные записи - это не проблема в общей массе.

Векторые СУБД следует отделять от моделей эмбедингов. Как и то, является ли векторная БД точной или приближенной. Например, pgvector реализует два типа векторных индексов - точный, но медленный VFFlat и приближенный, но очень быстрый HNSW. При этом, в момент создания индекса мы сами можем решить на сколько HNSW-индекс должен быть точным и на сколько быстрым. Для этого у него есть параметры m и ef_construction (определяют топологию).

Касаемо цифр по точности, есть бенчмарки именно по векторным инструментам - https://ann-benchmarks.com/index.html . По точности см. Recall. Чем выше требуется recall, тем, соответственно, медленнее будет приближенный векторный поиск. В части же чистой производительности, см. другие бенчмарки.

Ну а по точности моделей текстовых эмбедингов - это совершенно отдельный разговор, который к СУБД отношения не имеет. Например https://huggingface.co/blog/mteb . Однако общий результат, действительно, складывается из качества эмбедингов и контекста + качество приближенного векторного поиска.

kekoz 7 фев 2024 в 17:11

Я видимо слишком стар, потому что первое, что пришло мне на ум после прочтения названия и вступительной части статьи — СисОп Мицгол и его Гипертекстовый векторный ФидоНет.

chernish2 7 фев 2024 в 17:16

Разумеется, чтобы эффективно хранить данные векторного фидонета, необходим не только Мицгол, но и описанные в статье базы данных

muxa_ru 7 фев 2024 в 17:16

Так то +1 один, конечно, но...

СисОп Мицгол

Мицгол был Вебмастером

И, да, мы ржали, а он таки верно указал вектор развития.

win32nipuh 19 дек 2024 в 09:40

Ага, Ильич с протянутой рукой. Что там он указал...

vagon333 7 фев 2024 в 21:09

Прощайте, базы данных, да здравствуют векторные базы данных

Ну, тут чел погорячился.
Тот факт что для хранения embedings лучше подходят векторные базы не имеет никакого отношения к общему понятию баз данных.

Векторная база данных против реляционной базы данных

И уж не стоит трогать реляционные базы.

Каждому типу данных своя база.

unv_unv 8 фев 2024 в 05:42

А почему бы не перевести Jeopardy как «Своя игра»?

Arlekcangp 9 фев 2024 в 08:15

Это тоже будет найдено, если исходная обучающая выборка модели включала не только виды кошек, но и игры. Причём найдено будет, если вектор-запрос будет ближе к кластеру игр. Но как по мне в этом сразу кроется и слабость такого представления данных. Получается, что оно "вылавливает" абсолютно все ассоциации, которые были в исходном наборе данных. Т е это всë ещё методы "грубой силы", всё равно что прямой перебор путей в графе или фул-скан таблицы в базе. Потому то обучение таких моделей требует такую уйму ресурсов и времени. В то время как человек ассоциацию "схватывает" моментально, достаточно один раз рассказать ему, что есть такая игра, у которой название такое же, как у большой кошки...

НЛО прилетело и опубликовало эту надпись здесь

tumikosha 8 фев 2024 в 10:08

NoSQL, очевидно
Да SQL базы просто включат в себя такую фичу и все.
Вон ParadeDb, Clickhouse именно такое
На этом хайп векторных баз данных закончится

НЛО прилетело и опубликовало эту надпись здесь

Angriff07 8 фев 2024 в 14:57

Не пробовали перевести ANN? Почему не классический kNN? Разница есть, и она важная. Как минимум написать о её существовании следовало.

Approximate Nearest Neighbor - приближенный ближайший сосед!

Т. Е. продуктовые требования к таким бд свои особенные, не факт что всем подойдут

Sid1111 9 фев 2024 в 05:49

Очень интересно, но ничего не понятно.

Реляционная база на примере животных как раз будет иметь справочник типов, где будут записи "животное" и "фрукт". Таким образом запрос отработает тоже быстро. А если векторная сама их определила и положила рядом, то как найти связь, когда мне нужно найти "кто из животных живёт у меня дома?" Т.е. придется писать больше условий как и в sql.

Может быть пример некорректен и это действительно работает быстрее с изображениями и видео в которых я не силен.

Как отлаживать качество данных, если я не знаю в какие и 1000 измерений положили мои 10 строк?

Ogoun 10 фев 2024 в 00:57

HNSW не собственный алгоритм qdrant, он появился до него, открыт и можно посмотреть тут: https://arxiv.org/abs/1603.09320

Какое-то время использовал собственную реализацию, затем появился qdrant, и перешел на них, т.к. продукт действительно удобный и рабочий. А главное, отличные разработчики, которые не забивают на проблемы и доступны для прямого общения.

Faiss не очень удобен в использовании, к тому же есть большое недоверие к разрабам фейсбука, которые постоянно умудряются делать на кроссплатформенных языках решения жестко привязанные к одной платформе.

phdnk 10 фев 2024 в 18:36

Есть ли векторные базы, в которых можно быстро удалить 1 вектор и не пере-вычислять все индексы ?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий