Комментарии 7
Про преимущества для моделей понятно. Интересно другое, разные векторные поисковые движки (qdrant, pgvector и тд) могут улучшить свои реализации и собираются ли?
Да, эта технология не просто подходит, а напрямую предназначена для улучшения векторных поисковых движков, включая Qdrant, pgvector и другие.
Но эталонной реализации Гугл ещё не сделал, на Реддите энтузиасты модифицируют свои сборки по информации из статьи. Вероятно, в этом году Гугл опубликуют полноценную реализацию, и тогда дела пойдут веселее:)
Вот тоже интересно, насколько это быстро в СУБД завезут. потому что звучит, как будто это всё для баз идеально подходит
Бешеный горшочек, прекрати варить.
В случае успешной реализации в реальном мире TurboQuant может сделать работу ИИ дешевле за счёт уменьшения «рабочей памяти» — известной как KV-кэш — как минимум в 6 раз.
Так сравнивать надо с сегодняшним уровнем сжатия при квантовании. Выигрыш будет где-то x1.5 (тоже немало, но всё же не заявленные x6, которые отсюда уже растащили по пабликам)
Значит ли это, что на карте с 16 гб. памяти - можно будет запускать модели с 72b?

Google представила новый ИИ-алгоритм сжатия памяти TurboQuant