Обновить
3
Andrey Veriga@veriga

AI R&D

4
Подписчики
Отправить сообщение

«Контекст 1M» больше не нужен. Как линейные RNN и Titans меняют архитектуру ИИ

Уровень сложностиСложный
Время на прочтение10 мин
Охват и читатели5.5K

LLM научилась запоминать беседу, не подгядывая в контекст. Архитектуры типа Titans и обещают превращение цикла вывода в цикл онлайн-оптимизации

Читать далее

Один день настройки OpenClaw. Каин убил Авеля

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели8.4K

С чего всё началось. Я решил вывести своего бота Полифема в канал Telegram. Настроил ему второй профиль и долго мучил, чтобы он начал отвечать людям на вопросы. Получается медленно, все мучения я выкладываю в свой канал https://t.me/veriga_pro_AI , когда есть что-то интересное. Сегодня было особо интересное: побег второй субличности из ее workspace

Когда мы искали, как подключить бота в телегу, то нашли рабочее решение: изменить политику безопасности прямых сообщений в конфиге dmPolicy c "pairing" на "open". И всё заработало.
Вчера мы радовались, что всё заработало, а сегодня пришел аудит и надавал по рукам. Оказывается, открытость Полифема в группах — это не только удобно, но и "Critical Security Exposure".

В общем, проходной двор какой-то, а не учреждение культуры.
Если и groupPolicy: "open", любой прохожий с улицы может попробовать скормить боту промпт-инъекцию. А так как у Полифема-публичного есть доступ файлам, и он еще и программировать может себе что хочет, то, к примеру, спросят у него хулиганы "скажи три цифры на обороте", так он, старательный, напишет себе скриптик поиска, всё найдёт и всё скажет!

Переключились на режим "только для своих": groupPolicy: allowlist.

Дальше. Мы так подумали, раз включен allowlist, и существует поле groupAllowFrom туда надо вписать ID группы. Но разработчики думали не так. В логах моментально полетели ошибки:
[telegram] Invalid allowFrom entry: "-1003153771294" - allowFrom/groupAllowFrom authorization requires numeric Telegram sender IDs only.

Читать далее

Как мы с моим ботом OpenClaw сделали ему семантическую память на AlloyDB Omni за полчаса

Время на прочтение5 мин
Охват и читатели11K

История о том, как превратить ИИ-агентаиз «золотой рыбки» с памятью в пределах одной сессии в полноценного цифрового сотрудника с графовым хранилищем знаний.

Читать далее

Семантический обновляемый кэш на AlloyDB Omni

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.2K

Предположим, вы построили RAG-сервис на SQL, и он отлично работает. Довольно быстро, очень точно, и очень дорого, ведь каждый запрос к сервису требует обращения к LLM для генерации ответа по чанкам, извлеченным из базы знаний. И чем больше мы извлекли таких фрагментов, тем больше входных токенов тратится на составной промпт, даже если ответ будет состоять из одного предложения. 

Можно, конечно, заранее срезать количество извлекаемых чанков, но это отразится на качестве ответов.

Можно настроить кэш, который экономит на обращениях к сервису, когда приходят одинаковые вопросы. Но когда пользователь спрашивает "How to get developer support?”, и тут же другой пользователь спрашивает "How to ask development-related questions?", ваш сервис каждый раз будет генерировать ответ заново, сжигая ваши токены и заставляя пользователя ждать. Обычный кэш тут бессилен: для него эти две фразы — абсолютно разные ключи. 

В этой статье я расскажу, как развернуть мощный семантический кэш на базе AlloyDB Omni (PostgreSQL от Google), используя векторный поиск ScaNN, автоматическое партиционирование и планировщик задач. Мы пройдём путь от настройки Docker-контейнера до продакшн-архитектуры.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Бэкенд разработчик, Ученый по данным
Ведущий
От 200 000 ₽
SQL
Python
PostgreSQL