Comments / Profile of Livadies / Habr

Максим@Livadies

User

8,1

Rating

Subscribers

ProfileArticles4PostsNewsComments9

Как мы пришили LLM «спинной мозг»: архитектура рефлексов для ИИ-агентов в 60 FPS

Livadies yesterday at 13:35

Берем концепт на заметку.

Отвечая на вопрос про выход за пределы геймдева: пока фокус держим здесь, но мы уже пытаемся масштабировать подход на саму LLM.

После того как мы успешно обкатали рефлекторную дугу (System 1) на генерации лицевых анимаций (Blendshapes) в реалтайме напрямую из сырого звука, мы замахнулись на System 2. Идея: горячая подмена личности у Gemma 3 на лету. Мы хотели скрестить наш подход с динамическим переключением LoRA-адаптеров, чтобы NPC менял характер за доли секунды.

Но суровая реальность инди-R&D вносит коррективы. Наши вычислительные возможности и лимиты бесплатных облаков (сидим на карточках T4 16GB) не позволяют проводить тысячи тестов. Можете сами посчитать: с учетом времени на загрузку чекпоинтов, очистку памяти (gc.collect() + empty_cache()) и перестройку графов, за сегодня мы осилили от силы пару десятков чистых экспериментов.

Итог на данный момент: Глубинную «личность» (паттерны долгосрочного планирования) подменить на лету пока не вышло — нужно больше машинного времени на подбор гиперпараметров. НО, мы добились того, что семантика ответа и tone of voice меняются буквально за секунды при инъекции нужного адаптера в слои q_proj и v_proj.

Так что пруф-оф-концепт работает, архитектура тянет, мы просто упираемся в железо

Как мы пришили LLM «спинной мозг»: архитектура рефлексов для ИИ-агентов в 60 FPS

Livadies yesterday at 12:42

Что касается нагрузки в 100 NPC — честно признаюсь, полномасштабный стресс-тест роя мы еще не гоняли. Прямо сейчас мы продираемся через ад зависимостей на бэкенде, чтобы поднять хотя бы минимальное стабильное MVP

Как мы пришили LLM «спинной мозг»: архитектура рефлексов для ИИ-агентов в 60 FPS

Livadies yesterday at 12:34

Мы намеренно отказались от классических инференс-движков вроде ONNX Runtime и TensorRT для клиентской части System Они отлично подходят для "Когнитивной коры" (System 2), но для рефлексов на 60+ Гц их оверхед на CPU-GPU синхронизацию убивает всю идею Zero-latency. Поскольку System 1 — это сверхлегкие перцептроны без семантики, мы пошли по пути bare-metal. Мы "запекаем" веса обученной сети в сырые буферы и гоняем инференс напрямую через Compute Shaders (вычислительные шейдеры) или кастомные CUDA/DirectML ядра. По сути, это просто параллельное перемножение матриц, которое происходит прямо в VRAM, минуя прослойки ML-фреймворков. Выходные тензоры мапятся напрямую в буферы анимации (Blendshapes/Bones). Точную топологию слоев пока держим под капотом.

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Livadies Mar 22 at 11:21

От выгорания на коровьей пневмонии спасает только киберпанк в Российской Империи! 🎩🤖 Балансируем карму полезного ИИ абсолютно бесполезным

Запуск Open-Sora на 15 ГБ VRAM: Реверс-инжиниринг, monkey-patching и борьба с NaN-ами

Livadies Mar 22 at 11:18

Дальше — лечить семантику. Proof-of-Concept удался: мы доказали, что OOM можно обойти. Теперь нужно придумать, как динамически скейлить латенты на старой T4, чтобы они не взрывали математику. Работаем с тем железом, что есть :)

Как я собрал русскоязычного ИИ-рентгенолога: скрещиваем ViT и ruGPT-3 в условиях Kaggle

Livadies Mar 22 at 11:10

Этим я наглядно продемонстрировал, что мой парсинг интерфейса чат-бота в 3 часа ночи работает гораздо хуже, чем кастомный os.walk маппинг на Kaggle Баг копипасты подтверждаю, спасибо за баг-репорт, пошел рефакторить статью!

Лена, прости! Или как мы заменили QA тестировщика на автономного AI-агента за 24 часа

Livadies Mar 21 at 09:59

Настоящий киберпанк, к сожалению LLM , модели не дают экономической выгоды...они могут лишь увеличить количество работы и ускорить какие то процессы...если Вы покажите пример хотя бы одного успешного долговременного кейса применения LLM в экономических и производственных процессах, то можно Ваши тезисы серьезно воспринимать...к сожалению Выгоды от них в реальнольной экономике нет,это всего лишь инструмент для увеличения производительности для специалистов которых ещё нет..а именно для операторов ИИ...

Лена, прости! Или как мы заменили QA тестировщика на автономного AI-агента за 24 часа

Livadies Mar 20 at 22:16

Забавно,интересно кто исправляет галлюцинации агента?если тестировщика нет?

Всё о работе курьером Яндекс Доставки в 2026 году, сколько зарабатываю — Обзор и мой отзыв

Livadies Mar 16 at 05:13

Ощущение что статья из 22-23 года Абудаби уже 9b рассуждающую модель еще в начале января выпустила которую я запустил без GPU на обычном CPU СО СКОРОСТЬ 20-25 токенов в секунду реально старая новость не отражает последнию инфу и новинки в LLM