Pull to refresh
16K+
2
Максим@Livadies

User

8,1
Rating
2
Subscribers
Send message

Берем концепт на заметку.

Отвечая на вопрос про выход за пределы геймдева: пока фокус держим здесь, но мы уже пытаемся масштабировать подход на саму LLM.

После того как мы успешно обкатали рефлекторную дугу (System 1) на генерации лицевых анимаций (Blendshapes) в реалтайме напрямую из сырого звука, мы замахнулись на System 2. Идея: горячая подмена личности у Gemma 3 на лету. Мы хотели скрестить наш подход с динамическим переключением LoRA-адаптеров, чтобы NPC менял характер за доли секунды.

Но суровая реальность инди-R&D вносит коррективы. Наши вычислительные возможности и лимиты бесплатных облаков (сидим на карточках T4 16GB) не позволяют проводить тысячи тестов. Можете сами посчитать: с учетом времени на загрузку чекпоинтов, очистку памяти (gc.collect() + empty_cache()) и перестройку графов, за сегодня мы осилили от силы пару десятков чистых экспериментов.

Итог на данный момент: Глубинную «личность» (паттерны долгосрочного планирования) подменить на лету пока не вышло — нужно больше машинного времени на подбор гиперпараметров. НО, мы добились того, что семантика ответа и tone of voice меняются буквально за секунды при инъекции нужного адаптера в слои q_proj и v_proj.

Так что пруф-оф-концепт работает, архитектура тянет, мы просто упираемся в железо

Что касается нагрузки в 100 NPC — честно признаюсь, полномасштабный стресс-тест роя мы еще не гоняли. Прямо сейчас мы продираемся через ад зависимостей на бэкенде, чтобы поднять хотя бы минимальное стабильное MVP

Мы намеренно отказались от классических инференс-движков вроде ONNX Runtime и TensorRT для клиентской части System Они отлично подходят для "Когнитивной коры" (System 2), но для рефлексов на 60+ Гц их оверхед на CPU-GPU синхронизацию убивает всю идею Zero-latency. Поскольку System 1 — это сверхлегкие перцептроны без семантики, мы пошли по пути bare-metal. Мы "запекаем" веса обученной сети в сырые буферы и гоняем инференс напрямую через Compute Shaders (вычислительные шейдеры) или кастомные CUDA/DirectML ядра. По сути, это просто параллельное перемножение матриц, которое происходит прямо в VRAM, минуя прослойки ML-фреймворков. Выходные тензоры мапятся напрямую в буферы анимации (Blendshapes/Bones). Точную топологию слоев пока держим под капотом.

От выгорания на коровьей пневмонии спасает только киберпанк в Российской Империи! 🎩🤖 Балансируем карму полезного ИИ абсолютно бесполезным

Дальше — лечить семантику. Proof-of-Concept удался: мы доказали, что OOM можно обойти. Теперь нужно придумать, как динамически скейлить латенты на старой T4, чтобы они не взрывали математику. Работаем с тем железом, что есть :)

Этим я наглядно продемонстрировал, что мой парсинг интерфейса чат-бота в 3 часа ночи работает гораздо хуже, чем кастомный os.walk маппинг на Kaggle Баг копипасты подтверждаю, спасибо за баг-репорт, пошел рефакторить статью!

Настоящий киберпанк, к сожалению LLM , модели не дают экономической выгоды...они могут лишь увеличить количество работы и ускорить какие то процессы...если Вы покажите пример хотя бы одного успешного долговременного кейса применения LLM в экономических и производственных процессах, то можно Ваши тезисы серьезно воспринимать...к сожалению Выгоды от них в реальнольной экономике нет,это всего лишь инструмент для увеличения производительности для специалистов которых ещё нет..а именно для операторов ИИ...

Забавно,интересно кто исправляет галлюцинации агента?если тестировщика нет?

Ощущение что статья из 22-23 года Абудаби уже 9b рассуждающую модель еще в начале января выпустила которую я запустил без GPU на обычном CPU СО СКОРОСТЬ 20-25 токенов в секунду реально старая новость не отражает последнию инфу и новинки в LLM

Information

Rating
813-th
Registered
Activity