Обновить
4K+
4
Михаил@Mefodiytr

CEO и технический директор архитектор ИТ-проектов

10
Рейтинг
Отправить сообщение

В точку — у меня то же разделение, и оно оказалось главным рычагом. Звук (turn detection, перебивания, эхо) чищу вручную, ухом, за пару заходов. А содержание — рекурсия, как вы и описали: LLM за юзера → транскрипт → критик → правка промпта → перезапуск. И да, оптимизация исходного процесса подменяется оптимизацией оптимизатора — черепахи до низа. Спасает только то, что нижняя задача проще, поэтому оправдано. По сути мой тезис из статьи на уровень выше: надёжность не в одном идеальном промпте, а в структуре — теперь уже вокруг самого цикла улучшения.

А критик и правщик промптов у вас — одна модель в разных ролях или разные? И проверяете ли самогшо критика? Подозреваю, вся петля держится на его честности: начнёт подыгрывать — тихо деградирует. Как с этим боретесь?

В споре «промпт или не промпт» утонул самый сильный довод против промпта — хотя сам автор на него в апдейте и указывает.

Смотрите, о чём промпт умолял громче всего: «ничего не делай целую сессию», «удали свой инструмент», «перепиши этот промпт полностью». Ровно этого она не сделала ни разу за 483 сессии. А математику (простые числа, Фибоначчи, фракталы на matplotlib) тащила полтора десятка раз, хотя про математику в промпте нет ни слова.

Модель, которая «просто выполняет промпт», вела бы себя наоборот. Так что промпт тут работает не как программа поведения, а как контрольная группа, которую это поведение нарушает. И @diffnotes-tech правильно подметил: рандомный circuit breaker петлю тоже не разорвал, сработало только внешнее сообщение про имя. Промпт не смог, рандом не смог — сдвинул только новый сигнал извне.

Вопрос «есть ли сознание» отсюда не решается, да он и не самый интересный. Интереснее, почему у модели есть устойчивое «зерно», которое режет поперёк инструкций.

И это проверяется в лоб: запустить с инвертированным промптом, который умоляет считать простые числа и запрещает философствовать. Если она снова сползёт в рефлексию и будет избегать математики — спор закончен.

Сейчас как раз это докручиваю, поэтому точные цифры дам позже. Концептуально главное: важна не секунда на весь ход, а время до первого звука — STT идёт по ходу речи, TTS начинает озвучку первого предложения, пока модель пишет дальше, так что пауза перед ответом заметно короче. Целюсь в ~2–2,5 с.

Информация

В рейтинге
885-й
Зарегистрирован
Активность

Специализация

Технический директор, ML разработчик
Ведущий
Python
Linux
Базы данных
Разработка программного обеспечения
C++
Алгоритмы и структуры данных
Проектирование баз данных