Комментарии 20
Открою секрет (нет) - большинство топовых моделей можно заставить рассуждать перед выводом ответа.
Нужно только использовать системный промт
You are a world-class AI system, capable of complex reasoning and reflection.
Reason through the query inside <thinking> tags,
and then provide your final response inside <output> tags.
If you detect that you made a mistake in your reasoning at any point,
correct yourself inside <reflection> tags.
Вот только это будет продолжение промпта, и "рассуждения" пойдут в командное окно. То есть стоит один раз ошибиться, и это резко повысит вероятность галлюцинации. Настоящая цепочка размышлений — это независимые перезапуски модели под небольшие задачи, а потом сборка ответа.
Да, ключевой элемент, который отличает o1 от простого промпта - это именно метакогнитивные навыки, которые нужны чтобы управлять запусками и перезапусками моделей, и решать, какая из них даёт полезный вывод, а какая - нет.
Там вроде и обучать модель надо на совсем других наборах данных, где задачи поэтапно решаются, включая ошибочные пути и с такими датасетами проблемы.
ChatGPT o1 preview... не показывает, что творится под капотом.
Показывает и всегда показывала
Она показывает по сути только финальный результат, и очень сжатое сокращение мыслительного процесса. Сам мыслительный процесс "под капотом".
Они убрали показ из соображений безопасности, чтобы там не сболтнула лишнего пользователю и чтобы её контролировать можно было генерируя произвольный внутренний вывод. Пользователю выводится свёртка внутренних размышлений.
То есть, по идее, он всё равно есть, просто срыт? Наверняка появятся (или уже есть?) какие-то препромпты, чтобы его посмотреть. Было бы интересно, что же они такого там прячут 😏
А то, порой, там такая чушь проскакивает, что у меня возникает ощущение, что никакого процесса нет, а то, что мы видим как цепочку рассуждений - просто сгенерировано, чтобы симулировать то, что рассуждения есть 🙂
Очень интересная моделька для экспериментов. Эти рассуждения показывают, как принимаются решения, из чего составляется ответ, какие терзания и варианты внутри. Я думал это всё гораздо примитивнее что-ли. Или сложнее дебажить.
Эта система - каскад из LLM. То, что мы видим как человекочитаемый текст - это уже "второй" уровень мышления.
"Первый" уровень намного более адово выглядит, работает и дебажится.
Про то, как происходящее внутри LLM на низком уровне выглядит и работает, есть немало бумаг - но вот одна из моих любимых. Там где-то с середины описано, как выглядят абстрактные концепции, которые понимает LLM, и как вмешательство в них влияет на работу машинного разума.
Deepseek да, даёт сделать больше запросов, чем o1-preview и выглядит отлично. Однако продолжаю использовать o1-preview из-за огромного размера контекста и ответа. Можно просить больше 1000 строк кода и это не будет для него проблемой.
Deepseek max output 8k tokens
o1-preview max output 33K tokens
о1-preview тоже показывает цепочку свои рассуждений, если на заданный вопрос эти рассуждения требовались (на самые простые вопросы типо "сколько обычно у кошек лап" не требуются). Чтобы увидеть эти размышления, достаточно нажать стрелочку вниз, которая появляется возле указания времени размышления.
Минус таких систем - отравление контекста. Хотя в целом от формулировки аромата зависит, но он само учитывает уже завершённые блоки рассуждений.
Я думаю, что следующий виток таких рассуждений простой - использование Tools, RAG, и поиска для уточнения гипотез.
Пару месяцев назад написал андроид приложение , которое с помощью рассуждений отвечает на вопросы, используя Groq. Но лимитов не всегда хватает.

Deepseek: лезем в голову к GPT-модели и смотрим, как именно она рассуждает