Как стать автором
Обновить

Комментарии 20

Открою секрет (нет) - большинство топовых моделей можно заставить рассуждать перед выводом ответа.

Нужно только использовать системный промт

You are a world-class AI system, capable of complex reasoning and reflection. 
Reason through the query inside <thinking> tags, 
and then provide your final response inside <output> tags. 
If you detect that you made a mistake in your reasoning at any point, 
correct yourself inside <reflection> tags.

Вот только это будет продолжение промпта, и "рассуждения" пойдут в командное окно. То есть стоит один раз ошибиться, и это резко повысит вероятность галлюцинации. Настоящая цепочка размышлений — это независимые перезапуски модели под небольшие задачи, а потом сборка ответа.

НЛО прилетело и опубликовало эту надпись здесь

Бывает, что проверить найденное просто, а собственно найти - сложно.

Да, ключевой элемент, который отличает o1 от простого промпта - это именно метакогнитивные навыки, которые нужны чтобы управлять запусками и перезапусками моделей, и решать, какая из них даёт полезный вывод, а какая - нет.

Там вроде и обучать модель надо на совсем других наборах данных, где задачи поэтапно решаются, включая ошибочные пути и с такими датасетами проблемы.

ChatGPT o1 preview... не показывает, что творится под капотом.

Показывает и всегда показывала

Она показывает по сути только финальный результат, и очень сжатое сокращение мыслительного процесса. Сам мыслительный процесс "под капотом".

Ааа, теперь понятно почему там тогда бред проскакивает 😁

Они убрали показ из соображений безопасности, чтобы там не сболтнула лишнего пользователю и чтобы её контролировать можно было генерируя произвольный внутренний вывод. Пользователю выводится свёртка внутренних размышлений.

То есть, по идее, он всё равно есть, просто срыт? Наверняка появятся (или уже есть?) какие-то препромпты, чтобы его посмотреть. Было бы интересно, что же они такого там прячут 😏

А то, порой, там такая чушь проскакивает, что у меня возникает ощущение, что никакого процесса нет, а то, что мы видим как цепочку рассуждений - просто сгенерировано, чтобы симулировать то, что рассуждения есть 🙂

Писали, что есть, а что там на самом деле - поди проверь.

Очень интересная моделька для экспериментов. Эти рассуждения показывают, как принимаются решения, из чего составляется ответ, какие терзания и варианты внутри. Я думал это всё гораздо примитивнее что-ли. Или сложнее дебажить.

Эта система - каскад из LLM. То, что мы видим как человекочитаемый текст - это уже "второй" уровень мышления.

"Первый" уровень намного более адово выглядит, работает и дебажится.

Про то, как происходящее внутри LLM на низком уровне выглядит и работает, есть немало бумаг - но вот одна из моих любимых. Там где-то с середины описано, как выглядят абстрактные концепции, которые понимает LLM, и как вмешательство в них влияет на работу машинного разума.

Deepseek да, даёт сделать больше запросов, чем o1-preview и выглядит отлично. Однако продолжаю использовать o1-preview из-за огромного размера контекста и ответа. Можно просить больше 1000 строк кода и это не будет для него проблемой.

  • Deepseek max output 8k tokens

  • o1-preview max output 33K tokens

о1-preview тоже показывает цепочку свои рассуждений, если на заданный вопрос эти рассуждения требовались (на самые простые вопросы типо "сколько обычно у кошек лап" не требуются). Чтобы увидеть эти размышления, достаточно нажать стрелочку вниз, которая появляется возле указания времени размышления.

в o1 показывается нечто типа саммари по рассуждениям, а не сами рассуждения.

Минус таких систем - отравление контекста. Хотя в целом от формулировки аромата зависит, но он само учитывает уже завершённые блоки рассуждений.

Я думаю, что следующий виток таких рассуждений простой - использование Tools, RAG, и поиска для уточнения гипотез.

Пару месяцев назад написал андроид приложение , которое с помощью рассуждений отвечает на вопросы, используя Groq. Но лимитов не всегда хватает.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации