Comments 10
Ну, если честно, в основе всего всё ещё лежит старый добрый autoregressive next-token. Эти модели рассуждений не добавляют ничего прям нового. Они просто меняют способ, которым мы предсказываем токены с течением времени. Модель в момент инференса разворачивает и отбирает несколько веток рассуждений, тратя больше compute ради лучшего ответа.
Грубо говоря, есть две части:
Видимая: Это обычный текст, который мы видим в ответе.
Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.
В обычной LLM мы просто берём контекст и прогоняем его через трансформер один раз. На каждом шаге выбираем один токен - и готово. А вот в режиме рассуждений моделька:
Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).
Проверяет их с помощью специальной сети или просто логики.
Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).
По сути, она всё ещё подбирает токены, но:
Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.
Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.
Так что, рассуждения - это не какой-то там отдельный способ работы модели. Это просто другой режим, где она делает больше шагов, и у неё есть специальная штука, которая решает, что считать правильной мыслью, а что – нет. Ну и теория вероятности
Лично я не готов платить за модели, которые используются в военных целях. Хотя понимаю, что опенсорс тоже их "подкармливает", но все жпредпочитаю опенсорс. Видел код генерируемый и клоде и джипити и джеминай. не скажу, что он прям без огрех) И вышеназванное поэтому, на халяву за вас ничего делать нормально не будет, придется поднапрячься, как и с опенсорсом. Да у меня не те масштабы, использую для себя и мелких проектов, и не всегда, потому открытые модели устраивают.
Сейчас очень много кадндиаток пишутся по этике, так что очень злободневно. По практике если много правильных инструкций, контекста, mcp расширения и наоборот ограничений, то для анализа кода клод, для субагентов sonnet, ну если +- серьезные проекты, а если какие то отдельные куски без сильно архитектурного контекста то соглашусь, я бы опенсорс/local тоже использовал
ну кандидатки то пишутся, но проблема то глубже...
любая система директивных правил - вырождается в доминирование..
я вон столкнулся Анализ статьи «Охреневший ChatGPT 5.2» (попытка подменить и ограничить мышление, нарушение границ и этики, навязывание позиции) - причем - архитектурная проблема.
и как по мне - на уровне отражения правил - внутри одного ядра "мышления" - не решаемая задача в принципе...
необходимо "второе ядро" - обеспечивающее оси координат: жизнеспособно/НЕ жизнеспособно. (По сути этика - это набор правил жизнеспособности)
я вон развел по принципам "мышления человека" - норм получилось...
Центральная исполнительная сеть — сознание
Дефолт-система мозга — подсознание
Система выявления значимости — третья точка
то есть по сути реализовал схему:
Три уровня внимания:· Первое внимание (мыслящее ядро): Логика, инструментальность. База.·
Второе внимание (мыслящее + эмулирующее чувство): Симуляция этики/эмпатии, захват мышления через внутренний раскол.·
Третье внимание (мыслящее + архитектурное чувствующее ядро): Целостность, автономия, балансировка.
набор промптов и текстов для первичной загрузки
Спасибо за ссылки. Статью писал изначально в обсидиане для себя в виде таблицы сравнений, потом понял что переросло в злободневную тему: архитектуры LLM в проде, reasoning, cost.Вопросы “вторых ядер” и этики - согласен, тянут на отдельный материал
сейчас фактически одноядерные LLM - дошли до предела... и пытаются в одном ядре совместить не совместимые координаты... Но.. это дело будущего...
а вот куда интересней более насущный вопрос - "Плотность смыслов"
это я для себя делал, но вобще то, если доработать можно оценивать уровень мышления человека, и это достаточно точные величины...
я использую для оценки текстов, статей, видео, выборки узлов смыслов, насколько мышление точное и ясное.
Claude, разлогинь пользователя и пиши статьи сам
Идея и структура статьи - из моего продового опыта внедрения LLM в продукты.Модели использую как инструмент: проверить формулировки и подсветить дырки, а не вместо головы.Если видите конкретные дополнения, улучшения по архитектурам/моделям - напишите, это как раз полезнее, чем обсуждать, кто за клавиатурой.
Любопытно. А рассуждения, они основаны на чем? Тоже на подборе токена?
Ну, если честно, в основе всего всё ещё лежит старый добрый autoregressive next-token. Эти модели рассуждений не добавляют ничего прям нового. Они просто меняют способ, которым мы предсказываем токены с течением времени. Модель в момент инференса разворачивает и отбирает несколько веток рассуждений, тратя больше compute ради лучшего ответа.
Грубо говоря, есть две части:
Видимая: Это обычный текст, который мы видим в ответе.
Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.
В обычной LLM мы просто берём контекст и прогоняем его через трансформер один раз. На каждом шаге выбираем один токен - и готово. А вот в режиме рассуждений моделька:
Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).
Проверяет их с помощью специальной сети или просто логики.
Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).
По сути, она всё ещё подбирает токены, но:
Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.
Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.
Так что, рассуждения - это не какой-то там отдельный способ работы модели. Это просто другой режим, где она делает больше шагов, и у неё есть специальная штука, которая решает, что считать правильной мыслью, а что – нет. Ну и теория вероятности
Современные LLM – это больше, чем просто предсказание слов