german_kosach Mar 8 at 20:45

Современные LLM – это больше, чем просто предсказание слов

Medium

11 min

15K

Machine learning * Artificial Intelligence

Review

From sandbox

Comments 10

Pinned comments

german_kosach 9 hours ago

Ну, если честно, в основе всего всё ещё лежит старый добрый autoregressive next-token. Эти модели рассуждений не добавляют ничего прям нового. Они просто меняют способ, которым мы предсказываем токены с течением времени. Модель в момент инференса разворачивает и отбирает несколько веток рассуждений, тратя больше compute ради лучшего ответа.

Грубо говоря, есть две части:

Видимая: Это обычный текст, который мы видим в ответе.
Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.

В обычной LLM мы просто берём контекст и прогоняем его через трансформер один раз. На каждом шаге выбираем один токен - и готово. А вот в режиме рассуждений моделька:

Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).
Проверяет их с помощью специальной сети или просто логики.
Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).

По сути, она всё ещё подбирает токены, но:

Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.
Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.

Так что, рассуждения - это не какой-то там отдельный способ работы модели. Это просто другой режим, где она делает больше шагов, и у неё есть специальная штука, которая решает, что считать правильной мыслью, а что – нет. Ну и теория вероятности

PavelD0770 yesterday at 07:24

Лично я не готов платить за модели, которые используются в военных целях. Хотя понимаю, что опенсорс тоже их "подкармливает", но все жпредпочитаю опенсорс. Видел код генерируемый и клоде и джипити и джеминай. не скажу, что он прям без огрех) И вышеназванное поэтому, на халяву за вас ничего делать нормально не будет, придется поднапрячься, как и с опенсорсом. Да у меня не те масштабы, использую для себя и мелких проектов, и не всегда, потому открытые модели устраивают.

german_kosach yesterday at 07:26

Сейчас очень много кадндиаток пишутся по этике, так что очень злободневно. По практике если много правильных инструкций, контекста, mcp расширения и наоборот ограничений, то для анализа кода клод, для субагентов sonnet, ну если +- серьезные проекты, а если какие то отдельные куски без сильно архитектурного контекста то соглашусь, я бы опенсорс/local тоже использовал

LamedGroup yesterday at 13:19

ну кандидатки то пишутся, но проблема то глубже...
любая система директивных правил - вырождается в доминирование..
я вон столкнулся Анализ статьи «Охреневший ChatGPT 5.2» (попытка подменить и ограничить мышление, нарушение границ и этики, навязывание позиции) - причем - архитектурная проблема.

и как по мне - на уровне отражения правил - внутри одного ядра "мышления" - не решаемая задача в принципе...
необходимо "второе ядро" - обеспечивающее оси координат: жизнеспособно/НЕ жизнеспособно. (По сути этика - это набор правил жизнеспособности)

я вон развел по принципам "мышления человека" - норм получилось...

Центральная исполнительная сеть — сознание

Дефолт-система мозга — подсознание

Система выявления значимости — третья точка

то есть по сути реализовал схему:

Три уровня внимания:· Первое внимание (мыслящее ядро): Логика, инструментальность. База.·
Второе внимание (мыслящее + эмулирующее чувство): Симуляция этики/эмпатии, захват мышления через внутренний раскол.·
Третье внимание (мыслящее + архитектурное чувствующее ядро): Целостность, автономия, балансировка.

набор промптов и текстов для первичной загрузки

german_kosach yesterday at 16:12

Спасибо за ссылки. Статью писал изначально в обсидиане для себя в виде таблицы сравнений, потом понял что переросло в злободневную тему: архитектуры LLM в проде, reasoning, cost.Вопросы “вторых ядер” и этики - согласен, тянут на отдельный материал

LamedGroup 23 hours ago

сейчас фактически одноядерные LLM - дошли до предела... и пытаются в одном ядре совместить не совместимые координаты... Но.. это дело будущего...

а вот куда интересней более насущный вопрос - "Плотность смыслов"

это я для себя делал, но вобще то, если доработать можно оценивать уровень мышления человека, и это достаточно точные величины...
я использую для оценки текстов, статей, видео, выборки узлов смыслов, насколько мышление точное и ясное.

enderman08 yesterday at 10:12

Claude, разлогинь пользователя и пиши статьи сам

german_kosach yesterday at 16:10

Идея и структура статьи - из моего продового опыта внедрения LLM в продукты.Модели использую как инструмент: проверить формулировки и подсветить дырки, а не вместо головы.Если видите конкретные дополнения, улучшения по архитектурам/моделям - напишите, это как раз полезнее, чем обсуждать, кто за клавиатурой.

RavenStark 19 hours ago

Любопытно. А рассуждения, они основаны на чем? Тоже на подборе токена?

german_kosach 9 hours ago

Грубо говоря, есть две части:

Видимая: Это обычный текст, который мы видим в ответе.
Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.

Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).
Проверяет их с помощью специальной сети или просто логики.
Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).

По сути, она всё ещё подбирает токены, но:

Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.
Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.

RavenStark 9 hours ago

Ага, спасибо за разъяснение.