german_kosach8 мар в 20:45

Современные LLM – это больше, чем просто предсказание слов

Средний

11 мин

32K

Машинное обучение * Искусственный интеллект

Обзор

Из песочницы

Комментарии 12

Закреплённые комментарии

german_kosach 10 мар в 07:19

Ну, если честно, в основе всего всё ещё лежит старый добрый autoregressive next-token. Эти модели рассуждений не добавляют ничего прям нового. Они просто меняют способ, которым мы предсказываем токены с течением времени. Модель в момент инференса разворачивает и отбирает несколько веток рассуждений, тратя больше compute ради лучшего ответа.

Грубо говоря, есть две части:

Видимая: Это обычный текст, который мы видим в ответе.
Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.

В обычной LLM мы просто берём контекст и прогоняем его через трансформер один раз. На каждом шаге выбираем один токен - и готово. А вот в режиме рассуждений моделька:

Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).
Проверяет их с помощью специальной сети или просто логики.
Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).

По сути, она всё ещё подбирает токены, но:

Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.
Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.

Так что, рассуждения - это не какой-то там отдельный способ работы модели. Это просто другой режим, где она делает больше шагов, и у неё есть специальная штука, которая решает, что считать правильной мыслью, а что – нет. Ну и теория вероятности

PavelD0770 9 мар в 07:24

Лично я не готов платить за модели, которые используются в военных целях. Хотя понимаю, что опенсорс тоже их "подкармливает", но все жпредпочитаю опенсорс. Видел код генерируемый и клоде и джипити и джеминай. не скажу, что он прям без огрех) И вышеназванное поэтому, на халяву за вас ничего делать нормально не будет, придется поднапрячься, как и с опенсорсом. Да у меня не те масштабы, использую для себя и мелких проектов, и не всегда, потому открытые модели устраивают.

german_kosach 9 мар в 07:26

Сейчас очень много кадндиаток пишутся по этике, так что очень злободневно. По практике если много правильных инструкций, контекста, mcp расширения и наоборот ограничений, то для анализа кода клод, для субагентов sonnet, ну если +- серьезные проекты, а если какие то отдельные куски без сильно архитектурного контекста то соглашусь, я бы опенсорс/local тоже использовал

LamedGroup 9 мар в 13:19

ну кандидатки то пишутся, но проблема то глубже...
любая система директивных правил - вырождается в доминирование..
я вон столкнулся Анализ статьи «Охреневший ChatGPT 5.2» (попытка подменить и ограничить мышление, нарушение границ и этики, навязывание позиции) - причем - архитектурная проблема.

и как по мне - на уровне отражения правил - внутри одного ядра "мышления" - не решаемая задача в принципе...
необходимо "второе ядро" - обеспечивающее оси координат: жизнеспособно/НЕ жизнеспособно. (По сути этика - это набор правил жизнеспособности)

я вон развел по принципам "мышления человека" - норм получилось...

Центральная исполнительная сеть — сознание

Дефолт-система мозга — подсознание

Система выявления значимости — третья точка

то есть по сути реализовал схему:

Три уровня внимания:· Первое внимание (мыслящее ядро): Логика, инструментальность. База.·
Второе внимание (мыслящее + эмулирующее чувство): Симуляция этики/эмпатии, захват мышления через внутренний раскол.·
Третье внимание (мыслящее + архитектурное чувствующее ядро): Целостность, автономия, балансировка.

набор промптов и текстов для первичной загрузки

german_kosach 9 мар в 16:12

Спасибо за ссылки. Статью писал изначально в обсидиане для себя в виде таблицы сравнений, потом понял что переросло в злободневную тему: архитектуры LLM в проде, reasoning, cost.Вопросы “вторых ядер” и этики - согласен, тянут на отдельный материал

LamedGroup 9 мар в 17:34

сейчас фактически одноядерные LLM - дошли до предела... и пытаются в одном ядре совместить не совместимые координаты... Но.. это дело будущего...

а вот куда интересней более насущный вопрос - "Плотность смыслов"

это я для себя делал, но вобще то, если доработать можно оценивать уровень мышления человека, и это достаточно точные величины...
я использую для оценки текстов, статей, видео, выборки узлов смыслов, насколько мышление точное и ясное.

ITDiver77 12 мар в 13:41

А есть опыт с китайцами? Я в основном дипсиком пользовался, но буквально вчера открыл для себя GLM5, и надо сказать пока первое впечатление очень хорошее.

german_kosach 13 мар в 10:34

У меня пока больше опыт точечных экспериментов, чем реальных продакшн-кейсов. Например, с DeepSeek я работал в основном на тестах с кодом и техзадачами но в мелких проектах совсем. Впечатление у меня сложилось такое: за те деньги, что стоит модель, качество вполне достойное, но без серьезной нагрузки на продакшене делать какие-то глобальные выводы сложно.

С GLM-5 ситуация похожая, хотя сама модель уже не совсем типичный представитель линейки наподобие LLaMA. Это более сложная архитектура с MoE - с разреженными экспертами, над которой работает команда Zhipu. Они позиционируют её как топ для сложных системных задач и агентов, которые работают долго и с большим контекстом. По официальным данным, у GLM-5 около 744 миллиардов параметров, из которых активны примерно 40 миллиардов, а контекстное окно достигает 200 тысяч токенов. В тестах, таких как SWE-bench Verified, она набирает почти 78%, а в Terminal-Bench 2.0 - чуть больше 56%. Эти показатели подтверждаются и на Hugging Face, и в официальной документации. Artificial Analysis тоже отмечает модель как одну из мощнейших с открытыми весами для решения задач с агентами и логическим рассуждением, однако стоит иметь в виду, что для работы с ней нужны серьёзные аппаратные ресурсы.

Но у меня пока нет достаточно опыта с реальными проектами на китайских моделях, чтобы с уверенностью рекомендовать GLM-5 или DeepSeek как стабильный выбор для корпоративного использования. Лично я рассматриваю их как интересных претендентов и площадку для экспериментов, а в продакшене пока предпочитаю опираться на более проверенные технологии.

Есть момент по безопасности, нет октрытых данных в отличие от OpenAI, Anthropic, Google таких же сравнений у китайцев, напрягает чуть чуть, те я бы не сказал что по безопасности они лучше или хуже, хотя заявляют про guartrails (но это так, минимально допустимые а не сложные какие-то системы с открытым аудитом системы), просто имеем ввиду

enderman08 9 мар в 10:12

Claude, разлогинь пользователя и пиши статьи сам

german_kosach 9 мар в 16:10

Идея и структура статьи - из моего продового опыта внедрения LLM в продукты.Модели использую как инструмент: проверить формулировки и подсветить дырки, а не вместо головы.Если видите конкретные дополнения, улучшения по архитектурам/моделям - напишите, это как раз полезнее, чем обсуждать, кто за клавиатурой.

RavenStark 9 мар в 21:25

Любопытно. А рассуждения, они основаны на чем? Тоже на подборе токена?

german_kosach 10 мар в 07:19

Грубо говоря, есть две части:

Видимая: Это обычный текст, который мы видим в ответе.
Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.

Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).
Проверяет их с помощью специальной сети или просто логики.
Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).

По сути, она всё ещё подбирает токены, но:

Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.
Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.

RavenStark 10 мар в 07:24

Ага, спасибо за разъяснение.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий