У меня пока больше опыт точечных экспериментов, чем реальных продакшн-кейсов. Например, с DeepSeek я работал в основном на тестах с кодом и техзадачами но в мелких проектах совсем. Впечатление у меня сложилось такое: за те деньги, что стоит модель, качество вполне достойное, но без серьезной нагрузки на продакшене делать какие-то глобальные выводы сложно.
С GLM-5 ситуация похожая, хотя сама модель уже не совсем типичный представитель линейки наподобие LLaMA. Это более сложная архитектура с MoE - с разреженными экспертами, над которой работает команда Zhipu. Они позиционируют её как топ для сложных системных задач и агентов, которые работают долго и с большим контекстом. По официальным данным, у GLM-5 около 744 миллиардов параметров, из которых активны примерно 40 миллиардов, а контекстное окно достигает 200 тысяч токенов. В тестах, таких как SWE-bench Verified, она набирает почти 78%, а в Terminal-Bench 2.0 - чуть больше 56%. Эти показатели подтверждаются и на Hugging Face, и в официальной документации. Artificial Analysis тоже отмечает модель как одну из мощнейших с открытыми весами для решения задач с агентами и логическим рассуждением, однако стоит иметь в виду, что для работы с ней нужны серьёзные аппаратные ресурсы.
Но у меня пока нет достаточно опыта с реальными проектами на китайских моделях, чтобы с уверенностью рекомендовать GLM-5 или DeepSeek как стабильный выбор для корпоративного использования. Лично я рассматриваю их как интересных претендентов и площадку для экспериментов, а в продакшене пока предпочитаю опираться на более проверенные технологии.
Есть момент по безопасности, нет октрытых данных в отличие от OpenAI, Anthropic, Google таких же сравнений у китайцев, напрягает чуть чуть, те я бы не сказал что по безопасности они лучше или хуже, хотя заявляют про guartrails (но это так, минимально допустимые а не сложные какие-то системы с открытым аудитом системы), просто имеем ввиду
Тот же опыт: как только сюжет разрастается, модель начинает забывать старые ветки и “терять” персонажей.
Пока это ближе к очень навороченному текстовому квесту или имерссивному театру на минималках, чем к настоящему интерактивному роману - но уже понятно, где именно надо докручивать память и лор
Ну, если честно, в основе всего всё ещё лежит старый добрый autoregressive next-token. Эти модели рассуждений не добавляют ничего прям нового. Они просто меняют способ, которым мы предсказываем токены с течением времени. Модель в момент инференса разворачивает и отбирает несколько веток рассуждений, тратя больше compute ради лучшего ответа.
Грубо говоря, есть две части:
Видимая: Это обычный текст, который мы видим в ответе.
Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.
В обычной LLM мы просто берём контекст и прогоняем его через трансформер один раз. На каждом шаге выбираем один токен - и готово. А вот в режиме рассуждений моделька:
Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).
Проверяет их с помощью специальной сети или просто логики.
Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).
По сути, она всё ещё подбирает токены, но:
Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.
Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.
Так что, рассуждения - это не какой-то там отдельный способ работы модели. Это просто другой режим, где она делает больше шагов, и у неё есть специальная штука, которая решает, что считать правильной мыслью, а что – нет. Ну и теория вероятности
Даже если опираться на “научные статьи”, там тоже всё не так просто. В медицине я видел тонны работ в Q3-Q4 журналах Scopus/PubMed, которые по факту больше напоминают маркетинговые материалы, чем нормальное исследование.
Квартиль и индекс журнала сам по себе ещё ничего не гарантирует. Чтобы воспринимать ссылку всерьёз, минимум приходится смотреть на дизайн исследования (рандомизация/контроль) стат обработка хотя бы минимальная, размер выборки парам не парам стат и риск публикационного смещения.
В IT сейчас та же история, только вместо клинических журналов у нас конференции и статьи по ML: красивая картинка на тестовом датасете, крупные роли титулы корпоратов, а при попытке повторить результат в бою всё разваливается. Вспомним почему сломалась "золотая пирамида тестирования" которую всем втюхивали
Спасибо за ссылки. Статью писал изначально в обсидиане для себя в виде таблицы сравнений, потом понял что переросло в злободневную тему: архитектуры LLM в проде, reasoning, cost.Вопросы “вторых ядер” и этики - согласен, тянут на отдельный материал
Идея и структура статьи - из моего продового опыта внедрения LLM в продукты.Модели использую как инструмент: проверить формулировки и подсветить дырки, а не вместо головы.Если видите конкретные дополнения, улучшения по архитектурам/моделям - напишите, это как раз полезнее, чем обсуждать, кто за клавиатурой.
Все прикольно круто смотрится до момента, пока первый шарящий реальный заказчик не спросит: а кто будет сертификаты, остветсвенность SLA, ибез подписывать ИИ или эти катающиеся палки?
Сейчас очень много кадндиаток пишутся по этике, так что очень злободневно. По практике если много правильных инструкций, контекста, mcp расширения и наоборот ограничений, то для анализа кода клод, для субагентов sonnet, ну если +- серьезные проекты, а если какие то отдельные куски без сильно архитектурного контекста то соглашусь, я бы опенсорс/local тоже использовал
А соседний постик уже прикрыли
У меня пока больше опыт точечных экспериментов, чем реальных продакшн-кейсов. Например, с DeepSeek я работал в основном на тестах с кодом и техзадачами но в мелких проектах совсем. Впечатление у меня сложилось такое: за те деньги, что стоит модель, качество вполне достойное, но без серьезной нагрузки на продакшене делать какие-то глобальные выводы сложно.
С GLM-5 ситуация похожая, хотя сама модель уже не совсем типичный представитель линейки наподобие LLaMA. Это более сложная архитектура с MoE - с разреженными экспертами, над которой работает команда Zhipu. Они позиционируют её как топ для сложных системных задач и агентов, которые работают долго и с большим контекстом. По официальным данным, у GLM-5 около 744 миллиардов параметров, из которых активны примерно 40 миллиардов, а контекстное окно достигает 200 тысяч токенов. В тестах, таких как SWE-bench Verified, она набирает почти 78%, а в Terminal-Bench 2.0 - чуть больше 56%. Эти показатели подтверждаются и на Hugging Face, и в официальной документации. Artificial Analysis тоже отмечает модель как одну из мощнейших с открытыми весами для решения задач с агентами и логическим рассуждением, однако стоит иметь в виду, что для работы с ней нужны серьёзные аппаратные ресурсы.
Но у меня пока нет достаточно опыта с реальными проектами на китайских моделях, чтобы с уверенностью рекомендовать GLM-5 или DeepSeek как стабильный выбор для корпоративного использования. Лично я рассматриваю их как интересных претендентов и площадку для экспериментов, а в продакшене пока предпочитаю опираться на более проверенные технологии.
Есть момент по безопасности, нет октрытых данных в отличие от OpenAI, Anthropic, Google таких же сравнений у китайцев, напрягает чуть чуть, те я бы не сказал что по безопасности они лучше или хуже, хотя заявляют про guartrails (но это так, минимально допустимые а не сложные какие-то системы с открытым аудитом системы), просто имеем ввиду
продвинутых прощелыг
Стоял в очереди а потом токены закончились 👾
Тот же опыт: как только сюжет разрастается, модель начинает забывать старые ветки и “терять” персонажей.
Пока это ближе к очень навороченному текстовому квесту или имерссивному театру на минималках, чем к настоящему интерактивному роману - но уже понятно, где именно надо докручивать память и лор
Идея Max Lite без госуслуг и слежки - это как “добрый Роскомнадзор”: концептуально противоречит ТЗ
Мечтают ли эмулированные мухи об электрических овцах Филипа Дика или им пока хватает побитового варенья в MuJoCo? Можно приглашать Нетфликс
Ну, если честно, в основе всего всё ещё лежит старый добрый autoregressive next-token. Эти модели рассуждений не добавляют ничего прям нового. Они просто меняют способ, которым мы предсказываем токены с течением времени. Модель в момент инференса разворачивает и отбирает несколько веток рассуждений, тратя больше compute ради лучшего ответа.
Грубо говоря, есть две части:
Видимая: Это обычный текст, который мы видим в ответе.
Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.
В обычной LLM мы просто берём контекст и прогоняем его через трансформер один раз. На каждом шаге выбираем один токен - и готово. А вот в режиме рассуждений моделька:
Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).
Проверяет их с помощью специальной сети или просто логики.
Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).
По сути, она всё ещё подбирает токены, но:
Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.
Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.
Так что, рассуждения - это не какой-то там отдельный способ работы модели. Это просто другой режим, где она делает больше шагов, и у неё есть специальная штука, которая решает, что считать правильной мыслью, а что – нет. Ну и теория вероятности
Даже если опираться на “научные статьи”, там тоже всё не так просто. В медицине я видел тонны работ в Q3-Q4 журналах Scopus/PubMed, которые по факту больше напоминают маркетинговые материалы, чем нормальное исследование.
Квартиль и индекс журнала сам по себе ещё ничего не гарантирует.
Чтобы воспринимать ссылку всерьёз, минимум приходится смотреть на дизайн исследования (рандомизация/контроль) стат обработка хотя бы минимальная, размер выборки парам не парам стат и риск публикационного смещения.
В IT сейчас та же история, только вместо клинических журналов у нас конференции и статьи по ML: красивая картинка на тестовом датасете, крупные роли титулы корпоратов, а при попытке повторить результат в бою всё разваливается. Вспомним почему сломалась "золотая пирамида тестирования" которую всем втюхивали
Спасибо за ссылки. Статью писал изначально в обсидиане для себя в виде таблицы сравнений, потом понял что переросло в злободневную тему: архитектуры LLM в проде, reasoning, cost.Вопросы “вторых ядер” и этики - согласен, тянут на отдельный материал
Идея и структура статьи - из моего продового опыта внедрения LLM в продукты.Модели использую как инструмент: проверить формулировки и подсветить дырки, а не вместо головы.Если видите конкретные дополнения, улучшения по архитектурам/моделям - напишите, это как раз полезнее, чем обсуждать, кто за клавиатурой.
Все прикольно круто смотрится до момента, пока первый
шарящийреальный заказчик не спросит: а кто будет сертификаты, остветсвенность SLA, ибез подписывать ИИ или эти катающиеся палки?Сейчас очень много кадндиаток пишутся по этике, так что очень злободневно. По практике если много правильных инструкций, контекста, mcp расширения и наоборот ограничений, то для анализа кода клод, для субагентов sonnet, ну если +- серьезные проекты, а если какие то отдельные куски без сильно архитектурного контекста то соглашусь, я бы опенсорс/local тоже использовал
Я и не утверждал научный факт, я говорю про практику в тренингах: там рассказывают байку про эксперимент как "доказанный факт" без источников.
Всегда бесило что на тренингах это показывают как "доказанный факт"