Обновить
2
3.2
German Kosach, Ph.D@german_kosach

Backend Developer

Отправить сообщение

Стоял в очереди а потом токены закончились 👾

Тот же опыт: как только сюжет разрастается, модель начинает забывать старые ветки и “терять” персонажей.

Пока это ближе к очень навороченному текстовому квесту или имерссивному театру на минималках, чем к настоящему интерактивному роману - но уже понятно, где именно надо докручивать память и лор

Идея Max Lite без госуслуг и слежки - это как “добрый Роскомнадзор”: концептуально противоречит ТЗ

Мечтают ли эмулированные мухи об электрических овцах Филипа Дика или им пока хватает побитового варенья в MuJoCo?  Можно приглашать Нетфликс

Ну, если честно, в основе всего всё ещё лежит старый добрый autoregressive next-token. Эти модели рассуждений не добавляют ничего прям нового. Они просто меняют способ, которым мы предсказываем токены с течением времени. Модель в момент инференса разворачивает и отбирает несколько веток рассуждений, тратя больше compute ради лучшего ответа.

Грубо говоря, есть две части:

  • Видимая: Это обычный текст, который мы видим в ответе.

  • Скрытая: А это всякие штуки типа цепочек CoT, beam-поиска, кучи вариантов, отбора лучших, проверки ответов и всё такое.

В обычной LLM мы просто берём контекст и прогоняем его через трансформер один раз. На каждом шаге выбираем один токен - и готово. А вот в режиме рассуждений моделька:

  1. Создаёт несколько внутренних цепочек токенов (типа разные варианты, как можно подумать).

  2. Проверяет их с помощью специальной сети или просто логики.

  3. Выбирает или собирает лучший вариант и только потом показывает финальный текст (называется test‑time scaling).

По сути, она всё ещё подбирает токены, но:

  • Токены идут не на один ответ, а на выбор лучшего ответа из множества возможных.

  • Часть рассуждений мы вообще не видим - она остаётся внутри модели и отбрасывается.

Так что, рассуждения - это не какой-то там отдельный способ работы модели. Это просто другой режим, где она делает больше шагов, и у неё есть специальная штука, которая решает, что считать правильной мыслью, а что – нет. Ну и теория вероятности

ссылками на эксперименты

Даже если опираться на “научные статьи”, там тоже всё не так просто. В медицине я видел тонны работ в Q3-Q4 журналах Scopus/PubMed, которые по факту больше напоминают маркетинговые материалы, чем нормальное исследование.

Квартиль и индекс журнала сам по себе ещё ничего не гарантирует.
Чтобы воспринимать ссылку всерьёз, минимум приходится смотреть на дизайн исследования (рандомизация/контроль) стат обработка хотя бы минимальная, размер выборки парам не парам стат и риск публикационного смещения.

В IT сейчас та же история, только вместо клинических журналов у нас конференции и статьи по ML: красивая картинка на тестовом датасете, крупные роли титулы корпоратов, а при попытке повторить результат в бою всё разваливается. Вспомним почему сломалась "золотая пирамида тестирования" которую всем втюхивали

Спасибо за ссылки. Статью писал изначально в обсидиане для себя в виде таблицы сравнений, потом понял что переросло в злободневную тему: архитектуры LLM в проде, reasoning, cost.Вопросы “вторых ядер” и этики - согласен, тянут на отдельный материал

Идея и структура статьи - из моего продового опыта внедрения LLM в продукты.Модели использую как инструмент: проверить формулировки и подсветить дырки, а не вместо головы.Если видите конкретные дополнения, улучшения по архитектурам/моделям - напишите, это как раз полезнее, чем обсуждать, кто за клавиатурой.

Все прикольно круто смотрится до момента, пока первый шарящий реальный заказчик не спросит: а кто будет сертификаты, остветсвенность SLA, ибез подписывать ИИ или эти катающиеся палки?

Сейчас очень много кадндиаток пишутся по этике, так что очень злободневно. По практике если много правильных инструкций, контекста, mcp расширения и наоборот ограничений, то для анализа кода клод, для субагентов sonnet, ну если +- серьезные проекты, а если какие то отдельные куски без сильно архитектурного контекста то соглашусь, я бы опенсорс/local тоже использовал

Я и не утверждал научный факт, я говорю про практику в тренингах: там рассказывают байку про эксперимент как "доказанный факт" без источников. 

Всегда бесило что на тренингах это показывают как "доказанный факт"

Информация

В рейтинге
1 257-й
Зарегистрирован
Активность

Специализация

Бэкенд разработчик, Ресечер
Ведущий
JavaScript
Node.js
Express
NestJS
WebRTC
TypeScript
Blockchain
Git
Английский язык
Разработка программного обеспечения