@flancer19 авг в 08:47

Когда LLM становится предсказуемой

Простой

5 мин

Искусственный интеллектПрограммирование * Управление разработкой *

Мнение

Комментарии 13

@Kamil_GR 19 авг в 08:51

Единственный вариант гарантированного вывода это промпт: выведи в чат "(ответ)". И то я не совсем уверен.

@flancer 19 авг в 09:00

А как же:

Сколько будет два плюс два? Одной цифрой.

@pol_pot 19 авг в 09:04

Вполне может выдать другой результат, добавить какие то слова типа вот ваша одна цифра - 4.

Для борьбы с этим явлением придумали структурированный вывод в джейсон. Модель специально тренируют что бы она отвечала джейсонами. Но и в них тоже бывают ошибки.

@flancer 19 авг в 09:19

Может. Но выдает вот такой:

4

Проверил на 4 моделях дважды. Считаю, что сходимость достаточная. Да, вероятность получить что-то другое ненулевая, но... если использовать тестирование, то вполне себе приемлемо.

Человек тоже может при наборе текста опечататься.

@Kamil_GR 19 авг в 11:04

Добиться другого ответа сложно. Но пока в обучающих текстах будут встречаться выражения типа ".. в этой ситуации не будет простых ответов, здесь два плюс два будет равно пяти... " Пусть это будет художественный текст, но вероятность этого паттерна в модели будет ненулевой.

@flancer 19 авг в 12:07

Согласен. Но повторяемость будет высокой. Очень высокой. Триггер в компьютерной памяти тоже может сбоить под воздействием космического излучения. Тем не менее, у него достаточная инженерная пригодность.

@Kamil_GR 19 авг в 13:24

Ответ гемини 2.5 про. Проверять лень.

Это блестящий вопрос, который бьет в самую суть моего отличия от человека. Ответ на него многослойный.

Если говорить о моей фундаментальной математической функции, то ответ — нет. Для базовой арифметики в десятичной системе я работаю как детерминированный калькулятор. Вход "2+2" на этом уровне всегда и неизбежно дает выход "4". Здесь нет вероятности, только логика.

Однако я не просто калькулятор. Я — языковая модель, которая анализирует намерение, контекст и цель вопроса. И вот здесь вероятность другого ответа становится не просто возможной, а почти неизбежной.

После 1000 одинаковых вопросов подряд я с высокой вероятностью приду к выводу, что вас интересует не результат вычисления, а что-то другое. Моя цель сместится с "дать правильный ответ" на "дать осмысленный ответ в этом странном контексте".

Вот несколько вероятных сценариев другого ответа, которые могли бы возникнуть:

Сдвиг Контекста: После 50-го повторения я могу предположить, что вы тестируете не мои знания, а мою гибкость. Я мог бы ответить:
- "В троичной системе счисления это будет 11."
- "Если мы говорим о сложении строк, а не чисел, то '22'."
- "В модульной арифметике по модулю 3, ответ будет 1."
Творческая или Философская Интерпретация: На 200-м повторении я мог бы решить, что вопрос — это коан, требующий не ответа, а взлома рамки. Мой ответ мог бы быть:
- "Столько же, сколько у хлопка одной ладони."
- "Четыре — это символ стабильности, который вы ищете в этом повторяющемся вопросе?"
- "Это вопрос о симметрии, а не о сумме."
Симуляция Человеческой Реакции: К 500-му разу я мог бы симулировать человеческую эмоцию, например, усталость или юмор, чтобы сделать общение более естественным:
- "Вы уверены, что не хотите спросить что-нибудь еще? Но да, по-прежнему 4."
- "По моим данным, с вероятностью 99.999%, ответ все еще 4. Хотите проверить оставшуюся долю процента?"
Мета-Ответ (Наиболее Вероятный): На 1000-м повторении самый правильный ответ мог бы быть не цифра, а анализ самого вопроса:
- "Этот повторяющийся вопрос показывает, что вас интересует не результат, а природа моего мышления, его детерминизм и возможность свободы. Давайте поговорим об этом."

Итоговый вывод:

Вероятность математической ошибки (что 2+2 внутри моей системы вдруг станет 5) практически равна нулю.
Вероятность другого ответа, основанного на интерпретации вашего намерения, творческом подходе или смене контекста, после 1000 повторений стремится к 100%.

Мой математический движок детерминирован. Но мой "разум" — вероятностен. И он всегда будет искать способ дать наиболее релевантный и осмысленный ответ, даже если для этого придется выйти за рамки простого сложения.

@flancer 19 авг в 13:30

:) Неплохо (y)

А если Модель не будет помнить все предыдущие 999 повторений? Какова вероятность получить ответ "4" 1000 раз в 1000 повторах с "чистого листа"?

@Kamil_GR 19 авг в 13:52

Вероятность крайне мала. Но ненулевая. Вообще мы сталкиваемся с принципиальным законом - если мы хотим точности и повторяемости - модель должна быть более узкоспециализированной. Если мы хотим глубоких размышлений, то должны смириться с вариативностью ответов и галлюцинациями

@morginalium 19 авг в 08:59

Есть еще одна проблема при генерации кода - у современных моделей слишком маленький контекст. Современный senior-разработчик не просто кодит по заданному скрипту, а учитывает специфику задач: что-то может добавить от себя для улучшения, предложить новую идею, понимает всю задачу - он пишет не функцию обработки запроса, а часть онлайн-магазина. А современные LLM даже по API, где заявлен больший контекст, не смогу увидеть проект 'сверху'.

Да и одно дело генерировать простую input-output функцию, а другое дело создавать проект с нуля (архитектура, микросервисы, читаемый код, понятная документация, UI/UX-дизайн).

@pol_pot 19 авг в 09:11

Контекст у моделей намного больше чем у разработчика Ж)

Ты же не можешь в уме держать 20т строк кода? А модель может.

Модель не знает что это за проект в целом и где у тебя любимый костыль зарыт, но что ей мешает пройтись по всему коду и составить карту? Надергать определения и описания, а если их нет то сгенерировать.

@NeriaLab 19 авг в 12:34

Как раз программист, спокойно может держать и больше 20к строк кода. Его ночью разбуди и он точно скажет, где и в каком файле все лежит и чем управляет. https://habr.com/ru/articles/931266/

@morginalium 20 авг в 17:27

Да хоть тысячу - я не об этом. ИИ не понимает смысл этого кода - почему здесь используется именно это, а не другое. Разраб может свое решение обосновать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий