Привет. У меня вопрос к разработчикам LLM. Периодически читаю про жалобы на галлюцинации LLM и невозможность адекватной оценки вероятности её ответов (типа, уверенно врёт). При этом, я раньше занимался разработкой системы распознавания рукописного текста, и у нас была в чём-то схожая проблема (трудно было оценить достоверность результатов распознавания). Решалась она довольно неплохо путём прогона цепочки распознавания достаточно большого числа раз на одном и том же изображении, и последующей перенормировкой вероятностей в итоговом списке ответов (ответы, по существу генерировались методом монте-карло путём последовательного продвижения по графу возможных вариантов в байесовской цепи). Как понимаю, в LLM принцип генерации ответа в чём-то похожий (последовательный вероятностный перебор цепочки токенов с генерацией их в реальном масштабе времени). Соответственно, вопрос - а если повысить в разумных пределах температуру и Top P, прогонять цепочку несколько раз, а потом пересчитывать итоговую вероятность правильности ответа путём перенормировки списка, это не может ли помочь хотя бы частично решить проблему?
PS
Заранее извиняюсь, если что-то не догоняю, я в LLM не Копенгаген, но идея, думаю, понятна.