Pull to refresh

Comments 7

Идея мне понравилась, если бояться, что LLM может врать и часто галлюцинировать. Но почему не ограничиться обертка и над LLM? Хотя по твоему

“а вот было бы прикольно внедрить разные модели нейросетей в один чат и заставить их думать, что они реальные люди и работают в корпорации.”

я думал, что будет чат со всеми LLM и юзером, типо группы.

Мне так же интересно было бы услышать:

  1. Почему изначально были выбраны такие модели? Если не даёшь сравнение, то хотя бы покажи, какие важные пункты надо учитывать.

  2. Откуда вообще появился KIMI? на скриншоте с LLM его нет в работе - потом он резко появился.

  1. Изначально были выбранны модели, которые доступны у агрегаторов с большим количеством бесплатных запросов.

  2. Kimi был примерно 3 дня, но потом я его убрал. Использовал его через CloudFlare Workers AI и это обходилось слишком дорого

Я не понял а что он делает. Вместе с ответом дает сам себе оценку уверен-неуверен? После чего неуверенный ответ уходит на второй-третий круг?

Это явно не работает, галлюцинации у него такие же как у чистых моделей.

Это работает, но не всегда. В среднем по моим тестам примерно 40% запросов получаются более адекватными, я считаю это тоже результат.

Ты ему даже калькулятор не дал, из за этого примерно 100% запросов типа посчитай что то заканчиваются самоуверенным бредом.

Хорошая реализация fallback-цепочки – особенно идея использовать тяжёлые модели как судей для лёгких. Кстати, именно с confidence-параметром стоит быть внимательным: LLM известны плохой калибровкой уверенности. Claude и GPT-4o часто уверенно отвечают неправильно и осторожно формулируют правильное. Если confidence из промпта используется как сигнал роутинга, есть риск получить систему, которая передаёт задачу старшей модели именно тогда, когда ответ уже верный.

Любопытные эксперименты коллега, идем похожим путем, но сразу пытаемся сделать не цифрового болвана, а цифрового офисного сотрудника, методом проб и ошибок пришли к тому что упряжь для такой задачи нужна помощнее... Только архитектурных документов получилось несколько десятков тысяч строк...

Sign up to leave a comment.

Articles