dashsk May 16 at 04:21

Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума

Medium

4 min

11K

Python * Artificial IntelligenceMachine learning * Programming * Website development *

Case

From sandbox

Comments 7

Aloncie May 16 at 05:51

Идея мне понравилась, если бояться, что LLM может врать и часто галлюцинировать. Но почему не ограничиться обертка и над LLM? Хотя по твоему

“а вот было бы прикольно внедрить разные модели нейросетей в один чат и заставить их думать, что они реальные люди и работают в корпорации.”

я думал, что будет чат со всеми LLM и юзером, типо группы.

Мне так же интересно было бы услышать:

Почему изначально были выбраны такие модели? Если не даёшь сравнение, то хотя бы покажи, какие важные пункты надо учитывать.
Откуда вообще появился KIMI? на скриншоте с LLM его нет в работе - потом он резко появился.

dashsk May 18 at 23:27

Изначально были выбранны модели, которые доступны у агрегаторов с большим количеством бесплатных запросов.
Kimi был примерно 3 дня, но потом я его убрал. Использовал его через CloudFlare Workers AI и это обходилось слишком дорого

K0Jlya9 May 16 at 12:33

Я не понял а что он делает. Вместе с ответом дает сам себе оценку уверен-неуверен? После чего неуверенный ответ уходит на второй-третий круг?

Это явно не работает, галлюцинации у него такие же как у чистых моделей.

dashsk May 18 at 23:28

Это работает, но не всегда. В среднем по моим тестам примерно 40% запросов получаются более адекватными, я считаю это тоже результат.

K0Jlya9 May 18 at 23:49

Ты ему даже калькулятор не дал, из за этого примерно 100% запросов типа посчитай что то заканчиваются самоуверенным бредом.

Granulex May 16 at 14:36

Хорошая реализация fallback-цепочки – особенно идея использовать тяжёлые модели как судей для лёгких. Кстати, именно с confidence-параметром стоит быть внимательным: LLM известны плохой калибровкой уверенности. Claude и GPT-4o часто уверенно отвечают неправильно и осторожно формулируют правильное. Если confidence из промпта используется как сигнал роутинга, есть риск получить систему, которая передаёт задачу старшей модели именно тогда, когда ответ уже верный.

Myshinskiy May 17 at 13:19

Любопытные эксперименты коллега, идем похожим путем, но сразу пытаемся сделать не цифрового болвана, а цифрового офисного сотрудника, методом проб и ошибок пришли к тому что упряжь для такой задачи нужна помощнее... Только архитектурных документов получилось несколько десятков тысяч строк...