Computer Vision модель в борьбе с галлюцинациями LLM. Оправданный оверинжиниринг? / Комментарии / Хабр

Да, приходится и костыли городить, для LLM. Либо одна и та же модель с разными промптами в разных аспектах, либо разные модели с разными промптами. Все разбито на этапы. Например "придумай анекдот про кота". > результат > как бы параллельная оценочная комиссия, но поскольку GPU у меня на это выделен только один, идет жонглирование моделями, либо проще в каждом "инстансе" свой промпт, коих можно наделать дофига, главное все разные. И комиссия нейросетей критикует автора и отправляет результат на доработку, в итоге и контекстное окно особо не забито, а комиссия вообще не имеет контекстного окна, они оценивают каждый раз заново. Но этот подход чреват тем, что вместо 30 токенов в секунду, оно думать может полдня на полной скорости. Есть подозрение, что мета-архитектура должна повторять внутреннюю архитектуру LLM, только на более высоком уровне, но это лишь предположение.

Комментарии 3

Barnaby 10 мар в 07:55

Не пробовали другие модели? Вдруг они лучше в пространственной геометрии чем джемини.

Bahama_Papa 10 мар в 07:57

Начинал с ChatGPT. Сделал вывод, что их всех клинит плюс/минус одинаково. Но каюсь, широких экспериментов не проводил.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий