Comments 6
Идея конечно интересная, но завязана на возможность программно оценить качество сгенерированного вывода. С моей точки зрения ценность GTP3.5/4 именно в том, что она отлично работает с текстами в свободной форме и выдает именно логически осмысленный результат. Нарпимер для задачи "Возьми входящий текст и изложи основную суть тремя предложениями" трудно программно оценить качество
Оценить качество можно и в подобных задачах.
Просто в качестве метрики нужно использовать не BLEU, а семантическое сходство - например, косинусное сходство между берт-эмбеддингами.
Я в этом не силен, оно будет хорошо работать с синонимами и разной структурой предложений?
Да, будет.
Вычисление семантического сходства - известная и хорошо изученная задача.
https://www.sbert.net/docs/quickstart.html - вот пример либы, которая ее решает (там есть куча разных моделей).
Пока GPT-4 из-за ограничения не более 25 сообщений каждые 3 часа нельзя сравнить с GPT-3.5.
PromptGPT: оптимизируем промт для GPT-4