Pull to refresh

Comments 6

Идея конечно интересная, но завязана на возможность программно оценить качество сгенерированного вывода. С моей точки зрения ценность GTP3.5/4 именно в том, что она отлично работает с текстами в свободной форме и выдает именно логически осмысленный результат. Нарпимер для задачи "Возьми входящий текст и изложи основную суть тремя предложениями" трудно программно оценить качество

Оценить качество можно и в подобных задачах.

Просто в качестве метрики нужно использовать не BLEU, а семантическое сходство - например, косинусное сходство между берт-эмбеддингами.

Я в этом не силен, оно будет хорошо работать с синонимами и разной структурой предложений?

Пока GPT-4 из-за ограничения не более 25 сообщений каждые 3 часа нельзя сравнить с GPT-3.5.

В статье и GPT-3.5, и GPT-4 используются через API, а не через веб-версию, так что такого ограничения нет.

Sign up to leave a comment.

Articles