Как стать автором
Обновить

Комментарии 6

Идея конечно интересная, но завязана на возможность программно оценить качество сгенерированного вывода. С моей точки зрения ценность GTP3.5/4 именно в том, что она отлично работает с текстами в свободной форме и выдает именно логически осмысленный результат. Нарпимер для задачи "Возьми входящий текст и изложи основную суть тремя предложениями" трудно программно оценить качество

Оценить качество можно и в подобных задачах.

Просто в качестве метрики нужно использовать не BLEU, а семантическое сходство - например, косинусное сходство между берт-эмбеддингами.

Я в этом не силен, оно будет хорошо работать с синонимами и разной структурой предложений?

Да, будет.

Вычисление семантического сходства - известная и хорошо изученная задача.

https://www.sbert.net/docs/quickstart.html - вот пример либы, которая ее решает (там есть куча разных моделей).

Пока GPT-4 из-за ограничения не более 25 сообщений каждые 3 часа нельзя сравнить с GPT-3.5.

В статье и GPT-3.5, и GPT-4 используются через API, а не через веб-версию, так что такого ограничения нет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории