Комментарии 7
Тест на крошечном наборе задач из одного домена и глобальные выводы?..
Статья не позиционируется как глобальное исследование. На этих 25 простых задачах меньшая модель показала себя лучше, но как и сказано в посте, для большей объективности потребуется тесты на сотнях задач. С другими инструкциями GigaChat справляется лучше чем LLaMa. Возможно, в выводах стоит уточнить, что речь идет о конкретном домене задач
А ссылку в целях скачать и потыкать дают?
Набор данных представляет собой 37 тысяч сгенерированных с помощью СhatGPT небольших диалогов между пользователем и виртуальным ассистентом. Изначально планировалось обучить FRED- T5, поэтому набор данных был подготовлен для обучения text2text модели. В начало каждого сообщения добавлена роль user/bot. На вход T5 подается список сообщений, таргетом является последнее предложение в диалоге- ответ бота. FRED- T5 не подходит для подобной задачи, так как при инференсе на вход модель будет ожидать сразу список сообщений.
А в чем проблема "наращивать контекст" в каждом сэмпле?. Мы так делали, все работает. Т.к фред это денойзер, то можно маскировать случайную реплику в диалоге, тоже будет работать
Есть такая штука, как Open LLM leaderboard - туда занесены все модели ИИ с открытым исходным кодом и результаты их оценивания. Весьма занятная вещь, посмотрите.
LLaMa vs GigaChat: может ли опенсорсная модель работать лучше LLM с 13 млрд параметрами?