Статья не позиционируется как глобальное исследование. На этих 25 простых задачах меньшая модель показала себя лучше, но как и сказано в посте, для большей объективности потребуется тесты на сотнях задач. С другими инструкциями GigaChat справляется лучше чем LLaMa. Возможно, в выводах стоит уточнить, что речь идет о конкретном домене задач
Спасибо за замечание, стоит еще поэкспериментировать с Фредом
Статья не позиционируется как глобальное исследование. На этих 25 простых задачах меньшая модель показала себя лучше, но как и сказано в посте, для большей объективности потребуется тесты на сотнях задач. С другими инструкциями GigaChat справляется лучше чем LLaMa. Возможно, в выводах стоит уточнить, что речь идет о конкретном домене задач
Думаем над этим вариантом