Microsoft Research объявила о выпуске Orca 2, второй версии своей языковой модели Orca. В своём блоге Microsoft заявила, что Orca 2 была разработана как LM меньшего размера, но её всё равно можно использовать для ответов на сложные вопросы наравне с LLM.
Orca 2 выпускается в двух размерах (7 млрд и 13 млрд параметров). Она разрабатывалась с использованием модели LLaMa 2, которую Microsoft и Meta* запустили ранее в этом году. Microsoft настроила Orca 2 на базе LLaMa 2 «на индивидуальных высококачественных синтетических данных». По заявлению компании, это позволяет Orca 2 решать вопросы, соответствующие производительности других языковых моделей, «в 5–10 раз больших»:
«Orca 2 обучается с использованием расширенного, тщательно адаптированного набора синтетических данных. Обучающие данные были сгенерированы таким образом, чтобы обучать Orca 2 различным методам рассуждения, таким как пошаговая обработка, вспоминание с последующим генерированием, вспоминание-обоснование-генерация, извлечение-генерация и методы прямого ответа, а также выбор различных стратегий решения разных задач».
В тестах модель Orca 2 сравнивалась с рядом более крупных языковых моделей, включая LLaMa 2 и WizardLM. Тесты охватывали такие темы, как «понимание языка, рассуждение на основе здравого смысла, многоэтапное рассуждение, решение математических задач, понимание прочитанного» и другие. В блоге Microsoft сообщает:
«Наши предварительные результаты показывают, что производительность Orca 2 значительно превосходит модели аналогичного размера. Он также достигает уровня производительности аналогичного или выше, чем у моделей как минимум в 10 раз больших, демонстрируя потенциал оснащения меньших моделей лучшими возможностями рассуждения».
Хотя Microsoft признала, что у Orca 2 есть ограничения, её тесты показывают «потенциал для будущих улучшений». Microsoft выпустила Orca 2 как проект с открытым исходным кодом, чтобы над ней могли работать и другие специалисты.
*Meta Platforms признана экстремистской, её деятельность запрещена на территории РФ.