Как стать автором
Обновить

Microsoft выпустила семейство моделей Phi-3.5, которые превосходят конкурирующие ИИ-модели

Время на прочтение2 мин
Количество просмотров4K

Microsoft выпустила семейство моделей искусственного интеллекта Phi-3,5, которая включает Phi-3.5-vision, Phi-3,5-MoE и Phi-3.5-mini. Все они построены на основе синтетических данных и отфильтрованных общедоступных сайтов. Линейка ИИ-моделей поддерживает контекст длиной 128 тыс. токенов. Три модели доступны на платформе Hugging Face по лицензии MIT.

Изображение создано в Midjourney
Изображение создано в Midjourney

Phi-3.5-MoE примечательна использованием технологии Mixture of Experts (MoE). При таком подходе только часть сети используется для вычисления выходных данных для любого одного входа. Модель с 16 группами и 3,8 млрд параметров использует 6,6 млрд параметров, она обучена на 4,9 трлн токенов с применением 512 графических процессоров Nvidia H100.

Исследовательская группа Microsoft разработала модель с нуля, чтобы повысить её производительность. В стандартных ИИ-тестах Phi-3.5-MoE превосходит Llama-3.1 8B, Gemma-2-9B и Gemini-1.5-Flash, а также она близка к лидирующей GPT-4o-mini.

Phi-3.5-mini c 3,8 млрд параметров опережает Llama-3.1 8B и Mistral 7B, а также способна составить конкуренцию Mistral NeMo 12B. ИИ-модель обучили на 3,4 трлн токенов с использованием 512 единиц H100. Microsoft представила малую модель ещё в апреле этого.

Имея всего 3,8 млрд активных параметров, Phi-3.5-mini конкурентоспособна в многоязычных задачах по сравнению с большими языковыми моделями с гораздо большим количеством параметров. Кроме того, модель теперь поддерживает длину контекста 128 тыс. токенов, а её главный конкурент, Gemma-2, только 8 тыс.

Phi-3.5-vision — это модель с 4,2 млрд параметров, обученная на 500 млрд токенов с применением 256 графических процессоров Nvidia A100. Она поддерживает анализ многофреймовых изображений и рассуждения. Модель улучшила производительность в MMMU с 40,2 до 43, в MMBench с 80,5 до 81,9, в TextVQA с 70,9 до 72.

Теги:
Хабы:
Всего голосов 6: ↑6 и ↓0+12
Комментарии3

Другие новости

Истории

Работа

Data Scientist
78 вакансий

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань