Сегодня нас порадовали очередные горячие новости из мира ИИ! Open AI представили GPT-4o mini — новую доступную и высокоинтеллектуальную «маленькую» языковую модель, которая значительно умнее, дешевле и так же быстра, как GPT-3.5 Turbo. Недолго думая, мы внедрили и протестировали новую модель на своих задачах. Результаты внизу.
Основные аспекты новой "мини" модели
Интеллект: GPT-4o mini превосходит GPT-3.5 Turbo в области текстового интеллекта (82% баллов по MMLU против 69,8%) и мультимодального мышления.
Цена: GPT-4o mini более чем на 60% дешевле GPT-3.5 Turbo.
Модальности: В настоящее время GPT-4o mini поддерживает работу с текстом и зрением (vision), а в будущем OpenAI планируют добавить поддержку аудио‑ и видео входа и выхода.
Языки: GPT-4o mini имеет улучшенное многоязычное понимание по сравнению с GPT-3.5 Turbo для широкого спектра языков.
Благодаря низкой стоимости и низкой latency GPT-4o mini хорошо подходит для задач с большим объемом данных (например, передача модели полной базы кода или истории диалогов), задач, чувствительных к затратам (например, резюмирование больших документов), и задач, требующих быстрых ответов (например, чат‑боты поддержки клиентов). Как и GPT-4o, GPT-4o mini имеет контекстное окно размером 128k токенов, поддерживает до 16 тысяч выходных токенов на запрос и имеет cutoff знаний, датируемый октябрём 2023 года.
Внедрение и тесты
Работа со сложными текстовыми документами
Предоставим модели пресс‑релиз компании Ростелеком для инвесторов, где представлены основные финансовые показатели и другие инсайты. В особенности, нас будет интересовать динамика пользователей корпоративного VPN.
Очевидно, что модель верно интерпретировала документ, а именно извлекла необходимые данные из таблицы и проанализировала их.
Мультимодальность: Зрение
Для демонстрации возможностей компьютерного зрения и понимания изображений я решил использовать вполне бытовой пример: спросить ассистента о том, как называются ягоды, увиденные мной на улице.
В данном случае, модель абсолютно верно определила растение, более того, она обозначила факт съедобности этих ягод и даже их вкус. Ну что‑ж, доверимся ИИ и попробуем...
Мультимодальность: Аудио
Для того, чтобы протестировать аудио модальность (доступна только в нашем ассистенте), я попросил модель голосом перевести «искусственный интеллект» на немецкий язык, вот что получилось.
Модель не только распознала голос и поняла смысл сказанного, сгенерировав ответ, но и предоставила голосовой вывод, который особенно удобен при работе с ассистентом во время езды на автомобиле или других подобных занятиях.
Итоги
Запуск GPT-4o mini демонстрирует «генеральную линию» OpenAI не только совершенствовать свои технологии, но и делать их доступными для всех пользователей. Это ещё один шаг к будущему, где взаимодействие человека с ИИ станет простым, естественным и повсеместным. Мы с нетерпением ожидаем новых захватывающих открытий и применения этих технологий в повседневной жизни.