OpenAI представила GPT-4o mini и мы её уже внедрили / Хабр

Сегодня нас порадовали очередные горячие новости из мира ИИ! Open AI представили GPT-4o mini — новую доступную и высокоинтеллектуальную «маленькую» языковую модель, которая значительно умнее, дешевле и так же быстра, как GPT-3.5 Turbo. Недолго думая, мы внедрили и протестировали новую модель на своих задачах. Результаты внизу.

Основные аспекты новой "мини" модели

Интеллект: GPT-4o mini превосходит GPT-3.5 Turbo в области текстового интеллекта (82% баллов по MMLU против 69,8%) и мультимодального мышления.
Цена: GPT-4o mini более чем на 60% дешевле GPT-3.5 Turbo.
Модальности: В настоящее время GPT-4o mini поддерживает работу с текстом и зрением (vision), а в будущем OpenAI планируют добавить поддержку аудио‑ и видео входа и выхода.
Языки: GPT-4o mini имеет улучшенное многоязычное понимание по сравнению с GPT-3.5 Turbo для широкого спектра языков.

Благодаря низкой стоимости и низкой latency GPT-4o mini хорошо подходит для задач с большим объемом данных (например, передача модели полной базы кода или истории диалогов), задач, чувствительных к затратам (например, резюмирование больших документов), и задач, требующих быстрых ответов (например, чат‑боты поддержки клиентов). Как и GPT-4o, GPT-4o mini имеет контекстное окно размером 128k токенов, поддерживает до 16 тысяч выходных токенов на запрос и имеет cutoff знаний, датируемый октябрём 2023 года.

Внедрение и тесты

Работа со сложными текстовыми документами

Предоставим модели пресс‑релиз компании Ростелеком для инвесторов, где представлены основные финансовые показатели и другие инсайты. В особенности, нас будет интересовать динамика пользователей корпоративного VPN.

Пример работы со сложными .pdf документами

Очевидно, что модель верно интерпретировала документ, а именно извлекла необходимые данные из таблицы и проанализировала их.

Мультимодальность: Зрение

Для демонстрации возможностей компьютерного зрения и понимания изображений я решил использовать вполне бытовой пример: спросить ассистента о том, как называются ягоды, увиденные мной на улице.

Пример использования возможностей зрения ИИ Ассистента в быту

В данном случае, модель абсолютно верно определила растение, более того, она обозначила факт съедобности этих ягод и даже их вкус. Ну что‑ж, доверимся ИИ и попробуем...

Мультимодальность: Аудио

Для того, чтобы протестировать аудио модальность (доступна только в нашем ассистенте), я попросил модель голосом перевести «искусственный интеллект» на немецкий язык, вот что получилось.

Аудио модальность на примере машинного перевода

Модель не только распознала голос и поняла смысл сказанного, сгенерировав ответ, но и предоставила голосовой вывод, который особенно удобен при работе с ассистентом во время езды на автомобиле или других подобных занятиях.

Итоги

Запуск GPT-4o mini демонстрирует «генеральную линию» OpenAI не только совершенствовать свои технологии, но и делать их доступными для всех пользователей. Это ещё один шаг к будущему, где взаимодействие человека с ИИ станет простым, естественным и повсеместным. Мы с нетерпением ожидаем новых захватывающих открытий и применения этих технологий в повседневной жизни.