Сегодня нас порадовали очередные горячие новости из мира ИИ! Open AI представили GPT-4o mini — новую доступную и высокоинтеллектуальную «маленькую» языковую модель, которая значительно умнее, дешевле и так же быстра, как GPT-3.5 Turbo. Недолго думая, мы внедрили и протестировали новую модель на своих задачах. Результаты внизу.
Основные аспекты новой "мини" модели
Интеллект: GPT-4o mini превосходит GPT-3.5 Turbo в области текстового интеллекта (82% баллов по MMLU против 69,8%) и мультимодального мышления.
Цена: GPT-4o mini более чем на 60% дешевле GPT-3.5 Turbo.
Модальности: В настоящее время GPT-4o mini поддерживает работу с текстом и зрением (vision), а в будущем OpenAI планируют добавить поддержку аудио‑ и видео входа и выхода.
Языки: GPT-4o mini имеет улучшенное многоязычное понимание по сравнению с GPT-3.5 Turbo для широкого спектра языков.
Благодаря низкой стоимости и низкой latency GPT-4o mini хорошо подходит для задач с большим объемом данных (например, передача модели полной базы кода или истории диалогов), задач, чувствительных к затратам (например, резюмирование больших документов), и задач, требующих быстрых ответов (например, чат‑боты поддержки клиентов). Как и GPT-4o, GPT-4o mini имеет контекстное окно размером 128k токенов, поддерживает до 16 тысяч выходных токенов на запрос и имеет cutoff знаний, датируемый октябрём 2023 года.
Внедрение и тесты
Работа со сложными текстовыми документами
Предоставим модели пресс‑релиз компании Ростелеком для инвесторов, где представлены основные финансовые показатели и другие инсайты. В особенности, нас будет интересовать динамика пользователей корпоративного VPN.
![Пример работы со сложными .pdf документами Пример работы со сложными .pdf документами](https://habrastorage.org/getpro/habr/upload_files/e7b/c76/3ee/e7bc763ee0672670777ca95e34c3201c.png)
Очевидно, что модель верно интерпретировала документ, а именно извлекла необходимые данные из таблицы и проанализировала их.
![Фрагмент документа с правильным ответом Фрагмент документа с правильным ответом](https://habrastorage.org/getpro/habr/upload_files/2f1/fbf/dbb/2f1fbfdbb8c3274d610d1f7afca52b5f.png)
Мультимодальность: Зрение
Для демонстрации возможностей компьютерного зрения и понимания изображений я решил использовать вполне бытовой пример: спросить ассистента о том, как называются ягоды, увиденные мной на улице.
![Пример использования возможностей зрения ИИ Ассистента в быту Пример использования возможностей зрения ИИ Ассистента в быту](https://habrastorage.org/getpro/habr/upload_files/a75/5f2/fc6/a755f2fc65b83c4f2ac41ce3ebeaeca7.png)
В данном случае, модель абсолютно верно определила растение, более того, она обозначила факт съедобности этих ягод и даже их вкус. Ну что‑ж, доверимся ИИ и попробуем...
Мультимодальность: Аудио
Для того, чтобы протестировать аудио модальность (доступна только в нашем ассистенте), я попросил модель голосом перевести «искусственный интеллект» на немецкий язык, вот что получилось.
![Аудио модальность на примере машинного перевода Аудио модальность на примере машинного перевода](https://habrastorage.org/getpro/habr/upload_files/cac/f31/057/cacf31057116ed7ad7e9193cfdc9aab6.png)
Модель не только распознала голос и поняла смысл сказанного, сгенерировав ответ, но и предоставила голосовой вывод, который особенно удобен при работе с ассистентом во время езды на автомобиле или других подобных занятиях.
Итоги
Запуск GPT-4o mini демонстрирует «генеральную линию» OpenAI не только совершенствовать свои технологии, но и делать их доступными для всех пользователей. Это ещё один шаг к будущему, где взаимодействие человека с ИИ станет простым, естественным и повсеместным. Мы с нетерпением ожидаем новых захватывающих открытий и применения этих технологий в повседневной жизни.