Google анонсировала Gemini 2.0 Flash Thinking, экспериментальную модель искусственного интеллекта, которая использует тестовые вычисления для "рассуждения" и решения более сложных задач. В отличие от o1 от OpenAI, Google делает внутренний процесс обоснования полностью видимым для пользователей в режиме реального времени, предлагая окно с информацией о том, как модель получает ответы.
В отличие от традиционных языковых моделей, в Gemini 2.0 Flash Thinking во время вычислений делается пауза, чтобы обдумать соответствующие подсказки и объяснить ход своих размышлений, прежде чем предлагать решение. Этот релиз представляет собой выход Google на растущую арену "рассуждающих" моделей искусственного интеллекта.
"Представляем Gemini 2.0 Flash Thinking, экспериментальную модель, которая явно демонстрирует свои мысли. Построенная на скорости и производительности 2.0 Flash, эта модель обучена использовать мысли для усиления своих рассуждений. И мы видим многообещающие результаты, когда увеличиваем время вывода"
Джефф Дин, главный научный сотрудник Google DeepMind, объяснил в социальных сетях, что модель "обучена использовать мысли для усиления своих рассуждений", что предполагает продуманный подход к тому, чтобы сделать процесс принятия решений ФШ более прозрачным и потенциально более надежным.
В демонстрационных материалах, опубликованных Google, модель справляется как с визуальными, так и с текстовыми задачами, предлагая четкое представление о проблемах, которые варьируются от головоломок программирования до физических уравнений.
"Как раз в тот момент, когда вы думали, что все закончилось, мы представляем Gemini 2.0 Flash Thinking, новую экспериментальную модель, которая раскрывает более сильные способности к рассуждению и демонстрирует свои мысли. Модель планирует (с видимыми мыслями), может решать сложные задачи со скоростью Flash и многое другое"
Возможность видеть логические схемы модели - это очень важно. Как отметил Андрей Карпати (член-основатель OpenAI) на X, это приносит значительную пользу как пользователям, так и разработчикам. Такая прозрачность не только повышает доверие, но и обеспечивает образовательный компонент, позволяя пользователям извлекать уроки из логического процесса модели и итеративного мышления. Для разработчиков это открывает возможности для анализа и улучшения процесса принятия решений в модели, делая ее более эффективным инструментом для совместной работы.
Тем не менее, Flash Thinking - это в значительной степени экспериментальная модель: она имеет ограничение на ввод токенов в 32 КБ, может обрабатывать только ввод текста и изображений и выдает только текстовые выходные данные. Кроме того, многие встроенные инструменты, доступные в других моделях, такие как поиск или выполнение кода, недоступны.
Если вы хотите самостоятельно изучить Flash-мышление Gemini 2.0, у вас есть два способа погрузиться в него:
Вы можете перейти на сайт Google AI Studio и просто выбрать экспериментальную модель Flash Thinking Gemini 2.0 в раскрывающемся меню "Модель" на панели настроек. Существует специальная панель "Размышления", которая показывает вам, как именно модель объясняет проблемы.
Если вы предпочитаете работать с кодом, вы можете получить к нему доступ через Gemini API. При использовании API вы найдете мысли модели в качестве первого элемента в содержимом вашего ответа – просто укажите либо gemini-2.0-flash-thinking-exp, либо gemini-2.0-flash-thinking-exp-1219 в качестве кода вашей модели.