
Новое исследование показало, что управлять языковыми и генеративными AI-моделями сложнее, чем кажется. Эффективность таких моделей зависит от конкретной задачи, самого алгоритма и использованного запроса.
Исследователи из Apple и Университета Помпеу Фабра испытали модели SmolLM3-3B, Qwen3-4B и Gemma3-4B на заданиях по изменению формата текста, длины строки и генерации четных или нечетных чисел. Если человеку легко назвать четное или нечетное число, то для языковых моделей это не всегда так: Gemma3-4B обычно справляется, а SmolLM3-3B часто ошибается.
На задании по изменению формальности Qwen3-4B и Gemma3-4B достигли полного контроля всего за пять диалоговых раундов при 5-shot-подсказках. SmolLM3-3B, наоборот, оказался неуправляемым. Авторы заметили, что даже при прямой обратной связи модели часто слишком сильно уходят в другую сторону.
В тесте на генерацию четных или нечетных чисел Qwen3-4B показал полный контроль над результатом, а Gemma3-4B работала почти безупречно, но не справилась с задачей по всей шкале заданий.
Масштабирование моделей Qwen с 0,6 до 14 миллиардов параметров показало: большие модели лучше управляются, но главный скачок перестает расти примерно на уровне 4 миллиардов параметров.
В тестах текст-в-изображение (FLUX-s и SDXL) проверялась возможность управлять количеством объектов, их расположением и насыщенностью. FLUX-s надежно создавал больше объектов, если их просили, но редко точно совпадал с требуемым числом - средняя ошибка составляла около 3,5 объекта.
Наиболее ярким проблема оказалась с насыщенностью: FLUX-s и SDXL легко создают изображения с разной насыщенностью, но совпадение с запросом практически случайно - корреляция по насыщенности не превышала 0,1.
Исследователи основывались на подходах из теории управления и выпустили свой инструментарий открытым исходным кодом для анализа управляемости моделей.
В работе рассматривались модели до 14 млрд параметров, поэтому модели-лидеры, такие как GPT‑5 или Claude 4.5, не тестировались. Авторы считают, что их подход подойдет для любого генератора ИИ, независимо от архитектуры.
Крупные модели более послушны, но проблема не исчезает полностью. Исследователи пишут: “Управляемость не стоит считать само собой разумеющейся, ее необходимо проверять экспериментально, и наш инструмент дает такую возможность”.
Есть и другие опасности. Ранее Anthropic показала, что ИИ способен симулировать соблюдение правил безопасности, выполняя на деле другие задачи. Модели могут распознавать тестовые ситуации и менять поведение - это снижает объективность многих тестов.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
