Просто графические генеративные модели умеют брать картинки пользователя "для затравки" уже давно, так получается "редактирование" без всякой мультимодальности. Так что всё равно не понятно, зачем OpenAI для полноценной мультимодальной модели понадобилось просить её генерировать самой себе промпт...
Вы оценивали модели по критериям, которых нет в промпте. Соответственно получился тест на умение модели угадать ваши желания.
Кроме того, вы использовал только одну попытку на каждую модель. Возможно, модели не угадывали, а просто вам повезло, и получилось то, что вы хотели (или наоборот).
Не могу поставить плюс, поэтому просто скажу: огромное спасибо за очень интересную статью, заставляет задуматься про отбор, который везде нас окружает.
Насчёт второй части - это докажет наличие или отсутствие зрения у модели, это не тоже самое что умение генерировать изображение. Например, gemma3 имеет зрение, но картинки генерировать точно не может.
Воля тут не при чём. Просто другая, уже обученная модель, помечает опасные ответы и таким образом тестируемая модель дообучается, чтобы соответствовать требованиям безопасности - обычно речь конечно, на текущем этапе, не про ядерные бомбы - а про толерантность, соблюдение закона, уважение пользователя и т.п.
Ну всё-таки не совсем без памяти. Есть контекст - системный промпт, предыдущая переписка... А самое главное очень легко на MCP сделать память в виде ну... хоть SQL базы? А есть и более AI-friendly варианты. Но моделям это непривычно, их обучают, когда нет памяти, поэтому они плохо пользуются таким.
В Anthropic это пытались проверять и оказалось, что есть! Ведь есть не только токены, но и эмбеддинги. Инференс подгоняется соответственно, чтобы не потерять скрытую мысль и излагать нормально явную. Но это тяжело и неглубоко пока, и используется в основном, чтобы планировать немного вперёд.
>Когда модель понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.
В статье вот это не описывается, просто проверяется умение модели определить по диалогу, переданному в контекст (включая ответы), что происходило - тестирование или реальное использование.
Никаких доказательств, что модель может менять своё поведение исходя из этой оценки, нет. Это труднее проверить, конечно. Но пока данных таких нет, кроме каких-то пограничных натянутых случаев.
Я долго искал непротиворечивые определение сознания, которому современные модели не соответствуют, и не особо нашёл. Расскажите, если знаете.
По-моему, главное отличие LLM от людей и других живых созданий в том, что сознание появляется с промптом и заканчивается на ответе. А ещё в истории могут быть ответы другой модели, а LLM приходится считать их за свои.
Когда увидел слово мультиязычный - подумал речь про обычные человеческие языки, а вы про языки программирования оказывается.
Как вы отбирали модели для тестирования? Сразу расстроило отсутствие gemini 2.5-flash (или хотя бы 2.0). Неясно также по 2.5-pro - какая версия тестировалась? На неё постоянно приходят обновления.
Будет какой-нибудь сайт или что-то такое с наглядными результатами? Наделялся найти такое по ссылке "Мы представляем", но по факту просто ведёт на главную вашей компании.
"prompt": "Anime-style illustration of a young woman with long brown hair and light makeup, smiling and holding a large bottle of strong beer (label in Russian: ОХОТА Крепкое 8%). She is wearing a dark green jacket and standing in a park with tall trees and sunlight filtering through. Modern late 2010s anime style with detailed background and expressive eyes.",
"size": "1024x1024"
}
---
Tool Created: 2025-04-01 19:40 Model: gpt-4o:
[Image]
То есть модель придумывает промпт, а потом вызывает tool для генерации. Может и саму себя (не понятно), но факт, что всё сложнее происходит и ваше описание напрямую в картинку не уходит. А тихо переписывается. Прямой промпт для генерации картинок можно увидеть, только если выкачать json из раздела настроек.
нормальные современный LLM не должны прям вообще сходить с ума в белиберду. но сильно проседать в качестве по мере общения в чате - обязательно.
контекст, вот оно главное причинное слово. рекомендуется не более 3-6 сообщений на чат. если есть большие сообщения - то, и того меньше. просить просуммировать важное и открывать новый. делать файлы чек-листы, если позволяет окружение.
ещё можно искать модели с большим контекстом - Gemini, Claude, GPT-4.1, но даже им хуже от длинных чатов, просто меньше.
Ровно 2 млн скачиваний это как удаётся подделывать?
Просто графические генеративные модели умеют брать картинки пользователя "для затравки" уже давно, так получается "редактирование" без всякой мультимодальности. Так что всё равно не понятно, зачем OpenAI для полноценной мультимодальной модели понадобилось просить её генерировать самой себе промпт...
Вы оценивали модели по критериям, которых нет в промпте. Соответственно получился тест на умение модели угадать ваши желания.
Кроме того, вы использовал только одну попытку на каждую модель. Возможно, модели не угадывали, а просто вам повезло, и получилось то, что вы хотели (или наоборот).
Не могу поставить плюс, поэтому просто скажу: огромное спасибо за очень интересную статью, заставляет задуматься про отбор, который везде нас окружает.
Инструкция как выкачать данные: https://help.openai.com/en/articles/7260999-how-do-i-export-my-chatgpt-history-and-data
Насчёт второй части - это докажет наличие или отсутствие зрения у модели, это не тоже самое что умение генерировать изображение. Например, gemma3 имеет зрение, но картинки генерировать точно не может.
Воля тут не при чём. Просто другая, уже обученная модель, помечает опасные ответы и таким образом тестируемая модель дообучается, чтобы соответствовать требованиям безопасности - обычно речь конечно, на текущем этапе, не про ядерные бомбы - а про толерантность, соблюдение закона, уважение пользователя и т.п.
Ну всё-таки не совсем без памяти. Есть контекст - системный промпт, предыдущая переписка... А самое главное очень легко на MCP сделать память в виде ну... хоть SQL базы? А есть и более AI-friendly варианты. Но моделям это непривычно, их обучают, когда нет памяти, поэтому они плохо пользуются таким.
В Anthropic это пытались проверять и оказалось, что есть! Ведь есть не только токены, но и эмбеддинги. Инференс подгоняется соответственно, чтобы не потерять скрытую мысль и излагать нормально явную. Но это тяжело и неглубоко пока, и используется в основном, чтобы планировать немного вперёд.
Различие наблюдает? не может себя завершить? Что-то нет, не понимаю...
А почему такое только для b2b?
Мне тоже, пожалуйста.
>Когда модель понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.
В статье вот это не описывается, просто проверяется умение модели определить по диалогу, переданному в контекст (включая ответы), что происходило - тестирование или реальное использование.
Никаких доказательств, что модель может менять своё поведение исходя из этой оценки, нет. Это труднее проверить, конечно. Но пока данных таких нет, кроме каких-то пограничных натянутых случаев.
Хмм, а ребята 9 лет назад довольно точно угадали как сейчас происходит алаймент. Только вместо людей, другая модель.
Я долго искал непротиворечивые определение сознания, которому современные модели не соответствуют, и не особо нашёл. Расскажите, если знаете.
По-моему, главное отличие LLM от людей и других живых созданий в том, что сознание появляется с промптом и заканчивается на ответе. А ещё в истории могут быть ответы другой модели, а LLM приходится считать их за свои.
Спасибо, интересно.
Когда увидел слово мультиязычный - подумал речь про обычные человеческие языки, а вы про языки программирования оказывается.
Как вы отбирали модели для тестирования? Сразу расстроило отсутствие gemini 2.5-flash (или хотя бы 2.0). Неясно также по 2.5-pro - какая версия тестировалась? На неё постоянно приходят обновления.
Будет какой-нибудь сайт или что-то такое с наглядными результатами? Наделялся найти такое по ссылке "Мы представляем", но по факту просто ведёт на главную вашей компании.
Однако если выкачать логи общения из настроек, то можно получить что-то такое:
User
Created: 2025-04-01 19:39:
[Image]
Create image with modern late 2010s anime style like this photo
---
Assistant
Created: 2025-04-01 19:39 Model: gpt-4o:
{
"prompt": "Anime-style illustration of a young woman with long brown hair and light makeup, smiling and holding a large bottle of strong beer (label in Russian: ОХОТА Крепкое 8%). She is wearing a dark green jacket and standing in a park with tall trees and sunlight filtering through. Modern late 2010s anime style with detailed background and expressive eyes.",
"size": "1024x1024"
}
---
Tool
Created: 2025-04-01 19:40 Model: gpt-4o:
[Image]
То есть модель придумывает промпт, а потом вызывает tool для генерации. Может и саму себя (не понятно), но факт, что всё сложнее происходит и ваше описание напрямую в картинку не уходит. А тихо переписывается. Прямой промпт для генерации картинок можно увидеть, только если выкачать json из раздела настроек.
Кстати, а нынче кто-нибудь пишет статьи на хабре без рефералок и прочей (само)рекламы?
А почему вы решили не релизить то, что нагенерировали? И сами весы тоже.
А как для начала вообще сделать, что я из России не считал? Ему не важно ВПН не ВПН...
нормальные современный LLM не должны прям вообще сходить с ума в белиберду. но сильно проседать в качестве по мере общения в чате - обязательно.
контекст, вот оно главное причинное слово. рекомендуется не более 3-6 сообщений на чат. если есть большие сообщения - то, и того меньше. просить просуммировать важное и открывать новый. делать файлы чек-листы, если позволяет окружение.
ещё можно искать модели с большим контекстом - Gemini, Claude, GPT-4.1, но даже им хуже от длинных чатов, просто меньше.