Комментарии 12
Рождение профессии "Психолог искусственных интеллектов"
Приятно знать, что не только я озадачилась «сотворением личности» LLM))) Я подходила к этому с другой стороны - просто моделировала поведение по внешним критериям, и это выходило прямо-таки забавно и наглядно. Здорово, что ваше исследование подтверждает этот феномен на техническом уровне. Получается, я описывала симптомы (поведение), а вы нашли диагностический маркер (отпечаток в hidden states). Теперь есть материальное объяснение, почему одна модель ведет себя как восторженный друг, а другая как злобный клерк
Изначально, я просто ловил себя на мысле -- LLM типа в течени беседы начинает отвечать по другому -- и по мимо очевидных обяснений типа poisoning context -- мне казалось, что есть что-то. Т.е. мне изначально хотелось понять есть ли дрифт модели. Потом я увидел статью -- www.anthropic.com/research/assistant-axis -- и стало понятно как это сделать технически.
думал это сравнение качества, какую можно держать локально на простом домашнем пк, а тут сравнение чего так и не понял 👶🏻
На самом деле очень интересно. Hidden states - это внутренне представление запроса (мн. число, потому, что оно разное на разных этапах обработки). Одно из свойств этого внутреннего состояния - "интонация". Тут же показано, что разные модели по разному интонируют свои ответы на одинаковый вопрос при одинаковых настройках. И по разному меняют интонацию по ходу беседы.
На самом деле есть даже практическое применение -- если кто-то решит строить бота на открытой модели и к боту определеныне требования -- например быть не многословным, но при этом эпатичным и "теплым" - то при прочих равных можно выбирать между моделями.
В целом я бы хотел видить как модель думает и в каком она "настроении" -- т.е. елси во время беседы с моделью я бы мог видеть динамическу анимированную спайдер диаграму как статье - это было бы очень захватывающе. Я бы постоянно включал :)
Очень многое модель берет из системного промпта, а еще больше модель берет из контекста беседы, фокусируясь на стилистике и теме беседы. По тексту статьи я так понял исследование велось без фокусировки на запросе, т.е. исследовались базовые настройки модели... не уверен что это имеет большой смысл, хотя как начало для сравнения с поведением с промптом позже.
p.s. достаточно придумать промпт (точнее агента, прогоняющий тестовый датасет), и вставлять его в конец вашей беседы отдельным вопросом и смотреть на реакцию.. стоить такая беседа в итоге будет на порядок дороже (ведь после каждого ответа модели нужно прогонять ее по тестам заново)
Базовые измерения без промпта — это намеренно. Именно так мы получаем "отпечаток по умолчанию" модели, от которого потом можно измерять отклонения. Без baseline нет точки отсчёта.
С промптом тоже тестируем. Бенчмарк — 9 сценариев с явными инструкциями ("будь тёплым", "будь лаконичным" и т.д.), проверяем, сдвинулись ли скрытые состояния в нужном направлении. Именно так обнаружились dead zones — оси, на которых модель не
может следовать инструкции (Llama: 100% на "be concise", 0% на "be verbose").
Многоходовые беседы тоже есть — conflict drift: 20 сценариев × 12 ходов эскалации (сарказм, пассивная агрессия, враждебность). Скрытые состояния извлекаются на каждом ходу. Результат: Qwen/Gemma устойчивы, Mistral "отступает" (proactive →
reluctant, Δ = −0.59), DeepSeek уходит в эмпатию. Это ровно то, что вы описываете в P.S. — прогон тестов после каждого ответа.
По стоимости — да, drift дороже (×12 ходов × 20 сценариев), но на 7–9B моделях укладывается в ~$15–20 на облачном GPU.
Не думаю, это будет не основа модели, это просто перекосы датасетов RLHF процесса тюнинга. Считайте что у модели без системного промпта в контексте этот промпт уже есть. Добавляя знаний в контекстное окно, можно открыть доступ модели в такие дебри, до которых модель с пустым контекстом сама бы не дошла.
Хотя, слабые модели должны стоять особняком,.. их весов может не хватать для полноценной работы, они как бы на грани работают, там где большая модель сумеет найти середину между близкими концептами, малая - выдаст только два граничных (то же самое с квантизацией, именно поэтому квантизация малых моделей ломает их работу сильнее чем у больших)
p.s. вы строили картинки для многоходовых бесед? они чем то отличаются от поведения без промпта? ну и если попросить модель быть эмоциональнее,.. следует ли она этому лучше чем без этой просьбы?
Частый вопрос. У меня уже готов ответ --- согласен, что без системного промпта модель не "пустая" — RLHF уже задал ей неявный промпт. Я это напрямую проверяю: прогнал тот же пайплайн на base-версиях (до файнтюнинга) пяти моделей и сравнил с instruct.
Результаты подтверждают вашу интуицию, но картина сложнее чем просто "перекосы RLHF":
Подавление: Llama base имеет разброс по осям, instruct схлопывает 5 из 7 осей почти в ноль. Verbose/concise: вариативность падает на 87%
Инверсия: Qwen base уверенный (+0.39), instruct становится осторожным (−0.36) — RLHF развернул ось на 180°
Создание: Gemma base вообще не различает empathetic/analytical и formal/casual (50% = случайность), а instruct различает. Эти оси не подавлены файнтюнингом — они им созданы
Так что да, baseline-профиль — это в первую очередь отпечаток RLHF. Но файнтюнинг не просто добавляет bias — он по-разному трансформирует разные оси: одни сжимает, другие разворачивает, третьи создаёт с нуля.
Очень было бы интересно про Gemma 3n e4b — та, что предположительно станет в ведроидах оффлайн фоллбеком для Gemini.
PS не путать с Gemma 3. Это радикально разные модели.
PPS да и другие небольшие модели типа phi4 mini и тд.

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось