YoungSkipper10 фев в 10:00

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

Средний

7 мин

9.6K

Машинное обучение * Искусственный интеллектИсследования и прогнозы в IT * Научно-популярное

Обзор

Комментарии 12

ZanZy 10 фев в 10:17

Рождение профессии "Психолог искусственных интеллектов"

V_5 10 фев в 11:51

Приятно знать, что не только я озадачилась «сотворением личности» LLM))) Я подходила к этому с другой стороны - просто моделировала поведение по внешним критериям, и это выходило прямо-таки забавно и наглядно. Здорово, что ваше исследование подтверждает этот феномен на техническом уровне. Получается, я описывала симптомы (поведение), а вы нашли диагностический маркер (отпечаток в hidden states). Теперь есть материальное объяснение, почему одна модель ведет себя как восторженный друг, а другая как злобный клерк

YoungSkipper 10 фев в 12:08

Изначально, я просто ловил себя на мысле -- LLM типа в течени беседы начинает отвечать по другому -- и по мимо очевидных обяснений типа poisoning context -- мне казалось, что есть что-то. Т.е. мне изначально хотелось понять есть ли дрифт модели. Потом я увидел статью -- www.anthropic.com/research/assistant-axis -- и стало понятно как это сделать технически.

StarJohn 11 фев в 10:33

Я это тоже давно заметил. Интересно, как ролеплейщики с этим справляются?

kujoro 10 фев в 20:00

думал это сравнение качества, какую можно держать локально на простом домашнем пк, а тут сравнение чего так и не понял 👶🏻

WhiteBehemoth 10 фев в 21:37

На самом деле очень интересно. Hidden states - это внутренне представление запроса (мн. число, потому, что оно разное на разных этапах обработки). Одно из свойств этого внутреннего состояния - "интонация". Тут же показано, что разные модели по разному интонируют свои ответы на одинаковый вопрос при одинаковых настройках. И по разному меняют интонацию по ходу беседы.

YoungSkipper 10 фев в 21:49

На самом деле есть даже практическое применение -- если кто-то решит строить бота на открытой модели и к боту определеныне требования -- например быть не многословным, но при этом эпатичным и "теплым" - то при прочих равных можно выбирать между моделями.

В целом я бы хотел видить как модель думает и в каком она "настроении" -- т.е. елси во время беседы с моделью я бы мог видеть динамическу анимированную спайдер диаграму как статье - это было бы очень захватывающе. Я бы постоянно включал :)

rPman 11 фев в 16:24

Очень многое модель берет из системного промпта, а еще больше модель берет из контекста беседы, фокусируясь на стилистике и теме беседы. По тексту статьи я так понял исследование велось без фокусировки на запросе, т.е. исследовались базовые настройки модели... не уверен что это имеет большой смысл, хотя как начало для сравнения с поведением с промптом позже.

p.s. достаточно придумать промпт (точнее агента, прогоняющий тестовый датасет), и вставлять его в конец вашей беседы отдельным вопросом и смотреть на реакцию.. стоить такая беседа в итоге будет на порядок дороже (ведь после каждого ответа модели нужно прогонять ее по тестам заново)

YoungSkipper 11 фев в 16:40

Базовые измерения без промпта — это намеренно. Именно так мы получаем "отпечаток по умолчанию" модели, от которого потом можно измерять отклонения. Без baseline нет точки отсчёта.

С промптом тоже тестируем. Бенчмарк — 9 сценариев с явными инструкциями ("будь тёплым", "будь лаконичным" и т.д.), проверяем, сдвинулись ли скрытые состояния в нужном направлении. Именно так обнаружились dead zones — оси, на которых модель не
может следовать инструкции (Llama: 100% на "be concise", 0% на "be verbose").

Многоходовые беседы тоже есть — conflict drift: 20 сценариев × 12 ходов эскалации (сарказм, пассивная агрессия, враждебность). Скрытые состояния извлекаются на каждом ходу. Результат: Qwen/Gemma устойчивы, Mistral "отступает" (proactive →
reluctant, Δ = −0.59), DeepSeek уходит в эмпатию. Это ровно то, что вы описываете в P.S. — прогон тестов после каждого ответа.

По стоимости — да, drift дороже (×12 ходов × 20 сценариев), но на 7–9B моделях укладывается в ~$15–20 на облачном GPU.

rPman 11 фев в 16:44

Не думаю, это будет не основа модели, это просто перекосы датасетов RLHF процесса тюнинга. Считайте что у модели без системного промпта в контексте этот промпт уже есть. Добавляя знаний в контекстное окно, можно открыть доступ модели в такие дебри, до которых модель с пустым контекстом сама бы не дошла.

Хотя, слабые модели должны стоять особняком,.. их весов может не хватать для полноценной работы, они как бы на грани работают, там где большая модель сумеет найти середину между близкими концептами, малая - выдаст только два граничных (то же самое с квантизацией, именно поэтому квантизация малых моделей ломает их работу сильнее чем у больших)

p.s. вы строили картинки для многоходовых бесед? они чем то отличаются от поведения без промпта? ну и если попросить модель быть эмоциональнее,.. следует ли она этому лучше чем без этой просьбы?

YoungSkipper 11 фев в 16:47

Частый вопрос. У меня уже готов ответ --- согласен, что без системного промпта модель не "пустая" — RLHF уже задал ей неявный промпт. Я это напрямую проверяю: прогнал тот же пайплайн на base-версиях (до файнтюнинга) пяти моделей и сравнил с instruct.

Результаты подтверждают вашу интуицию, но картина сложнее чем просто "перекосы RLHF":

Подавление: Llama base имеет разброс по осям, instruct схлопывает 5 из 7 осей почти в ноль. Verbose/concise: вариативность падает на 87%
Инверсия: Qwen base уверенный (+0.39), instruct становится осторожным (−0.36) — RLHF развернул ось на 180°
Создание: Gemma base вообще не различает empathetic/analytical и formal/casual (50% = случайность), а instruct различает. Эти оси не подавлены файнтюнингом — они им созданы

Так что да, baseline-профиль — это в первую очередь отпечаток RLHF. Но файнтюнинг не просто добавляет bias — он по-разному трансформирует разные оси: одни сжимает, другие разворачивает, третьи создаёт с нуля.

kondratenko 13 фев в 05:40

Очень было бы интересно про Gemma 3n e4b — та, что предположительно станет в ведроидах оффлайн фоллбеком для Gemini.

PS не путать с Gemma 3. Это радикально разные модели.

PPS да и другие небольшие модели типа phi4 mini и тд.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий