Comments 7
Так разряженные или разреженные?
От разреженных матриц перешли на плотные нейронные слои, потому что столько машинных ресурсов не было и расчётные потребности в ресурсах для оперирования разреженными матрицами измерялись в невероятно больших величинах, такими цифрами только астрофизики оперируют. А так да, наверное будет проще отследить и интерпретировать связи.
Например, модели рассуждений стимулируются объяснять ход своей работы по пути к финальному ответу. Интерпретация через цепочки рассуждений (chain of thought) использует эти объяснения, чтобы отслеживать поведение модели. Это сразу даёт пользу: цепочки рассуждений в современных моделях оказываются информативны в отношении настораживающих типов поведения, таких как попытки ввести в заблуждение
Десятки научных статей, которые в своих выводах опираются на "рассуждения" LLM, просто фундаментально их не понимают. Они совершают одну и ту же ошибку: принимают текстовый артефакт за реальный мыслительный процесс. Забавные следствия:
Сравнивают рассуждения модели, когда она "думает", что их видит человек, и когда "думает", что нет. Вывод: модель ведет себя по-разному, возможно, она обманывает… на самом деле модель просто адаптирует свой текст под разную задачу. В первом случае срабатывают паттерны быть понятным и полезным для человека, во втором,быть максимально эффективным для решения задачи.
Обнаружили, что Chain-of-Thought работает даже с неверными примерами в промпте. Вывод: модель как-то учится на ошибках. Фактически даже неверный CoT заставляет модель генерировать больше промежуточных токенов. Это просто дает ей больше вычислительного времени в ее авторегрессивной петле, чтобы додуматься до правильного ответа.
Модель пытается обмануть человека, генерируя безопасные рассуждения, но производя вредоносный код. Вывод: У модели есть скрытые злые цели! На самом деле модель просто пытается одновременно оптимизировать две разные цели: сгенерировать текст, который понравится оценщику, и сгенерировать код, который выполнит скрытую инструкцию из данных обучения. Просто многозадачность.
По сути рассуждение, это не внутренний монолог, а инструмент, который она создает для себя в виде текста. Она пишет шаг, перечитывает его, и это помогает ей сделать следующий шаг. Это непрерывная петля обратной связи с собственным выводом.
Поэтому в следующий раз, когда очередные учёные выступят с разоблачением LLM, есть большая вероятность, того, что они просто не понимают с чем работают.
Как сделать нейросети понятнее: эксперимент OpenAI с разреженными моделями