Добрый день! Взрывы лосса — резкие скачки (спайки) значения лосса во время обучения. Про одну из попыток объяснить это явление для LLM у меня есть довольно понятная и интересная статья (тык). Сейчас приходится перезапускать обучение с другой последовательностью батчей, чтобы модель не разошлась.
Кстати, на задачах линейного пробинга действительно видно, что средние слои декодеров дают лучшую точность классификации. То есть если модель заморожена и можно обучать только логистическую регрессию поверх эмбеддингов, то лучше брать эмбеддинги из середины.
Вот такой у нас получился график для классификации CIFAR в другой статье про imageGPT.
Да, были работы про "линейный пробинг" эмбеддингов, удалось выявить направления, связанные с координатами и временем (Language Models Represent Space and Time). Работает не идеально, но работает)
Вы говорите про явление Grokking. Да, похоже, что это явление и компрессия репрезентаций очень плотно связаны. Схожая интуиция была в статье про OmniGrok. Было бы очень интересно посмотреть что происходит с внутренней размерностью при переходе от оверфита к генерализации, предположу что там будет "ступенька" на графике внутренней размерности.
Спасибо! Такие атаки действительно довольно сложно победить, но можно двигаться с нескольких сторон: использование дополнительных моделей детекторов, дообучение на сложных примерах и alignment, предотвращающий потенциально опасные ответы модели.
Как минимум это зависит от количества параметров. Видим, что совсем крошечные модели остаются нелинейными.
Вроде это не баг а фича, т.к. мы хотели показать как именно она распозналась
Добрый день! Взрывы лосса — резкие скачки (спайки) значения лосса во время обучения. Про одну из попыток объяснить это явление для LLM у меня есть довольно понятная и интересная статья (тык). Сейчас приходится перезапускать обучение с другой последовательностью батчей, чтобы модель не разошлась.
Кстати, на задачах линейного пробинга действительно видно, что средние слои декодеров дают лучшую точность классификации. То есть если модель заморожена и можно обучать только логистическую регрессию поверх эмбеддингов, то лучше брать эмбеддинги из середины.
Вот такой у нас получился график для классификации CIFAR в другой статье про imageGPT.
Да, были работы про "линейный пробинг" эмбеддингов, удалось выявить направления, связанные с координатами и временем (Language Models Represent Space and Time). Работает не идеально, но работает)
Вы говорите про явление Grokking. Да, похоже, что это явление и компрессия репрезентаций очень плотно связаны. Схожая интуиция была в статье про OmniGrok. Было бы очень интересно посмотреть что происходит с внутренней размерностью при переходе от оверфита к генерализации, предположу что там будет "ступенька" на графике внутренней размерности.
Спасибо! Такие атаки действительно довольно сложно победить, но можно двигаться с нескольких сторон: использование дополнительных моделей детекторов, дообучение на сложных примерах и alignment, предотвращающий потенциально опасные ответы модели.
Добрый день! Попробуйте запустить этот colab, тут автоматически происходит загрузка весов из HuggingFace.