Pull to refresh
56
0
Anton Razzhigaev @Razant

Автор телеграм канала https://t.me/abstractDL

Send message

Как минимум это зависит от количества параметров. Видим, что совсем крошечные модели остаются нелинейными.

Вроде это не баг а фича, т.к. мы хотели показать как именно она распозналась

Добрый день! Взрывы лосса — резкие скачки (спайки) значения лосса во время обучения. Про одну из попыток объяснить это явление для LLM у меня есть довольно понятная и интересная статья (тык). Сейчас приходится перезапускать обучение с другой последовательностью батчей, чтобы модель не разошлась.


Кстати, на задачах линейного пробинга действительно видно, что средние слои декодеров дают лучшую точность классификации. То есть если модель заморожена и можно обучать только логистическую регрессию поверх эмбеддингов, то лучше брать эмбеддинги из середины.

Вот такой у нас получился график для классификации CIFAR в другой статье про imageGPT.

Да, были работы про "линейный пробинг" эмбеддингов, удалось выявить направления, связанные с координатами и временем (Language Models Represent Space and Time). Работает не идеально, но работает)

Вы говорите про явление Grokking. Да, похоже, что это явление и компрессия репрезентаций очень плотно связаны. Схожая интуиция была в статье про OmniGrok. Было бы очень интересно посмотреть что происходит с внутренней размерностью при переходе от оверфита к генерализации, предположу что там будет "ступенька" на графике внутренней размерности.

Спасибо! Такие атаки действительно довольно сложно победить, но можно двигаться с нескольких сторон: использование дополнительных моделей детекторов, дообучение на сложных примерах и alignment, предотвращающий потенциально опасные ответы модели.

Добрый день! Попробуйте запустить этот colab, тут автоматически происходит загрузка весов из HuggingFace.

Information

Rating
Does not participate
Registered
Activity