Обновить

Комментарии 6

Статья интересная, сам думаю развернуть модель у себя. Как именно происходит расцензуривание модели, и адекватно ли будет работать нейросеть после расцензуривания, но без дообучения на соответствующих данных? Спасибо

Дополнил статью кратким объяснением. Конечно fine tuning будет давать лучшие результаты, если в обучающих датасетах LLM эти данные почти не были представлены. Но этот процесс в разы дороже по ресурсам, чем просто постредактирование весов модели. Судя по форумам, JoyCaption дообучали на 24млн наборе данных 65 часов на NVIDIA H100 где пиковое потребление VRAM было 100Гб. Но архитектура этой нейросети отстает от современных мультмодальных LLM.

Попрошу автора ответить на мой вопрос самостоятельно, а не прогонять через нейросеть

Я вам и ответил сам что знаю на ваш вопрос. Интересуют подробности по истории дообучения модели из статьи?

Прошу прощения, ошибся. Было подозрение на то что мой комментарий просто прогнали через нейронку из за типичного для неё ответа со словами "Дополнил статью кратким объяснением" "Судя по форумам". Я хочу получить ответ на основной вопрос, как именно модель расцензуривают.

Третьий абзац в этой публикации! Думаю copy-paste избыточен…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации