Китайская LLaDa: как зашумленный текст превращается в осмысленный диалог – новая эра диффузионных языковых моделей / Комментарии / Хабр

Всё последующее моё мнение не подкреплённое исследованиями.

Насколько понимаю, это вынудит заранее задавать длину ответа модели. Что и плюс и минус, но точно ограничивает сферы применения.

Плюс потому что заказал ответ из 100 слов его и получил. Стихи скорее всего сможет очень хорошо писать. Дешифровкой заниматься при каких-то известных данных. Переводить текст с сохранением длины фрагмента для озвучки персонажей фильмов и игр.

А вот минусы как излишняя трата ресурсов даже на короткое сообщение в диалоге, так и проблемы если места не хватило. И, скорее всего, у таких моделей в одиночку просто не будет понимания, а следовательно и возможности сообщить, что нужно больше токенов для ответа.

Вероятно, будут использоваться 2 модели разных архитектур. Первая близкая к общепринятым сегодня будет анализировать промт и генерировать шум нужной длины, возможно с какими-то заранее проставленными токенами. А вторая уже "восстанавливать" текст, как написано в статье.

Комментарии 2

Dataist 19 фев в 10:21

Да, заранее заданная длина дает контроль над ответом, но может приводить к перерасходу ресурсов на вычисления и ограничивать гибкость диалога. В этой области есть новые исследования от китайцев, например, оказывается есть возможность управлять скрытым слоем, где можно заранее задать длину ответа (обзор исследования тут), и это не будет вести к перерасходу вычислений. А так идея разделения задачи на две модели выглядит интересной, хотя добавляет архитектурную сложность и потенциальные проблемы с координацией, но, конечно, тут нужна эмпирическая проверка.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий