Исследователи из Мэрилендского университета разработали новый подход, который позволяет большим языковым моделям переписывать текст в определённом стиле, сохраняя при этом основной смысл. Их подход основан на «анализе регистров» — устоявшейся лингвистической концепции для анализа стилей письма — и, по-видимому, превосходит существующие методы, основанные на подсказках.

Системы искусственного интеллекта уже сейчас часто выполняют стилистическую трансформацию — преобразуют текст из одного стиля в другой, сохраняя основное содержание. Обычные задачи включают преобразование неформальных сообщений в официальные деловые письма или наоборот.
Современные методы переноса стиля, как правило, основаны на базовых инструкциях, таких как «сделайте это более вежливым», или на использовании ИИ для извлечения ключевых слов стиля, таких как «неформальный» или «серьёзный», из примеров текстов. По мнению исследователей, такие подходы часто приводят к тому, что языковые модели, такие как GPT или LLaMA, придумывают контент или полностью перестраивают тексты, создавая проблемы для конфиденциальных документов, таких как юридические или медицинские материалы.
В одном из своих исследований учёные столкнулись с ситуацией, когда их предыдущая система STYLL внесла изменения в текст, не предусмотренные автором. В частности, при переписывании информации о футболисте Верратти были добавлены фразы «легенда» и «хлеб и масло команды», которых не было в исходном тексте.
В новом подходе используется система анализа регистров Дугласа Бибера, которая оценивает конкретные лингвистические особенности, такие как частота употребления существительных, использование вспомогательных глаголов и уровень языковой абстракции. Команда разработала две стратегии подсказок: «RG», которая анализирует особенности стиля для генерации прилагательных-подсказок, и «RG-контрастная», которая напрямую сравнивает стили исходного и целевого текстов.
Оба метода состоят из трёх этапов: анализ стиля, преобразование его в понятные описательные термины и соответствующая переписка текста. Этот метод не требует дополнительных обучающих данных.
Например, при выборе «неформального, разговорного» стиля система преобразует «Верратти практически неприкосновенен. ПСЖ не продаст его даже за 100 миллионов евро» в «Чувак, Верратти практически не продашь. ПСЖ даже глазом не моргнёт, если предложат сто миллионов».
По словам исследователей, тесты с моделями LLaMA показали, что их метод превосходит более ранние подходы. В частности, он особенно хорошо имитирует стиль написания в Reddit и переключается между формальным и неформальным языком. Версия RG-Contrastive оказалась особенно эффективной при упрощении медицинских текстов с сохранением точности.
Метод подсказок эффективно работает с небольшими языковыми моделями, содержащими от 3 до 8 миллиардов параметров. Это делает его подходящим для приложений с ограниченными ресурсами. Тесты показали более низкий уровень копирования из примеров текстов по сравнению с базовыми методами подсказок. Этот подход также обеспечивает высокое качество грамматики, согласно модели приемлемости языка CoLA.
Примечательно, что исследователи обнаружили, что их подход генерирует в основном функциональные стилистические описания, такие как «технический» или «отшлифованный». В отличие от них, более ранняя система STYLL отдавала предпочтение более субъективным терминам, таким как «саркастичный» или «упрямый», которые с большей вероятностью искажали первоначальный смысл.