Xeanst Oct 20 2022 at 13:00

Понимают ли нейронные модели грамматику человеческого языка?

11 min

2.7K

Unistar Digital | Юнистар Диджитал corporate blogPython*Machine learning*Artificial IntelligenceNatural Language Processing*

Comments 8

odins1970 Oct 20 2022 at 20:19

имеет ли значение усвоение синтаксиса языка если Прагматика стоит на месте?? как ML решает проблему прагматики ?

Xeanst Oct 21 2022 at 12:10

Прагматика изучает, какой вклад в смысл текста вносят контекст, знания о мире, языковые соглашения и прочие абстрактные свойства. Проще говоря, прагматика – это сочетание наших знаний лингвистики (морфологии, грамматики, синтаксиса) со знаниями об окружающем мире. Прагматика изучает, как «читать между строк», чтобы разрешить неоднозначность и понять, что человек имел в виду.

Легко догадаться, что включение обширных знаний о мире в системы обработки языка – задача нетривиальная, поэтому и обработка прагматики обычно сталкивается с трудностями. Но есть много инструментов, готовых прийти на помощь, в том числе проект OpenCyc, тезаурус WordNet и Всемирная книга фактов ЦРУ. Про тезаурус WordNet мы писали в нашей статье «Что такое тезаурус и как определить семантическое сходство слов».

Что касается решений на основе машинного обучения и нейронных сетей, языковая модель осваивает в основном семантические связи, которые могут переходить в условное понимание контекста. Например, такие задачи, как ответы на вопросы и суммаризация текста, сложно решить только благодаря знанию семантики. Нужно понимать, к чему относится конкретный вопрос или какова основная мысль в параграфе. Развитие этих задач продолжается, усложняется их постановка. Вышел новый датасет SQuAD2.0, в котором нужно не просто найти ответ на вопрос в определенной статье, но и понять, есть ли в ней ответ на определенный вопрос. Про современные методы суммаризации также можно почитать в наших предыдущих статьях: «Автоматическое реферирование текстов. Обзор работ» и «Автоматическое реферирование научных статей. Обзор работ».

odins1969 Oct 21 2022 at 13:28

Каким образом без агента - носителя модели вы вообще в принципе собираетесь различать внешние к нему языковые сигналы, которые генерируются контрагентами? Помоему без RL - это вообще не разрешимая задача.

Xeanst Oct 21 2022 at 13:53

При ответе на предыдущий комментарий я подразумевала понимание лингвистической прагматики как области семантики, которая изучает языковые элементы, ориентированные на речевое взаимодействие. Поэтому в качестве примеров привела базы знаний и словари, включающие знания о мире, а также решение семантических задач, которые не обходятся без знаний прагматики.

Об использовании обучения с подкреплением (reinforcement learning) и работах по компьютерной прагматике в рамках теории рациональных речевых актов (Rational Speech Act framework) мне ранее не было известно. Действительно, это направление активно развивается, получилось найти несколько работ 2020 года: «Reinforcement of Semantic Representations in Pragmatic Agents Leads to the Emergence of a Mutual Exclusivity Bias», «Incorporating Pragmatic Reasoning Communication into Emergent Language».

Большое вам спасибо за наводку, будет интересно почитать об этом направлении исследований!

garwall Oct 20 2022 at 23:19

как отреагируют на "Косил косой косой косой" и "Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo"?

Xeanst Oct 21 2022 at 12:51

Вопрос, конечно, с подвохом :) Предложения, о которых вы говорите, вызывают эффект семантического пресыщения – повторение слова или фразы вызывает временную потерю своего значения у слушателя, и он начинает воспринимать речь как повторяющиеся бессмысленные звуки. Знание грамматики у языковых моделей, которое мы проверяем в нашем исследовании, совсем не означает, что модели обладают или не обладают данным эффектом.

Но проверить все равно интересно. Поскольку мы обучили модель для автоматической оценки грамматичности русских предложений, провели эксперимент только для примера «Косил косой косой косой». Результаты оказались таковы, что модель ruBERT оценила предложение как неграмматичное, остальные модели – как грамматичное. Чтобы провести эксперимент для английского примера «Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo», можете обучить модель на корпусе The Corpus of Linguistic Acceptability (CoLA) и протестировать, как она оценит приемлемость предложения.

Интересно, что Яндекс.Переводчик, например, на справляется с переводом английского примера на русский и русского примера на английский. Значит, языковым моделям еще есть куда расти!

napa3um Oct 21 2022 at 08:02

Из этого можно сделать вывод, что человеческая грамматика наиболее близка к трансформерной архитектуре нейросети, и согласование между частями предложения и частями слова выразимы в ней с минимальными издержками (минимальной длиной кодирования состояния).

Xeanst Oct 21 2022 at 12:56

Действительно, трансформеры не требуют обработки последовательностей по порядку, то есть нет необходимости обрабатывать конец текста после обработки его начала. Все благодаря механизму внимания — он фокусируется на отдаленных, но важных словах, и отдает их напрямую в обработку. В результате нейросеть способна лучше усваивать дистантные синтаксические зависимости.