Сразу хочу подчеркнуть, что все статьи в нашем блоге являются полностью оригинальными и написаны сотрудниками компании Unistar Digital. Если в будущем мы будем брать за основу существующие английские статьи, то обязательно поставим метку «Перевод» и укажем источник, как делают все авторы на Хабре.
Вопрос о выборе материала – русский или английский – является действительно интересным и важным. Дело в том, что для русского языка существует аналогичный ресурс – тезаурус RuWordNet, но мы сознательно описали в статье именно тезаурус WordNet для английского языка. На это есть две причины.
Во-первых, тезаурус WordNet выложен в открытый доступ и может быть свободно использован, тогда как тезаурус RuWordNet доступен только для некоммерческого использования, для получения xml-файлов с данными тезауруса нужно писать на почту ответственным лицам.
Во-вторых, для подсчета семантического сходства по тезаурусу WordNet существует готовый пакет WordNet библиотеки NLTK, о котором мы писали в статье. Достаточно импортировать его, и далее с помощью уже готовых функций пользоваться тезаурусом. Для тезауруса RuWordNet, к сожалению, не существует готовых модулей, которыми мы могли бы поделиться с читателями. Если вас заинтересовала данная тема, можете почитать об использовании тезауруса РуТез для задачи определения парафраз в статье «RuThes Thesaurus in Detecting Russian Paraphrases». Тезаурус RuWordNet является более новой версией тезауруса РуТез, только отношения в нем больше похожи на WordNet. Для него можно посчитать все меры, написав питоновские программки.
Таким образом, в данной статье мы хотели показать, как можно использовать уже готовый инструмент для определения семантической близости слов, который доступен для коммерческого использования. Поэтому выбрали тезаурус для английского языка. Мы подумаем о том, чтобы в следующих статьях разработать и описать инструмент для работы с тезаурусом русского языка, однако возможность его коммерческого использования все же остается под вопросом.
При ответе на предыдущий комментарий я подразумевала понимание лингвистической прагматики как области семантики, которая изучает языковые элементы, ориентированные на речевое взаимодействие. Поэтому в качестве примеров привела базы знаний и словари, включающие знания о мире, а также решение семантических задач, которые не обходятся без знаний прагматики.
Действительно, трансформеры не требуют обработки последовательностей по порядку, то есть нет необходимости обрабатывать конец текста после обработки его начала. Все благодаря механизму внимания — он фокусируется на отдаленных, но важных словах, и отдает их напрямую в обработку. В результате нейросеть способна лучше усваивать дистантные синтаксические зависимости.
Вопрос, конечно, с подвохом :) Предложения, о которых вы говорите, вызывают эффект семантического пресыщения – повторение слова или фразы вызывает временную потерю своего значения у слушателя, и он начинает воспринимать речь как повторяющиеся бессмысленные звуки. Знание грамматики у языковых моделей, которое мы проверяем в нашем исследовании, совсем не означает, что модели обладают или не обладают данным эффектом.
Но проверить все равно интересно. Поскольку мы обучили модель для автоматической оценки грамматичности русских предложений, провели эксперимент только для примера «Косил косой косой косой». Результаты оказались таковы, что модель ruBERT оценила предложение как неграмматичное, остальные модели – как грамматичное. Чтобы провести эксперимент для английского примера «Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo», можете обучить модель на корпусе The Corpus of Linguistic Acceptability (CoLA) и протестировать, как она оценит приемлемость предложения.
Прагматика изучает, какой вклад в смысл текста вносят контекст, знания о мире, языковые соглашения и прочие абстрактные свойства. Проще говоря, прагматика – это сочетание наших знаний лингвистики (морфологии, грамматики, синтаксиса) со знаниями об окружающем мире. Прагматика изучает, как «читать между строк», чтобы разрешить неоднозначность и понять, что человек имел в виду.
Что касается решений на основе машинного обучения и нейронных сетей, языковая модель осваивает в основном семантические связи, которые могут переходить в условное понимание контекста. Например, такие задачи, как ответы на вопросы и суммаризация текста, сложно решить только благодаря знанию семантики. Нужно понимать, к чему относится конкретный вопрос или какова основная мысль в параграфе. Развитие этих задач продолжается, усложняется их постановка. Вышел новый датасет SQuAD2.0, в котором нужно не просто найти ответ на вопрос в определенной статье, но и понять, есть ли в ней ответ на определенный вопрос. Про современные методы суммаризации также можно почитать в наших предыдущих статьях: «Автоматическое реферирование текстов. Обзор работ» и «Автоматическое реферирование научных статей. Обзор работ».
Очень интересное сравнение! Кажется, FrameNet как лексическая база содержит даже чуть больше лингвистической информации про сочетаемость и употребление слов в предложении, зато WordNet как тезаурус включает больше информации о семантических отношениях между словами.
Спасибо за ссылку, будет полезно почитать про использование FrameNet в задачах обработки текстов.
Спасибо, это очень приятно и ценно, что статья оказалась полезной!
В соответствии с рейтингом на Kaggle, оба описанных подхода достигли результата 99%: нейросетевой подход занял 2-е место, подход на правилах -- 3-е место.
Надеюсь, следующие статьи нашего блога окажутся для вас не менее интересными :)
Спасибо за интерес к статье и внимательное прочтение!
В соответствии с ГОСТ Р 7.0.97-2016 (п. 5.10), формат "ЧЧ.ММ.ГГГГ" является одним из возможных форматов записи даты. При этом в речи рекомендуется расшифровывать соответствующую последовательность цифр по определенным правилам, которые мы описали в статье.
Чтобы в ходе нормализации получить грамотный текст для дальнейшего синтеза, следует придерживаться этих правил, а именно заменить стандартную цифровую запись месяца его названием. Соглашусь с вами, что добавлять слово "год" необязательно, но все же не будет лишним.
Мы не навязываем данную точку зрения, а только предлагаем читателю ознакомиться с ней, при изложении опираясь на надежные источники (см. "Синтез речи: учебное пособие", С. В. Рыбин, 2014, страница 31).
Спасибо за интересную статью! Создание корпуса лингвистической приемлемости для русского языка -- очень полезная и важная задача, здорово, что теперь она решена.
В статье вы говорите о том, что "оценка приемлемости непросто даётся и людям, однако нейросетевым моделям ещё есть к чему стремиться", этим объясняя не очень высокий результат для человеческой оценки. Но причина может быть в другом: некоторые предложения датасета не являются однозначно приемлемыми или однозначно неприемлемыми, между носителями может присутствовать вариативность относительно их оценки.
Как вам кажется, стоит ли включать такие вариативные предложения в датасет, или же лучше оставить только те, в отношении которых носители будут единогласны?
Большое спасибо за статью и материалы курса! Подскажите, пожалуйста, можно ли где-то посмотреть видеозаписи лекций и семинаров?
Сразу хочу подчеркнуть, что все статьи в нашем блоге являются полностью оригинальными и написаны сотрудниками компании Unistar Digital. Если в будущем мы будем брать за основу существующие английские статьи, то обязательно поставим метку «Перевод» и укажем источник, как делают все авторы на Хабре.
Вопрос о выборе материала – русский или английский – является действительно интересным и важным. Дело в том, что для русского языка существует аналогичный ресурс – тезаурус RuWordNet, но мы сознательно описали в статье именно тезаурус WordNet для английского языка. На это есть две причины.
Во-первых, тезаурус WordNet выложен в открытый доступ и может быть свободно использован, тогда как тезаурус RuWordNet доступен только для некоммерческого использования, для получения xml-файлов с данными тезауруса нужно писать на почту ответственным лицам.
Во-вторых, для подсчета семантического сходства по тезаурусу WordNet существует готовый пакет WordNet библиотеки NLTK, о котором мы писали в статье. Достаточно импортировать его, и далее с помощью уже готовых функций пользоваться тезаурусом. Для тезауруса RuWordNet, к сожалению, не существует готовых модулей, которыми мы могли бы поделиться с читателями. Если вас заинтересовала данная тема, можете почитать об использовании тезауруса РуТез для задачи определения парафраз в статье «RuThes Thesaurus in Detecting Russian Paraphrases». Тезаурус RuWordNet является более новой версией тезауруса РуТез, только отношения в нем больше похожи на WordNet. Для него можно посчитать все меры, написав питоновские программки.
Таким образом, в данной статье мы хотели показать, как можно использовать уже готовый инструмент для определения семантической близости слов, который доступен для коммерческого использования. Поэтому выбрали тезаурус для английского языка. Мы подумаем о том, чтобы в следующих статьях разработать и описать инструмент для работы с тезаурусом русского языка, однако возможность его коммерческого использования все же остается под вопросом.
При ответе на предыдущий комментарий я подразумевала понимание лингвистической прагматики как области семантики, которая изучает языковые элементы, ориентированные на речевое взаимодействие. Поэтому в качестве примеров привела базы знаний и словари, включающие знания о мире, а также решение семантических задач, которые не обходятся без знаний прагматики.
Об использовании обучения с подкреплением (reinforcement learning) и работах по компьютерной прагматике в рамках теории рациональных речевых актов (Rational Speech Act framework) мне ранее не было известно. Действительно, это направление активно развивается, получилось найти несколько работ 2020 года: «Reinforcement of Semantic Representations in Pragmatic Agents Leads to the Emergence of a Mutual Exclusivity Bias», «Incorporating Pragmatic Reasoning Communication into Emergent Language».
Большое вам спасибо за наводку, будет интересно почитать об этом направлении исследований!
Действительно, трансформеры не требуют обработки последовательностей по порядку, то есть нет необходимости обрабатывать конец текста после обработки его начала. Все благодаря механизму внимания — он фокусируется на отдаленных, но важных словах, и отдает их напрямую в обработку. В результате нейросеть способна лучше усваивать дистантные синтаксические зависимости.
Вопрос, конечно, с подвохом :) Предложения, о которых вы говорите, вызывают эффект семантического пресыщения – повторение слова или фразы вызывает временную потерю своего значения у слушателя, и он начинает воспринимать речь как повторяющиеся бессмысленные звуки. Знание грамматики у языковых моделей, которое мы проверяем в нашем исследовании, совсем не означает, что модели обладают или не обладают данным эффектом.
Но проверить все равно интересно. Поскольку мы обучили модель для автоматической оценки грамматичности русских предложений, провели эксперимент только для примера «Косил косой косой косой». Результаты оказались таковы, что модель ruBERT оценила предложение как неграмматичное, остальные модели – как грамматичное. Чтобы провести эксперимент для английского примера «Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo», можете обучить модель на корпусе The Corpus of Linguistic Acceptability (CoLA) и протестировать, как она оценит приемлемость предложения.
Интересно, что Яндекс.Переводчик, например, на справляется с переводом английского примера на русский и русского примера на английский. Значит, языковым моделям еще есть куда расти!
Прагматика изучает, какой вклад в смысл текста вносят контекст, знания о мире, языковые соглашения и прочие абстрактные свойства. Проще говоря, прагматика – это сочетание наших знаний лингвистики (морфологии, грамматики, синтаксиса) со знаниями об окружающем мире. Прагматика изучает, как «читать между строк», чтобы разрешить неоднозначность и понять, что человек имел в виду.
Легко догадаться, что включение обширных знаний о мире в системы обработки языка – задача нетривиальная, поэтому и обработка прагматики обычно сталкивается с трудностями. Но есть много инструментов, готовых прийти на помощь, в том числе проект OpenCyc, тезаурус WordNet и Всемирная книга фактов ЦРУ. Про тезаурус WordNet мы писали в нашей статье «Что такое тезаурус и как определить семантическое сходство слов».
Что касается решений на основе машинного обучения и нейронных сетей, языковая модель осваивает в основном семантические связи, которые могут переходить в условное понимание контекста. Например, такие задачи, как ответы на вопросы и суммаризация текста, сложно решить только благодаря знанию семантики. Нужно понимать, к чему относится конкретный вопрос или какова основная мысль в параграфе. Развитие этих задач продолжается, усложняется их постановка. Вышел новый датасет SQuAD2.0, в котором нужно не просто найти ответ на вопрос в определенной статье, но и понять, есть ли в ней ответ на определенный вопрос. Про современные методы суммаризации также можно почитать в наших предыдущих статьях: «Автоматическое реферирование текстов. Обзор работ» и «Автоматическое реферирование научных статей. Обзор работ».
Очень интересное сравнение! Кажется, FrameNet как лексическая база содержит даже чуть больше лингвистической информации про сочетаемость и употребление слов в предложении, зато WordNet как тезаурус включает больше информации о семантических отношениях между словами.
Спасибо за ссылку, будет полезно почитать про использование FrameNet в задачах обработки текстов.
Спасибо, это очень приятно и ценно, что статья оказалась полезной!
В соответствии с рейтингом на Kaggle, оба описанных подхода достигли результата 99%: нейросетевой подход занял 2-е место, подход на правилах -- 3-е место.
Надеюсь, следующие статьи нашего блога окажутся для вас не менее интересными :)
Спасибо за интерес к статье и внимательное прочтение!
В соответствии с ГОСТ Р 7.0.97-2016 (п. 5.10), формат "ЧЧ.ММ.ГГГГ" является одним из возможных форматов записи даты. При этом в речи рекомендуется расшифровывать соответствующую последовательность цифр по определенным правилам, которые мы описали в статье.
Чтобы в ходе нормализации получить грамотный текст для дальнейшего синтеза, следует придерживаться этих правил, а именно заменить стандартную цифровую запись месяца его названием. Соглашусь с вами, что добавлять слово "год" необязательно, но все же не будет лишним.
Мы не навязываем данную точку зрения, а только предлагаем читателю ознакомиться с ней, при изложении опираясь на надежные источники (см. "Синтез речи: учебное пособие", С. В. Рыбин, 2014, страница 31).
Спасибо за интересную статью! Создание корпуса лингвистической приемлемости для русского языка -- очень полезная и важная задача, здорово, что теперь она решена.
В статье вы говорите о том, что "оценка приемлемости непросто даётся и людям, однако нейросетевым моделям ещё есть к чему стремиться", этим объясняя не очень высокий результат для человеческой оценки. Но причина может быть в другом: некоторые предложения датасета не являются однозначно приемлемыми или однозначно неприемлемыми, между носителями может присутствовать вариативность относительно их оценки.
Как вам кажется, стоит ли включать такие вариативные предложения в датасет, или же лучше оставить только те, в отношении которых носители будут единогласны?