Комментарии 6
я думаю, что в задачах POS-тэггинга и парсинга предложений не следует опираться на статические закономерности использования различных значений слов в контексте и использовать HMM и CRF методы. Существуют точные толковые словари всех семантических вариантов значений слов и нужен простой перебор всех комбинаций всех значений слов левого и правого контекстов. При этом будут найдены единственные, абсолютно точны лингвистические значения всех слов предложения если они реально существуют. CRF никогда не сможет дать такую точность и способен выдавать ошибки. Перебор комбинаций не будет очень глубок и скорее всего его можно распараллелить при помощи специальных алгоритмов для GPU.
Естественные языки довольно флективны, новые слова появляются каждый день, из-за чего будет постоянно увеличиваться количество переборов, не говоря о случаях, когда новые слова могут иметь недостаточную базу для определения POS-тэга. К тому же, при увеличении длины предложения количество переборов так же будет заметно возрастать, без мощного железа за приемлемое время уже не обойтись. CRF имеет в среднем около 10-12 тысяч параметров и предсказывает в режиме реального времени на среднем процессоре. Если есть свободные ресурсы для перебора и вышеперечисленные недостатки не страшны вашей системе, то гарантированное предсказание тэга будет, конечно, лучше статистической модели. Однако, в задачах сложнее POS-тэггинга, например Named Entity Recognition, такие алгоритмы уже не покажут такого же качества работы.
я частично согласен с Вами но всегда ратую за комбинированные решения сильного и слабого ИИ. Разумеется для новых слов можно использовать не словарные методы лемматизации и статистические методы оценки но в целом безусловно следует опираться на глубокие знания лингвистических значений слов из WordNet, FrameNet и BERT эмбеддингов.
явные знания о лингвистических значений слов можно трансформировать в варианты нейронных сетей и получить единую среду обработки информации без потери скорости с увеличенной точностью. Системы логического вывода, в отличии от нейронных сетей, легко отслеживать, верифицировать и доказывать точность решения. Для критичных приложений тира экспртных систем ошибки статистических методов и нейрокомпьютинга могут быть недопустимы.
Согласен с вами, однако, CRF все еще намного легче предложенных вами вариантов, к тому же CRF способен решать множество задач, среди которых есть и те, для которых не существует готовых баз знаний, способных решить задачу. Объяснимость предсказаний CRF, безусловно, не такая, как у систем логического вывода, опирающихся непосредственно на готовые базы знаний, но и объяснять предсказания модели требуется далеко не в каждой задаче. В данной статье был рассмотрен именно подход с использованием CRF, однако, в целом возможно применение комбинированных подходов, использующих знания из доступных баз и экспертных систем.
Как устроен алгоритм CRF и какие возможности он имеет