CyberLympha Aug 20 2024 at 13:03

Как устроен алгоритм CRF и какие возможности он имеет

8 min

3.5K

Comments 6

ioleynikov Aug 21 2024 at 12:26

я думаю, что в задачах POS-тэггинга и парсинга предложений не следует опираться на статические закономерности использования различных значений слов в контексте и использовать HMM и CRF методы. Существуют точные толковые словари всех семантических вариантов значений слов и нужен простой перебор всех комбинаций всех значений слов левого и правого контекстов. При этом будут найдены единственные, абсолютно точны лингвистические значения всех слов предложения если они реально существуют. CRF никогда не сможет дать такую точность и способен выдавать ошибки. Перебор комбинаций не будет очень глубок и скорее всего его можно распараллелить при помощи специальных алгоритмов для GPU.

CyberLympha Aug 21 2024 at 12:26

Естественные языки довольно флективны, новые слова появляются каждый день, из-за чего будет постоянно увеличиваться количество переборов, не говоря о случаях, когда новые слова могут иметь недостаточную базу для определения POS-тэга. К тому же, при увеличении длины предложения количество переборов так же будет заметно возрастать, без мощного железа за приемлемое время уже не обойтись. CRF имеет в среднем около 10-12 тысяч параметров и предсказывает в режиме реального времени на среднем процессоре. Если есть свободные ресурсы для перебора и вышеперечисленные недостатки не страшны вашей системе, то гарантированное предсказание тэга будет, конечно, лучше статистической модели. Однако, в задачах сложнее POS-тэггинга, например Named Entity Recognition, такие алгоритмы уже не покажут такого же качества работы.

ioleynikov Aug 21 2024 at 12:48

я частично согласен с Вами но всегда ратую за комбинированные решения сильного и слабого ИИ. Разумеется для новых слов можно использовать не словарные методы лемматизации и статистические методы оценки но в целом безусловно следует опираться на глубокие знания лингвистических значений слов из WordNet, FrameNet и BERT эмбеддингов.

ioleynikov Aug 21 2024 at 13:01

явные знания о лингвистических значений слов можно трансформировать в варианты нейронных сетей и получить единую среду обработки информации без потери скорости с увеличенной точностью. Системы логического вывода, в отличии от нейронных сетей, легко отслеживать, верифицировать и доказывать точность решения. Для критичных приложений тира экспртных систем ошибки статистических методов и нейрокомпьютинга могут быть недопустимы.

CyberLympha Aug 26 2024 at 09:32

Согласен с вами, однако, CRF все еще намного легче предложенных вами вариантов, к тому же CRF способен решать множество задач, среди которых есть и те, для которых не существует готовых баз знаний, способных решить задачу. Объяснимость предсказаний CRF, безусловно, не такая, как у систем логического вывода, опирающихся непосредственно на готовые базы знаний, но и объяснять предсказания модели требуется далеко не в каждой задаче. В данной статье был рассмотрен именно подход с использованием CRF, однако, в целом возможно применение комбинированных подходов, использующих знания из доступных баз и экспертных систем.

ioleynikov Aug 26 2024 at 10:01

понятно, что CRF легче и универсальной, но не лучше и точней для лингвистических задач. У меня складывается такое мнение, что поклонники чисто нейронных решений готовы использовать любые обходные трюки кроме самых явных и прямых решений. :-) Спасибо, Удачи!