Как стать автором
Обновить

Язык определения интентов NlpCraft IDL

Java *Scala *API *Apache *Natural Language Processing *

Данная статья является продолжением заметки “Проектируем интенты с Apache NlpCraft” и содержит детальное описание возможностей языка определения интентов NlpCraft IDL, созданного для использования в NLP проектах основанных на системе Apache NlpCraft. Поддержка NlpCraft IDL добавлена в систему начиная с версии 0.7.5.   

Новая версия декларативного языка определения интентов, получившая название NlpCraft IDL (NlpCraft Intents Definition Language), значительно упростила процесс работы с интентами в диалоговых и поисковых системах, построенных на базе проекта Apache NlpCraft и вместе с тем расширила возможности системы.  

NlpCraft IDL - это декларативный язык, позволяющий создавать определения интентов для их последующего использования в моделях Apache NlpCraft.

Начнем с примеров, демонстрирующих общие возможности языка, приведем необходимые пояснения, а далее опишем конструкции языка чуть более формально. 

Напомню, что в точке выбора интента, NLP системы как правило уже имеют на входе обработанный пользовательский запрос, включающий в себя все полученные при разборе запроса комбинации токенов и прочую сопутствующую информацию.

Примеры интентов, определенных с помощью NlpCraft IDL

intent=xa
    flow="^(?:login)(^:logout)*$"
    meta={'enabled': true}
    term(a)={!(tok_id()) != "z"}[1,3]
    term(b)={
        meta_intent('enabled') == true &&
        month() == 1
    } 
    term(c)~{
        @tokId = tok_id()
        @usrTypes = meta_model('user_types')

        (tokId == 'order' || tokId == 'order_cancel') &&   
         has_all(@usrTypes, list(1, 2, 3) &&
         abs(meta_tok('order:size')) > 10
        )
   } 

Пояснение:

  • Имя интента - “xa”. 

  • Интент содержит три terms. Term - это элемент, определяющий правило, каждое из которых должно быть выполнено для срабатывания интента.

    • Правило первое (a) - разобранный запрос должен содержать от одного до трех токенов с идентификаторами отличными от “z”,  без учетах данных из истории диалога (тип term =) . 

    • Правило второе (b) - интент должен быть активен в момент срабатывания -  флаг ”enabled” метаданных модели. Кроме того, такой интент может сработать лишь в январе - функция month().

    • Правило третье(c) - в запросе или в истории диалога (тип term ~) должен быть найден токен с идентификатором “order” или “order_cancel”. Также должны быть учтены ограничения, наложенные на значения метаданных модели и абсолютное значение размера ордера. В определении третьего правила используются переменные, о них мы поговорим чуть позже. 

  • Flow. В данном разделе определено дополнительное правило, согласно которому для срабатывания интента необходимо, чтобы в рамках текущей сессии уже хотя бы один раз сработал интент с идентификатором “login”, и ни разу не срабатывал интент с идентификатором “logout”. Правило определено в виде регулярного выражения, основанного на идентификаторах предыдущих интентов пользовательской сессии. Ниже также будут рассмотрены другие способы создания подобных правил.     

  • Meta. Для описываемого интента определен некий набор данных, в данном случае конфигурация, с помощью которой можно включить или выключить интент.

intent=xb
    flow=/#flowModelMethod/
    ordered=true
    term(a)=/org.mypackage.MyClass#termMethod/?
    fragment(frag)

Пояснение к следующему примеру:  

  • Имя интента - “xb”. 

  • Интент может содержать один term (”a”, опционально, согласно квантификатору “?“, детальные пояснения будут приведены ниже), определенный в коде -  org.mypackage.MyClass#termMethod. 

  • Fragment с идентификатором “frag” расширяет список terms интента,  дополнительными, ранее определенными terms. Элемент “frag” должен быть определен выше в коде или доступен с помощью import.

  • Flow содержит условие, заданное в коде модели в методе flowModelMethod.

Больше примеров - здесь.  

Разберем элементы языка более детально. 

Хочу обратить ваше внимание на то, что данная статья является лишь кратким обзором возможностей NlpCraft IDL и не пытается быть исчерпывающим мануалом. Перед началом полноценной работы с системой рекомендуется изучить детальное описание синтаксиса и всех возможностей языка в соответствующих разделах документации.

Место определения интентов

  • Интенты, определяемые с помощью NlpCraft IDL могут быть объявлены  непосредственно в файлах статического определения модели. Данный подход очень удобен для простых случаев. Пример доступен по ссылке

  • Также интенты могут быть определены непосредственно в коде модели с помощью аннотаций. Пример по ссылке.  

  • Кроме того, интенты могут быть определены в отдельных файлах. Модели при этом будет ссылаться на определение интентов согласно указанному пути к этим файлам или URL ресурсам с помощью элемента import. Данный подход удобен при работе с большими моделями, при редактировании определений которых может оказаться полезной подсветка синтаксиса и прочие возможности предоставляемые IDE (так, например, Intellij Idea обеспечивает подсветку ключевых слов, подсказки и проверку синтаксиса файлов произвольных типов согласно заданной конфигурации). Кроме того данный подход может быть полезен при работе специалистов, не имеющих возможности или желания редактировать код напрямую. Пример доступен по ссылкам: 1, 2.  

Ключевые слова NlpCraft IDL

flow, fragment, import, intent, meta, ordered, term, true, false, null.

  • intent, flow, fragment, meta, ordered, term - составные части определения интента. 

  • Ключевое слово fragment также используется для создания именованных списков terms, включаемых в определения интентов. 

  • import - необходим при подключении внешних файлов для возможности использования определенных в них элементов fragment, intent или других import.

  • true, false, null - используются при работе со встроенными функциями, о которых мы поговорим чуть ниже.

Структура программы NlpCraft IDL

Программа содержит набор следующих необязательных элементов, расположенных в произвольном порядке:

  • import

  • fragment

  • intent

Отладка и запуск

Интент компилируется при запуске модели и может быть отлажен лишь в процессе отладки модели. Для задания сложных интентов рекомендуется создавать их в отдельных файлах и использовать возможности редактирования, предоставляемые IDE для обеспечения начальной валидации сложных конструкций. Элементы раздела import и fragment могут быть задействованы и проверены только совместно с использующим эти элементы интентом.  

Структура определения импорта

Содержит ключевое слово “import” и имя файла или URL ресурса в круглых скобках.

Пример: import('http://mysite.com/nlp/idls/external.idl)

Структура определения фрагмента

Содержит ключевое слово “fragment” с именем и список terms. Terms в данном случае могут быть параметризованными. 

Пример простого fragment:

fragment=buzz term~{tok_id() == 'x:alarm'}

Пример параметризованного fragment c аргументами ‘a’ и ‘b’:

fragment=p1
    term={
        meta_frag('a') &&
        has_any(get(meta_frag('b'), 'Москва'), list(1, 2))
    }

Ниже приведен пример использования данного fragment в интенте. Аргументам ‘a’ и ‘b’ ставятся в соответствие значения параметров. 

intent=i1
    fragment(p1, {'a': true, 'b': {'Москва': [1, 2, 3]}})

Структура определения интента

Имя интента

Обязательный элемент. Имя - это уникальный в рамках модели идентификатор, необходимый для создания в колбеках ссылок на интент. Ниже приведен пример использования ссылки на интент "timeIntent". 

@NCIntentRef("timeIntent")
fun onTimeMatch(
    ctx: NCIntentMatch, 
    @NCIntentTerm("t1") tok: NCToken
): NCResult { ... }

Набор terms

Обязательный элемент. Term - это основной элемент определения интента. В каждом term задается правило срабатывания интента на основе сконфигурированного условия, тела term. Составные части правил могут относиться к токену или опираться на какие-то иные факторы. 

Как определятеся term:

  • Ключевое слово term. Обязательный элемент.

  • Имя в круглых скобках. Опционально. Служит для создания ссылок на найденный токен в аргументах колбека, смотри пример выше, токен “t1”.

  • Тип term. Обязательный элемент. Поддерживается два типа term: 

    • “~“ - токен может быть получен из истории диалога или из текущего запроса.

    • “=“ - токен должен быть получен только из текущего запроса.  

    Пример: term(nums)~{tok_id() == 'nlpcraft:num'}

    Выбор типа term имеет смысл только для terms относящихся к токенам, в противном случае значение выставленного типа игнорируется. 

  • Тело term. Обязательный элемент. Существуют два способа задания тела term: с помощью встроенных функций или с помощью программного кода. 

    Примеры:

    • term(nums)={tok_id() == 'nlpcraft:num'}

    • term(nums)~{true}

    • term~/org.mypackage.MyClass#termMethod/?

    Обратите внимание на специальный синтаксис последнего term. 

  • Квантификатор. Опционально. Поддерживаются следующие типы квантификаторов: 

    • [M, N] - условие должно сработать от N до M раз.

    • * - условие должно сработать хотя бы один раз, эквивалентно [0, ∞]

    • + - условие должно сработать более одного раза, эквивалентно [1, ∞]

    • ? - условие должно сработать 0 или 1 раз, эквивалентно [0, 1]

    Примеры:

    • term(nums)={tok_id() == 'nlpcraft:num'}[1,2] - запрос должен содержать один или два токена с идентификатором “nlpcraft:num”.

    • term(nums)={tok_id() == 'nlpcraft:num'}* - запрос должен содержать один или более токенов с идентификатором “nlpcraft:num”.

Подробнее о встроенных функциях NlpCraft IDL. 

Поддерживаемые в языке функции условно подразделяются на следующие типы:

  • Основанные на базовых свойствах токенов - идентификаторах, группах. Примеры: tok_id(), tok_groups(), tok_parent().

  • Основанные на NLP свойствах токенов - стеммах, леммах, частях речи, признаках стоп-слов. Примеры: tok_lemma(), tok_is_wordnet(), tok_swear().

  • Основанные на информации о том, как токен был обнаружен в пользовательском запросе - значениях синонимов и т.д.  Примеры: tok_value(), tok_is_permutated(), tok_is_direct().

  • Основанные на данных о пользовательском запросе - времени запроса, типе user agent. Примеры: req_tstamp(), req_addr(), req_agent().

  • Основанные на различных метаданных - токенов, модели, запроса и т.д.  Примеры: meta_model('my:prop'), meta_tok('nlpcraft:num:unit'), meta_user('my:prop').

  • Основанные на данных, предоставляемых NER провайдерами токенов. Пример, для “geo:city“ это может быть количество жителей или координаты,  полученные из метаданных. 

  • Основанные на данных пользователя системы и его компании - статусы, время регистрации. Примеры: user_admin(), comp_name(), user_signup_tstamp().

  • Основанные на системных данных - значениях переменных окружения, системном времени и т.д. Примеры: meta_sys('java.home'), now(), day_of_week().

  • Математические, текстовые функции, функции работы с коллекциями и т.д. Примеры: lowercase("TeXt"), abs(-1.5), distinct(list(1, 2, 2, 3, 1)).

Более детальная информация и описание каждой функции - по ссылке

Тело term - это предикат, построенный на основе комбинации этих функций. 

Для предотвращения необходимости повторных вычислений при работе с функциями, могут быть использованы локальные переменные, пример ниже:

term(t2)={
    @a = meta_model('a')
    @list = list(1, 2, 3, 4)

    (@a == 42 || @a == 44) && has_all(@list, list(3, 2))
}

Локальные переменные определяются с помощью специального префикса @. Их использование помогает избежать повторных вычислений и сокращает запись. 

Подразумевается, что существующего набора встроенных функций и средств NlpCraft IDL достаточно для определения большинства возможных term любого интента. Но при необходимости пользователь может создать свои собственные предикаты на java, scala, kotlin, groovy или другом java based языке и прописать их в теле term. То есть NlpCraft IDL может содержать ссылки на фрагменты кода, полностью написанного на других языках.    

Пример: term(a)=/MyClass#myMethod/

На входе пользовательская функция получает аргумент, содержащий все имеющиеся данные о пользовательском запросе, а на выходе должна вернуть значение определенного типа.

Fragment

Fragment это поименованный набор terms, создаваемый для возможности повторного использования в разных интентах. Пример по ссылке

Flow

Здесь мы определяем дополнительное правило срабатывания интента, опирающееся на данные по предыдущим срабатываниям в рамках сессии. 

Данное правило может быть определено на основе regex, составленного на основе идентификаторов предыдущих сработавших интентов.  

Пример такого определения: flow="^(?:login)(^:logout)*$" 

Данное правило означает, что для срабатывания интента необходимо, чтобы в рамках текущей сессии уже было срабатывание интента с идентификатором “login”, и не было с идентификатором “logout”. 

В случае необходимости задания более сложной логики, она также может быть вынесена в пользовательский код, написанный на Java-based языке, как и тело term. 

Пример определения в интенте: 

@NCIntent("intent=x 
    flow=/com.company.dialog.Flow#customFlow/ 
    term~{tok_id() == 'some_id'}"
)
def onX(): NCResult = { .. }

Предикат, определенный в методе customFlow(), получает на входе список с информацией по всем интентам, ранее вызванным в рамках текущей сессии, и возвращает значение типа boolean. 

Meta

Опциональный элемент. Набор данных для задания дополнительных условий срабатывания интента представленный в формате JSON.

Ordered flag

Опциональный элемент. По умолчанию false. Определяет правило - должны ли токены сработавших terms быть упорядочены в запросе.  

Зачем вообще нужен отдельный язык

Еще раз обратите внимание на то, что вся логика создания интентов, определенная с помощью NlpCraft IDL, может быть написана на любом java based языке. Зачем тогда вообще нужен этот новый язык? Даже если его синтаксис краток, прост и понятен, все равно придется потратить какое-то время на его изучение. 

Ниже приведем ряд аргументов в пользу использования NlpCraft IDL.

  • Краткость записи. Запись на специализированном DSL всегда короче записи той же логики на базовом языке. Для интентов с небанальными правилами это может быть важно. 

  • В случае если NlpCraft IDL код был вынесен в отдельный файл, то редактирование IDL программы, например для изменения логики срабатывания интента, не влечет за собой необходимости пересобирать код модели и ее колбеков.

  • Разнесение логики написания колбеков и логики срабатывания интентов. Данными вопросами могут заниматься разные специалисты. В силу осознанной ограниченности языковых средств, DSL проще для изучения.  

  • В настоящее время модели могут быть созданы на любом java based языке. В ближайших планах Apache NlpCraft расширение списка поддерживаемых языков. Использование NlpCraft IDL позволит сохранить один общий язык определения интентов для разных типов моделей в рамках одного проекта.

Заключение

Надеюсь вы смогли получить первое представление о возможностях языка определения интентов NlpCraft IDL и типах задач, которые можно решить с его помощью. Здесь вы найдете детальное описание языка и его возможностей. Дополнительные примеры моделей созданных на java, kotlin, groovy и scala, использующих для определения интентов NlpCraft IDL, доступны в гитхабе проекта.

Теги:
Хабы:
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 719
Комментарии Комментарии 2