Конечно, замеряли. Приблизительно (F1-мера) 0.70 по организациям, 0.75 по людям и геополитическим (GPE) объектам. При кросс-валидации, как true positive засчитываются только полные совпадения (вся именная группа), рассматриваются как именованные, так и нарицательные упоминания.
Естественно, все будет зависеть от предметной области, стиля. жанра и т.п. Я показал про новостные тексты с разной степенью замусоренности и отклонений внутри.
Спасибо за найденные ошибки. Мы знаем, что качество совсем не 100%. Мы его постепенно подтягиваем, в приоритете те профили документов (предметные области), которые наиболее востребованы.
У нас реализован функционал Entity Linking'а — привязывания распознанных упоминаний людей/организаций к БД/справочникам клиента. Этого функционала нет на демо, он доступен в платной версии.
Вы, наверное, имеет в виду ещё на каждое ядро? При такой постановке, скажем так, до мегабайта в секунду текущая версия ещё не дотягивает.
Но уже работает горизонтальная и вертикальная масштабируемость, так что будет спрос — увеличим :)
Было бы интересно узнать, какую пропускную способность вы считаете приемлемой в контексте какой-то своей задачи?
Да, на данный момент в интерпретации этого выражения возможен перекос в сторону временной единицы, так как текущая версия не ориентирована на предметные области текстов, где часто употребляются другие значения «среды».
Под капотом у нас своя разработка, где функционал Томиты пока не понадобился, у нас другой подход. Томита — отличный CFG-парсер, но лицензия не совсем commercial-friendly.
Естественно, все будет зависеть от предметной области, стиля. жанра и т.п. Я показал про новостные тексты с разной степенью замусоренности и отклонений внутри.
У нас реализован функционал Entity Linking'а — привязывания распознанных упоминаний людей/организаций к БД/справочникам клиента. Этого функционала нет на демо, он доступен в платной версии.
Благодарим!
Но уже работает горизонтальная и вертикальная масштабируемость, так что будет спрос — увеличим :)
Было бы интересно узнать, какую пропускную способность вы считаете приемлемой в контексте какой-то своей задачи?
aldvinaldvin@gmail.com
спасибо!