Pull to refresh
0
0
Rinat Gareev @Aldvin

User

Send message
Конечно, замеряли. Приблизительно (F1-мера) 0.70 по организациям, 0.75 по людям и геополитическим (GPE) объектам. При кросс-валидации, как true positive засчитываются только полные совпадения (вся именная группа), рассматриваются как именованные, так и нарицательные упоминания.
Естественно, все будет зависеть от предметной области, стиля. жанра и т.п. Я показал про новостные тексты с разной степенью замусоренности и отклонений внутри.
Спасибо за найденные ошибки. Мы знаем, что качество совсем не 100%. Мы его постепенно подтягиваем, в приоритете те профили документов (предметные области), которые наиболее востребованы.

У нас реализован функционал Entity Linking'а — привязывания распознанных упоминаний людей/организаций к БД/справочникам клиента. Этого функционала нет на демо, он доступен в платной версии.

А так — успехов.
Благодарим!
Вы, наверное, имеет в виду ещё на каждое ядро? При такой постановке, скажем так, до мегабайта в секунду текущая версия ещё не дотягивает.
Но уже работает горизонтальная и вертикальная масштабируемость, так что будет спрос — увеличим :)
Было бы интересно узнать, какую пропускную способность вы считаете приемлемой в контексте какой-то своей задачи?
Спасибо, «до-обучим» =)
Да, на данный момент в интерпретации этого выражения возможен перекос в сторону временной единицы, так как текущая версия не ориентирована на предметные области текстов, где часто употребляются другие значения «среды».
Спасибо за интерес. Мы постепенно улучшаем качество распознавания. Чем больше таких комментариев => тем быстрее :)
Приветствую! Особо много не расскажешь, так как NDA. В открытом доступе на сайте HP Labs можно найти два относительно старых тех. отчета: www.hpl.hp.com/techreports/2012/HPL-2012-211.pdf, www.hpl.hp.com/techreports/2013/HPL-2013-14.pdf. Но это, скорее, про полезный опыт — Textocat'а тогда не было даже в задумках :)
Под капотом у нас своя разработка, где функционал Томиты пока не понадобился, у нас другой подход. Томита — отличный CFG-парсер, но лицензия не совсем commercial-friendly.
я опоздал еще больше )
aldvinaldvin@gmail.com
спасибо!

Information

Rating
Does not participate
Registered
Activity