Comments 23
UFO just landed and posted this here
А можно еще ссылки на материалы ШАД-а?
+2
Класс, жаль только что комменты не слышно
+1
Похоже, вместо картинки с примером синтаксического дерева, в статье по ошибке вставлена предыдущая картинка.
+1
Не совсем в тему, но какова производительность Томита-Парсера по сравнению с GATE?
+2
Если честно, мы никогда не сравнивали. Gate не работает с русским практически.
Наша производительность на очень сложных грамматиках и новостных текстах порядка 80 кб/час. Стандартные для выделения адресов, например, работаю на порядок быстрее.
Наша производительность на очень сложных грамматиках и новостных текстах порядка 80 кб/час. Стандартные для выделения адресов, например, работаю на порядок быстрее.
+2
Спасибо! Просто интересен выбор основного алгоритма для реализации правил. И вообще их сравнение.
0
Татьяна, а не 80 кб/сек? Просто есть общее представление, как себя ведёт Томита на разных грамматиках, и с указанной скоростью оно несколько не согласуется.
0
Вот такую забавную персону поймал сегодня Яндекс.Новости:


+2
Отличный пример того, как rule based подход не выдерживает ошибок в пунктуации.
+1
Татьяна, а можем разобрать подробнее? :) Как я понял, Томита выделил бы здесь две персоны: «Нельсон Мандела» (схема Имя-Фамилия) и «Мандела Пятьдесят» (схема Фамилия-Имя), и должен был бы разрешить между ними конфликт. Или происходит что-то немного другое?
0
Это забавная ошибка. Мандела попал в словарь как имя, Нельсон тоже имя. Имя может выступать и как фамилия. Любое слово с большой буквы потенциально может быть фамилией. Плюс есть ограничение, что в конфликтных ситуациях начало предложения — это отрицательный фактор.
Тут собственно и сыграло начало предложения, т.к. обе схемы были имя-фамилия.
Тут собственно и сыграло начало предложения, т.к. обе схемы были имя-фамилия.
+2
Татьяна, ещё такой вопрос. В Яндексе, как я понял, Томита.Парсер используется, в частности, в проекте Яндекс.Новости. А как насчёт машинного обучения и онтологий, используется ли где-либо у вас?
0
Машинное обучение используется везде. Мы вообще стараемся делать гибриды.
А примером онтологии может служить география — мы используем данные Яндекс.Карт для извлечения географии из текстов и определения геофокуса в новостях.
А примером онтологии может служить география — мы используем данные Яндекс.Карт для извлечения географии из текстов и определения геофокуса в новостях.
0
Only those users with full accounts are able to leave comments. Log in, please.
Извлечение объектов и фактов из текстов в Яндексе. Лекция для Малого ШАДа