Pull to refresh
10
0
Илья Булгаков @bulgak0v

программист

Send message
На каких корпусах из числа выложенных проводилось обучение финальной модели? Только на ГИКРЯ? В ваших экспериментах остальные тоже демонстрировали ухудшение?
Очень отдаленно :) В данном случае это скорее технический инструмент.
При построении дерева разбора гипотезы взвешиваются с использованием, например, статистики встречаемости. В базовом режиме мы работаем с наиболее вероятным деревом разбора.
Правила, которые наполняют мешок утверждений, пишут онтоинженеры. В нашей системе есть ряд корпусов и есть инструмент для поиска в них примеров вхождений определенных шаблонов. Использование этого инструмента позволяет покрыть большее число случаев и проверить некоторые гипотезы.
Кроме этого, размеченные корпуса используются для оценки качества написанных правил. Специальный компаратор сравнивает полученный RDF-граф с эталонным и выдает диагностику с перечислением всех ошибок.
За логику наполнения мешка отвечают правила, которые можно написать так, чтобы процесс наполнения шел бесконечно.
Простейший пример такого правила: если в тексте есть персона -> породи новую персону на том же отрезке текста. При наличии хотя бы одной персоны такое правило должно было бы привести к зацикливанию (т.к. появление каждой новой персоны приводит к новому срабатыванию правила, которое порождает очередную персону), однако на практике такие ситуации отлавливаются специальным механизмом обнаружения циклов и обрываются, поэтому реального зацикливания не происходит.
Ну и, конечно, надо понимать, что такие ситуации свидетельствуют о некорректно написанном правиле и в реальных проектах их быть не должно.
С непривычки режет слух, но зато сразу понятно, о чем речь. Древовидными называть их тоже странно: сами связи-то никакие не древовидные, просто используются они в древовидных структурах.
По ряду причин временные интервалы («с 9 до 5») удобнее представлять цельным поддеревом, а не двумя независимыми друг от друга параллельными поддеревьями.
Например, это удобнее для извлечения информации. При таком способе представления в разборе предложения «Вася работал с 9 до 12 и с 13 до 18» будет два поддерева, по одному на каждый интервал. Если же не группировать каждый интервал в единое поддерево, то по структуре намного сложнее понять, с 9 до 12 работал Вася или с 9 до 18.
Почему вершиной назначен конец интервала, а не начало? Это техническое решение, глубокого смысла в нём нет.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity