Геоданные можно нагенерировать из Википедии или из OpenStreetMap. Так что если в документации не описано, какой формат поддерживает geo-agr, это, наверно, неправильно.
1. Эти «неизбежные работы» могут занять неопределённое время. Мы больше двух лет потратили только на адаптацию словаря и выработку разных решений по морфологии.
2. Большинству потенциальных потребителей наших данных даже корпус без связей, а только со снятой морфологической омонимией уже будет очень полезен.
Предполагается, но пока этого нет, поскольку это уже синтаксис, а мы пока занимаемся морфологией.
Теоретически — да, можно было бы вместо того, чтобы просить людей определять падеж прилагательного, просить их связывать прилагательное с существительным. Наверное, когда-нибудь сделаем и так.
Это бы прекрасно работало, если бы определяемое существительное стояло сразу после определяемого им прилагательного или если бы у нас был синтаксический анализатор со 100% точностью (а если меньше 100%, то всё равно вручную проверять).
Тут примерно такая дилемма: увеличивая число аннотаторов, мы получаем в среднем больше случаев, когда их ответы не совпадают и должны быть просмотрены модератором => растёт нагрузка на модератора. Выигрыш мы получаем только в том случае, если все (допустим) трое предыдущих отвечавших ответили неверно, а четвёртый ответил верно.
1. Эти «неизбежные работы» могут занять неопределённое время. Мы больше двух лет потратили только на адаптацию словаря и выработку разных решений по морфологии.
2. Большинству потенциальных потребителей наших данных даже корпус без связей, а только со снятой морфологической омонимией уже будет очень полезен.
Теоретически — да, можно было бы вместо того, чтобы просить людей определять падеж прилагательного, просить их связывать прилагательное с существительным. Наверное, когда-нибудь сделаем и так.
Про жанры есть на странице «Статистика» внизу. Или имеется в виду что-то другое?
Тут примерно такая дилемма: увеличивая число аннотаторов, мы получаем в среднем больше случаев, когда их ответы не совпадают и должны быть просмотрены модератором => растёт нагрузка на модератора. Выигрыш мы получаем только в том случае, если все (допустим) трое предыдущих отвечавших ответили неверно, а четвёртый ответил верно.