Насколько я помню было два варианта настройки: кошерный, но сложный, и простой. Сложный — получать эхи как ньюсгруппы. А можно было настроить стандартный набор мейлер+тоссер+голдед.
В комментариях к оригинальной статье есть ответы на многие вопросы.
Например то, что задача сложная. Что примеры восновном на генерацию текста, а не на анализ.
ОЕЯ обладает большой сложностью. И модели там тоже сложные. Вот скажем банальная задача приведения к нормальной форме. Она сложная. Скажем банальное «мама мыла раму» как приводить слово «мыла»?
Какие времена глагола есть в русском языке? Сколько их? «делаю» и «сделаю» — это одно и то же время? А почему?
Сколько падежей в русском языке? В школе учат, что 6. А в каком падеже Маша в предложении «Маш, послушай меня»? А «Он из лесу вышел» в каком падеже стоит слово «лес»?
Или вот пример с грамматикой зависимостей. Достаточно сходит на НКРЯ и прочитать, какие типы и виды зависимостей бывают. СинТагРус — корпус с размеченными зависимостями создается высококвалифицированными лингвистами, в то же время он за год пополняется примерно на 5-8 тыс. предложений. При том, что над ним постоянно работают 3-4 человека. Почему так медленно?
Все герои напоминают анекдот «что тут думать, тут прыгать надо!».
В случае Павла и Андрей обоим прежде чем делать, надо было бы подумать о том а) что делать, б) с какой целью.
Конечно, если предполагается поддерживать решение, то надо делать правильно, пусть и с бОльшими затратами на первоначальном этапе.
А если нет? Если эта задача одноразовая? Зачем тратить на задачу больше ресурсов, чем необходимо? А часто для таких одноразовых задач самое простое решение — решение в лоб, на коленке.
Вы предлагаете фактически правиловый подход к идентификации части речи. Логичным следующим шагом будет тот же правиловый подход для разрешения неоднозначности вроде «Мама мыла раму», где «мыла» — что глагол? существительное?
Лучше посмотреть на современные исследования в этой области.
Как пример — на этом материале можно изучать лингвистические явления. Например — как изменяется употребление различных слов. Или ретроспективный анализ реакции в твиттере на события.
Спасибо. Буду иметь в виду. Я начинал делать преобразование AOT -> ЭТАП (СинТагРус).
Как будет свободное время, попробую сделать это для russian-tagsets. Я просто на Java пишу :)
Собственно, компилятор словарей АОТ и построение минимального КА есть у меня на гитхабе :)
Кстати. Немного офтопика. Вы на Диалоге рассказывали про анализ тональности. В частности, был конвеер обучение POS-теггера на снятнике НКРЯ и maltparser на СинТагРусе. Как конвертировались морф. признаки? Как в вашем Pyrus? Т.е. простое 1:1 соответствие?
Например то, что задача сложная. Что примеры восновном на генерацию текста, а не на анализ.
ОЕЯ обладает большой сложностью. И модели там тоже сложные. Вот скажем банальная задача приведения к нормальной форме. Она сложная. Скажем банальное «мама мыла раму» как приводить слово «мыла»?
Какие времена глагола есть в русском языке? Сколько их? «делаю» и «сделаю» — это одно и то же время? А почему?
Сколько падежей в русском языке? В школе учат, что 6. А в каком падеже Маша в предложении «Маш, послушай меня»? А «Он из лесу вышел» в каком падеже стоит слово «лес»?
Или вот пример с грамматикой зависимостей. Достаточно сходит на НКРЯ и прочитать, какие типы и виды зависимостей бывают. СинТагРус — корпус с размеченными зависимостями создается высококвалифицированными лингвистами, в то же время он за год пополняется примерно на 5-8 тыс. предложений. При том, что над ним постоянно работают 3-4 человека. Почему так медленно?
В случае Павла и Андрей обоим прежде чем делать, надо было бы подумать о том а) что делать, б) с какой целью.
Конечно, если предполагается поддерживать решение, то надо делать правильно, пусть и с бОльшими затратами на первоначальном этапе.
А если нет? Если эта задача одноразовая? Зачем тратить на задачу больше ресурсов, чем необходимо? А часто для таких одноразовых задач самое простое решение — решение в лоб, на коленке.
Вообще прекрасная иллюстрация трудностей, которые возникают при решении организационных проблем техническими средствами.
Вы предлагаете фактически правиловый подход к идентификации части речи. Логичным следующим шагом будет тот же правиловый подход для разрешения неоднозначности вроде «Мама мыла раму», где «мыла» — что глагол? существительное?
Лучше посмотреть на современные исследования в этой области.
Быть он вполне мог — usb 1.0, судя по википедии, был разработан как раз в начале 96го.
Реально он был бесполезен, конечно.
Это же отдельный жанр текстов — твиты.
Как будет свободное время, попробую сделать это для russian-tagsets. Я просто на Java пишу :)
Собственно, компилятор словарей АОТ и построение минимального КА есть у меня на гитхабе :)
Тут еще вопрос — формат НКРЯ это формат снятника(части, в которой снята морф. омонимия), или формат СинТагРуса?
Была ли еще привязка к АОТ?