Pull to refresh
22
0
Антон Казенников @kzn

Пользователь

Send message
И правда. Но вот с «мамой» тогда неправильно.
Забавный список. Но, скажем есть одни диалекты, но нет других. Например, есть Lisp, как минимум есть Emacs Lisp и Common Lisp, но нету newLisp.
Они ж не показывают самое интересное — возраст и пол. На сайте это так, поиграться.
Но это было сильно геморройней и медленнее
Насколько я помню было два варианта настройки: кошерный, но сложный, и простой. Сложный — получать эхи как ньюсгруппы. А можно было настроить стандартный набор мейлер+тоссер+голдед.
Быстрее всего спросить у непосредственных разработчиков корпуса: Лаборатории компьютерной лингвистики ИППИ РАН
В комментариях к оригинальной статье есть ответы на многие вопросы.

Например то, что задача сложная. Что примеры восновном на генерацию текста, а не на анализ.

ОЕЯ обладает большой сложностью. И модели там тоже сложные. Вот скажем банальная задача приведения к нормальной форме. Она сложная. Скажем банальное «мама мыла раму» как приводить слово «мыла»?

Какие времена глагола есть в русском языке? Сколько их? «делаю» и «сделаю» — это одно и то же время? А почему?
Сколько падежей в русском языке? В школе учат, что 6. А в каком падеже Маша в предложении «Маш, послушай меня»? А «Он из лесу вышел» в каком падеже стоит слово «лес»?

Или вот пример с грамматикой зависимостей. Достаточно сходит на НКРЯ и прочитать, какие типы и виды зависимостей бывают. СинТагРус — корпус с размеченными зависимостями создается высококвалифицированными лингвистами, в то же время он за год пополняется примерно на 5-8 тыс. предложений. При том, что над ним постоянно работают 3-4 человека. Почему так медленно?
Все герои напоминают анекдот «что тут думать, тут прыгать надо!».

В случае Павла и Андрей обоим прежде чем делать, надо было бы подумать о том а) что делать, б) с какой целью.

Конечно, если предполагается поддерживать решение, то надо делать правильно, пусть и с бОльшими затратами на первоначальном этапе.

А если нет? Если эта задача одноразовая? Зачем тратить на задачу больше ресурсов, чем необходимо? А часто для таких одноразовых задач самое простое решение — решение в лоб, на коленке.
Легко читать. Многое знакомо.

Вообще прекрасная иллюстрация трудностей, которые возникают при решении организационных проблем техническими средствами.
Для синтаксического анализа есть еще MSTParser
То, что вы делаете называется POS tagger.

Вы предлагаете фактически правиловый подход к идентификации части речи. Логичным следующим шагом будет тот же правиловый подход для разрешения неоднозначности вроде «Мама мыла раму», где «мыла» — что глагол? существительное?

Лучше посмотреть на современные исследования в этой области.
ОП про год написал, не я :-)

Быть он вполне мог — usb 1.0, судя по википедии, был разработан как раз в начале 96го.

Реально он был бесполезен, конечно.
Судя по характеристикам это был весьма дорогой девайс для 1996 года.
Как пример — на этом материале можно изучать лингвистические явления. Например — как изменяется употребление различных слов. Или ретроспективный анализ реакции в твиттере на события.

Это же отдельный жанр текстов — твиты.
Спасибо. Буду иметь в виду. Я начинал делать преобразование AOT -> ЭТАП (СинТагРус).
Как будет свободное время, попробую сделать это для russian-tagsets. Я просто на Java пишу :)
Собственно, компилятор словарей АОТ и построение минимального КА есть у меня на гитхабе :)
Спасибо за пояснения. А как конвертировлись НКРЯ -> СинТагРус? Это же ведь было нужно для обучения?

Тут еще вопрос — формат НКРЯ это формат снятника(части, в которой снята морф. омонимия), или формат СинТагРуса?
Кстати. Немного офтопика. Вы на Диалоге рассказывали про анализ тональности. В частности, был конвеер обучение POS-теггера на снятнике НКРЯ и maltparser на СинТагРусе. Как конвертировались морф. признаки? Как в вашем Pyrus? Т.е. простое 1:1 соответствие?

Была ли еще привязка к АОТ?
Да, но я вот не помню, морф. данные считались атомарным тегом или составным.

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity