Pull to refresh

Comments 12

по поводу анализа: дополнительные смыслы берутся на более позднем, чем разбор предложения, этапе. Фактически, это этап согласования смысла текста, когда множества неоднозначных понятий пытаются «утрясти» к некоторому единому смыслу или, если угодно, контексту. Данный этап перевода, насколько мне известно, пока не освящается (у вас тоже видел буквально несколько мыслей вскользь), так что тут есть куда работать.

А «underspecification» решается, по-моему, только одним адекватным образом — самообучением и созданием огромных общих онтологий. AI Winter все-ж должена скоро закончится… )
Когда я говорил об XDG, пытался расписать, как онтология уже на этапе парсинга может заниматься word sense disambiguation. Видимо, общая тенденция ведёт к тому, чтобы сделать парсер проще, а проблему WSD переложить на следующий этап, как вы и говорите. Таким образом, парсеры уже сейчас относительно неплохо работают (хотя одна ошибка на десять предложений — это уже не очень здорово, а выше 90% по-моему, никто не поднимается).

Так вот, я задаюсь таким вопросом: сегодня мы упрощаем парсер, чтобы заставить его работать. Но завтра всё равно придётся делать WSD, и мы вернёмся туда же, откуда ушли при парсинге. Так есть ли смысл? :)
ну, смысл все-ж есть. И он в том, чтобы добраться до смысла как такового — сейчас в анализе текстов пока преобладает очень такой механистический подход, когда процедура анализа преобладает над осознанием текста (я говорю именно об осознании смысла текста компьютером. как ни дико это звучит). А это, в общем, тупиковый путь.
«если бы детям для обучения речи требовалось бы столько же учебных данных, сколько компьютерным распознавателям, обучение детей языку заняло бы более 100 лет круглосуточных занятий» — весьма устаревшее, ИМХО, высказывание. Нынешние системы машинного обучения двигаются в сторону уменьшения количества элементов обучающих выборок с десятков тысяч до десятков и делают в этом успехи.
Не очень-то устаревшее… Цит. по источнику: Moore R K (2003). A Comparison of Data Requirements for ASR Systems and Human Listeners, In Proceedings of EUROSPEECH 2003.
К сожалению, не нашел этой статьи в свободном доступе. Однако, похоже, что эта цифра родилась путем умножения количества обучающих примеров, необходимых для обучения ASR одному слову, на количество слов в словарном запасе человека. Хотя обучаемая система, спроектированная в соответствии с идеалогией deep learning, будет выделять во входных данных признаки, наиболее общие для большого количества возможных входов, что приведет к тому, что распознаванию каждого следующего слова система будет обучаться быстрее, чем предыдущего.
Честно говоря, я не специалист. Статья в открытом доступе есть (pdf версия почему-то не открывается, но в виде текста, хоть и не особо удобно, но можно читать).

По сути статья основывается на данных других статей, так что если действительно задаться целью — надо копать…
C maltparser/mstparser проблема в том, что им на вход подается уже однозначно размеченная морфологическая структура.
На реальных текстах она далеко не всегда будет так однозначна.
Правда? У меня в to-read списке висит задача «узнать, что они делают с морфологией». Получается, что при разборе фразы надо сначала тегировать слова?..

Хм… но посмотрим на проблему с другой стороны — ведь любой парсер так или иначе основывается на переданном на вход морфологическом анализе?.. А он всегда неточный. Как-то другие с этим справляются ведь?
Угу. Они сначала выполняют pos tagging.

Насколько я понимаю, это практически стандарное предположение — что при синтаксическом анализе есть результаты морф. анализа. Предполагается же, что у нас уже есть границы предложения? :)

В теории, mstparser в режиме проективных связей может использовать несколько вариантов разбора одного слова.
Ну бог с ними, с границами — это на эвристиках более-менее прилично работает.
А морфология — дело другое…

Я как-то больше rule-based parsing знаю, и там всё просто: берём все возможные морфологические варианты — и поехали. Правило не сработало — гудбай, едем дальше.

А со статистикой сложнее. Он же, зараза, всегда пытается дерево построить. И если дать ему на вход все комбинации морфологической разметки, он и построит десять деревьев. А какое из них выбрать — поди пойми :)
Очевидное решение — использовать метрику качества дерева.
Но построение оценивающей фунции — отдельная задача для той же статистики.
Sign up to leave a comment.

Articles