Comments 12
по поводу анализа: дополнительные смыслы берутся на более позднем, чем разбор предложения, этапе. Фактически, это этап согласования смысла текста, когда множества неоднозначных понятий пытаются «утрясти» к некоторому единому смыслу или, если угодно, контексту. Данный этап перевода, насколько мне известно, пока не освящается (у вас тоже видел буквально несколько мыслей вскользь), так что тут есть куда работать.
А «underspecification» решается, по-моему, только одним адекватным образом — самообучением и созданием огромных общих онтологий. AI Winter все-ж должена скоро закончится… )
А «underspecification» решается, по-моему, только одним адекватным образом — самообучением и созданием огромных общих онтологий. AI Winter все-ж должена скоро закончится… )
Когда я говорил об XDG, пытался расписать, как онтология уже на этапе парсинга может заниматься word sense disambiguation. Видимо, общая тенденция ведёт к тому, чтобы сделать парсер проще, а проблему WSD переложить на следующий этап, как вы и говорите. Таким образом, парсеры уже сейчас относительно неплохо работают (хотя одна ошибка на десять предложений — это уже не очень здорово, а выше 90% по-моему, никто не поднимается).
Так вот, я задаюсь таким вопросом: сегодня мы упрощаем парсер, чтобы заставить его работать. Но завтра всё равно придётся делать WSD, и мы вернёмся туда же, откуда ушли при парсинге. Так есть ли смысл? :)
Так вот, я задаюсь таким вопросом: сегодня мы упрощаем парсер, чтобы заставить его работать. Но завтра всё равно придётся делать WSD, и мы вернёмся туда же, откуда ушли при парсинге. Так есть ли смысл? :)
ну, смысл все-ж есть. И он в том, чтобы добраться до смысла как такового — сейчас в анализе текстов пока преобладает очень такой механистический подход, когда процедура анализа преобладает над осознанием текста (я говорю именно об осознании смысла текста компьютером. как ни дико это звучит). А это, в общем, тупиковый путь.
«если бы детям для обучения речи требовалось бы столько же учебных данных, сколько компьютерным распознавателям, обучение детей языку заняло бы более 100 лет круглосуточных занятий» — весьма устаревшее, ИМХО, высказывание. Нынешние системы машинного обучения двигаются в сторону уменьшения количества элементов обучающих выборок с десятков тысяч до десятков и делают в этом успехи.
Не очень-то устаревшее… Цит. по источнику: Moore R K (2003). A Comparison of Data Requirements for ASR Systems and Human Listeners, In Proceedings of EUROSPEECH 2003.
К сожалению, не нашел этой статьи в свободном доступе. Однако, похоже, что эта цифра родилась путем умножения количества обучающих примеров, необходимых для обучения ASR одному слову, на количество слов в словарном запасе человека. Хотя обучаемая система, спроектированная в соответствии с идеалогией deep learning, будет выделять во входных данных признаки, наиболее общие для большого количества возможных входов, что приведет к тому, что распознаванию каждого следующего слова система будет обучаться быстрее, чем предыдущего.
Честно говоря, я не специалист. Статья в открытом доступе есть (pdf версия почему-то не открывается, но в виде текста, хоть и не особо удобно, но можно читать).
По сути статья основывается на данных других статей, так что если действительно задаться целью — надо копать…
По сути статья основывается на данных других статей, так что если действительно задаться целью — надо копать…
C maltparser/mstparser проблема в том, что им на вход подается уже однозначно размеченная морфологическая структура.
На реальных текстах она далеко не всегда будет так однозначна.
На реальных текстах она далеко не всегда будет так однозначна.
Правда? У меня в to-read списке висит задача «узнать, что они делают с морфологией». Получается, что при разборе фразы надо сначала тегировать слова?..
Хм… но посмотрим на проблему с другой стороны — ведь любой парсер так или иначе основывается на переданном на вход морфологическом анализе?.. А он всегда неточный. Как-то другие с этим справляются ведь?
Хм… но посмотрим на проблему с другой стороны — ведь любой парсер так или иначе основывается на переданном на вход морфологическом анализе?.. А он всегда неточный. Как-то другие с этим справляются ведь?
Угу. Они сначала выполняют pos tagging.
Насколько я понимаю, это практически стандарное предположение — что при синтаксическом анализе есть результаты морф. анализа. Предполагается же, что у нас уже есть границы предложения? :)
В теории, mstparser в режиме проективных связей может использовать несколько вариантов разбора одного слова.
Насколько я понимаю, это практически стандарное предположение — что при синтаксическом анализе есть результаты морф. анализа. Предполагается же, что у нас уже есть границы предложения? :)
В теории, mstparser в режиме проективных связей может использовать несколько вариантов разбора одного слова.
Ну бог с ними, с границами — это на эвристиках более-менее прилично работает.
А морфология — дело другое…
Я как-то больше rule-based parsing знаю, и там всё просто: берём все возможные морфологические варианты — и поехали. Правило не сработало — гудбай, едем дальше.
А со статистикой сложнее. Он же, зараза, всегда пытается дерево построить. И если дать ему на вход все комбинации морфологической разметки, он и построит десять деревьев. А какое из них выбрать — поди пойми :)
А морфология — дело другое…
Я как-то больше rule-based parsing знаю, и там всё просто: берём все возможные морфологические варианты — и поехали. Правило не сработало — гудбай, едем дальше.
А со статистикой сложнее. Он же, зараза, всегда пытается дерево построить. И если дать ему на вход все комбинации морфологической разметки, он и построит десять деревьев. А какое из них выбрать — поди пойми :)
Sign up to leave a comment.
Заметки об NLP (часть 10)