3. Тут все зависит от задачи. На мой взгляд, в большинстве случаев проблемы у парсера возникают при проставлении связей в предложных группах (я видел человека с биноклем), однако, при этом, скажем, подлежащее предложения обычно правильно определяется. Или же определения — прилагательные правильно присоединяются к соответствующим существительным. Т.е. если ваша задача, допустим, нахождение описание продукта из отзывов, то тут парсер вполне вам поможет.
Не думаю, что проблема заключается в разметке частей речи. Если не ошибаюсь, state-of-the-art тэггеры достигают точность в 99%. Конечно, проблемы возникают, если текст нестандартный (твиты, например). Основные проблемы, которые я заметил, это предложные группы, словосочетания, определение сущностей (даты, имена, названия организаций).
Полностью с вами согласен. Я пытался поднимать этот вопрос на последнем Диалоге. Удалось лишь получить добро на свободное распространение обученного парсера. Надеюсь, довести его до ума, чтобы им можно было реально пользоваться.
Проект Opencorpora мне безумно нравится. Жду не дождусь, когда они начнут синтаксическую разметку.
Как раз-таки, в проектах, которые я привел в пример, знания представляются в формальном виде (в основном в виде триплетов: субъект, связь, объект). Такие базы знаний применяются в лингвистике (например, интегрируя Cyc с ворднетом) и информационном поиске. Вольфрам Альфа тому пример — рабочая система. Гугл недавно анонсировал выдачу справочной информаций на определенные запросы, основанной как раз таки на «графе знаний». Чем не рабочие системы?
Вы говорите, что не существует стандарта представления знаний. Как насчет RDF и OWL? Возможно, они не совершенны, но стандартны и широко используются.
Куча слов, особенно «брейнетика» и «компьюлинг» доставляют, и ничего по существу. Всю статью можно свести к одному предложению: «ИИ не создан, т.к. алгоритмы не опираются на знания об окружающем мире». Ну а что конкретно нового (или просто конкретно) вы предлагаете в рамках «брейнетики»?
Есть куча проектов, которые пытаются создать либо организовать базу знаний, такие как Cyc, Mindpixel. Да даже и WolphramAlpha.
На самом деле, все описанные вами проблемы худо бедно решаемы в рамках комп. лингвистики:
— выделение метафор
— определение сарказма
— анализ сентиментов и мнений
— комп. перевод
— генерация текста
Каждая из задач постоянно исследуется. В целом, проблема понимания текста компьютером хоть медленно, но решается.
И еще, забыл написать: на входе вы подаете биты (0, 1), а в скрытом слое у вас действительные числа (double), которые занимают больше места чем булевы.
Если вы создаете алгоритм сжатия без потери данных, это значит, что вы хотите обучить нейронную сеть на работу без ошибок, т.к. аккуратность работы = 100% Чтобы этого достичь вам нужно провести обучение по всем возможным параметрам входа и затем ждать когда обучение сойдется с коэф. ошибки 0. Если вы хотите сжимать изображение, скажем, 100х100 пикселей, то для этого требуется 2^(100x100) экземпляров для обучения (при условии что изображение ч/б). По-моему, запаритесь обучать :)
2. Думаю, ничем.
3. Тут все зависит от задачи. На мой взгляд, в большинстве случаев проблемы у парсера возникают при проставлении связей в предложных группах (я видел человека с биноклем), однако, при этом, скажем, подлежащее предложения обычно правильно определяется. Или же определения — прилагательные правильно присоединяются к соответствующим существительным. Т.е. если ваша задача, допустим, нахождение описание продукта из отзывов, то тут парсер вполне вам поможет.
Не думаю, что проблема заключается в разметке частей речи. Если не ошибаюсь, state-of-the-art тэггеры достигают точность в 99%. Конечно, проблемы возникают, если текст нестандартный (твиты, например). Основные проблемы, которые я заметил, это предложные группы, словосочетания, определение сущностей (даты, имена, названия организаций).
Проект Opencorpora мне безумно нравится. Жду не дождусь, когда они начнут синтаксическую разметку.
Организаторы соревнований: Четверкин, Браславский, Лукашевич
Лучшая система: Четверкин
Хмм…
Вы говорите, что не существует стандарта представления знаний. Как насчет RDF и OWL? Возможно, они не совершенны, но стандартны и широко используются.
Есть куча проектов, которые пытаются создать либо организовать базу знаний, такие как Cyc, Mindpixel. Да даже и WolphramAlpha.
— выделение метафор
— определение сарказма
— анализ сентиментов и мнений
— комп. перевод
— генерация текста
Каждая из задач постоянно исследуется. В целом, проблема понимания текста компьютером хоть медленно, но решается.
— слово
— окончание (2 и 3 буквы)
— приставка (2 и 3 буквы)
— часть речи предыдущих 3 слов