Pull to refresh
154
0
Александр Пак @Irokez

User

Send message
1. Возможно, я не прав. Я почему-то думал что Stanford и Berkeley парсеры основаны на правилах. ЭТАП в частности rule-based: www.dialog-21.ru/digests/dialog2012/materials/pdf/Iomdin.pdf

2. Думаю, ничем.

3. Тут все зависит от задачи. На мой взгляд, в большинстве случаев проблемы у парсера возникают при проставлении связей в предложных группах (я видел человека с биноклем), однако, при этом, скажем, подлежащее предложения обычно правильно определяется. Или же определения — прилагательные правильно присоединяются к соответствующим существительным. Т.е. если ваша задача, допустим, нахождение описание продукта из отзывов, то тут парсер вполне вам поможет.

Не думаю, что проблема заключается в разметке частей речи. Если не ошибаюсь, state-of-the-art тэггеры достигают точность в 99%. Конечно, проблемы возникают, если текст нестандартный (твиты, например). Основные проблемы, которые я заметил, это предложные группы, словосочетания, определение сущностей (даты, имена, названия организаций).
Полностью с вами согласен. Я пытался поднимать этот вопрос на последнем Диалоге. Удалось лишь получить добро на свободное распространение обученного парсера. Надеюсь, довести его до ума, чтобы им можно было реально пользоваться.

Проект Opencorpora мне безумно нравится. Жду не дождусь, когда они начнут синтаксическую разметку.
мне и самому невдомёк
В соревновании приняло участие 12 систем. Лучшие результаты показала система группы под руководством Николя Четверкина (Вычислительный центр МГУ).


Организаторы соревнований: Четверкин, Браславский, Лукашевич
Лучшая система: Четверкин

Хмм…
Как раз-таки, в проектах, которые я привел в пример, знания представляются в формальном виде (в основном в виде триплетов: субъект, связь, объект). Такие базы знаний применяются в лингвистике (например, интегрируя Cyc с ворднетом) и информационном поиске. Вольфрам Альфа тому пример — рабочая система. Гугл недавно анонсировал выдачу справочной информаций на определенные запросы, основанной как раз таки на «графе знаний». Чем не рабочие системы?

Вы говорите, что не существует стандарта представления знаний. Как насчет RDF и OWL? Возможно, они не совершенны, но стандартны и широко используются.
Куча слов, особенно «брейнетика» и «компьюлинг» доставляют, и ничего по существу. Всю статью можно свести к одному предложению: «ИИ не создан, т.к. алгоритмы не опираются на знания об окружающем мире». Ну а что конкретно нового (или просто конкретно) вы предлагаете в рамках «брейнетики»?

Есть куча проектов, которые пытаются создать либо организовать базу знаний, такие как Cyc, Mindpixel. Да даже и WolphramAlpha.
а также пост при регистрации…
зачем вам разрешение на пост от моего имени в списке прав при авторизации через фб?
подцветка кода бы не помешала
«A dyslexic man walks into a bra»
Почитайте про обучение с подкреплением (reinforcement learning).
зато можно классифицировать документ по нескольким категориям
На самом деле, все описанные вами проблемы худо бедно решаемы в рамках комп. лингвистики:
— выделение метафор
— определение сарказма
— анализ сентиментов и мнений
— комп. перевод
— генерация текста
Каждая из задач постоянно исследуется. В целом, проблема понимания текста компьютером хоть медленно, но решается.
И еще, забыл написать: на входе вы подаете биты (0, 1), а в скрытом слое у вас действительные числа (double), которые занимают больше места чем булевы.
Если вы создаете алгоритм сжатия без потери данных, это значит, что вы хотите обучить нейронную сеть на работу без ошибок, т.к. аккуратность работы = 100% Чтобы этого достичь вам нужно провести обучение по всем возможным параметрам входа и затем ждать когда обучение сойдется с коэф. ошибки 0. Если вы хотите сжимать изображение, скажем, 100х100 пикселей, то для этого требуется 2^(100x100) экземпляров для обучения (при условии что изображение ч/б). По-моему, запаритесь обучать :)
использовались след. характеристики:
— слово
— окончание (2 и 3 буквы)
— приставка (2 и 3 буквы)
— часть речи предыдущих 3 слов

Information

Rating
Does not participate
Location
Швейцария
Date of birth
Registered
Activity