Comments / Profile of Irokez / Habr

How to become an author

Александр Пак @Irokez

User

Profile Publications 25Comments 429Bookmarks 295

Парсим русский язык

Irokez Jul 20 2012 at 11:15

1. Возможно, я не прав. Я почему-то думал что Stanford и Berkeley парсеры основаны на правилах. ЭТАП в частности rule-based: www.dialog-21.ru/digests/dialog2012/materials/pdf/Iomdin.pdf

2. Думаю, ничем.

3. Тут все зависит от задачи. На мой взгляд, в большинстве случаев проблемы у парсера возникают при проставлении связей в предложных группах (я видел человека с биноклем), однако, при этом, скажем, подлежащее предложения обычно правильно определяется. Или же определения — прилагательные правильно присоединяются к соответствующим существительным. Т.е. если ваша задача, допустим, нахождение описание продукта из отзывов, то тут парсер вполне вам поможет.

Не думаю, что проблема заключается в разметке частей речи. Если не ошибаюсь, state-of-the-art тэггеры достигают точность в 99%. Конечно, проблемы возникают, если текст нестандартный (твиты, например). Основные проблемы, которые я заметил, это предложные группы, словосочетания, определение сущностей (даты, имена, названия организаций).

-1

Парсим русский язык

Irokez Jul 20 2012 at 02:54

Полностью с вами согласен. Я пытался поднимать этот вопрос на последнем Диалоге. Удалось лишь получить добро на свободное распространение обученного парсера. Надеюсь, довести его до ума, чтобы им можно было реально пользоваться.

Проект Opencorpora мне безумно нравится. Жду не дождусь, когда они начнут синтаксическую разметку.

+3

Парсим русский язык

Irokez Jul 20 2012 at 02:45

мне и самому невдомёк

0

«Диалог-2012»: соревнования по анализу тональности текстов и конкурс синтаксических анализаторов

Irokez Jul 13 2012 at 22:36

В соревновании приняло участие 12 систем. Лучшие результаты показала система группы под руководством Николя Четверкина (Вычислительный центр МГУ).

Организаторы соревнований: Четверкин, Браславский, Лукашевич
Лучшая система: Четверкин

Хмм…

+1

Есть ли интеллект в современном «Искусственном Интеллекте»?

Irokez May 23 2012 at 17:49

Как раз-таки, в проектах, которые я привел в пример, знания представляются в формальном виде (в основном в виде триплетов: субъект, связь, объект). Такие базы знаний применяются в лингвистике (например, интегрируя Cyc с ворднетом) и информационном поиске. Вольфрам Альфа тому пример — рабочая система. Гугл недавно анонсировал выдачу справочной информаций на определенные запросы, основанной как раз таки на «графе знаний». Чем не рабочие системы?

Вы говорите, что не существует стандарта представления знаний. Как насчет RDF и OWL? Возможно, они не совершенны, но стандартны и широко используются.

0

Есть ли интеллект в современном «Искусственном Интеллекте»?

Irokez May 23 2012 at 17:24

Куча слов, особенно «брейнетика» и «компьюлинг» доставляют, и ничего по существу. Всю статью можно свести к одному предложению: «ИИ не создан, т.к. алгоритмы не опираются на знания об окружающем мире». Ну а что конкретно нового (или просто конкретно) вы предлагаете в рамках «брейнетики»?

Есть куча проектов, которые пытаются создать либо организовать базу знаний, такие как Cyc, Mindpixel. Да даже и WolphramAlpha.

+8

Новая жизнь ваших почтовых адресов в «Рамблер-Почте»

Irokez Mar 7 2012 at 17:03

+3

ResumUP — представьте себя

Irokez Dec 16 2011 at 17:22

а также пост при регистрации…

0

ResumUP — представьте себя

Irokez Dec 16 2011 at 15:56

зачем вам разрешение на пост от моего имени в списке прав при авторизации через фб?

0

HelloWorld — это просто?

Irokez Nov 22 2011 at 14:59

подцветка кода бы не помешала

+1

Тпиогрфаика для дислексиков

Irokez Nov 18 2011 at 18:40

«A dyslexic man walks into a bra»

+10

Антинейроны и обучение на ошибках

Irokez Oct 26 2011 at 18:58

Почитайте про обучение с подкреплением (reinforcement learning).

0

Классификация документов методом опорных векторов

Irokez Oct 13 2011 at 14:40

зато можно классифицировать документ по нескольким категориям

0

Магистратура в Южной Корее

Irokez Oct 13 2011 at 14:28

useoul.edu/news/news0201_view.jsp?idx=1221869&DI=EMP

+1

Яндекс приобретает сервис социальных новостей The Tweeted Times

Irokez Aug 26 2011 at 21:06

Аналог paper.li/?

+1

О понимании компьютерами текста

Irokez Aug 22 2011 at 02:23

На самом деле, все описанные вами проблемы худо бедно решаемы в рамках комп. лингвистики:
— выделение метафор
— определение сарказма
— анализ сентиментов и мнений
— комп. перевод
— генерация текста
Каждая из задач постоянно исследуется. В целом, проблема понимания текста компьютером хоть медленно, но решается.

0

Нейросетевое сжатие данных

Irokez Aug 17 2011 at 18:47

И еще, забыл написать: на входе вы подаете биты (0, 1), а в скрытом слое у вас действительные числа (double), которые занимают больше места чем булевы.

0

Нейросетевое сжатие данных

Irokez Aug 17 2011 at 16:50

Если вы создаете алгоритм сжатия без потери данных, это значит, что вы хотите обучить нейронную сеть на работу без ошибок, т.к. аккуратность работы = 100% Чтобы этого достичь вам нужно провести обучение по всем возможным параметрам входа и затем ждать когда обучение сойдется с коэф. ошибки 0. Если вы хотите сжимать изображение, скажем, 100х100 пикселей, то для этого требуется 2^(100x100) экземпляров для обучения (при условии что изображение ч/б). По-моему, запаритесь обучать :)

+1

Go Language. Небольшое клиент-серверное приложение

Irokez Aug 17 2011 at 15:02

в гугле :)

0

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Irokez Aug 14 2011 at 16:19

использовались след. характеристики:
— слово
— окончание (2 и 3 буквы)
— приставка (2 и 3 буквы)
— часть речи предыдущих 3 слов

0

2

3 4 ...