Pull to refresh
12
0
Send message
ну посмотрите логи.
Классический пример: «мама мыла раму» — почему рама, написанный с незаглавной буквы становится городом (почему не именем)? Так практически любое нарицательное слово может стать собственным и наоборот.
Не буду приводить более сложных примеров, типа «глубокая путина», где «путина» становится даже не Путина (еще бы ничего), а Путин.
честно говоря, сколько не пробовал — ни одного правильно сработанного примера: все сущности определяются неверно. По моему сервис еще сырой и требует серьезной доработки.
Я бы сказал, что и морфология — это стандартная и давно решенная задача. Интересен синтаксис, и, конечно, семантика. Ну или морфология, но со снятием омонимии (ну это уже ближе к синтаксису). Кстати, я не увидел в компонентах библиотеки задачу токенизации текста на предложения, а это, во-первых, нетривиальная задача, а во-вторых, от качества ее решения зависит точность работы остальных лингвистических функций библиотеки.
Да, МЕММ может «видеть» морфо и синт. характеристики, но не за один проход, а за несколько, в итоге решение задачи сведется к Марковской сети.
Однако если мы хотим использовать быстрые алгоритмы Витерби и forward-backward, то это преимущество CRF уходит, так как мы вынуждены ограничить признаки тем же видом, что в MEMM.

— не понял, почему? СRF работает не по всему тексту, а в пределах графа, который мы сами выберем соответственно выбранным признакам, последовательно проходя по тексту (если мы говорим о линейном CRF).
Точность и полнота зависит от кол-ва определяемых сущностей. Скажем, при определении медицинских или биологических терминов (их десятки, а иногда и сотни) точность достигает 75-80%. Если стандартный набор: люди, компании, гео — то более 90%. Сравнительный анализ методов есть в работе . Хороший обзор с демо можно посмотреть тут, тут (наиболее интересный вариант) или почитать с примерами тут .
ну почему бы и не попробовать. Правда, насколько мне известно, в обработке текстовых данных это еще не использовали. В данной статье сравниваются статистические методы, с сетями Петри я не сравнивал результат.
Аналогично и сети Макрова, только за счет многофакторности (графа) дают предсказание более точное.
без мыши работать, конечно, намного быстрее работать, но в некоторых виндовых приложениях без нее никак…
Разница цепей Маркова от сетей Маркова заключается в том, что первые генеративны (т.е. предсказывают вероятность следующего шага), а вторые — дискриминатины, т.е. рассчитывают вероятность текущего состояния. Использовать тот или иной алгоритм зависит от решаемой задачи. А второе, и наиболее важное отличие — это то, что сети Маркова учитывают не только шаг (два и т.д.) вправо-влево по какому-либо из параметров, а по пучку взаимосвязанных параметров. Скажем, для перевода это не только все его варианты, а и тематический контекст перевода, синтаксис и пр.
Попробую. Например, мы решаем задачу выделения именованных сущностей в тексте (NER). В МЕММ используется, как правило, контекст, т.е. частотность окружения, по которому вычисляется максимум энтропии. В CRF помимо словесного контекста может параллельно (или одновременно) использоваться морфологические, синтаксические и пр. характеристики окружения. Иными словами: MEMM — это линейный одномерный граф (точнее просто перебор цепочек), а CRF — это многомерный граф, который учитывает целый комплекс факторов, влияющих на результат.
… такова же, как и представление мира в терминах моделирования (в том числе математического) может оказаться абстракцией мышления о мышлении, а не о внешнем мире, т.е. просто игрой ума…
картинки у Вас хорошие.
У меня есть предположение: если посчитать, подчинительные союзы, то результат получится похожий. Например, при выявлении наиболее устойчивых цепочек слов в текстах Мамардашвили в топ рейтинга попадало «потому что» и т.п.
Частотность слов — это важный параметр, но он все-таки жестко привязан к тематике текста: понятно, что, скажем, «симулякр» будет частотен в философских текстах и ни разу не встретится у Толстого, но это не говорит о сложности.
спасибо автору за интересное исследование.
Любой естественный язык нельзя так просто делить на язык «канцелярский» и интернет язык. Есть огромное количество жаргонов (к которому можно отнести т.наз. «канцелярский» язык, «блатной», «ученый» и т.д.), есть разговорный язык, есть литературный и т.д. Оценка сложности языка — очень многопарамерическая вещь и только военные могут так просто с ней расправиться, посчитав символы текста в разных вариациях. Мне кажется, что простота языка складывается из (как уже писали) частотности н-грамм (критерий частотности), покрывающих текст в данной области. Ну и не стоит забывать про эмоциональное воздействие (начиная с фоносемантики и заканчивая тональностью текста в целом).
Сложность и простота — это скорее не полярности на оценочной шкале, а взаимодополняющие параметры. Но полностью согласен, что эта тема еще мало разработана лингвистами (точнее в теории что-то есть, а практических наработок, руководства к действию почти нет), и тут есть над чем и глубоко подумать.
Похожая история: после покупки (yoga 13 thinkpad) ушел в сон и не вернулся, пока батарея не разрядилась. Причем процессор работал на всю катушку, так что ноут сильно нагрелся. На форумах пишут, что проблема в дровах самого Леново. Хорошего решения не нашел, пришлось просто отключить спящий режим. Обновления не помогли.
По поводу С.С.С.Р., то пока эта часть не решена, и она не может быть решена до тех пор, пока мы не доделаем семантический анализатор, который умеет понимать сущности такого порядка.

Так вы будете решать обратную задачу. Поясню: токенизация на предложения один из первых (а в вашем случае первый, т.к. не нужно определение языка) этапов лингвистического препроцессинга. От ее точности зависит точность работы лингвистического процесса. То есть в семантический анализатор уже будет «заложена» ошибка токенизации. Можно, конечно, сделать итеративный процесс улучшения качества: после семантики вернуть результат на токенизацию и т.д., но скорость такой обработки… думаю, в рукопашную будет быстрее.
А скорость — это один из главных факторов обработки текстовой информации. Например, ежедневный поток рунета 15-20 млн. документов. Для его обработки скорость всего конвейера должна составлять 50-150 кБайт в сек. Скорость токенизации на предложения 5-10 МБайт/с. При этом, повторяю, качество токенизации влияет на качество всей последующей обработки.
Мне кажется, можно сделать гибридный подход, подключив какие-то примитивные и частотные списки (тот же С.С.С.Р) для токенизации, но тогда вы теряете языконезависимость.
Wi-Fi, GPS, 3G — это, конечно, здорово, но SAR еще никто не отменял. Интересно, что говорят по этому поводу разработчики? Все-таки девайс все время на ребенке.
речь идет о русском языке, а не русском диалекте украинского, если мы признаем таковой.
… а так же русского-польского, русского-сербского, русского-чешского и т.д. подобных веточек и почечек.
Государство — это армия + язык. Таким образом, уважаемый оппонент, тем самым Вы присоединяете к России Украину, Белоруссию и все остальные «ответвления» русского языка.
Странная ситуация возникает на хабре: сайт русский, наши украинские коллеги пишут по- русски, но при этом не только не хотят выполнять правила русского языка, но еще и пытаются их корректировать по своему усмотрению.
При этом тех, кто пытается вежливо возразить, бессовестно минусуют…

Information

Rating
Does not participate
Registered
Activity