Comments / Profile of elingur / Habr

How to become an author

User

Profile Publications 3Comments 166Bookmarks 101

SpeechMarkup API — превращаем речь в данные

elingur Nov 11 2014 at 10:51

ну посмотрите логи.
Классический пример: «мама мыла раму» — почему рама, написанный с незаглавной буквы становится городом (почему не именем)? Так практически любое нарицательное слово может стать собственным и наоборот.
Не буду приводить более сложных примеров, типа «глубокая путина», где «путина» становится даже не Путина (еще бы ничего), а Путин.

0

SpeechMarkup API — превращаем речь в данные

elingur Nov 11 2014 at 10:31

честно говоря, сколько не пробовал — ни одного правильно сработанного примера: все сущности определяются неверно. По моему сервис еще сырой и требует серьезной доработки.

0

Библиотека Strutext обработки текстов на языке C++

elingur Oct 28 2014 at 10:23

Я бы сказал, что и морфология — это стандартная и давно решенная задача. Интересен синтаксис, и, конечно, семантика. Ну или морфология, но со снятием омонимии (ну это уже ближе к синтаксису). Кстати, я не увидел в компонентах библиотеки задачу токенизации текста на предложения, а это, во-первых, нетривиальная задача, а во-вторых, от качества ее решения зависит точность работы остальных лингвистических функций библиотеки.

0

Марковские случайные поля

elingur Oct 27 2014 at 07:31

Да, МЕММ может «видеть» морфо и синт. характеристики, но не за один проход, а за несколько, в итоге решение задачи сведется к Марковской сети.

Однако если мы хотим использовать быстрые алгоритмы Витерби и forward-backward, то это преимущество CRF уходит, так как мы вынуждены ограничить признаки тем же видом, что в MEMM.

— не понял, почему? СRF работает не по всему тексту, а в пределах графа, который мы сами выберем соответственно выбранным признакам, последовательно проходя по тексту (если мы говорим о линейном CRF).

0

Марковские случайные поля

elingur Oct 24 2014 at 14:03

Точность и полнота зависит от кол-ва определяемых сущностей. Скажем, при определении медицинских или биологических терминов (их десятки, а иногда и сотни) точность достигает 75-80%. Если стандартный набор: люди, компании, гео — то более 90%. Сравнительный анализ методов есть в работе . Хороший обзор с демо можно посмотреть тут, тут (наиболее интересный вариант) или почитать с примерами тут .

0

Марковские случайные поля

elingur Oct 24 2014 at 12:28

ну почему бы и не попробовать. Правда, насколько мне известно, в обработке текстовых данных это еще не использовали. В данной статье сравниваются статистические методы, с сетями Петри я не сравнивал результат.

0

Марковские случайные поля

elingur Oct 24 2014 at 11:42

Аналогично и сети Макрова, только за счет многофакторности (графа) дают предсказание более точное.

0

А ты используешь мышку во время работы?

elingur Oct 24 2014 at 10:09

без мыши работать, конечно, намного быстрее работать, но в некоторых виндовых приложениях без нее никак…

0

Марковские случайные поля

elingur Oct 24 2014 at 10:06

Разница цепей Маркова от сетей Маркова заключается в том, что первые генеративны (т.е. предсказывают вероятность следующего шага), а вторые — дискриминатины, т.е. рассчитывают вероятность текущего состояния. Использовать тот или иной алгоритм зависит от решаемой задачи. А второе, и наиболее важное отличие — это то, что сети Маркова учитывают не только шаг (два и т.д.) вправо-влево по какому-либо из параметров, а по пучку взаимосвязанных параметров. Скажем, для перевода это не только все его варианты, а и тематический контекст перевода, синтаксис и пр.

0

Марковские случайные поля

elingur Oct 24 2014 at 10:00

Попробую. Например, мы решаем задачу выделения именованных сущностей в тексте (NER). В МЕММ используется, как правило, контекст, т.е. частотность окружения, по которому вычисляется максимум энтропии. В CRF помимо словесного контекста может параллельно (или одновременно) использоваться морфологические, синтаксические и пр. характеристики окружения. Иными словами: MEMM — это линейный одномерный граф (точнее просто перебор цепочек), а CRF — это многомерный граф, который учитывает целый комплекс факторов, влияющих на результат.

0

Латентно-семантический анализ: реализация

elingur Oct 16 2014 at 22:10

… такова же, как и представление мира в терминах моделирования (в том числе математического) может оказаться абстракцией мышления о мышлении, а не о внешнем мире, т.е. просто игрой ума…

0

Десять тенденций, меняющих современные дата-центры

elingur Oct 14 2014 at 09:28

картинки у Вас хорошие.

0

Простой способ оценки понятности текста на русском языке

elingur Oct 8 2014 at 09:38

У меня есть предположение: если посчитать, подчинительные союзы, то результат получится похожий. Например, при выявлении наиболее устойчивых цепочек слов в текстах Мамардашвили в топ рейтинга попадало «потому что» и т.п.
Частотность слов — это важный параметр, но он все-таки жестко привязан к тематике текста: понятно, что, скажем, «симулякр» будет частотен в философских текстах и ни разу не встретится у Толстого, но это не говорит о сложности.

0

Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов

elingur Oct 3 2014 at 10:01

спасибо автору за интересное исследование.
Любой естественный язык нельзя так просто делить на язык «канцелярский» и интернет язык. Есть огромное количество жаргонов (к которому можно отнести т.наз. «канцелярский» язык, «блатной», «ученый» и т.д.), есть разговорный язык, есть литературный и т.д. Оценка сложности языка — очень многопарамерическая вещь и только военные могут так просто с ней расправиться, посчитав символы текста в разных вариациях. Мне кажется, что простота языка складывается из (как уже писали) частотности н-грамм (критерий частотности), покрывающих текст в данной области. Ну и не стоит забывать про эмоциональное воздействие (начиная с фоносемантики и заканчивая тональностью текста в целом).
Сложность и простота — это скорее не полярности на оценочной шкале, а взаимодополняющие параметры. Но полностью согласен, что эта тема еще мало разработана лингвистами (точнее в теории что-то есть, а практических наработок, руководства к действию почти нет), и тут есть над чем и глубоко подумать.

0

Lenovo Yoga 13 + Comodo Firewall ≠ <3

elingur Oct 2 2014 at 12:16

Похожая история: после покупки (yoga 13 thinkpad) ушел в сон и не вернулся, пока батарея не разрядилась. Причем процессор работал на всю катушку, так что ноут сильно нагрелся. На форумах пишут, что проблема в дровах самого Леново. Хорошего решения не нашел, пришлось просто отключить спящий режим. Обновления не помогли.

0

Новая языково-независимая NLP библиотека

elingur Sep 30 2014 at 10:16

По поводу С.С.С.Р., то пока эта часть не решена, и она не может быть решена до тех пор, пока мы не доделаем семантический анализатор, который умеет понимать сущности такого порядка.

Так вы будете решать обратную задачу. Поясню: токенизация на предложения один из первых (а в вашем случае первый, т.к. не нужно определение языка) этапов лингвистического препроцессинга. От ее точности зависит точность работы лингвистического процесса. То есть в семантический анализатор уже будет «заложена» ошибка токенизации. Можно, конечно, сделать итеративный процесс улучшения качества: после семантики вернуть результат на токенизацию и т.д., но скорость такой обработки… думаю, в рукопашную будет быстрее.
А скорость — это один из главных факторов обработки текстовой информации. Например, ежедневный поток рунета 15-20 млн. документов. Для его обработки скорость всего конвейера должна составлять 50-150 кБайт в сек. Скорость токенизации на предложения 5-10 МБайт/с. При этом, повторяю, качество токенизации влияет на качество всей последующей обработки.
Мне кажется, можно сделать гибридный подход, подключив какие-то примитивные и частотные списки (тот же С.С.С.Р) для токенизации, но тогда вы теряете языконезависимость.

0

На здоровье: 5 гаджетов для самых маленьких

elingur Aug 15 2014 at 09:54

Wi-Fi, GPS, 3G — это, конечно, здорово, но SAR еще никто не отменял. Интересно, что говорят по этому поводу разработчики? Все-таки девайс все время на ребенке.

+1

В Украине не будут блокировать сайты?

elingur Aug 11 2014 at 12:44

речь идет о русском языке, а не русском диалекте украинского, если мы признаем таковой.

-1

В Украине не будут блокировать сайты?

elingur Aug 11 2014 at 12:43

… а так же русского-польского, русского-сербского, русского-чешского и т.д. подобных веточек и почечек.
Государство — это армия + язык. Таким образом, уважаемый оппонент, тем самым Вы присоединяете к России Украину, Белоруссию и все остальные «ответвления» русского языка.

-3

В Украине не будут блокировать сайты?

elingur Aug 9 2014 at 12:08

Странная ситуация возникает на хабре: сайт русский, наши украинские коллеги пишут по- русски, но при этом не только не хотят выполнять правила русского языка, но еще и пытаются их корректировать по своему усмотрению.
При этом тех, кто пытается вежливо возразить, бессовестно минусуют…

-13

1 2 ...

8