Pull to refresh
7
0
Дмитрий Кан @DKey

Разработчик, team lead, CEO

Send message
Бывают, что знания необходимы не постоянно, а периодически. Например, вы готовитесь выступить с речью и хотите запомнить яркую фразу.

Другой use case: у вас появляются мысли, которые можно записать в блокнот и… забыть, а можно поместить в приложение, которое напомнит вам для последующего развития идеи.
Спасибо за доверие. В следующий раз — обязательно.
Это правда. Остался открытым Graph API, при помощи которого можно загрузить странички-хабы по брендам / политике / спорту и тд с комментариями, лайками и тд. Помимо этого есть scrappers (например: http://scrapy.org/).
Дело в том, что данная публикация преследует ознакомительную цель с данным продуктом. А относится ли это к разработке — имхо, да. Ведь продукты на основе данного API вполне себе разработка.
Добавлено описание взаимодействия с end-point'ами.
мне действительно не доступен хаб «Я пиарюсь». Поэтому на посте есть тэг.
спасибо за рекомендации. Data mining — например, извлечение адресов из текстов. Какой хаб вы бы порекомендовали?
Чем старше данные, тем меньше вопросов от соответствующих организаций. Для новых данных система тоже работает.
Кредитка не нужна для теста: скиньте свой mashape id и я сделаю личный план.
Привет, спасибо за классный сборник. Хочется порекламировать популярный тулбокс для удобного анализа и работы с индексами lucene / solr / elasticsearch: luke. github.com/DmitryKey/luke Проект уже используется в таких проектах, как Hibernate, Jackrabbit Oak.
Т.е. Вы, вероятно, имеете ввиду градацию меток тональности больше, чем на три класса: 5 или 7 и так далее. Силу тональности мы ещё не подключали, но принципиально в системе эта информация присутствует. Если Вам интересно потестировать такой алгоритм, будем рады обсудить в личном порядке.
мой ответ в ветке выше — нажал не на ту ссылку.
у вас в системе возможны только два ответа: позитивный и негативный?


три: позитивный, негативный, нейтральный

при анализе примера ниже оба объекта окажутся на одном уровне?
а) Пепси-кола очень вкусная, а кока-кола — самый лучший напиток на свете.
будет ли между ними какая-то разница?


для обоих объектов выдаётся позитивная тональность. А какая ожидается разница?

Если пример переделать в: Пепси-кола очень вкусная, а кока-кола самый ужасный напиток на свете.

то для пепси-кола получаем позитивную, а для кока-кола негативную тональности.

если при анализе примера из моего прошлого комментария оценка у ВТБ оказывается нейтральная, это значит, что анализотор работает ошибочно. Есть ли у вас синтаксис? понимает ли парсер, что ветхое здание — это одна именная группа, не имеющая общего антецедента с ВТБ?


ошибочная для кого? Читайте комментарий выше: это пограничный случай, можно и так и эдак. Для одного клиента банка его ветхое здание не имеет роли, а для другого имеет. Поэтому здесь лучше даже выдавать MIXED (смешанную) метку тональности.

Синтаксис есть. Антецеденты у «ветхого здания» и «ВТБ» разные, но это ведь не меняет ситуативной связи между ними: банк находится в ветхом здании, что в свою очередь влияет на тональность.
не могу протестировать ваше API на примерах (платформа требует денег, регистрации, потом опять регистрации, потом опять денег).


денег совсем платить не нужно, чтобы потестировать. Нужно зарегистрироваться, выбрать BASIC план, указать кредитку (таковы требования mashape для Fremium API) и начать тестирование.

участвовали ли вы в конкурсе сентимент-анализаторов на «Диалоге» в этом году?

нет, в этом году, к сожалению не удалось, т.к. мы участвовали в другой дорожке и по другой теме.

а) Был недавно в ВТБ. Он расположен в ветхом здании на улице 1 мая. Но сам банк очень хороший.


Сейчас система выдаёт нейтральный класс, потому что этот случай можно в некотором смысле считать пограничным: вроде бы и позитив («банк хороший»), но вроде бы и негатив («в ветхом здании»). В этом случае анафора никак не поможет разрешить данный конфликт. Что можно сделать в таком случае — это усилить вес последнего предложения текста. Есть такой подход при вычислении тональности, когда первому (первым) и последнему (последним) предложениям текста придаётся бОльший вес, т.к. как делается предположение, что основная информация содержится именно в них.
Ссылка ведёт на наш сервис, видимо, не всегда что-то срабатывает. Скопировал на внешний ресурс:
http://pasteboard.co/1TPnkJqt.png
Стало интересно посмотреть, как наш синтаксический анализатор разбирает предложения. Получилось, например:

В комплекте помимо обычного ножа есть для пунктирной насечки.

image

По идее, Ваш метод будет точнее, если скрестить его с анализатором, натренировав CRF на авто-разметке.
Вы прямо так и конкатенируете JSON в прокадшен-коде (побежал писать твиты с большим количеством апострофов)? Любопытно, что в вашем примере после конкатенации валидный JSON вообще не получится: строки будут без кавычек. Это точно сработает?


Изначально текст и объект в примере были в апострофах, но перед публикацией я их зачем-то убрал. Поправил пост, спасибо. Пишите твиты, потестим :)

Это работает на контенте уровня твитов? Что ваш движок скажет про, например, такой отзыв (случайно выбранный на Yandex.Market):


Лучше уровня твитов, коротких заметок вконтакте. Т.е. то, где есть явный «message», окрашенный эмоционально. На данный момент для Ваших таргет-объектов все метки выдаются позитивные. Мы работаем над улучшением качества для более длинных, чем твиты, текстов.
У нас была одна собственная публикация на Диалоге 2012:
Kan D. Rule-based approach to sentiment analysis at ROMIP 2011. Komp’iuternaia Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoi Konferentsii “Dialog 2012″ // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2012″. Bekasovo, 2012.

где, в частности, показано качество 90% для позитивного класса. С тех пор мы подтянули и негативный класс.

На самом деле, будучи пользователем таких систем, я бы не смотрел на декларируемое качество, а проверял конкретно для своего домена и своих текстов.
Карта требуется для Freemium типов API. Если у вас есть необходимость проверить на бОльшем, чем 100 в день, количестве сообщений мы делаем разовые личные тарифные планы (пишите в личку или по почте dk[@]semanticanalyzer.info).

Метод основан на собственном алгоритме shallow parsing с применением машинного обучения. Более подробно можно посмотреть в видео доклада: www.youtube.com/watch?v=0qfK713BVW4

Точность варьируется в зависимости от домена — от 60-70% до 90% и выше.

Скорость высокая, среднее время на запрос (размера нескольких предложений) — 30-50 миллисекунд.
Карту требует платформа API mashape: выберите бесплатный тариф (100 сообщений в день = 3000 в месяц) и платить ничего не придётся.

Мы используем mashape, чтобы не прикручивать собственный биллинг + ради инструментов мониторинга API.

Information

Rating
Does not participate
Registered
Activity