Comments / Profile of DKey / Habr

Дмитрий Кан@DKey

Разработчик, team lead, CEO

Subscribers

DKey Sep 4 2017 at 12:12

Бывают, что знания необходимы не постоянно, а периодически. Например, вы готовитесь выступить с речью и хотите запомнить яркую фразу.

Другой use case: у вас появляются мысли, которые можно записать в блокнот и… забыть, а можно поместить в приложение, которое напомнит вам для последующего развития идеи.

Insider API: поиск трендов и быстрая навигация в текстах соц. и традиционных медиа

DKey May 19 2016 at 07:29

Спасибо за доверие. В следующий раз — обязательно.

Insider API: поиск трендов и быстрая навигация в текстах соц. и традиционных медиа

DKey May 18 2016 at 17:17

Это правда. Остался открытым Graph API, при помощи которого можно загрузить странички-хабы по брендам / политике / спорту и тд с комментариями, лайками и тд. Помимо этого есть scrappers (например: http://scrapy.org/).

Insider API: поиск трендов и быстрая навигация в текстах соц. и традиционных медиа

DKey May 18 2016 at 17:00

Дело в том, что данная публикация преследует ознакомительную цель с данным продуктом. А относится ли это к разработке — имхо, да. Ведь продукты на основе данного API вполне себе разработка.

Insider API: поиск трендов и быстрая навигация в текстах соц. и традиционных медиа

DKey May 18 2016 at 12:25

Добавлено описание взаимодействия с end-point'ами.

-1

Insider API: поиск трендов и быстрая навигация в текстах соц. и традиционных медиа

DKey May 18 2016 at 12:08

мне действительно не доступен хаб «Я пиарюсь». Поэтому на посте есть тэг.

Insider API: поиск трендов и быстрая навигация в текстах соц. и традиционных медиа

DKey May 18 2016 at 11:09

спасибо за рекомендации. Data mining — например, извлечение адресов из текстов. Какой хаб вы бы порекомендовали?

-2

Insider API: поиск трендов и быстрая навигация в текстах соц. и традиционных медиа

DKey May 18 2016 at 11:08

Чем старше данные, тем меньше вопросов от соответствующих организаций. Для новых данных система тоже работает.

Insider API: поиск трендов и быстрая навигация в текстах соц. и традиционных медиа

DKey May 18 2016 at 11:07

Кредитка не нужна для теста: скиньте свой mashape id и я сделаю личный план.

Шпаргалка Java программиста 2: Триста пятьдесят самых популярных не мобильных Java opensource проектов на github

DKey Sep 17 2015 at 19:52

Привет, спасибо за классный сборник. Хочется порекламировать популярный тулбокс для удобного анализа и работы с индексами lucene / solr / elasticsearch: luke. github.com/DmitryKey/luke Проект уже используется в таких проектах, как Hibernate, Jackrabbit Oak.

Анализ тональности в социальных медиа на русском языке при помощи RussianSentimentAnalyzer API

DKey Jul 14 2015 at 21:09

Т.е. Вы, вероятно, имеете ввиду градацию меток тональности больше, чем на три класса: 5 или 7 и так далее. Силу тональности мы ещё не подключали, но принципиально в системе эта информация присутствует. Если Вам интересно потестировать такой алгоритм, будем рады обсудить в личном порядке.

Анализ тональности в социальных медиа на русском языке при помощи RussianSentimentAnalyzer API

DKey Jul 14 2015 at 13:43

мой ответ в ветке выше — нажал не на ту ссылку.

Анализ тональности в социальных медиа на русском языке при помощи RussianSentimentAnalyzer API

DKey Jul 13 2015 at 14:08

у вас в системе возможны только два ответа: позитивный и негативный?

три: позитивный, негативный, нейтральный

при анализе примера ниже оба объекта окажутся на одном уровне?
а) Пепси-кола очень вкусная, а кока-кола — самый лучший напиток на свете.
будет ли между ними какая-то разница?

для обоих объектов выдаётся позитивная тональность. А какая ожидается разница?

Если пример переделать в: Пепси-кола очень вкусная, а кока-кола самый ужасный напиток на свете.

то для пепси-кола получаем позитивную, а для кока-кола негативную тональности.

если при анализе примера из моего прошлого комментария оценка у ВТБ оказывается нейтральная, это значит, что анализотор работает ошибочно. Есть ли у вас синтаксис? понимает ли парсер, что ветхое здание — это одна именная группа, не имеющая общего антецедента с ВТБ?

ошибочная для кого? Читайте комментарий выше: это пограничный случай, можно и так и эдак. Для одного клиента банка его ветхое здание не имеет роли, а для другого имеет. Поэтому здесь лучше даже выдавать MIXED (смешанную) метку тональности.

Синтаксис есть. Антецеденты у «ветхого здания» и «ВТБ» разные, но это ведь не меняет ситуативной связи между ними: банк находится в ветхом здании, что в свою очередь влияет на тональность.

Анализ тональности в социальных медиа на русском языке при помощи RussianSentimentAnalyzer API

DKey Jul 13 2015 at 13:22

не могу протестировать ваше API на примерах (платформа требует денег, регистрации, потом опять регистрации, потом опять денег).

денег совсем платить не нужно, чтобы потестировать. Нужно зарегистрироваться, выбрать BASIC план, указать кредитку (таковы требования mashape для Fremium API) и начать тестирование.

участвовали ли вы в конкурсе сентимент-анализаторов на «Диалоге» в этом году?

нет, в этом году, к сожалению не удалось, т.к. мы участвовали в другой дорожке и по другой теме.

а) Был недавно в ВТБ. Он расположен в ветхом здании на улице 1 мая. Но сам банк очень хороший.

Сейчас система выдаёт нейтральный класс, потому что этот случай можно в некотором смысле считать пограничным: вроде бы и позитив («банк хороший»), но вроде бы и негатив («в ветхом здании»). В этом случае анафора никак не поможет разрешить данный конфликт. Что можно сделать в таком случае — это усилить вес последнего предложения текста. Есть такой подход при вычислении тональности, когда первому (первым) и последнему (последним) предложениям текста придаётся бОльший вес, т.к. как делается предположение, что основная информация содержится именно в них.

-1

Простой метод для извлечения соотношений и фактов из текста

DKey Jul 12 2015 at 09:21

Ссылка ведёт на наш сервис, видимо, не всегда что-то срабатывает. Скопировал на внешний ресурс:
http://pasteboard.co/1TPnkJqt.png

Простой метод для извлечения соотношений и фактов из текста

DKey Jul 12 2015 at 07:56

Стало интересно посмотреть, как наш синтаксический анализатор разбирает предложения. Получилось, например:

В комплекте помимо обычного ножа есть для пунктирной насечки.

По идее, Ваш метод будет точнее, если скрестить его с анализатором, натренировав CRF на авто-разметке.

Анализ тональности в социальных медиа на русском языке при помощи RussianSentimentAnalyzer API

DKey Jul 11 2015 at 06:29

Вы прямо так и конкатенируете JSON в прокадшен-коде (побежал писать твиты с большим количеством апострофов)? Любопытно, что в вашем примере после конкатенации валидный JSON вообще не получится: строки будут без кавычек. Это точно сработает?

Изначально текст и объект в примере были в апострофах, но перед публикацией я их зачем-то убрал. Поправил пост, спасибо. Пишите твиты, потестим :)

Это работает на контенте уровня твитов? Что ваш движок скажет про, например, такой отзыв (случайно выбранный на Yandex.Market):

Лучше уровня твитов, коротких заметок вконтакте. Т.е. то, где есть явный «message», окрашенный эмоционально. На данный момент для Ваших таргет-объектов все метки выдаются позитивные. Мы работаем над улучшением качества для более длинных, чем твиты, текстов.

Анализ тональности в социальных медиа на русском языке при помощи RussianSentimentAnalyzer API

DKey Jul 11 2015 at 06:23

У нас была одна собственная публикация на Диалоге 2012:
Kan D. Rule-based approach to sentiment analysis at ROMIP 2011. Komp’iuternaia Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoi Konferentsii “Dialog 2012″ // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2012″. Bekasovo, 2012.

где, в частности, показано качество 90% для позитивного класса. С тех пор мы подтянули и негативный класс.

На самом деле, будучи пользователем таких систем, я бы не смотрел на декларируемое качество, а проверял конкретно для своего домена и своих текстов.

Анализ тональности в социальных медиа на русском языке при помощи RussianSentimentAnalyzer API

DKey Jul 10 2015 at 20:12

Карта требуется для Freemium типов API. Если у вас есть необходимость проверить на бОльшем, чем 100 в день, количестве сообщений мы делаем разовые личные тарифные планы (пишите в личку или по почте dk[@]semanticanalyzer.info).

Метод основан на собственном алгоритме shallow parsing с применением машинного обучения. Более подробно можно посмотреть в видео доклада: www.youtube.com/watch?v=0qfK713BVW4

Точность варьируется в зависимости от домена — от 60-70% до 90% и выше.

Скорость высокая, среднее время на запрос (размера нескольких предложений) — 30-50 миллисекунд.

Анализ тональности в социальных медиа на русском языке при помощи RussianSentimentAnalyzer API

DKey Jul 10 2015 at 19:53

Карту требует платформа API mashape: выберите бесплатный тариф (100 сообщений в день = 3000 в месяц) и платить ничего не придётся.

Мы используем mashape, чтобы не прикручивать собственный биллинг + ради инструментов мониторинга API.

2 3 4