Как стать автором
Обновить

Семинар: языковые платформы, основанные на правилах и диалоговые AI системы

Время на прочтение 2 мин
Количество просмотров 841
Я пиарюсь
Завтра, 12 ноября 2011, в 17.00 состоится очередной семинар из цикла Автоматическая обработка естественного языка.

На семинаре будут представлены два доклада:
1. Насколько устарели языковые платформы, основанные на правилах?
2. Наш ответ Siri или построение системы диалогового AI для нового продукта i-Free

Читать дальше →
Всего голосов 19: ↑17 и ↓2 +15
Комментарии 2

Система мониторинга мнений методом поточечной взаимной информации

Время на прочтение 4 мин
Количество просмотров 4.7K
Data Mining *
Из песочницы
Здравствуйте.
Если вы занимаетесь DataMining, анализом текстов на выявление мнений или вам просто интересны статистические модели для оценки эмоциональной окраски предложений — эта статья может оказаться интересной.
Далее, чтобы не тратить время потенциального читателя впустую на груду теории и рассуждений, сразу краткие результаты.
Реализованный подход работает приблизительно с 55% точностью в трех классах: негативный, нейтральный, позитивный. Как говорит Википедия, 70% точность приблизительно равна точности человеческих суждений в среднем (в силу субъективности трактований каждого).
Следует отметить, что существует немало утилит с точностью выше полученной мной, но описанный подход, можно достаточно просто усовершенствовать (будет описано ниже) и получить в итоге 65-70%. Если после всего вышеизложенного у вас осталось желание читать — добро пожаловать под кат.
Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 10

Real-world text mining using machine learning

Время на прочтение 2 мин
Количество просмотров 1.9K
Я пиарюсь
21-ого апреля 2012 в рамках семинара по Автоматической обработке естественного языка состоится выступление Яна Жижки (Mendel University, Брно, Чехия).
Он прочитает доклад об использовании машинного обучения для извлечения информации из текстов. Будут рассмотрены применение различных алгоритмов и интерпретация результатов.
Отдельно будут показаны результаты по применению этих методов к реальным данным на примере анализа пользовательских отзывов на отели.
Доклад будет прочитан на английском языке.

Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 0

Yet another classifier

Время на прочтение 8 мин
Количество просмотров 12K
Python *Data Mining *Алгоритмы *

Вместо вступления


Лень — двигатель прогресса. Не хочешь сам молоть зерно — сделай мельницу, не хочешь сам кидать во врагов камни — сооруди катапульту, надоело гореть на кострах инквизиции и гнуть спину под феодалом — замути с ребятами ренессанс… впрочем, о чем это я.
Автоматизация, господа. Берешь какой-нибудь полезный процесс, в котором участвует человек, заменяешь человека на сложный механизм, получаешь профит. Относительно недавно также стало модно заменять человека куском кода. О, сколько благородных профессий может пасть под натиском информатизации. Особенно если учесть, что кусок кода в наше время способен не только на заранее определенное поведение, но и на «обучение» какому-то поведению.
Читать дальше →
Всего голосов 43: ↑36 и ↓7 +29
Комментарии 43

Обучаем компьютер чувствам (sentiment analysis по-русски)

Время на прочтение 12 мин
Количество просмотров 80K
Python *Алгоритмы *Natural Language Processing *


Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать дальше →
Всего голосов 90: ↑85 и ↓5 +80
Комментарии 40

Стэнфордская нейросеть определяет тональность текста с точностью 85%, код отдадут в Open Source

Время на прочтение 2 мин
Количество просмотров 32K
Open source *Алгоритмы *
Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением эмоциональной окраски текстов, подробнее см. в статье Irokez’а. Это очень важное направление машинного обучения: анализ тональности нужен для лучшего «понимания» текстов, перевода с одного языка на другой.

Сложность задачи заключается в непростых лингвистических конструкциях, которые часто используют люди. Даже человек не сразу распознает негатив во фразе вроде «В этой книге хороша только обложка». Как обучить этому компьютер?

Точность определения эмоций у лучших компьютерных программ до сегодняшнего дня составляла не более 80%. Группе учёных из Стэнфорда при участии небезызвестного Эндрю Нг удалось довести её до 85%, а при дальнейшем обучении рекурсивной нейросети точность вполне может повыситься до 95%, говорит один из авторов исследования. Заметим, что 95% — это будет абсолютно феноменальный результат, не все люди способы распознавать сарказм и определять тональность слов с такой точностью.
Читать дальше →
Всего голосов 82: ↑77 и ↓5 +72
Комментарии 33

InterSystems iKnow. Часть первая. iKnow и пляжный отдых

Время на прочтение 8 мин
Количество просмотров 4.9K
Блог компании InterSystems Data Mining *
Мне давно хотелось написать свою статью о технологии iKnow. Прошло уже три года с момента её появления, но публикаций о применениях этой технологии в русскоязычных решениях до сих пор не было. Объяснение этому довольно простое – не было полноценной поддержки русского языка. Но с каждым новым релизом, начиная с Cache 2013.1, ситуация менялась в лучшую сторону. И вот, наконец, мы решили реализовать первый проект на iKnow. О том, как это было, что получилось, а что нет, читайте далее в моей статье.
Читать дальше →
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 2

Анализ тональности текста с помощью Azure Machine Learning

Время на прочтение 8 мин
Количество просмотров 25K
Data Mining *Microsoft Azure *R *
Туториал
В этом посте я расскажу, как можно использовать Microsoft Azure Machine Learning для анализа тональности текста, а также с какими проблемами можно столкнуться в процессе использования Azure ML и как их можно обойти.

Что такое анализ тональности хорошо описано в статье «Обучаем компьютер чувствам (sentiment analysis по-русски)».
Нашей целью будет являться построение веб-сервиса, который принимает на вход некоторый текст и возвращает в ответ 1, если этот текст носит позитивный характер, и -1 — если негативный. Microsoft Azure Machine Learning идеально (почти) подходит для этой задачи, так как там есть встроенная возможность опубликовать результаты вычислений как веб-сервис и поддержка языка R — это избавляет от необходимости писать свои костыли и настраивать свою виртуальную машину/веб-сервер. В общем, все преимущества облачных технологий. К тому же, совсем недавно было объявлено, что все желающие могут попробовать Azure ML даже без аккаунта Azure и кредитной карточки — необходим только Microsoft Account.
Читать дальше →
Всего голосов 35: ↑29 и ↓6 +23
Комментарии 16

Анализ тональности текста в Excel с помощью Azure Machine Learning и Power Query

Время на прочтение 3 мин
Количество просмотров 13K
Data Mining *Microsoft Azure *
Туториал
Перевод
Возможно, вы видели пост Joseph Sirosh на прошлой неделе о возможности опубликовать модели Azure Machine Learning в Azure Marketplace, и что MS уже опубликовало некоторое количество API. Для Excel есть специальный аддон, который может используется для доступа к этим API, но я заметил, что как минимум одно API (Sentiment Analysis API) может использоваться напрямую через Power Query.

Для того, чтобы сделать это, сперва вам необходимо зайти в Azure Marketplace, войти под вашим Microsoft-аккаунтом и подписаться на Lexicon Based Sentiment Analysis API. В документации говориться, что у вас есть 25000 транзакций в месяц бесплатно. API как таковое очень простое: передайте предложение для оценки, и вам в ответ придет оценка от -1 до 1, где 1 означает положительную тональность, а -1 отрицательную. Для примера, выражение «I had a good day» возвращает значение 1:


Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 6

Анализ тональности высказываний в Twitter: реализация с примером на R

Время на прочтение 10 мин
Количество просмотров 18K
Блог компании Инфопульс Украина Data Mining *Twitter API *R *Визуализация данных *
Туториал
Перевод
Социальные сети (Twitter, Facebook, LinkedIn) — пожалуй, самая популярная бесплатная доступная широкой общественности площадка для высказывания мыслей по разным поводам. Миллионы твитов (постов) ежедневно — там кроется огромное количество информации. В частности, Twitter широко используется компаниями и обычными людьми для описания состояния дел, продвижения продуктов или услуг. Twitter также является прекрасным источником данных для проведения интеллектуального анализа текстов: начиная с логики поведения, событий, тональности высказываний и заканчивая предсказанием трендов на рынке ценных бумаг. Там кроется огромный массив информации для интеллектуального и контекстуального анализа текстов.

В этой статье я покажу, как проводить простой анализ тональности высказываний. Мы загрузим twitter-сообщения по определенной теме и сравним их с базой данных позитивных и негативных слов. Отношение найденных позитивных и негативных слов называют отношением тональности. Мы также создадим функции для нахождения наиболее часто встречающихся слов. Эти слова могут дать полезную контекстуальную информацию об общественном мнении и тональности высказываний. Массив данных для позитивных и негативных слов, выражающих мнение (тональных слов) взят из Хью и Лью, KDD-2004.

Реализация на R с применением twitteR, dplyr, stringr, ggplot2, tm, SnowballC, qdap и wordcloud. Перед применением нужно установить и загрузить эти пакеты, используя команды install.packages() и library().
Читать дальше →
Всего голосов 20: ↑18 и ↓2 +16
Комментарии 4

Автоматическое определение тональности текста (Sentiment Analysis)

Время на прочтение 7 мин
Количество просмотров 53K
Python *Машинное обучение *
Из песочницы
За недолгое время моего процесса обучения я понял одну вещь – знаниями нужно делиться. Осознал я это давно, но лень перебороть и найти время не всегда получается.

Речь в этой статье пойдет про использование различных методов машинного обучения для решения проблем, связанных с обработкой естественного языка (NLP). Одной из таких проблем является автоматическое определение эмоциональной окраски (позитивный, негативный, нейтральный) текстовых данных, то есть анализа тональности (sentiment analysis). Цель этой задачи состоит в определении, является ли данный текст (допустим обзор фильма или комментарии) положительным, отрицательным или нейтральным по своему влиянию на репутацию конкретного объекта. Трудность анализа тональности заключается в присутствии эмоционально обогащенного языка — сленг, многозначность, неопределенность, сарказм, все эти факторы вводят в заблуждение не только людей, но и компьютеров.



На хабре уже не раз появлялись статьи связанные с определением тональности 1, 2, 3. Да и вообще, эта тема является одной из самых обсуждаемых во всем мире в последнее время [1, 2, 3, 4].

Сразу обговорю, что в этой статье особо никаких новшеств вы не найдете, данный материал скорее всего может послужит туториалом для новичков в сфере машинного обучения и NLP, коим я и являюсь. Основной же материал, который я использовал вы можете найти по этой ссылке. Весь исходный код вы можете найти по этой ссылке.

Итак, в чем же состоит проблема и как ее решить?
Читать дальше →
Всего голосов 18: ↑15 и ↓3 +12
Комментарии 12

Data-mining и Твиттер

Время на прочтение 5 мин
Количество просмотров 7.8K
Data Mining *Twitter API *R *

Среди социальных сетей Твиттер более других подходит для добычи текстовых данных в силу жесткого ограничения на длину сообщения, в которое пользователи вынуждены поместить все самое существенное.


Предлагаю угадать, какую технологию обрамляет это облако слов?


Облако


Используя Твиттер API можно извлекать и анализировать самую разнообразную информацию. Статья о том, как это осуществить с помощью языка программирования R.

Читать дальше →
Всего голосов 18: ↑18 и ↓0 +18
Комментарии 8

Ваш первый BERT: иллюстрированное руководство

Время на прочтение 8 мин
Количество просмотров 26K
Машинное обучение *
Туториал
Перевод

bert-distilbert-sentence-classification


Прогресс в области машинного обучения для обработки естественного языка существенно ускорился за последние несколько лет. Модели покинули исследовательские лаборатории и стали основой ведущих цифровых продуктов. Хорошей иллюстрацией этому служит недавнее заявление о том, что основным компонентом, стоящим за поиском Google, стала модель BERT. Google верит, что этот шаг (т.е. внедрение передовой модели понимания естественного языка в поисковую систему) представляет собой «величайший прорыв за последние пять лет и один из знаменательнейших во всей истории поисковых систем».


Данная статья – это простое руководство по использованию одной из версий BERT'а для классификации предложений. Пример, рассмотренный нами, одновременно и достаточно простой для первого знакомства с моделью, и достаточно продвинутый для того, чтобы продемонстрировать ключевые концепты.


Помимо этой статьи был подготовлен ноутбук, который можно посмотреть в репозитории или запустить в Colab.

Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 6

Алгоритм для рейтинга комментариев, поощряющий хорошие аргументы

Время на прочтение 4 мин
Количество просмотров 5.2K
Семантика *Машинное обучение *Социальные сети и сообщества

Сайты вроде Хабра, Пикабу, Реддита, и Hacker News имеют древовидные системы комментариев к постам. Зарегистрированные пользователи могут голосовать за комментарии. Сайты используют рейтинги комментариев двумя способами:

- Управляют вниманием читателей комментариев. "Лучшие" комментарии отображаются сразу под постом, "худшие" - в подвале. Хабр почти не управляет вниманием читателей: он лишь блюрит "плохие" комментарии, но не переупорядочивает их. Впрочем, я (как наверное и многие другие читатели) часто листаю комментарии только цепляясь взглядом за двузначное значение рейтинга.

- Дают какие-то плюшки авторам "хороших" комментариев. Например, в некоторых сабреддитах нужно иметь определенный рейтинг комментариев в данном сабреддите чтобы опубликовать пост.

Кроме того, рейтинг комментариев, естественно, влияет на их авторов: положительный рейтинг поощряет авторов писать больше таких комментариев, а отрицательный - меньше. Таким образом, рейтинги комментариев еще неявно влияют на дискуссию на сайте.

Читать далее
Всего голосов 27: ↑23 и ↓4 +19
Комментарии 67

Асимметричный анализ тональности деловых новостей

Время на прочтение 8 мин
Количество просмотров 3K
Блог компании Neoflex Машинное обучение *Искусственный интеллект Natural Language Processing *

В этой статье мы рассмотрим подход к асимметричному анализу тональности деловых новостей. Главная особенность задачи заключается в том, что нам хотелось бы понять не просто тональную окраску всей новости, а тональность относительно конкретной сущности-организации в тексте. То есть в одном и том же тексте мы ожидаем получать разный сантимент для разных компаний.

Читать далее
Рейтинг 0
Комментарии 3

GoEmotions — набор данных для детализированной классификации эмоций

Время на прочтение 7 мин
Количество просмотров 966
Машинное обучение *
Перевод

Эмоции являются ключевым аспектом социальных взаимодействий, который влияет на поведение людей и формирует межличностные отношения. Это особенно характерно для языка: всего несколькими словами мы можем выразить большое количество очень тонких и сложных эмоций. Вот почему на протяжении долгого времени в научном сообществе стоит цель научить машины понимать контекст и эмоции, что, в свою очередь, позволит создавать множество приложений, таких как чат-боты, обладающие эмпатией, модели определения токсичного поведения в интернете и улучшенные системы поддержки клиентов.


В последнее десятилетие сообщество NLP-исследователей сделало доступным несколько наборов данных для классификации эмоций на основе языковых данных. Большая часть из них были созданы вручную и включают в себя тексты определенной предметной области (например, новостные заголовки, субтитры фильмов и даже сказки), однако в основном имеют достаточно скромный размер или сосредоточены всего на 6 базовых эмоциях (гнев, удивление, отвращение, радость, страх и печаль), предложенных в 1992 году. Хотя эти наборы данных позволили начать первые исследования в области классификации эмоций, они также подсветили необходимость создания более объемного набора данных, содержащего более детализированный перечень эмоций, которые можно было бы применить в более широком кругу потенциальных приложений.

Читать дальше →
Всего голосов 2: ↑1 и ↓1 0
Комментарии 0

Сравнительный анализ тональности комментариев в YouTube (осторожно, ненормативная лексика)

Время на прочтение 18 мин
Количество просмотров 16K
Машинное обучение *Научно-популярное
Туториал

Привет! Чем еще заняться на каникулах любителю Data Scienсe как не анализом тональности комментариев под новогодними обращениями?! На эту мысль меня натолкнули алгоритмы YouTube, выдавшие к просмотру первого января 2022 года два видео, с очень разными по эмоциональной окраске комментариями.

Тогда я подумал, что пошаговый разбор решения задачи классификации этих комментариев по их тональности мог бы стать довольно наглядным примером для знакомства с базовыми техниками обработки естественного языка, а о том, насколько это получилось предлагаю судить вам.

Читать далее
Всего голосов 52: ↑43 и ↓9 +34
Комментарии 16