Comments / Profile of arreqe / Habr

Arman Zharmagambetov@arreqe

User

Subscribers

Автоматическое определение тональности текста (Sentiment Analysis)

arreqe Jun 23 2017 at 11:16

Подход 1 в этой статье один из самых простых методов представления текста в виде вектора. Если не понятно давайте разберем пример, который дан в этой статье:

Есть словарь, где мы собираем все наши слова и сортируем, допустим — [biography, cinema, feature, film, going, originally, part, remember, see], т.е. понятно, что на самом деле в конечном словаре их намного больше. Но для упрощение представим, что в нашей базе только эти 9 слов. У каждого из них есть порядковый номер: biography — 0, cinema — 1, и т.д. Далее для каждого документа создаем вектор (ну или массив если слово вектор вводит Вас в заблюждение) длиною кол-ву слов в словаре (т.е. 9) изначально все заполненные нулями, назовем его v = [0,0,0,0,0,0,0,0,0]. Затем, если в тексте встретилось слово biography, значит v[0] = 1, и т.д.

LSTM – сети долгой краткосрочной памяти

arreqe Jun 23 2017 at 09:18

1. А где про сам процесс обучения? Заметил, что на хабре большинство статьей про RNN содержит просто структуру и архитектуру LSTM/GRU и т.д. Но упускается сам процесс обучения или только мельком упоминается, т.е. Backprogatation through times, там ведь немало нюансов…

2. «К счастью, LSTM не знает таких проблем!». Согласен, что LSTM помогает решить эту проблему. Но не окончательно, все же vanishing/exploiding gradient присутствует и в LSTM. В качестве примера:
https://arxiv.org/pdf/1506.00019.pdf
Да и в целом, в сети множество обсуждений по этому поводу. Плюс, было бы полезно проиллюстрировать наглядно проблему vanishing/exploiding gradient и как LSTM ее решает.

Русский нейросетевой чатбот

arreqe Jun 21 2016 at 09:39

Здравствуйте!
1. Хочу уточнить по архитектуре 1 и 2. Если я правильно понял, у Вас есть объединенный вектор контекста слова и объединенный вектор ответа. На выходе вектор размерностью N (вектор слова, контекст которого мы берем как input). Схематично это можно представить так:
у нас есть некое предложение и разбиваем по словам, допустим наши слова — (w1,w2,w3,w4,w5), затем есть ответ, разбиваем предложение, и представим его в виде — (a1,a2,a3,a4,a5,a6). Получается на входе мы имеем (w1, ,w3,w4,w5) + (a1,a2,a3,a4,a5,a6), а на выходе должно быть — w2?
2. Такой же вопрос по архитектуре LSTM, что дается сети на вход более менее понятно, а что на выходе? если это вектора ответов, значит у Вас там действует схема Encoder-Decoder?
Спасибо!

Как мы делали систему выделения информации из текста на естественном языке для банка АО «Банк ЦентрКредит» (Казахстан)

arreqe Jun 1 2016 at 10:10

Здравствуйте, интересная статья. Но хотелось бы по подробнее про признаки, так как сами понимаете, что Feature Engineering не менее важен самого алгоритма машинного обучения. Судья по тому что у Вас RNN скорее всего используется word2vec, так ли это?

Как навести порядок в почтовом ящике с помощью нейронной сети. Часть 1

arreqe Mar 27 2016 at 12:19

Не думаю что с Bag-of-words можно достичь высоких результатов (>90%) какую бы крутую нейронную сеть Вы не использовали бы… Как на счет использования word embeddings (GloVe, word2vec) или что-то в этом вроде?

Байесовская нейронная сеть — потому что а почему бы и нет, черт возьми (часть 1)

arreqe Feb 29 2016 at 09:30

Hi, в разве теорема Байеса не P(theta | X) = P(X | theta) P(theta) / P(X), а не P(theta | X) = P(theta | X) P(theta) / P(X)? Или я что-то путаю, т.к. прогулял эту лекцию по ТВИМС ?)

Подборка: Более 70 источников по машинному обучению для начинающих

arreqe Feb 4 2016 at 06:29

А какже знаменитый курс от Стэнфордского профессора Эндрю Энг (Andrew Ng) на coursera: www.coursera.org/learn/machine-learning

Эксперимент: Можно ли создать эффективную торговую стратегию с помощью машинного обучения и исторических данных

arreqe Oct 24 2015 at 04:37

Очень интересно, еще одно доказательство расстущей популярности машинного обучения. A про признаках по подробнее можно — что входило в вектор признаков? Зачем понадобился РСА, неужели пространство настолько стало большим? Данные, которые использовались для экспериментов, можно ли их достать, чтобы самому поиграться?

Алгоритм извлечения информации в ABBYY Compreno. Часть 2

arreqe Oct 23 2015 at 08:34

Для формирований правил мешков утверждений используются ли корпуса?

Автоматическое определение тональности текста (Sentiment Analysis)

arreqe Jul 21 2015 at 19:36

Здравствуйте! Все верно, речь идет о данных, которые взяты с учебного соревнования. Я попробовал испытать тестовые данные используя Bag-Of-Words + Logistic Regression, но выше чем 0,87 не поднялся. Этот вопрос в форуме я почему-то не заметил, попробую поиграться с их скриптом. Спасибо!
А на счет десяток минут времени, Bag-of-words действительно занимает не более 3-4 минут, а вот обучение word2vec+кластерирезация+обучение заняло с моим ноутбуком больше часа времени.

Автоматическое определение тональности текста (Sentiment Analysis)

arreqe Jul 21 2015 at 14:34

Ну тут уже прямиком на использование Big Data. Но на мой взгляд такие словари являются сильно зашумленными, то есть множество слов можно отсеять по частотной характеристике. Или же сделать что-то наподобие подхода 2 в этой статье.

Автоматическое определение тональности текста (Sentiment Analysis)

arreqe Jul 21 2015 at 12:40

NER (Named Entity Recognition) — это выделение из текстов именованных сущностей (такие как собственные имена, местоимения). Уже немало попыток было сделано для использования w2v для выделения NER. Думаю, Вам лучше взглянуть сюда www.aclweb.org/anthology/W15-1830 или же сюда datascience.stackexchange.com/questions/492/word2vec-for-named-entity-recognition.
В реальных задачах, я по крайней мере, выше чем 75-80% не поднимался. Но думаю есть и результаты получше. Например — nlp.stanford.edu/sentiment. Здесь они используют глубокие нейронные сети для анализа тональности.

Автоматическое определение тональности текста (Sentiment Analysis)

arreqe Jul 21 2015 at 12:33

Согласен с Вами, но даже word2vec/glove не решены таких недостатков как омонимия, многозначность, и т.д. Также во многих случаях нужно учитывать синтаксическую структуру языка. Для достижения лучших результатов одного машинного обучения думаю не достаточно. Нужно использовать гибридные методы (машинное обучение + rule based) для которых в свою очередь нужны размеченные корпуса (с размеченной морфологией и синтаксисом).