Pull to refresh
21
13
Subscribers
Send message

Кластеризация текстовых документов по семантическим признакам (часть вторая: описание моделей)

Reading time6 min
Reach and readers12K

Модели Word2Vec


Как было упомянуто в первой части публикации, модели получаются из classes — представления результата текста word2vec виде ассоциативно-семантических классов путем сглаживания распределений.

Идея сглаживания в следующем.
Читать дальше →

Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)

Reading time6 min
Reach and readers33K
Существует огромное количество алгоритмов кластеризации. Основная идея большинства из них – объединить одинаковые последовательности в один класс или кластер на основе сходства. Как правило, выбор алгоритма определяется поставленной задачей. Что касается текстовых данных, то здесь сравниваемыми составляющими служат последовательности слов и их атрибутов (например, вес слова в тексте, тип именованной сущности, тональность и пр.). Таким образом, тексты изначально преобразуются в вектора, с которыми производят разного типа манипуляции. При этом, как правило, возникает ряд проблем, связанных с: выбором первичных кластеров, зависимостью качества кластеризации от длины текста, определением общего количества кластеров и т.п. Но наиболее сложной проблемой является отсутствие связи между близкими по смыслу текстами, в которых используется разная лексика. В таких случаях объединение должно происходить не только на основе сходства, а еще и на основе семантической смежности или ассоциативности.


Читать дальше →

Элементарно, Ватсон, или анализ соцмедиа по-айбиэмовски

Reading time6 min
Reach and readers4.4K
21 век можно по праву назвать веком социальных медиа. Бесчисленное количество постов, репостов, ответов на посты и комментариев, сотни ежесекундно загружаемых видео на Ютьюб и фотографий в Инстаграмм. Если ты не в сети — ты не в тренде. Крупнейшие университеты (как, например Массачусетский Институт Технологий MIT) выкладывают онлайн лекции и учебники. Вопросы, затрагивающие самые разные темы от политики и культуры до кулинарии и особенностей выполнения той или иной асаны в йоге, теперь обсуждаются не только и не столько на кухне или в курилке, а на интернет форумах. Что лучше? Правильная ли экранизация у книги? В том ли направлении двигается сюжет полюбившегося сериала? Будет ли новая модель телефона успешней и круче, чем у конкурентов? Сегодня на эти вопросы отвечает анализ биг дата, да и системы, производящие подобные исследование на данных социальных медиа, хотя еще и не вчерашний день, но уж утро сегодняшнего точно. Одна из подобных систем создана гигантом в сфере программного обеспечения и носит гордое имя верного соратника британского детектива. Стоит отметить, что речь пойдёт лишь о системе аналитики соцмедиа (IBM Watson Analytics for Social Media), а это лишь часть знаменитой когнитивной системы Watson, и приведенные ниже плюсы и минусы касаются непосредственно данного сервиса, который для простоты упоминания в дальнейшем условимся называть просто Ватсоном.
Читать дальше →

Четыре слова, которые нельзя (часть 2)

Reading time4 min
Reach and readers13K
По просьбе хабрачан продолжим публикации об исследовании обсценной лексики. (Если кто не читал первую часть, то можете ознакомиться).

Начнем сразу с картинок.

Итак, картинка первая.


Рис.1. Распределение обсценной лексики по источникам.
Читать дальше →

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

Reading time5 min
Reach and readers34K
Один мой приятель, учитель латинского языка, в начале урока спрашивал своих студентов, выполнили ли они домашнее задание. Как правило, если не первый, то второй или третий ученик сознавался: простите, господин Учитель, я ничего не сделал. «Фак!» — говорил учитель. «Фак!» — повторял он, вводя в еще большее недоумение своих чад. «Сегодня мы будем проходить глагол третьего спряжения facio делать», который в повелительном наклонении единственного числа так и произносится: fac! – делай!

Нет, мы не собираемся витийствовать о том, что не бывает хороших и плохих слов, а есть наша оценка оных. Также мы не будем говорить об истоках и функциях русской брани, не будем обсуждать моральную сторону вопроса, как и искать причинно-следственные связи ее употребления. Мы проведем небольшое исследование обсценной лексики на материалах русскоязычных соц. медиа, сделаем ряд замеров и расчетов на большой выборке из интернет-источников.
Читать дальше →

Information

Rating
Does not participate
Registered
Activity