Как стать автором
Обновить
3
0
Полина Тумина @cynadebk

Специалист social media listening

Отправить сообщение

Визуализация эмоций в диалогах людей и чат-ботов

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров542

Эмоции, наши самые древние союзники в борьбе за выживание, формируются в лимбической системе и выражаются в целой куче действий. Страх и отвращение помогают героям фильма совершить побег из Лас-Вегаса так же, как и их не таким уж  далеким предкам - убежать от хищников или не отравиться протухшей едой. Эта статья про словесное выражение эмоций в роликах на ютубе. Большая языковая модель размечает эмоции. На выходе -  визуализации диалоговых эмоций внутри трехмерного кубика с координатами по осям удовольствия, возбудимости и доминирования.

Читать далее
Всего голосов 4: ↑4 и ↓0+8
Комментарии1

Мультимодальный трансформер для content-based рекомендаций

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.9K

На первый взгляд может показаться, что ничего интересного в области RecSys не происходит и там всё давно решено: собираем взаимодействия пользователей и товаров, закидываем в какую-нибудь библиотеку, которая реализует коллаборативную фильтрацию, и рекомендации готовы. В то же время практически все остальные разделы машинного обучения перешли (NLP, CV, Speech) или экспериментируют (TimeSeries, Tabular ML) c нейросетевыми моделями на базе трансформеров. На самом деле, рекомендательные системы — не исключение, и исследования по применению трансформеров ведутся уже достаточно давно.  

Мы в команде ранжирования и рекомендаций, стараемся не отставать от последних достижений в области RecSys. Меня зовут Дима, я Data Scientist в Циан, и сегодня хочу поделиться нашим опытом использования мультимодальных трансформеров для content-based рекомендаций.

Читать далее
Всего голосов 14: ↑13 и ↓1+13
Комментарии5

Делаем обучающие датасеты для больших языковых моделей

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров7.4K

Дообучение больших языковых моделей на кастомных датасетах делает модели гораздо сообразительнее. Есть история успеха датасета alpaca. Он творит чудеса с моделями, которые сначала если и умели что-то делать, то делали это очень плохо. Мы решили понять, как это делается, а главное - какие проблемы есть на этом пути и могут ли новички вроде нас разобраться в этом. История взлетов и падений - под катом.

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии0

Визуализация комментариев ютуб-каналов международных и локальных touhou-сообществ

Время на прочтение5 мин
Количество просмотров4.9K
Всем привет! Мы развиваем идеи первого поста и продолжаем визуализировать и изучать комментарии на ютубе. На этот раз мы поработаем с глобальными и локальными ютуб-сообществами. Как взаимодействуют комментаторы, которые пишут на разных языках? Собирается ли из множества локальных групп единое глобальное сообщество, или дело сложнее, чем кажется? И причем здесь Touhou Project? Давайте выясним.


Читать дальше →
Всего голосов 25: ↑25 и ↓0+25
Комментарии11

Анализ тональности в русскоязычных текстах, часть 3: вызовы и перспективы

Время на прочтение14 мин
Количество просмотров10K


Анализ тональности успешно применяется для социальных сетей, отзывов, новостей и даже учебников. На основе ключевых исследований для русского языка, описанных в предыдущей статье, здесь мы рассмотрим основные вызовы, с которыми сталкиваются исследователи, а также перспективные направления на будущее. В отличие от предыдущих работ я сосредоточился на прикладном применении, а не на самих подходах и их качестве классификации.
Читать дальше →
Всего голосов 22: ↑22 и ↓0+22
Комментарии0

Анализ тональности в русскоязычных текстах, часть 2: основные исследования

Время на прочтение38 мин
Количество просмотров8.5K
image

Исследователи применяли анализ тональности для совершенно разных русскоязычных текстов: постов из соцсетей, отзывов, новостных статей и книг. Как следствие, результаты их исследований тоже были совершенно разными и крайне интересными. Например, кто бы мог подумать, что тексты с положительной тональностью делают обучение иностранному языку более интересным, но менее эффективным? В этой серии статей мы рассмотрим, как и для каких целей применялись подходы анализа тональности для русскоязычных текстов, каких результатов удалось достичь, какие проблемы возникали, а также немного поговорим о перспективных направлениях.

В отличие от предыдущих работ я сосредоточился на прикладном применении, а не на самих подходах и их качестве классификации. В первой статье мы обсудили, что такое «анализ тональности», какой он бывает и как его за последние 8 лет применяли для анализа русскоязычных текстов. В этой части мы детально рассмотрим каждое из 32 основных исследований, которые мне удалось найти. В третьей и заключительной части поговорим об общих сложностях, с которыми сталкивались исследователи, а также о перспективных направлениях на будущее.
Читать дальше →
Всего голосов 13: ↑12 и ↓1+24
Комментарии3

Анализ тональности в русскоязычных текстах, часть 1: введение

Время на прочтение13 мин
Количество просмотров18K
image
Анализ тональности стал мощным инструментом для масштабной обработки мнений, выражаемых в любых текстовых источниках. Практическое применение этого инструмента в английском языке довольно развито, чего не скажешь о русском. В этой серии статей мы рассмотрим, как и для каких целей применялись подходы анализа тональности для русскоязычных текстов, какие результаты удалось достичь, какие проблемы возникали, а также немного поговорим о перспективных направлениях. В отличие от предыдущих работ, я сосредоточился на прикладном применении, а не на самих подходах и их качестве классификации. Первая часть — вводная. Мы рассмотрим, что такое «анализ тональности», какой он бывает и как его за последние 8 лет применяли для анализа русскоязычных текстов. Во второй части детально рассмотрим каждое из 32 основных исследований, которые мне удалось найти. В третьей и заключительной части поговорим об общих сложностях, с которыми сталкивались исследователи, а также о перспективных направлениях на будущее.
Читать дальше →
Всего голосов 31: ↑31 и ↓0+31
Комментарии0

Как мы в Brand Analytics разработали Детектор сбоев и как вы можете помочь его улучшить

Время на прочтение9 мин
Количество просмотров2.3K

Привет, Хабр! Мы тут решили выйти из тени, на этот раз по-настоящему, технически, без маркетинговых текстов. А раз без маркетинга, то почитать про сам Brand Analytics можно на сайте или очень кратко под катом.

Меня зовут Островский Григорий, я CTO Brand Analytics. Сегодня расскажу, как за 4 недели мы запускали Детектор сбоев взамен ушедшему из рунета Downdetector: на какие задачки напоролись, как с ними боролись и как пришла идея — дать возможность сообществу улучшить определение сбоев на больших данных в нашем первом контесте.

Так как статью пишу здесь впервые, буду крайне признателен фидбеку, чтобы понять, на чём сделать больше акцент, нужно ли больше технических подробностей, какие темы остались не раскрыты и что ещё подкорректировать на будущее.

Читать дальше →
Всего голосов 7: ↑6 и ↓1+6
Комментарии1

Информация

В рейтинге
5 464-я
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Зарегистрирована
Активность