Comments / Profile of sismetanin / Habr

Engineering Manager

Profile Publications 14Comments 11Bookmarks

Анализ тональности в русскоязычных текстах, часть 2: основные исследования

sismetanin Oct 24 2020 at 15:44

Спасибо!
Да, проблема с низким уровнем inter-rater agreement однозначно есть, и к ее решению можно подходить разными способами. Один из них – создание четких и пошагово расписанных гайдлайнов для аннотации тестов, которые особо важны при разметке силами асессоров без лингвистической подготовки. В заключительной статье есть раздал про это.

Look

Автоматическое определение эмоций в текстовых беседах с использованием нейронных сетей

sismetanin Aug 16 2019 at 11:06

Нет, с SAP HANA не работал. Не уверен, что коммерческие решения подобного рода можно использовать в SemEval.

Look

In-App Updates: ускоряем процесс обновления приложения на Android

sismetanin Jun 14 2019 at 10:41

вы внедрили супер фоновый режим IAUs

In-App Updates – это новый механизм обновления приложений, который позволяет через Google Play получать информацию о доступных для обновления версиях, отображать нативное диалоговое окно Google Play для обновления приложения, загружать обновление в фоне и устанавливать его. Таким образом, IAUs – это гораздо больше, чем просто загрузка в фоне.

пользователи обновлялись не потому что вы внедрили супер фоновый режим IAUs, а просто потому что предложили обновиться?

Да, именно это и проверялось в рамках A/B-теста. Одной группе пользователей был
показан диалог IAUs с предложением обновиться, а другой группе – нет.

Look

In-App Updates: ускоряем процесс обновления приложения на Android

sismetanin Jun 14 2019 at 10:32

Спасибо за вопрос!
Коллеги из Google говорили, что пока что у них нет синхронизации загрузки с автоматическими обновлениями через Google Play. Так что теоретически возможна ситуация, когда APK будет скачан дважды.

Look

In-App Updates Flexible Flow: Speed Up the App Update Process on Android

sismetanin May 20 2019 at 13:38

Thank you for your comment, that's a complicated question concerning user behaviour issues. Within our research, we didn't deep dive into the reasons for the user decision to update or not to update the app. Obviously, in order to provide an answer to this question, it's necessary to conduct a broader UX research, that probably goes beyond the basic A/B test.

Look

In-App Updates: ускоряем процесс обновления приложения на Android

sismetanin May 17 2019 at 20:32

Да, все верно.

Look

Google News и Лев Толстой: визуализация векторных представлений слов с помощью t-SNE

sismetanin Dec 14 2018 at 15:15

Тоже склоняюсь к варианту с русскими и французскими словами, но однозначно дать ответ на вопрос не могу, так как необходимо более подробно изучать данные.

Look

Firebase Summit 2018: коротко о главном

sismetanin Nov 16 2018 at 15:33

В этом направлении двигается Microsoft с Visual Studio App Center.

Look

Анализ тональности текстов с помощью сверточных нейронных сетей

sismetanin Sep 11 2018 at 11:16

Проверяли ошибку на неразмеченных твитах, какая она там?

Какую ошибку имеете в виду? Точность, полноту и F-меру там нельзя посчитать из-за того, что данные не размечены по классам тональности.

ttype есть еще нейтральные вроде, может если сделать 3 класса и упростить модель (не вижу смысла в такой сложно если последовательная дает примерно ту же ошибку) — ошибка будет меньше?

Касательно добавления еще одного класса, скорее всего, качество классификации упадет. Это подтверждется результатами соревнования SemEval-2017 Task 4: Sentiment Analysis in Twitter: при бинарной классификации (Subtask B) удалось достичь показателя точности (accuracy) 0.882, когда при классификации на три класса (Subtask A) максимальная точность составила лишь 0.681. При подведении итогов организаторы отметили, что такая разница преимуществено обусловлена разным количеством классов.
По поводу сложности модели, я хотел рассмотреть именно применение сверточных нейронных сетей. Обоснование выбранной архитектуры описал в разделе «Архитектура».

в русском языке в отличие от английского одно и то же слово может быть токенизировано множеством вектором по вашему коду, так как есть суффиксы и окончания

Да, я не рассматривал стемминг и нормализацию для уменьшения размера словаря, но упомянул их в заключении. Эти техники действительно могут увеличить качество работы классификатора.
Не могу полностью согласиться, что такой проблемы нет в английском языке. Все таки там тоже есть суффиксы и окончания, но их гораздо меньше, чем в русском. К примеру, там есть окончание s, указывающее на множественное число.

Look

Анализ тональности текстов с помощью сверточных нейронных сетей

sismetanin Sep 10 2018 at 10:23

Спасибо, исправил, должно быть по 10. Обучал модель именно с таким количеством слоев для каждой высоты.

Look

Анализ тональности текстов с помощью сверточных нейронных сетей

sismetanin Sep 7 2018 at 14:12

Спасибо за отзыв!

а почему сравнивается с MNB, а не с RNN сетями, которые сильно лучше на данной задаче?

Поскольку статья обзорно-вводная, я старался акцентировать внимание преимущественно на CNN, её архитектуре и обучении, а MNB взял как базовый подход для анализа тональности, хорошо себя зарекомендовавший в прошлом. Про сравнение CNN и RNN полностью согласен, особенно интересно было бы это рассмотреть в разрезе разного формата данных: длинные и короткие тексты, разговорная и литературная речь и т.д. Думаю, это отличная тема для ещё одной статьи.
На Хабре уже был материал по анализу тональности твитов с помощью LSTM, но там качество классификации измеряли только в точности (accuracy), поэтому не стал включать ее в статью для сравнения.

А предобученные не пробовали юзать?

Опять же из-за характера статьи, я хотел показать полную последовательность действий, в том числе построение семантической модели на текстах из предметной области. Если рассматривать более глубокий подход, то да, можно взять предобученную модель (к примеру, из проекта RusVectōrēs) и дообучить на своих данных.

местные кернелы просто кладезь по SotA текст классификации

Спасибо, обязательно ознакомлюсь. В новом SemEval-2019 есть схожие треки: по обнаружению ненависти и оскорблений.

Look