Обновить
69
Артем@art_pro

Пользователь

13
Подписчики
Отправить сообщение
Действительно, мы предсказывали вероятность скорой покупки людей, но пока не решали задачу поиска лидеров мнений и инициативщиков. Надеюсь, эта задача еще появится у нас в будущем, однако можно ожидать, что для её решения анализ поведения с помощью нейронных сетей также пригодится.
Доброе утро. Похоже, что вчера я был еще Data Scientist, а сегодня уже Data Sexist. Как считал Герострат, слава плохой не бывает.
На самом деле мы работали над 2-мя моделями: моделью автоэнкодера и моделью предсказательной. В случае автоэнкодеров, тестировали качество на отложенной выборке. Для тренировки предсказательной модели несколько раз разбивали на трейн-тест, тренировали модель отдельно, тестировали отдельно: качество, конечно, варьируется, но в разумных пределах, указанных в статье. К тому же результату приводила кросс-валидация на нескольких фолдах. Эксперимент с тренировкой автоэнкодеров также повторяли несколько раз, итог приводил к одинаковым результатам. Спасибо за вопрос по делу!
Рад, что обратили на это внимание. Мы предложили код автокодировщика в самом общем виде, для хрестоматийного случая. Если писать автокодировщик под конкретную задачу, то размерность тензоров будет зависеть от доступных данных, а также от этого будет зависеть архитектура сети, количество слоев и т.п. В статье специально приведен самый общий вариант, чтобы читатели обратили внимание на принцип, а сам подход адаптировали под свою специфическую задачу самостоятельно.
Перед публикацией я специально спрашивал у знакомых девушек, насколько предложенные иллюстрации обидные. Все сказали, что иллюстрации вполне забавные и невинные. Возможно, это просто окружение у меня такое – все легко относятся к стереотипам, способны к самоиронии и по жизни уделяют внимание более важным вопросам
Мы ставим себе целью сделать женщин более счастливыми, а это уже делает ситуацию по отношению к мужчинам не равновесной. Если человек хочет увидеть что-то, то он это увидит в любом намеке, и именно на этом основан тест Роршаха.
Мы не внедряли модель «до» (ROC AUC 0.74 -0.77), поскольку считали этот результат слишком низким и надеялись его улучшить. Увеличение качества модели «после» (ROC AUC 0.84 — 0.88) дало нам возможность достичь уровня, когда не стыдно внедрить наше решение. Конкретных цифр, к сожалению, не раскрою, т.к. эта тайна не наша, но могу сказать, что бренд остался доволен нашим решением
Вы правы: у профессиональных блогеров присутствует множество обзоров, и естественно они не ругают продукты, а чаще всего хвалят. Т.е. эффект селекции должен присутствовать. Однако, как показал анализ корпуса, большинство авторов статей в нем относилось к начинающим блогерам, которые не получают продукты для продвижения, а искренне делятся своими находками, практическими советами, а также впечатлениями, настроением и т.п. Можно было бы ожидать, что распределение по эмоциональному окрасу будет двухкомпонентное: одна часть будет относиться к положительным обзорам, другая часть естественная, присущая нормальному общению, с более нейтральными эмоциями. В исследуемом корпусе такого разделения не обнаружено, практически все статьи носят положительные эмоции. Нам тоже было странно получить такой результат и мы проверили несколько статей, взятых наугад: действительно большинство из них позитивные. Тем сильнее мы обрадовались, когда встретили упоминание этой же тенденции в анализе активности женской аудитории в социальных сетях на конференции Data Science Weekend 2017 (https://habrahabr.ru/company/npl/blog/324082/).
Постараюсь ответить на Ваши вопросы:

— в статье отмечалось, что YandexTIC был представлен далеко не на всех англоязычных сайтах. Если в 1-2 случаях из 10 были данные о YandexTIC, было уже хорошо.

— с AlexaRank дела обстояли значительно лучше, эту информацию можно было встретить в 4-6 случаях из 10.

Для того, чтобы понять релевантность метрик оценки трафика, пришлось сначала реализовать их получение и удостовериться в неполноте их охвата. Факт разметки сайта метрикой YandexTIC или AlexaRank говорил о некоторых дополнительных преимуществах того или иного блога, однако использовать эти метрики в качестве основной характеристики популярности автора не было возможности.

Kclout score была возможность получить в подавляющем большинстве случаев (охват более 90% авторов). Эта метрика не только характеризовала объем аудитории блогера, но и позволяла оценить его активность, что и было основным предметом интереса, в отличии от простого измерения трафика сайта. Вышеуказанное и определило наш выбор.

Почему NMF: А почему бы и нет? Это один из самых простых инструментов среди перечисленных альтернатив, а на некоторых корпусах он показывает результаты не только сравнимые, но даже более релевантные, чем LDA/LSA. Если же есть необходимость в более гибких настройках метода с помощью регуляризоторов, то стоит обратиться к замечательному инструменту BigARTM.
Вся статья посвящена женщинам и стремится ответить на вопрос: так чего же именно хотят женщины?
Раскроем идею картинки:

1) на ней женщина (ведь статья и посвящена анализу женской аудитории);
2) клавиатура как намек на ведение текстовых блогов;
3) чистая и опрятная одежда девушки подобрана под цвет волос, намек на бьюти тематику;
4) интригующий рекламный эффект присутствует;
5) даже есть место добрым рукам!

Мы постарались вместить максимум хорошего смысла на одной картинке. Картинка наша, но к сожалению, стереотипы — ваши.
Мы постарались проанализировать именно те характеристики, которые сложнее накрутить: количество статей, среднее количество обсуждений в блоге, Kclout score и.т.д. Блогер не мог накрутить все свои характеристики, поэтому если и была накрутка, она бы выглядела как шум в многомерном пространстве характеристик. В данном случае мы не вводили поправок, учитывающих «накрутку», однако эта область могла бы стать темой отдельного исследования.
Согласен с вами, если нет привычки к логарифмическим осям, то так, действительно, понятнее становится.
Спасибо, что дочитали до этого момента. В принципе, согласен.
1) выбирались авторы, в статьях которых проскакивали слова, связанные с продукцией бренда. Если в статье было, например, упоминание «масла для лица» не важно какого бренда, то наш инструмент срабатывал. Размер «неизведанных земель» по сути был ограничен количеством авторов, и если кто-то из них писал про связанные с областью бренда товары, то мы его учитывали.

2) эмоциональный анализ показал, что почти все статьи обладают положительным эмоциональным окрасом. Была идея попытаться оценить эмоциональный окрас статей, связанных с брендом, но оказалось, что они в своем большинстве хвалебные, что можно считать свойством корпуса или свойством популяции. Мы были обрадованы, когда нашли упоминания в других исследованиях, что женское общение в Интернете действительно обладает смещением в область положительных эмоций. Поэтому, для бренда становятся более интересны самые популярные слова, фигурирующие в связанных с ним статьях.

3) касательно ресурсов по text mining: для начала очень рекомендую почитать серию статьей Открытого Курса Машинного Обучения здесь же, в нем например разбирается инструмент Vowpal Wabbit (https://habrahabr.ru/company/ods/blog/326418/). Кроме того, есть OpenDataScience (http://ods.ai/), где можно найти самый актуальный материал и задать вопросы специалистам по конкретному вопросу.

Мини-страницы на несколько слов часто выражали эмоциональный фон автора, типа «сегодня дождливое настроение». В другом примере была микроистория про встречу в лифте и пару случайных слов. По большей части эти посты напоминали соревнования на самый короткий рассказ (http://www.interesmir.ru/samyie-korotkie-rasskazyi/). А многословные рассказы напрямую связаны с тем, о чем может долго рассказывать женщина: о путешествиях, нарядах и косметике :)
Мы рисовали графики с помощью пакета Seaborn (http://seaborn.pydata.org).
Возможно остальные люди этого просто не заметят, ведь иначе они будут выведены из зоны комфорта, в которую их так соблазнительно заманивают умные технологии.
а восстания машин люди так и не заметят, все будет решено за них «для удобства».
Кому и кобыла – невеста, кому и 500 слов – повесть.
Вызов принят! :)

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность