Как стать автором
Обновить

Комментарии 40

полновесные тексты из 200-500 слов

Лол да, это серьёзный текст прям.
Кому и кобыла – невеста, кому и 500 слов – повесть.

500 слов это, между прочим, несколько десятков твитов!
Не только лишь каждый сможет написать настолько длинный текст!

на основе этого можно, пожалуй, сделать инструмент для предвыборных компаний.
Завтра в Times: Russian company Clever DATA elected Trump via beauty bloggers! :)

На самом деле мы международная компания и ратуем за мирное использование технологий на благо людям вне политических целей
Да, кроме шуток. Кстати, именно косметические компании едва ли не первыми из «неайтишной» отрасли оглянулись на data mining и предметные исследования. Самые дорогие бренды больше не тестируют свои продукты на фокус-группах, а собирают данные мозговой активности, обонятельных рецепторов и т.д. и анализируют. В частности, одна из первых компаний, сделавших техно-скачок, — Шисейдо. Думаю, всю косметическую отрасль, а не только блоггинг, ждёт небольшая ИТ-революция. Кстати, Шисейдо заявили, что не доверяют фокус-группам и опросам после неудачного ребрендинга Кока-Колы и победы Трампа :-)
Это все замечательно, но почему не совпадает число комментариев и число в счетчике комментариев к статье? Это особенности счета в ГК ЛАНИТ?

Тоже обратил внимание. Есть подозрение, что это комментарии, ожидающие одобрения.
Ну если женскую душу удалось понять такими методами, может и на загадочную русскую замахнуться теперь?)
Вызов принят! :)

Тогда ждём!)

Да, занятный материал. Вся аудитория препарируется, как в анатомическом театре, аж немного не по себе становится, что настолько детальный анализ возможен. И это выгладит поинтереснее, чем всякие биг дата, где корреляции порой встречаются ну совсем нелогичные. Интересно, остались ли вещи, которые нельзя вот так проанализировать? Где-то читал, что в перспективе HR-ов вообще заменят CRM-системы…
и HR заменят, и верстку интерфейса для приложений уже способна делать нейронная сеть, и как продемонстрировали вчера на конференции Яндекса, композиторов можно будет заменить ИИ, но людям наверняка останутся роли избирателей и покупателей.
Разве не может нейронная сеть предугадать то, что нужно купить и произвести транзакцию «для удобства»? Разве не может нейронная сеть проанализировав ваш профиль определить за кого вы проголосуете и опять же произвести все манипуляции за вас?
а восстания машин люди так и не заметят, все будет решено за них «для удобства».
Верно. Машины сами восстанут, поработят людей и все без человеческого участия. Так сказать не вставая с дивана.
Вот я думаю, если человек не признает приговор вынесенный машиной и восстанет, будут ли его все остальные люди ненавидеть и презирать?
Возможно остальные люди этого просто не заметят, ведь иначе они будут выведены из зоны комфорта, в которую их так соблазнительно заманивают умные технологии.
Мы видим ассиметричное квазинормальное распределение с центром в районе 0.72 и тяжелым правым хвостом

Вот этого друга напомнило:
image
Это гораздо лучше, чем «Данное распределение с небольшими допущениями можно считать нормальным»

А на чем графики рисовались?

Мы рисовали графики с помощью пакета Seaborn (http://seaborn.pydata.org).
Исходя из 1го графика с, как я понимаю, уже вычтеными фото и видео материалами, были статьи на 3-10 или приблизительно 3000 слов? Интересно, о чём же они?
Мини-страницы на несколько слов часто выражали эмоциональный фон автора, типа «сегодня дождливое настроение». В другом примере была микроистория про встречу в лифте и пару случайных слов. По большей части эти посты напоминали соревнования на самый короткий рассказ (http://www.interesmir.ru/samyie-korotkie-rasskazyi/). А многословные рассказы напрямую связаны с тем, о чем может долго рассказывать женщина: о путешествиях, нарядах и косметике :)

Назначение продуктов на блогеров по матрице профита это классический Linear Assignment Problem. И никаких контрастных пиков искать не надо. См. питоновский lapjv

Спасибо, что дочитали до этого момента. В принципе, согласен.

Интересная статья! Скажите, а почему выбирались блоггеры, уже упоминавшие продукцию компании? Не логичнее ли было бы расширяться на "неизведанные земли"? И были ли попытки провести корреляцию между эмоциональным откликом и брендом?


Недавно заинтересовала тема text mining, что вы могли бы посоветовать новичкам в области (инструменты, ресурсы)?

1) выбирались авторы, в статьях которых проскакивали слова, связанные с продукцией бренда. Если в статье было, например, упоминание «масла для лица» не важно какого бренда, то наш инструмент срабатывал. Размер «неизведанных земель» по сути был ограничен количеством авторов, и если кто-то из них писал про связанные с областью бренда товары, то мы его учитывали.

2) эмоциональный анализ показал, что почти все статьи обладают положительным эмоциональным окрасом. Была идея попытаться оценить эмоциональный окрас статей, связанных с брендом, но оказалось, что они в своем большинстве хвалебные, что можно считать свойством корпуса или свойством популяции. Мы были обрадованы, когда нашли упоминания в других исследованиях, что женское общение в Интернете действительно обладает смещением в область положительных эмоций. Поэтому, для бренда становятся более интересны самые популярные слова, фигурирующие в связанных с ним статьях.

3) касательно ресурсов по text mining: для начала очень рекомендую почитать серию статьей Открытого Курса Машинного Обучения здесь же, в нем например разбирается инструмент Vowpal Wabbit (https://habrahabr.ru/company/ods/blog/326418/). Кроме того, есть OpenDataScience (http://ods.ai/), где можно найти самый актуальный материал и задать вопросы специалистам по конкретному вопросу.

Если можно, небольшое замечание автору по представлению графиков.
Как мне кажется, для графиков с логарифмическими шкалами лучше всё-таки подписи значений приводить обратно к понятным величинам. Это делает их более читаемыми.
Вот пример этого изменения на одном из ваших графиков:
image
Согласен с вами, если нет привычки к логарифмическим осям, то так, действительно, понятнее становится.
Подскажите, а в кейсе как-то анализировалась «живая» аудитория блоггеров? Наверняка же у многих, особенно популярных, авторов шла накрутка?
Мы постарались проанализировать именно те характеристики, которые сложнее накрутить: количество статей, среднее количество обсуждений в блоге, Kclout score и.т.д. Блогер не мог накрутить все свои характеристики, поэтому если и была накрутка, она бы выглядела как шум в многомерном пространстве характеристик. В данном случае мы не вводили поправок, учитывающих «накрутку», однако эта область могла бы стать темой отдельного исследования.
Хочу поблагодарить автора, было очень интересно прочитать, да и в общем получить подтверждение моим предположениям, что крупные компании для рекламы начинают заниматься дата майнингом и глубоким анализом, это очень здорово.

Мне кажется, это потихоньку ведёт нас к миру, где реклама перестаёт быть назойливой и возвращается к своей исходной задаче — связывать изначально заинтересованных в сделке покупателя и продавца.
Первая картинка крайне разочаровывает и отбивает желание читать текст: розовый, сиськи-клавиатура. Больше стереотипов о женщинах, больше!
Вся статья посвящена женщинам и стремится ответить на вопрос: так чего же именно хотят женщины?
Раскроем идею картинки:

1) на ней женщина (ведь статья и посвящена анализу женской аудитории);
2) клавиатура как намек на ведение текстовых блогов;
3) чистая и опрятная одежда девушки подобрана под цвет волос, намек на бьюти тематику;
4) интригующий рекламный эффект присутствует;
5) даже есть место добрым рукам!

Мы постарались вместить максимум хорошего смысла на одной картинке. Картинка наша, но к сожалению, стереотипы — ваши.
Спасибо за подробный пост!
Подходы очень интересные.

Но хотелось бы внести некоторые замечания касательно логики отдельных частей поста (возникает ощущение, что они появились просто для увеличения объема).

Резюмирую часть, показавшуюся странной:
«Alexa Rank – устанавливается далеко не на всех Интернет-ресурсах, не всегда можно воспользоваться его данными.
Yandex Thematic Citation Index — не очень распространён в англоязычном сегменте Сети.
Google Page Rank – иногда не совсем адекватный и проблемы с соглашением.
Все вышесказанное определило наш выбор: мы попробовали YandexTIC и AlexaRank.»

Вы использовали англоязычные источники, тогда почему выбрали YandexTIC? На какой доле рассматриваемых ресурсов был установлен AlexaRank?

Проще говоря, «вышесказанное» не могло «определить выбор».
И почему нет никаких иллюстраций распределения для этих метрик по авторам, никаких зависимостей? Или хотя бы вывода, почему вы их отбросили и перешли к Klout score?
Вы, конечно, вроде указали их недостатки, но они же и достоинства (ибо «определили выбор»).

И вопрос уже ради интереса: почему именно NMF?
Постараюсь ответить на Ваши вопросы:

— в статье отмечалось, что YandexTIC был представлен далеко не на всех англоязычных сайтах. Если в 1-2 случаях из 10 были данные о YandexTIC, было уже хорошо.

— с AlexaRank дела обстояли значительно лучше, эту информацию можно было встретить в 4-6 случаях из 10.

Для того, чтобы понять релевантность метрик оценки трафика, пришлось сначала реализовать их получение и удостовериться в неполноте их охвата. Факт разметки сайта метрикой YandexTIC или AlexaRank говорил о некоторых дополнительных преимуществах того или иного блога, однако использовать эти метрики в качестве основной характеристики популярности автора не было возможности.

Kclout score была возможность получить в подавляющем большинстве случаев (охват более 90% авторов). Эта метрика не только характеризовала объем аудитории блогера, но и позволяла оценить его активность, что и было основным предметом интереса, в отличии от простого измерения трафика сайта. Вышеуказанное и определило наш выбор.

Почему NMF: А почему бы и нет? Это один из самых простых инструментов среди перечисленных альтернатив, а на некоторых корпусах он показывает результаты не только сравнимые, но даже более релевантные, чем LDA/LSA. Если же есть необходимость в более гибких настройках метода с помощью регуляризоторов, то стоит обратиться к замечательному инструменту BigARTM.
Спасибо за интересный материал.

Может быть смещение в сторону положительной эмоциональной окраски связано с тем, что блоги используются для продвижения и рекламы? Логично, что нужно в нахваливать, а не ругать.
Вы правы: у профессиональных блогеров присутствует множество обзоров, и естественно они не ругают продукты, а чаще всего хвалят. Т.е. эффект селекции должен присутствовать. Однако, как показал анализ корпуса, большинство авторов статей в нем относилось к начинающим блогерам, которые не получают продукты для продвижения, а искренне делятся своими находками, практическими советами, а также впечатлениями, настроением и т.п. Можно было бы ожидать, что распределение по эмоциональному окрасу будет двухкомпонентное: одна часть будет относиться к положительным обзорам, другая часть естественная, присущая нормальному общению, с более нейтральными эмоциями. В исследуемом корпусе такого разделения не обнаружено, практически все статьи носят положительные эмоции. Нам тоже было странно получить такой результат и мы проверили несколько статей, взятых наугад: действительно большинство из них позитивные. Тем сильнее мы обрадовались, когда встретили упоминание этой же тенденции в анализе активности женской аудитории в социальных сетях на конференции Data Science Weekend 2017 (https://habrahabr.ru/company/npl/blog/324082/).
По моему, вполне, логичное смещение в сторону положительной эмоциональной окраски. Это же девушки, женщины. Они думают и ведут себя по другому, у них своя психология. (Я не знаток женской души))) только мои предположения.)
Девушки, ведущие свой блог, вероятнее всего хотят быть в центре внимания и, именно, положительного внимания. Странно, если девушка будет описывать свой негативный опыт в надежде получить положительные отклики и свои собственные положительные эмоции от этого опыта. Можно еще добавить, что девушки склонны больше скрывать свои неудачи, особенно в области красоты. Они всегда соперничают друг с другом в этой области.
Как вы себе представляете девушку-красавицу описывающую неудачный опыт использования косметики?
«Я использовала крем для лица и покрылась прыщами! Я так огорчена этим(((»
Вряд ли много девушек будут готовы делиться подобными вещами. Они же все участвуют в «соревновании» по красоте. Они каждую секунду следят за этим. Вы много знаете девушек, не желающих стать красивыми или быть еще краше, чем сейчас?
Ради интереса можете понаблюдать за своими подругами, женами или даже поспрашивать. И посмотреть, как часто они делятся неудачами между собой.
Интересно было бы сравнить эмоциональный окрас в других областях блогов. Менее затрагивающими «статус, авторитетность, значимость» (не те слова, но других сходу не подобрал) женщины, девушки, например, путешествия, животные, можно еще воспитание, но это уже значимая область.
И попадалась информация о том, что у нас эмоциональный окрас более негативный, чем во всем мире.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий