Вы так сформулировали условие, что не ясно, почему не устраивает решение в лоб?
Масса одной произвольной конфеты ~ N(310/12, sd^2). В предположении о независимости этих случ. величин, масса коробки ~ N(310, 12*sd^2).
Находим sd^2 из уравнения F(X < 317) = 0.95 и, если требуется, умножаем результат на 12/11 (finite pop.correction). Оценка sd получена.
2.2 Обычно «самых жадных» (яндекс, гугл, авито) знают в лицо. При необходимости, их можно исключить.
Да, аффинити не аддитивно по набору элементов кластера. Но не могу сказать, что это однозначно указывает на преимущество такого таргетинга. Надо будет разобраться.
Вы используете какие-нибудь критерии, которые сравнивают какой из двух произвольных таргетингов более подходящий? И если да, то какие?
2. Про пересечения. Не получится ли так, что, например, какие-либо два сегмента состоят большей частью из одних и тех же пользователей? Или это не проблема в этой задаче?
Про формирование тематических сегментов в заданном соц.-дем. ЦА. Допустим, нужны сайты юридической тематики, но объем не достаточно высок. Отбираем среди пользователей этих сайтов, с учетом ЦА, несколько наиболее популярных сайтов, отличных от юридических, чтобы получить требуемый объем. Пока не пойму, чем такой «локальный» метод, с точки зрения таргетированного размещения, хуже, чем полученный 15 кластер в вашем решении.
Спасибо за публикацию.
Я правильно понимаю, что
1. Из большой разреженной матрицы — пользователи и количество просмотренных ими страниц сайтов за определенный период, вы получаете similarity matrix на основе affinity index?
2.Посетители страниц любого из сайтов кластера — это и есть сегменты пользователей? Если да, то какие пересечения сегментов получаются, скажем, для первого примера? И можно подробнее о преимуществах полученных сегментов по сравнению с соц.-дем. характеристиками — почему они не столь широки и таргетирование по ним более эффективно?
Спасибо за вопрос. Я не знаю точного названия этих переменных. Вероятно, еще нет устоявшегося термина.
Как справедливо ответили ниже, эти переменные явно не наблюдались. Названия «money | success», «have good time»,… даны мной для упрощения. На самом деле вид этих «латентных» переменных сложнее. Упомянутые наблюдаемые логические переменные представлены наиболее значимо только на одной из этих осей (обратите внимание на опцию scale = «r1», для построения карты t(nmf.selected), детали можно найти в документации пакета). Поэтому да, выделенные 8 наблюдаемых переменных, с точки зрения поставленной задачи, «наиболее важные» составляющие 5 латентных переменных.
Вы говорите о «корреляции в ритейле», а группы товаров в ваших линейных моделях для оборота и количества чеков, надо полагать, независимы? Как так?
Кроме того, отрицательный свободный член в линейной регрессии для оборота Универсама намекает, что лучше использовать glm, нет?
Вдобавок, вы даже не указали какой вид корреляции использовали.
1) Возможно это занудство, но все таки если уж совсем точно — вы построили хороший классификатор на выявления каждой из четырех характеристик в отдельности. Извините, так и не понял, зачем вы упоминаете в контексте этого классификатора о выявление типа личности.
2) Меня смутил заголовок вашей публикации «Типы личностей: влияние на восприятие рекламы». Я не предполагал, что вашей целью было обнаружения влияния признаков (опять в отдельности), определяющих эти типы личностей.
1) Вы утверждаете, что можете с достаточно высокой точностью определять тип личности на основании поведения пользователя. Но на основании каких математических обоснований сделан этот вывод мне не ясно. Поэтому хотел прояснить этот вопрос. Мне было бы интересно посмотреть на оценки качества классификации типов.
2) В статье было заявлено, что тип личности значимо влияет на CTR. Тогда как в действительности показано, что в двух из четырех бинарных характеристиках можно утверждать о различии в CTR, для остальных двух вопрос остался открытым. Какая картина наблюдается в CTR для различных типов, на мой взгляд, не продемонстрировано.
3) Тоже не психолог, но хочу уточнить — типы личностей в выборке определялись по каким-то косвенным вопросам анкеты или сами респонденты причисляли себя к определенному типу?
У меня вопросы к вашим утверждениям.
1) Разве полученное хорошее качество классификации характеристик дает возможность говорить и хорошем качестве классификации типов?
2) Вы получили значимое отличие CTR в 2 классах. Но это не говорит о значимом различии для каких-либо типов, да? Например, даже не ясно какая ситуация для ET vs IF. Если вы использовали доверительные интервалы CTR для вывода о существенном отличии этой величины в классах характеристик, может вы добавите еще график доверительных интервалов для всех 16 типов?
Непонятно про соотношение 75.8 в пользу Eviews по сравнению с R. Вы пишите, что доп. миллион увеличивает время оценивания в R на 1.39 сек., в Eviews — на 0.18. Получается ~ 7.7. Или не так понял?
Если хотите скорости в R для оценки линейной модели, то используйте RcppEigen. Тесты производительности здесь.
Для Вашего примера при n = 1e+6 на моей машине в R обычный lm (QR метод) выполняется 2 сек., fastLm (LLt метод) — 0.08 сек., fastLmPure (LLt метод) — 0.034 сек.
Необычный у вас вывод результатов R на снимках из поста. R скрипт запускается в Eviews?
2-3. Извините, не точно выразился. Понятно, что можно использовать готовую реализацию распределения на обычном языке.
Поскольку Anglican ориентирован на MCMC, интересно, как элегантно именно в нем можно задать новое распределение. Возможно, с сэмплированием я перегнул, обычный язык для этих целей вполне приемлем.
Если исполнение в вероятностном языке будет еще и эффективно по времени, то это было бы замечательно.
Спасибо за публикацию. Не уточните, пожалуйста, некоторые детали.
1. Любопытно посмотреть на эффективность работы в сравнении с другими языками. В этой публикации дается обзор по времени работы в разных «обычных» языках программирования сэмплирования по Гиббсу для некого двумерного распределения: здесь. Если несложно, сообщите, что будет в Venture/Anglican?
2. Как обстоят дела с набором заданных в языке распределений. Например, truncated multivariate normal distribution из коробки есть?
3. Интересно посмотреть на код генерации случ. величин из truncated mv normal distribution, оценить, если получится, сложность реализации. Не могли бы Вы указать ссылку на источник?
Как писали ниже, читать pdf вполне удобно (на 11") и сразу можно производить сопутствующие вычисления, например, в aws ec2. В таком случае для меня важно наличие клавиатуры.
Да, дома chromebook не может заменить полноценный ноутбук.
Масса одной произвольной конфеты ~ N(310/12, sd^2). В предположении о независимости этих случ. величин, масса коробки ~ N(310, 12*sd^2).
Находим sd^2 из уравнения F(X < 317) = 0.95 и, если требуется, умножаем результат на 12/11 (finite pop.correction). Оценка sd получена.
Да, аффинити не аддитивно по набору элементов кластера. Но не могу сказать, что это однозначно указывает на преимущество такого таргетинга. Надо будет разобраться.
Вы используете какие-нибудь критерии, которые сравнивают какой из двух произвольных таргетингов более подходящий? И если да, то какие?
2. Про пересечения. Не получится ли так, что, например, какие-либо два сегмента состоят большей частью из одних и тех же пользователей? Или это не проблема в этой задаче?
Про формирование тематических сегментов в заданном соц.-дем. ЦА. Допустим, нужны сайты юридической тематики, но объем не достаточно высок. Отбираем среди пользователей этих сайтов, с учетом ЦА, несколько наиболее популярных сайтов, отличных от юридических, чтобы получить требуемый объем. Пока не пойму, чем такой «локальный» метод, с точки зрения таргетированного размещения, хуже, чем полученный 15 кластер в вашем решении.
Я правильно понимаю, что
1. Из большой разреженной матрицы — пользователи и количество просмотренных ими страниц сайтов за определенный период, вы получаете similarity matrix на основе affinity index?
2.Посетители страниц любого из сайтов кластера — это и есть сегменты пользователей? Если да, то какие пересечения сегментов получаются, скажем, для первого примера? И можно подробнее о преимуществах полученных сегментов по сравнению с соц.-дем. характеристиками — почему они не столь широки и таргетирование по ним более эффективно?
Как справедливо ответили ниже, эти переменные явно не наблюдались. Названия «money | success», «have good time»,… даны мной для упрощения. На самом деле вид этих «латентных» переменных сложнее. Упомянутые наблюдаемые логические переменные представлены наиболее значимо только на одной из этих осей (обратите внимание на опцию scale = «r1», для построения карты t(nmf.selected), детали можно найти в документации пакета). Поэтому да, выделенные 8 наблюдаемых переменных, с точки зрения поставленной задачи, «наиболее важные» составляющие 5 латентных переменных.
Кроме того, отрицательный свободный член в линейной регрессии для оборота Универсама намекает, что лучше использовать glm, нет?
Вдобавок, вы даже не указали какой вид корреляции использовали.
2) Меня смутил заголовок вашей публикации «Типы личностей: влияние на восприятие рекламы». Я не предполагал, что вашей целью было обнаружения влияния признаков (опять в отдельности), определяющих эти типы личностей.
Спасибо за ответы и за то, что поделились опытом.
2) В статье было заявлено, что тип личности значимо влияет на CTR. Тогда как в действительности показано, что в двух из четырех бинарных характеристиках можно утверждать о различии в CTR, для остальных двух вопрос остался открытым. Какая картина наблюдается в CTR для различных типов, на мой взгляд, не продемонстрировано.
3) Тоже не психолог, но хочу уточнить — типы личностей в выборке определялись по каким-то косвенным вопросам анкеты или сами респонденты причисляли себя к определенному типу?
1) Разве полученное хорошее качество классификации характеристик дает возможность говорить и хорошем качестве классификации типов?
2) Вы получили значимое отличие CTR в 2 классах. Но это не говорит о значимом различии для каких-либо типов, да? Например, даже не ясно какая ситуация для ET vs IF. Если вы использовали доверительные интервалы CTR для вывода о существенном отличии этой величины в классах характеристик, может вы добавите еще график доверительных интервалов для всех 16 типов?
Если хотите скорости в R для оценки линейной модели, то используйте RcppEigen. Тесты производительности здесь.
Для Вашего примера при n = 1e+6 на моей машине в R обычный lm (QR метод) выполняется 2 сек., fastLm (LLt метод) — 0.08 сек., fastLmPure (LLt метод) — 0.034 сек.
Необычный у вас вывод результатов R на снимках из поста. R скрипт запускается в Eviews?
2-3. Извините, не точно выразился. Понятно, что можно использовать готовую реализацию распределения на обычном языке.
Поскольку Anglican ориентирован на MCMC, интересно, как элегантно именно в нем можно задать новое распределение. Возможно, с сэмплированием я перегнул, обычный язык для этих целей вполне приемлем.
Если исполнение в вероятностном языке будет еще и эффективно по времени, то это было бы замечательно.
1. Любопытно посмотреть на эффективность работы в сравнении с другими языками. В этой публикации дается обзор по времени работы в разных «обычных» языках программирования сэмплирования по Гиббсу для некого двумерного распределения: здесь. Если несложно, сообщите, что будет в Venture/Anglican?
2. Как обстоят дела с набором заданных в языке распределений. Например, truncated multivariate normal distribution из коробки есть?
3. Интересно посмотреть на код генерации случ. величин из truncated mv normal distribution, оценить, если получится, сложность реализации. Не могли бы Вы указать ссылку на источник?
Да, дома chromebook не может заменить полноценный ноутбук.
Кстати, в списке статей, процитировавших статью Мёрдока и Шоу, есть близкая к Вашим интересам -> GAP: A graphical environment for matrix visualization and cluster analysis