Comments / Profile of jzha / Habr

Евгений Чанков @jzha

User

ProfileArticles12PostsNewsComments79

Задача о конфетах

jzha Sep 28 2015 at 12:03

Вы так сформулировали условие, что не ясно, почему не устраивает решение в лоб?
Масса одной произвольной конфеты ~ N(310/12, sd^2). В предположении о независимости этих случ. величин, масса коробки ~ N(310, 12*sd^2).
Находим sd^2 из уравнения F(X < 317) = 0.95 и, если требуется, умножаем результат на 12/11 (finite pop.correction). Оценка sd получена.

0

Кластеризация графов и поиск сообществ. Часть 1: введение, обзор инструментов и Волосяные Шары

jzha Aug 26 2015 at 10:07

Спасибо за ссылку!

0

Кластеризация графов и поиск сообществ. Часть 1: введение, обзор инструментов и Волосяные Шары

jzha Aug 25 2015 at 17:35

2.2 Обычно «самых жадных» (яндекс, гугл, авито) знают в лицо. При необходимости, их можно исключить.
Да, аффинити не аддитивно по набору элементов кластера. Но не могу сказать, что это однозначно указывает на преимущество такого таргетинга. Надо будет разобраться.
Вы используете какие-нибудь критерии, которые сравнивают какой из двух произвольных таргетингов более подходящий? И если да, то какие?

0

Кластеризация графов и поиск сообществ. Часть 1: введение, обзор инструментов и Волосяные Шары

jzha Aug 24 2015 at 20:52

1. Хорошо. Жду следующей части.

2. Про пересечения. Не получится ли так, что, например, какие-либо два сегмента состоят большей частью из одних и тех же пользователей? Или это не проблема в этой задаче?
Про формирование тематических сегментов в заданном соц.-дем. ЦА. Допустим, нужны сайты юридической тематики, но объем не достаточно высок. Отбираем среди пользователей этих сайтов, с учетом ЦА, несколько наиболее популярных сайтов, отличных от юридических, чтобы получить требуемый объем. Пока не пойму, чем такой «локальный» метод, с точки зрения таргетированного размещения, хуже, чем полученный 15 кластер в вашем решении.

0

Кластеризация графов и поиск сообществ. Часть 1: введение, обзор инструментов и Волосяные Шары

jzha Aug 24 2015 at 19:13

Спасибо за публикацию.
Я правильно понимаю, что
1. Из большой разреженной матрицы — пользователи и количество просмотренных ими страниц сайтов за определенный период, вы получаете similarity matrix на основе affinity index?
2.Посетители страниц любого из сайтов кластера — это и есть сегменты пользователей? Если да, то какие пересечения сегментов получаются, скажем, для первого примера? И можно подробнее о преимуществах полученных сегментов по сравнению с соц.-дем. характеристиками — почему они не столь широки и таргетирование по ним более эффективно?

0

Таблицы сопряженности и факторизация неотрицательных матриц

jzha Aug 18 2015 at 21:52

Спасибо за вопрос. Я не знаю точного названия этих переменных. Вероятно, еще нет устоявшегося термина.

Как справедливо ответили ниже, эти переменные явно не наблюдались. Названия «money | success», «have good time»,… даны мной для упрощения. На самом деле вид этих «латентных» переменных сложнее. Упомянутые наблюдаемые логические переменные представлены наиболее значимо только на одной из этих осей (обратите внимание на опцию scale = «r1», для построения карты t(nmf.selected), детали можно найти в документации пакета). Поэтому да, выделенные 8 наблюдаемых переменных, с точки зрения поставленной задачи, «наиболее важные» составляющие 5 латентных переменных.

+1

Байес и задача про Морфеуса

jzha Aug 18 2015 at 13:35

Реализация на R для обоих случаев. Отличия только в векторе вероятностей для сэмплирования.

set.seed(123) # to reproduce results with RNG
sample.size<-1000000

pills.1<-sample(c("blue_left", "red_left", "blue_rigth", "red_right"), sample.size, TRUE, c(7/23, 3/23, 5/23, 8/23))
1/(1+sum(pills.1=="red_left")/sum(pills.1=="red_right"))

pills.2<-sample(c("blue_left", "red_left", "blue_rigth", "red_right"), sample.size, TRUE, c(7/20, 3/20, 5/26, 8/26))
1/(1+sum(pills.2=="red_left")/sum(pills.2=="red_right"))

0

Байес и задача про Морфеуса

jzha Aug 18 2015 at 13:27

Есть задачи с неполным условием. Самый известный пример такого типа задач — «Обезьяна и груз» Кэрролла. Такие задачи вызывают продолжительные диспуты.

+1

Определяем ключевые товары с помощью линейной регрессии

jzha Aug 7 2015 at 13:01

Вы говорите о «корреляции в ритейле», а группы товаров в ваших линейных моделях для оборота и количества чеков, надо полагать, независимы? Как так?
Кроме того, отрицательный свободный член в линейной регрессии для оборота Универсама намекает, что лучше использовать glm, нет?
Вдобавок, вы даже не указали какой вид корреляции использовали.

+3

Типы личности по MBTI: влияние на восприятие рекламы

jzha Jul 29 2015 at 11:39

1) Возможно это занудство, но все таки если уж совсем точно — вы построили хороший классификатор на выявления каждой из четырех характеристик в отдельности. Извините, так и не понял, зачем вы упоминаете в контексте этого классификатора о выявление типа личности.
2) Меня смутил заголовок вашей публикации «Типы личностей: влияние на восприятие рекламы». Я не предполагал, что вашей целью было обнаружения влияния признаков (опять в отдельности), определяющих эти типы личностей.

Спасибо за ответы и за то, что поделились опытом.

0

Типы личности по MBTI: влияние на восприятие рекламы

jzha Jul 29 2015 at 10:00

1) Вы утверждаете, что можете с достаточно высокой точностью определять тип личности на основании поведения пользователя. Но на основании каких математических обоснований сделан этот вывод мне не ясно. Поэтому хотел прояснить этот вопрос. Мне было бы интересно посмотреть на оценки качества классификации типов.

2) В статье было заявлено, что тип личности значимо влияет на CTR. Тогда как в действительности показано, что в двух из четырех бинарных характеристиках можно утверждать о различии в CTR, для остальных двух вопрос остался открытым. Какая картина наблюдается в CTR для различных типов, на мой взгляд, не продемонстрировано.

3) Тоже не психолог, но хочу уточнить — типы личностей в выборке определялись по каким-то косвенным вопросам анкеты или сами респонденты причисляли себя к определенному типу?

+1

Типы личности по MBTI: влияние на восприятие рекламы

jzha Jul 29 2015 at 06:37

У меня вопросы к вашим утверждениям.
1) Разве полученное хорошее качество классификации характеристик дает возможность говорить и хорошем качестве классификации типов?
2) Вы получили значимое отличие CTR в 2 классах. Но это не говорит о значимом различии для каких-либо типов, да? Например, даже не ясно какая ситуация для ET vs IF. Если вы использовали доверительные интервалы CTR для вывода о существенном отличии этой величины в классах характеристик, может вы добавите еще график доверительных интервалов для всех 16 типов?

+1

Типы личности по MBTI: влияние на восприятие рекламы

jzha Jul 28 2015 at 17:43

вообще говоря, из того, что 95% доверительные интервалы пересекаются, не следует что ошибка отклонения нуль-гипотезы о равенстве долей превышает 5%.

0

Типы личности по MBTI: влияние на восприятие рекламы

jzha Jul 28 2015 at 16:06

Вы определяется статистическую значимость отличия CTR на основании того, пересекаются ли их доверительные интервалы?

0

Сравнение скорости построения линейных моделей в R и Eviews

jzha Dec 11 2014 at 20:50

Непонятно про соотношение 75.8 в пользу Eviews по сравнению с R. Вы пишите, что доп. миллион увеличивает время оценивания в R на 1.39 сек., в Eviews — на 0.18. Получается ~ 7.7. Или не так понял?

Если хотите скорости в R для оценки линейной модели, то используйте RcppEigen. Тесты производительности здесь.

Для Вашего примера при n = 1e+6 на моей машине в R обычный lm (QR метод) выполняется 2 сек., fastLm (LLt метод) — 0.08 сек., fastLmPure (LLt метод) — 0.034 сек.

Необычный у вас вывод результатов R на снимках из поста. R скрипт запускается в Eviews?

0

Вероятностное программирование

jzha Dec 3 2014 at 07:35

Здравствуйте! Спасибо за ответы.

2-3. Извините, не точно выразился. Понятно, что можно использовать готовую реализацию распределения на обычном языке.
Поскольку Anglican ориентирован на MCMC, интересно, как элегантно именно в нем можно задать новое распределение. Возможно, с сэмплированием я перегнул, обычный язык для этих целей вполне приемлем.
Если исполнение в вероятностном языке будет еще и эффективно по времени, то это было бы замечательно.

0

Вероятностное программирование

jzha Dec 2 2014 at 18:44

Спасибо за публикацию. Не уточните, пожалуйста, некоторые детали.

1. Любопытно посмотреть на эффективность работы в сравнении с другими языками. В этой публикации дается обзор по времени работы в разных «обычных» языках программирования сэмплирования по Гиббсу для некого двумерного распределения: здесь. Если несложно, сообщите, что будет в Venture/Anglican?

2. Как обстоят дела с набором заданных в языке распределений. Например, truncated multivariate normal distribution из коробки есть?

3. Интересно посмотреть на код генерации случ. величин из truncated mv normal distribution, оценить, если получится, сложность реализации. Не могли бы Вы указать ссылку на источник?

0

Google даст студентам возможность бесплатно поработать с Chromebook в течение 4 дней

jzha Sep 14 2014 at 16:31

Как писали ниже, читать pdf вполне удобно (на 11") и сразу можно производить сопутствующие вычисления, например, в aws ec2. В таком случае для меня важно наличие клавиатуры.
Да, дома chromebook не может заменить полноценный ноутбук.

0

R: пакет ellipse для визуализации доверительных областей

jzha Oct 28 2013 at 11:34

Ясно. Добавлю, что авторы метода — Murdoch, D.J. and Chow, E.D. Они же являются соавторами пакета ellipse.
Кстати, в списке статей, процитировавших статью Мёрдока и Шоу, есть близкая к Вашим интересам -> GAP: A graphical environment for matrix visualization and cluster analysis

0

4