Насколько я понимаю, Ваше утверждение верно для отдельного момента времени, плюс количество совершенно не говорит об обороте (1 шт. Jameson'а окажет влияние наоборот гораздо больше, чем 100 коробков спичек). А регрессия помогает понять как ведет себя оборот за некоторый промежуток. Однако комментарии выше абсолютно верны, корректное построение линейной модели предполагает наличие множества ограничений, которые никак не описаны.
Минус: R сложен в изучении
Кривая обучения языку R нетривиальна, особенно если вы беретесь за статистический анализ, опираясь на графический интерфейс. Даже поиск пакетов может занять много времени, если вам это в новинку.
Мне кажется в Питоне поиск и установка пакетов занимает еще больше времени. Пытался поставить все необходимые ML пакеты, не выдержал, снес обычный Питон и установил дистрибутив от Анаконды. Хотя возможно всему виной моя криворукость.
В R установка пакетов это одна строка (иногда пара строк). Гуглится практически все по запросу "задача r package"
По собственному опыту могу сказать, что R в обучении был проще, с Питоном бодаюсь до сих пор (опять же возможно дело в криворукости).
Голосовать не могу — я за книгу по Питону в ML (по R книг и так много).
Спасибо за статью.
Согласен.
Я немного не об этом. Правильно ли я понял, что этот график сделан уже не по ToothGrowth, а по какой-то другим данным (возможно искусственным) с большим количеством измерений?
Если так, то ширина доверительно интервала среднего значения на нижней части графика сильно зависит от количества наблюдений, при этом вид графика плотности вероятности может практически не измениться. Т.е. p-value сильно зависит от количества измерений, которое верхний график никак не отображает. И в итоге получается та же история, что и с «графиком-чемпионом».
Мне кажется график «памятка о соотношении дистанции между доверительными интервалами и приблизительным значением p-value» не очень удачный пример визуализации.
Если я правильно понял, то на верхней части графика приведена плотность вероятности самой величины, а на нижнем доверительные интервалы ее среднего значения. Верхняя часть графика практически не ассоциируется с p-value = 0,0001.
В R тысячи пакетов и библиотек, предоставляющих возможность применять, пожалуй, абсолютно любые статистические методы. Реализовать регрессионный анализ со случайными эффектами в R позволит специальная библиотека lme4. С помощью языка Python, например, это сделать значительно сложнее!
Хотелось бы больше конкретных примеров — в рунете с этим напряг.
Интересно, как понять, когда компания созрела для внедрения инструментов именно Big Data.
Когда становится недостаточно реляционных БД+Python/R? Когда обработка начинает занимать слишком долгое время? Или когда решение задач становится в принципе невозможным без Hadoop и пр.?
И еще вопрос
Из Вашей практики — кому требуется требуется больше вычислительных ресурсов — аналитикам, которые выбирают, строят и подстраивают модели наилучшим образом или департаменту IT, который реализует уже конкретную модель в рамках всей компании?
Допустим Вы хотите исследовать пенетрацию (фактически это вероятность обнаружить товар в чеке) какого либо товара с заданной точностью. Нужно оценить количество чеков, необходимое для получения данной точности. Соответственно у нас есть 2 исхода — товар есть в чеке и товар в чеке отсутствует. Это биномиальное распределение и доверительный интервал будет иметь вид. Отсюда в зависимости от предполагаемого ассортимента исследуемого магазина и заданной точности можно получить необходимое количество чеков. Оно будет огромным.
Проблема оцифровки отходит на второй план — собрать такое количество чеков очень сложно.
В прошлом отличным мотиватором игры была пресловутая 9 галактика и планета Raxxla. В ее поисках убил много сотен часов времени. Интересно есть ли что-то подобное в E:D.
Использовать или не использовать — считаю, что это вопрос личных предпочтений. Лично мне кажется удобным, что нет необходимости писать парсер на другом языке, а затем результаты его работы импортировать в R.
У меня и моих коллег R раньше не ассоциировался со сбором данных. В статье попытался показать, что данный инструмент можно использовать и для подобных целей.
1. Отображение на карте,
2. Графический веб-интерфейс,
3. Определение лямбы в Lasso и Ridge
Кстати, если Ridge и Lasso показывают себя плохо, имеет смысл попробовать их суперпозицию, которая в некоторых случаях ведет себя лучше.
Как организовали работу Shiny под Win — виртуалка, запуск прямо из RStudio или у Shiny Server наконец-то появилась нативная поддержка Windows?
P.S. Honor Code, кстати, статьей не нарушается?
Вики
Мне кажется в Питоне поиск и установка пакетов занимает еще больше времени. Пытался поставить все необходимые ML пакеты, не выдержал, снес обычный Питон и установил дистрибутив от Анаконды. Хотя возможно всему виной моя криворукость.
В R установка пакетов это одна строка (иногда пара строк). Гуглится практически все по запросу "задача r package"
По собственному опыту могу сказать, что R в обучении был проще, с Питоном бодаюсь до сих пор (опять же возможно дело в криворукости).
Голосовать не могу — я за книгу по Питону в ML (по R книг и так много).
Спасибо за статью.
Я немного не об этом. Правильно ли я понял, что этот график сделан уже не по ToothGrowth, а по какой-то другим данным (возможно искусственным) с большим количеством измерений?
Если так, то ширина доверительно интервала среднего значения на нижней части графика сильно зависит от количества наблюдений, при этом вид графика плотности вероятности может практически не измениться. Т.е. p-value сильно зависит от количества измерений, которое верхний график никак не отображает. И в итоге получается та же история, что и с «графиком-чемпионом».
Мне кажется график «памятка о соотношении дистанции между доверительными интервалами и приблизительным значением p-value» не очень удачный пример визуализации.
Если я правильно понял, то на верхней части графика приведена плотность вероятности самой величины, а на нижнем доверительные интервалы ее среднего значения. Верхняя часть графика практически не ассоциируется с p-value = 0,0001.
Хотелось бы больше конкретных примеров — в рунете с этим напряг.
Когда становится недостаточно реляционных БД+Python/R? Когда обработка начинает занимать слишком долгое время? Или когда решение задач становится в принципе невозможным без Hadoop и пр.?
И еще вопрос
Из Вашей практики — кому требуется требуется больше вычислительных ресурсов — аналитикам, которые выбирают, строят и подстраивают модели наилучшим образом или департаменту IT, который реализует уже конкретную модель в рамках всей компании?
В чем были сложности реализации механики?
Проблема оцифровки отходит на второй план — собрать такое количество чеков очень сложно.
Использовать или не использовать — считаю, что это вопрос личных предпочтений. Лично мне кажется удобным, что нет необходимости писать парсер на другом языке, а затем результаты его работы импортировать в R.
У меня и моих коллег R раньше не ассоциировался со сбором данных. В статье попытался показать, что данный инструмент можно использовать и для подобных целей.
Про yml не знал, стоит попробовать, спасибо.