• Серьёзные математические ошибки NHTSA позволили Tesla заявить о безопасности автопилота


      Национальная администрация безопасности дорожного движения (NHTSA) крупно рискует своей репутацией после разгромного отчёта, который опубликовала маленькая исследовательская и консалтинговая фирма под названием Quality Control Systems. Этот отчёт посвящён анализу доклада NHTSA от 2017 года, в результате которого чиновники выяснили, что автопилот Tesla снижает риск попасть в ДТП на 40% (диаграмма выше).
      Читать дальше →
    • Сколько доменных имён .com не используется?

      • Перевод
      При поиске свободного имена в зоне .com меня неприятно удивило количество уже занятых, но неиспользуемых доменов. Судя по всему, зарегистрированы все произносимые комбинации букв на всех основных языках мира. И даже непроизносимые короткие комбинации. То ли существует большой рынок доменов, то ли мне просто на ум приходят те же имена, что и всем остальным? Посмотрим на голую статистику…

      В настоящее время зарегистрировано 137 миллионов доменных имён .com. По данным Verisign, в «активной зоне» по состоянию на 27.01.2019 года есть 137 756 106 доменов .com. Перед этим я сверил корректность цифры с файлом DNS-зоны.

      Из них используется около трети (предприятия, личные веб-сайты, электронная почта и т. д.). Ещё треть, по-видимому, не используется, а последняя треть используется в различных спекулятивных целях.
      Читать дальше →
    • Жизненный цикл статьи на Хабре: пишем хабрапарсер

        Привет Хабр!

        Многие постоянные читатели и авторы сайта наверное задумывались о том, какой жизненный цикл имеют опубликованные здесь статьи. И хотя интуитивно это и так более-менее ясно (очевидно например, что статья на первой странице имеет максимальное число просмотров), но сколько конкретно?



        Для сбора статистики воспользуемся Python, Pandas, Matplotlib и Raspberry Pi.

        Тех кому интересно, что из этого получилось, прошу под кат.
        Читать дальше →
      • Навыки, самообразование и языки программирования для начинающих разработчиков: исследование HackerRank



        В начале этого года HackerRank опубликовала результаты масштабного исследования, в котором приняли участие 10 тысяч студентов — будущих разработчиков. Целью исследования было выяснить, насколько важно самообразование в ходе обучения, а также узнать, какие навыки студенты планируют развивать.

        Итоги получились интересными, с результатами исследования можно познакомиться под катом. К слову, мы уже публиковали статью о важности самообучения для начинающего разработчика.
        Читать дальше →
        • +22
        • 7,1k
        • 3
      • Этичность автоматизации активности

          Привет Хабр! Сегодня я хотел бы поговорить про этичность, а именно про этичность в профессиональной сфере. Речь пойдет о сервисах фейковой активности и о тех заблуждениях, в которые они могут привести как обычного рядового пользователя, так и профессионала сферы разработки.



          И так, начнем. Что я имею ввиду под фразой “фейковая активность” догадаться не сложно: это манипуляция и компрометирование тех данных, которые отвечают за показатель вашей активности, или проще, действий в интернете. С этим наверняка сталкивался каждый из вас, кто хоть раз пользовался соц-сетями: VK, Instagram и тд.

          Опишу эту схему на примере Instagram: у каждого человека есть свой собственный аккаунт, а для разработчиков предоставляется API доступ. И до чего мы додумались? Запустить ботов которые через аккаунт человека будут проявлять разного рода активность (ставить лайки, подписываться, комментировать посты других людей, или даже самостоятельно вести страницу, на примере @neuralcat). И вскоре эту возможность начали активно использовать бизнес сферы. Привлечение новой аудитории путем таргетирования по определенным критериям и проводя активность на их странице. Все бы ничего, но вот со временем это вышло за все рамки. Каждый день десятки непонятных аккаунтов лайкают ваши фото, оставляют спам-комментарии отмечают вас на фото-розыгрышах и тд.

          Бот активность вышла за все рамки благоразумия что на сегодняшний день Instagram закрывает свой API, и вот одна из причин: “Большинство сервисов, работающих с автопостингоми, накрутками лайков и «лайками типа OML» — делают это через приватное api — через «пароль\логин», а не через официальное API.”
          Читать дальше →
        • Почему традиционная модель розничных магазинов уже мертва

          • Перевод

          На примере рынка США заметен упадок офлайн-ритейла. На это многие обратили внимание в свете недавних новостей о закрытии крупной розничной сети Macy’s со 160-летней историей и сообщений о потере компаниями-участниками розничного сектора 34 млрд долларов капитализации на рынке.

          Новость о резком падении прибыли Macy’s стронула лавину, и стоимость акций различных компаний розничного сегмента упала в цене суммарно на 34 млрд долларов. Не только Macy’s ошиблись в прогнозах насчет получения массовой прибыли на праздничных распродажах, рассчитывая на высокую потребительскую покупательную способность. Kohl’s, JCPenney и другие специализированные розничные сети также сообщили о довольно посредственных результатах сезона праздничных скидок. А итоги этого периода считаются для сектора ключевым показателем успеха.

          Примерно в это же время случилось еще одно знаковое событие: второй старейший в США ритейлер, Sears, сообщил о своем закрытии.

          Аналитики, считающие Macy’s законодателем покупательских трендов для американского среднего класса, объясняют неудачи компании неожиданными скачками цен на акции, которые наблюдались за несколько недель до Рождества, и пожаром в распределительном центре компании, что, по мнению аналитиков, сказалось на ассортименте.

          Оба этих фактора сыграли определенную роль, но они не так значимы на фоне действительно важных проблем, с которыми столкнулись Macy’s и другие традиционные физические ритейлеры, которые в последние годы пытаются убедить мир в том, что их привычная модель торговли крепко стоит на ногах.

          Падение физического ритейла


          Традиционная модель физических магазинов если и не мертва, то точно находится в реанимации. Диагноз довольно прост: ритейлеры не увидели леса цифровых возможностей за деревьями магазинной торговли.

          Во многом это случилось из-за того, что ритейлеры на основании неверных данных сделали неправильные предположения об актуальных потребительских привычках.
          Читать дальше →
        • Backblaze опубликовала статистику надёжности HDD за 2018 год



            Более пяти лет назад компания Backblaze опубликовала первый отчёт по использованию дисковых накопителей в своих серверах. Backblaze предоставляет услугу дешёвого облачного бэкапа. В основе их инфраструктуры — жёсткие диски потребительского класса. Компания собрала большую статистику по отказоустойчивости разных типов HDD. В то время парк накопителей Backblaze состоял в основном из дисков Seagate, Hitachi и WD, а самыми надёжными оказались диски Hitachi.

            С тех пор Backblaze публикует статистику ежегодно, и сейчас пришло время очередного отчёта.
            Читать дальше →
          • Можно ли считать статистику при малом количестве данных?

              В целом ответ – да. Особенно, когда есть мозги и знание теоремы Байеса.

              Напомню, что среднее и дисперсию можно считать только, если у вас имеется определенное количества событий. В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский. Почему я не могу просто взять и посчитать среднее, если у меня есть 5 измерений? По идее ничто не мешает, только среднее получается нестабильным. После еще одного измерения и пересчета оно может сильно измениться и полагаться на него можно начиная где-то с 30 измерений. Но и после 31го измерения оно тоже пошатнется, только уже не так заметно. Плюс добавляется проблема, что и среднее можно считать по разному и получать разные значения. То есть из большой выборки можно выбрать первые 30 и посчитать среднее, потом выбрать другие 30 и тд … и получить много средних, которые тоже можно усреднять. Истинное среднее бывает недостижимо на практике, так как всегда имеем конечное количество измерений. В таком случае среднее является статистической величиной со своим средним и дисперсией. То есть измеряя среднее на практике мы имеем в виду «предположительное среднее», которое может быть близко к идеальному теоретическом значению.

              Попробуем разобраться в вопросе, на входе мы имеем некоторое количество фактов и хотим на выходе построить представление об источнике этих фактов. Будем строить мат модель и использовать теорию Байеса для связки модели и фактов.

              Читать дальше →
            • 35% аудитории рунета вообще не используют компьютер для интернета


                Пользование только мобильным интернетом. Источник: Омнибус ГФК-Русь, вся Россия, население 16+

                По статистике GfK, в 2018 году резко увеличилась доля россиян, которые выходят в интернет только с мобильных устройств и вообще не пользуются для этого персональными компьютерами. За год «чисто мобильная» аудитория выросла с 18% до 35%.

                Среди самых молодых пользователей у 41% компьютеры отсутствуют или не используются для интернета. Ситуация не слишком отличается для людей средних лет: 30%. Такими темпами смартфоны скоро могут стать основным устройством для выхода в интернет. Некоторые эксперты говорят, что это уже произошло.
                Читать дальше →
              • Применяем data science для определения жизненного цикла клиента

                Привет, Хабр! Представляю вашему вниманию перевод моей статьи "Understanding the Customer Lifetime Value with Data Science".


                Взаимоотношения с клиентами важны для каждой компании и играют ключевую роль в росте бизнеса. Одна из наиболее важных метрик в этой сфере — пожизненная ценность клиента (customer lifetime value, далее LTV) — предсказание чистого дохода, связанного со всеми будущими отношениями с клиентом. Чем дольше клиенты продолжают пользоваться продуктами компании, увеличивая прибыль, тем выше их LTV.

                Есть много маркетинговых статей, о том, как важны LTV и сегментирование клиентов. Но, как Data Scientist’а, меня больше интересуют формулы и я хочу понимать, как модель на самом деле работает. Как предсказать LTV, используя только 3 признака? В этом посте я покажу некоторые модели, которые используются для маркетинговой сегментации клиентов и объясню математику, на которой они основаны. Здесь будет много формул, но не переживайте: все уже готово в библиотеках Python. Цель этого блога показать, как математика делает всю работу.


                Beta-geometric/negative binomial модель для определения вероятности, что клиент “жив”


                Рассмотрим такой пример [из онлайн-сервиса для заказа поездок (такси) по городу]: пользователь зарегистрировался 1 месяц назад, сделал 4 поездки и последняя поездка состоялась 20 дней назад. Основываясь только на этих данных, эта модель может предсказать вероятность, что клиент будет активен в течение определенного периода времени (как показано на графике), а также число транзакций в будущем (которое является основой для понимания ценности клиента в течение всей его “жизни” — взаимоотношений клиента и компании).



                Модель дает прямое руководство к действию для бизнеса: предпринять маркетинговые меры по отношению к пользователю, когда его вероятность активности снижается ниже определенного уровня, чтобы предотвратить его уход.

                Read more →

              Самое читаемое