• Path Machine: идея одного алгоритма

      Предыстория


      Лет 15 назад я узнал о существовании фундаментальных путей — групп, которые могут различать топологические пространства по связности. Дальше будет не о них, но они натолкнули на идею регрессора и классификатора — без всяких оптимизаций, основанного на запоминании выборки.

      Далее подробнее.
      Читать дальше →
    • Насколько R быстр для продуктива?

        Есть такой популярный класс задач, в которых требуется проводить достаточно глубокий анализ всего объема цепочек работ, регистрируемых какой-либо информационной системой (ИС). В качестве ИС может быть документооборот, сервис деск, багтрекер, электронный журнал, складской учет и пр. Нюансы проявляются в моделях данных, API, объемах данных и иных аспектах, но принципы решения таких задач примерно одинаковы. И грабли, на которые можно наступить, тоже во многом похожи.


        Для решения подобного класса задач R подходит как нельзя лучше. Но, чтобы не разводить разочарованно руками, что R может и хорош, но о-о-очень медленный, важно обращать внимание на производительность выбираемых методов обработки данных.


        Является продолжением предыдущих публикаций.

        Читать дальше →
      • «На курсы шли не только ради знаний, у многих были карьерные амбиции и профессиональные задачи развития»

        Хабр, привет! Знакомьтесь — Артём Москалец, СЕО компании Brightlab, с которым мы пообщались в рамках нашей серии интервью с выпускниками. Кандидат психологических наук, бывший зам. директора ГУУ. Волею судеб оказавшись в Ростове-на-Дону, познакомившись с местными талантливыми разработчиками, Артём открыл для себя мир новых технологий, начал активно изучать данную область, собрал команду профессионалов и теперь успешно развивает свою компанию.

        image

        — Артём, представься, пожалуйста, и расскажи о своем бэкграунде.

        — Артём Москалец, CEO в компании Brightlab LLC. Компания наша не самая большая в мире разработки, но дружный коллектив из 24 молодых ребят позволяет решать, не побоюсь этого слова, задачи любого уровня в вeбе.

        Мое профессиональное становление можно описывать по аналогии с диалектическим законом единства и борьбы противоположностей. К примеру, проявляя способности к точным наукам, алгебре и физике, в частности, высшее образование решил получать по направлению социологии и психологии управления. Мой репетитор по физике, зная, что его домашние задания решались в прямом смысле слова на коленке по дороге к нему, говорил: “В тебе умирает физик”. Путь наименьшего сопротивления, свойственный молодым ребятами 16-ти лет, и развитые коммуникативные навыки предопределили мой профессиональный путь развития. Хотя инициативность во мне не дремала уже тогда. К примеру, я все же поступил на факультет прикладной математики и информатики в МИСиС, но оригинал аттестата туда не отнес. Может быть, из-за страха. Наверное, это один из моментов, оглядываясь на которые, я испытываю сожаления.
        Читать дальше →
      • Совершеннолетняя журналистика: от России до Кремля

          Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.



          В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

          Читать дальше →
        • Совмещение R и Python: зачем, когда и как?

            dva stula

            Наверное, многие из тех, кто занимается анализом данных, когда-нибудь думали о том, возможно ли использовать в работе одновременно R и Python. И если да, то зачем это может быть нужно? В каких случаях будет полезным и эффективным для проектов? Да и как вообще выбрать лучший способ совмещения языков, если гугл выдает примерно 100500 вариантов?

            Давайте попробуем разобраться в этих вопросах.
            Читать дальше →
            • +39
            • 8,2k
            • 4
          • Введение в обучение с подкреплением

            • Перевод
            Всем привет!

            Мы открыли новый поток на курс «Machine learning», так что ждите в ближайшее время статей связанных с данной, так сказать, дисциплиной. Ну и разумеется открытых семинаров. А сейчас давайте рассмотрим, что такое обучение с подкреплением.

            Обучение с подкреплением является важным видом машинного обучения, где агент учится вести себя в окружающей среде, выполняя действия и видя результаты.

            В последние годы мы наблюдаем много успехов в этой увлекательной области исследований. Например, DeepMind и Deep Q Learning Architecture в 2014 году, победа над чемпионом по игре в го с AlphaGo в 2016, OpenAI и PPO в 2017 году, среди прочих.

            Читать дальше →
          • Сопоставление товаров при помощи Elasticsearch для сервиса мониторинга цен конкурентов

            В далеком 2017 году, возникла идея разработать сервис мониторинга цен конкурентов. Его отличительной фишкой от остальных подобных сервисов должна была стать функция ежесуточного автоматического сопоставления товаров. Видимо из — за почти полного отсутствия информации о том, как это делать, сервисы по мониторингу цен предлагали лишь возможность ручного сопоставления силами самих клиентов, либо операторов сервиса с ценой от 0.2 до 1 рубля за факт сопоставления. Реальная же ситуация с, например, 10 сайтами и 20 000 товаров на каждом, неминуемо требует автоматизации процесса, так как ручное сопоставление уже слишком долгое и дорогое.

            Ниже будет описан подход к автоматическому сопоставлению на примере ряда конкурирующих аптек с использованием технологии Elaticsearch.
            Читать дальше →
          • Демократизация данных в убере

              Всем привет!


              Под хеллоувин я побывал на конференции в Будапеште (Data Crunch) и послушал там ряд интересных докладов. Один из них был от Uber, которые рассказывали о том, на каких подходах они организовали свою платформу управления данными. Этот доклад был не столько технический, сколько менеджерский и продуктовый.


              Uber обширно используется данные, которые собирает в результате взаимодействия с пассажирами и водителями. Они рассчитывают стоимость поездки, оценивают потоки людей, меняют алгоритмы цены, дают рекомендации водителям, как им больше заработать и все это основываясь на собранных данных. В такой компании вся работа с данными не может быть сконцентрирована в руках группы аналитиков и DS, т.к. иначе придется нанять их слишком много, да к тому же они не всегда погружены в бизнес контекст.

              Читать дальше →
            • Парадокс времени ожидания, или почему мой автобус всегда опаздывает?

              • Перевод

              Источник: Wikipedia License CC-BY-SA 3.0

              Если вы часто ездите на общественном транспорте, то наверняка встречались с такой ситуацией:

              Вы приходите на остановку. Написано, что автобус ходит каждые 10 минут. Засекаете время… Наконец, через 11 минут приходит автобус и мысль: почему мне всегда не везёт?

              По идее, если автобусы приходят каждые 10 минут, а вы придёте в случайное время, то среднее ожидание должно составлять около 5 минут. Но в действительности автобусы не прибывают точно по расписанию, поэтому вы можете ждать дольше. Оказывается, при некоторых разумных предположениях можно прийти к поразительному выводу:

              При ожидании автобуса, который приходит в среднем каждые 10 минут, ваше среднее время ожидания будет 10 минут.

              Это то, что иногда называют парадоксом времени ожидания.
              Читать дальше →
            • Full stack Data analyst

                "Анализ данных" часто организован так: вот у нас разработчики хранилища, а вот у нас аналитики. В DWH (data warehouse, хранилище) умеют SQL, а аналитики у нас умеют работать c экселем. Если нам нужно что-то проанализировать, то идете к аналитикам, а они идут за данными к DWH за данными. Вроде бы логично. И многие воспринимают, что это нормальное разделение труда. В этой статье я хочу донести мысль, что это разделение труда ошибочное и грандиозно снижает эффективность и производительность труда всего процесса анализа данных.


                Типичный цикл работы по аналитической задаче выглядит так:


                1. Бизнес приходит с проблемой и просит получить ответ.
                2. Аналитики обсуждают с бизнесом, что надо сделать.
                3. Аналитики поняли, что от них хочет бизнес и понимают, что им примерно нужно в данных.
                4. Аналитики пишут запрос в DWH, чтобы получить данные.
                5. DWH берет запрос, читает, спрашивает, уточняет, извлекают данные, отдают.
                6. Аналитики понимают, что взяли не все или их неверно поняли, они пишут снова запрос в DWH, чтобы получить данные.
                7. DWH берет запрос, читает, спрашивает, уточняет, извлекают данные, отдают.
                Читать дальше →

              Самое читаемое