• Карта ДТП

    image

    Расскажу вам о проекте “Карта ДТП” – интерактивной карте аварий в России. Карта упрощает анализ ДТП и помогает найти реальные причины происшествий. Как пришла идея, где брали данные и зачем открыли исходный код.

    За 2018 год в ДТП на дорогах России погибли 19088 человек


    Читать дальше →
  • Мой адрес не дом и не улица, мой адрес – Советский Союз?

      microBIGDATA или ФИАС в кармане


      Питер Брейгель Младший, Уплата налога, 1640 год

      Прошлый заход на бреющем по объектам зашел. Продолжим разведку боем. Сегодня поговорим о тяжелом. Пусть ещё не о BIG DATA, но работать уже неудобно – достаточно большие объёмы данных. Не каждому влезет в оперативную память целиком, а некоторым не влезет даже на диск (не места мало, а хламу много). Имя нашему подопечному БД ФИАС — база данных федеральной адресной информационной системы. Архив в 5,5 ГБ. И это сжатый в архив XML. После распаковки будут полные 53 ГБ (для распаковки запасайте 110 ГБ). И как начнёшь его парсить да конвертить, то и 110 ГБ будет мало. О потребном размере ОЗУ тоже будет.
      Читать дальше →
    • Законодательный эксперимент с внедрением цифровых инноваций

        Экономический рывок в нашей стране станет возможен, только если государство снизит нагрузку на бизнес и пересмотрит свои требования к нему, считает премьер-министр Дмитрий Медведев. В ходе пленарной дискуссии на Гайдаровском форуме премьер-министра отметил, что в России действует более 9 тысяч НПА, которые содержат обязательные требования к бизнесу. При этом многие из них создавались еще в СССР и устарели морально и технологически.

        В связи с этим рассматривается механизм «регуляторной гильотины», который заключается в масштабном анализе и пересмотре действующих нормативно-правовых актов (НПА). По сути предполагается, что положения актов, содержащих обязательные требования, автоматически потеряют свою силу, если они не будут специальным образом пересмотрены, подтверждены или изменены. При этом предполагается, что необходимость сохранения существующих ограничений и требований обязательно должна быть доказана соответствующими органами. По словам Медведева, к 1 февраля 2020 года можно пересмотреть все требования к предпринимателям с учетом современных реалий.

        В контексте данной идеи Минэкономразвития России разработало законопроект о регуляторных песочницах для инновационной деятельности в сфере цифровых технологий. В документе определяются цели и принципы создания таких песочниц, вводятся ограничения на их применение, и устанавливаются гарантии прав и законных интересов всех участников экспериментальных правовых режимов (ЭПР) и тех, кто с ними будет взаимодействовать. Предполагается, что такой механизм приведет к реальному сокращению времени и других издержек на внедрение инновационных продуктов цифровой экономики.

        Полный текст законопроекта.


        Читать дальше →
      • Данные бывают смешными (и вот примеры)



          Мы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Весь год писали о сложных и полезных штуках, но пора и честь знать. Перед праздниками — подборка смешных данных, что нам принес 2018-й.
          Читать дальше →
        • Новогодний датасет 2018: открытая семантика русского языка

            Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.


            Читать дальше →
          • Совершеннолетняя журналистика: от России до Кремля

              Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.



              В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

              Читать дальше →
            • 6 типовых сюжетов мировой литературы

              • Перевод
              Исследователи изучили тексты более 1700 романов и обнаружили, что все их можно отнести к 6 сюжетным типам.


              В своей лекции 1995 года американский романист Курт Воннегут рисовал на доске различные сюжетные линии, по ходу повествования иллюстрируя изменение положения главного героя по шкале «хорошо-плохо». Среди сюжетов были «загнанный в угол человек», в рамках которого главный герой попадает в беду и в итоге выбирается из нее, а также «парень добивается девушки», где герой получает нечто чудесное, теряет это и снова находит в конце. «Нет никаких препятствий к тому, чтобы загружать простые формы историй в компьютер, — заметил Воннегут. — Это прекрасные формы».

              Благодаря новым технологиям интеллектуального анализа люди решили эту задачу. Профессор Мэтью Джокерс из Университета штата Вашингтон, а позже и исследователи из лаборатории компьютерных историй Вермонтского университета проанализировали тексты тысяч романов и выявили шесть основных типов историй — архетипов, — представляющих собой базовые структурные блоки для построения более сложных сюжетов. Вермонтские исследователи описали эти шесть форм повествования, лежащих в основе 1700 английских романов, следующим образом:

              1. «Из грязи в князи» — постепенное улучшение положения от плохого к хорошему.
              2. «Из князи в грязи» — падение от хорошего положения к плохому, трагедия.
              3. «Икар» — взлет и падение.
              4. «Эдип» — падение, взлет и снова падение.
              5. «Золушка» — взлет, падение, взлет.
              6. «Человек, загнанный в угол» — падение и взлет.

              Исследователи применили анализ эмоциональной окраски — статистическую методику, часто используемую маркетологами для оценки публикаций в социальных СМИ.
              Читать дальше →
            • Как программисты Родину спасали

                Я всегда считал, что программисты спасут мир. Не те, которые «дайте ТЗ, я запрограммирую», а те, настоящие, которые сто лет назад были инженерами и изобретателями, а с появлением компьютеров просто пересели в виртуальную среду. Но подход к делу у них остался. Пытливый, инженерный, основанный на фактах, измерениях и системном мышлении. Подход, не позволяющий пользоваться тем, чего не понимаешь, не видел изнутри, не пробовал изменить.

                Мир мы, положим, еще не спасли, но все к тому идет. Родину ведь спасли.

                Как вы поняли, речь о грандиозных реформах, охвативших Россию в последние годы. Обыватели, конечно, считают, что это кто-то умный из правительства все придумал. Но мы-то с вами знаем, что идеологами, методистами, архитекторами и исполнителями сути этих реформ выступили программисты.

                Я не буду увлекаться популизмом, лозунгами и эпитетами – я не политик. И так со всех экранов страны только и говорят, что об этой реформе. Моя задача – рассказать о том, как это было изнутри. О предпосылках, гипотезах и решениях, которые мы применили.

                Вообще, решений было много – и технических, и организационных, ввиду широкого масштаба этого проекта. Но начать с чего-то ведь надо? Поэтому начну с губернаторов, т.к. это был один из первых этапов проекта.
                Читать дальше →
              • GeoPuzzle — собери мир по кусочкам

                  image

                  Хочу рассказать о проекте, который развивал последние пару лет. Называется он GeoPuzzle и представляет собой игру-паззл на политической карте мира. Цель — расставить кусочки-страны на свои места. Идея подсмотрена в статье «Головоломка Mercator для знатоков географии», также в детстве играл в тетрис из стран (ещё под DOS), но название программы уже не припомню. Я был настолько вдохновлён идеей, что захотел сделать полноценный продукт, интересный не только школьникам, но и знатокам географии. За развитием проекта можно наблюдать на GitHub.
                  Читать дальше →
                • Для чего кредитным организациям наука о данных

                  • Перевод
                  Автор материала на примере Индии рассматривает, какие выгоды для кредитных организаций несут цифровая революция, демократизация данных и анализ цифрового следа пользователей.


                  Демократизация данных


                  Доступ к Всемирной сети позволяет людям узнавать о новых продуктах, услугах, возможностях и контенте из любой точки планеты. Так, Индия стала самым активным потребителем мобильного интернета.

                  Количество мобильных абонентов в I квартале 2018 года

                  Крупные корпорации вынуждены считаться с такими изменениями. Они переводят свой бизнес в онлайн или обеспечивают там свое присутствие. Объем розничных онлайн-продаж в этом году вырос до 50 млрд долларов по сравнению с 19,7 млрд долларов в 2015 году. А статистика прошлого года показывает, что 82% запросов, связанных с электронной коммерцией, были отправлены с мобильных устройств.

                  Распространенность смартфонов


                  Персональные компьютеры и планшеты в Индии относятся к категории дорогих устройств, недоступных широким слоям населения. А смартфоны с поддержкой 4G в среднем стоят 7 долларов. Это привело к широкому распространению 4G-смартфонов в стране: их количество выросло с 47 миллионов в 2015 году до 218 миллионов в 2017 году. Согласно прогнозам, количество пользователей мобильного интернета также резко возрастет с 240 млн в 2016 году до 520 млн в 2020-м. Среднегодовой показатель роста при этом составит 21%.

                  Увеличение среднего показателя потребления данных


                  Запуск 4G сделал высокоскоростной интернет доступным для широких масс. Снижение стоимости обмена данными на 93% — с 3,7 долларов за 1 Гб до 0,26 долларов — сильно повлияло на поведение потребителей, которые «подсели» на интернет. По статистике, индийцы сегодня проводят за смартфоном около 3 часов в день.

                  Цифровой след

                  Читать дальше →

                Самое читаемое