Мифология Data Science



    The future belongs to the companies and people that turn data into products

    Человечество никогда не стояло на месте – суровый закон выживания постоянно заставлял его двигаться вперед. В истории развития человечества революции происходили всегда – одно общество сменялось другим, а устаревшие технологии заменялись более прогрессивными. Последняя информационная революция связана с появлением персональных компьютеров в 80-е годы ХХ века. В результате появления новых технологий, позволяющих накапливать информацию в новом виде – цифровом, начало формироваться информационное общество, приходящее на смену индустриальному. Информационное общество – общество, в котором большинство занято производством, хранением, переработкой и реализацией информации. По сравнению с индустриальном обществом, где все силы направлены на производство и потребление товаров, в информационном обществе потребляются интеллект и знания, что приводит к увеличению доли умственного труда. Развитие информационных технологий планомерно меняет структуру общества, а также влияют на метод принятия решений. На первый план в информационном обществе выходят люди, обеспечивающие производство, передачу и обработку информации, т.е. специалисты в информационно-коммуникационных технологиях. Решения в информационном обществе, касающиеся большого количества людей, принимаются большинством, на основе голосования. Время реакции на какое-либо событие составляет считанные минуты, а само событие становится известным практически сразу. Несмотря на это, некоторые правительства, не понимающие эволюционных процессов, происходящих в современном обществе, пытаются ограничить доступ к самому ценному предмету потребления в новом обществе – информации. Люди, выросшие в обществе, где темы для обсуждения искусственно ограничены, а некоторые из них являются запретными, не будут полноценными по сравнению с людьми, выросшими в обществе со свободным доступом к любой информации. Необходимую цензуру будет проводить само общество – и чем выше будет уровень развитие такого общества, тем выше будет уровень самоцензуры. Хорошо, если полный переход на информационную модель общества будет плавным, без потрясений и революций. Совсем плохо, если нам придётся пережить смутные времена. Что ж, у нас будет возможность проследить за развитием событий в дальнейшем. Однако я хотел поговорить не об этом.

    Основной ценностью и предметом потребления в информационном обществе становится информация, а точнее знания. В настоящее время, объем накопленных данных в компаниях удваивается каждые 18 месяцев и период удваивания постоянно сокращается. Общий объем цифровых данных в мире на 2012 год составляет около 2.7 зеттабайта – это 27 и 20 нулей. Увеличение по сравнению с 2011 годом практически на 50%, и в двадцать раз больше, чем в 2005 году. К 2015 году прогнозирует общий объем данных в 0.8 йоттабайт – это 1024.



    Если посмотреть на кривую роста объема данных, то можно увидеть, что она приобретает экспоненциальную форму. И, хотя, бОльшая часть из этих данных являются по сути цифровой видео, фото и аудио информацией, объем текстовых данных сравнительно высок. Неудивительно, что термин Big Data, зародившийся совсем недавно, можно услышать сейчас всё чаще и чаще. Определить, относится ли тот или иной инструмент или продукт к области Big Data, можно сравнительно просто – используя правило трех V. Это Volume – объем, Velocity – скорость, Variety – многообразие. Если рассматриваемый объект подпадает под определения правила трех V, то он относится к области Big Data. Из большого разнообразия развивающихся информационно-коммуникационных технологий можно выделить три основных тренда на текущий момент – виртуализация, облака и область, относящаяся к хранению и обработке большие объемов данных(Big Data). И до этого данные были объектом изучения и анализа, но в настоящее время это явление приобретает поистине глобальный масштаб. Никто не хочет хранить данные в хранилище данных просто так, позволяя лежать им там мертвым грузом. Если рассмотреть иерархическую информационную модель DIKW поближе, то мы узнаем, что данные сами по себе не представляют никакого интереса. Прежде, чем приобрести какую-либо ценность, они должны пройти через несколько стадий. Если быть точнее, то уровень данных находиться в самом основании, следующая ступень по модели DIKW это информация, добавляющая к данным контекст, дальше идет знание, которое уже можно применить и имеющее некоторую ценность, последней ступенью является мудрость, позволяющая получить из данных факты и на их основе принимать решения. Модель DIKW лежит в основе концепции управления данными. Однако если технологическая база для хранения и обработки данных больших объемов уже существует и активно внедряется во все мире, то теоретическая область отстает от нее. Именно это послужило причиной возникновения так называемой Data Science – науки о данных. Термин Data Science более десяти лет назад ввел в обиход профессор Вильям Кливленд, который написал Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics. А в этом году компания EMC провела первый Data Science Summit 2012 в Лас-Вегасе, где рассматривались проблемы, связанные с методами работы с данными, определениями и проблемами, существующими в этой области. Кстати, компания EMC даже открыла вакансию Data Scientist в России, что говорит о заинтересованности EMC в развитии данного направления.

    В этой статье мне хотелось бы поближе рассмотреть, что скрывается за термином Data Science и кто такие data scientist.

    На самом деле, data science не может считаться полноценной наукой на сегодняшний момент, так как представляет из себя мешанину из совокупности методов и технологий для анализа больших объемов данных. Тем не менее, её рождение происходит на наших с вами глазах и в настоящее время там идет передел за право называть конкретные технологии и методы относящимися к data science, а также идут споры о самом предмете этой науки. В более широком значении, data science – это то, что позволяет извлекать знания из набора данных. От обычной статистики Data science отличается более комплексным подходом – для анализа привлекаются все возможные источники, включающие в себя не только таблицы с сухой статистикой, но также и другие данные.

    Это заметно усложняет поиск специалистов в этой области, так как их попросту нет. Специалисты должны сочетать в себе редкий набор качеств: любознательность, знание математической статистики, широкий кругозор в области информационных технологий, способность и желание открывать новое, быть знакомыми с последними достижениями в области Big Data, способность привлекать для решения самые разные данные и методы их обработки. Достаточно хорошо выразил требования к data scientists Майкл Лукидис в своей статье «What is Data Science», опубликованной в журнале O’REILLY RADAR. Также эти требования можно представить на пересечении трех кругов на картинке ниже:



    Несмотря на это, не стоит относить data scientist к ученому в белом халате, изобретающему революционные технологии у себя в лаборатории. Вероятнее всего, лучше охарактеризовать data scientist, как человека, знающего методы математической статистики, знакомого с основными инструментами, человека с широким кругозором в области информационных технологий, особенно Big Data, в прошлом занимающегося теоретическими исследованиями в этой области.

    Одной из главных тем для обсуждения на прошедшей конференции Data Science Summit 2012 являлась тема, касающаяся поиска таких специалистов в мире, а также их перспективы в будущем. Если мы присмотримся к динамике роста объема данных, а также к стремительному развитию информационно-коммуникационных технологий, то несложно сделать вывод, что в будущем потребность в таких специалистах будет только возрастать, а спрос на них будет постоянно повышаться. Некоторые правительства уже оценили перспективу и предприняли соответствующие шаги — Национальный научный фонд США приравнял тематику Big Data к научной сфере, анонсировав новые области финансирования междисцисплинарных исследований по Большим данным, к чему приурочена целая серия весенних анонсов.

    Чтобы иметь более полной представление о том, кто такой data scientist, я предложу список вопросов, которые могут быть заданы претенденту на эту вакансию. Сразу скажу, что список для ознакомления и data scientist, к сожалению, нам не нужны :(

    Вопрос 1:

    Как вы рассчитаете дисперсию столбцов матрицы на языке R без использования циклов?

    Вопрос 2:

    Предположим, у вас есть CSV файл с двумя колонками: 1 — имена, 2 — фамилии. Напишите код с использованием скриптового языка для создания CSV файла с фамилиями в 1-ом столбце и именами во 2-ом столбце.

    Вопрос 3:

    Объясните Map/Reduce, а затем напишите простой пример с его использованием на вашем любимом языке программирования.

    Вопрос 4:

    Предположим, что вы Google и хотите оценить click through rate(CTR) по объявлениям. У вас есть 1000 запросов, каждый из которых был вызван 1000 раз. Каждый запрос показывает 10 объявлений и все объявления уникальны. Оцените CTR для каждого объявления.

    Вопрос 5:

    Предположим, вы выполнили регрессию с 10-ю переменными, одна из них является значимой на доверительном интервале в 95%. Вы узнаете, что 10% данных в случайном порядке были упущены, а их значения Y удалены. Как бы вы предсказали значения потерянных Y?

    Вопрос 6:

    Предположим, у вас есть возможность поехать в одно из двух отделений банка. В первом отделении 10 кассиров, каждый из которых имеет отдельную очередь из 10 клиентов, во втором отделении 10 кассиров, с одной общей очередью в 100 клиентов. Какое отделение вы бы выбрали?

    Вопрос 7:

    Объясните, чем Random forest отличаются от нормального дерева регрессии?
    Поделиться публикацией

    Похожие публикации

    Комментарии 18
      0
      Спасибо.
      Но вот с пересечением Изобретательности и Знанием предметной области не согласен. Это вовсе не опасная зона, а очень даже инновационная.
      Или я неверно что-то понял?
        0
        В оригинале Изобретательность — Hacking skills. То, что это опасная зона, означает что человек на пересечении этих двух кругов обладает возможностями нанести вред. Поэтому такие люди представляют потенциальную опасность.

        Ваше замечание, что эта зона не только опасная, но и в то же время инновационная — совершенно верно, т.к. только человек, знающий о всех недостатках и преимуществах системы может предложить метод, который мог бы улучшить систему в целом.
          0
          Ага, спасибо за прояснение
            0
            В оригинале Изобретательность — Hacking skills. То, что это опасная зона, означает что человек на пересечении этих двух кругов обладает возможностями нанести вред. Поэтому такие люди представляют потенциальную опасность.
            Я уверен, что автор оригинала под хакером понимает несколько иное.
          0
          > data scientist, к сожалению, нам не нужны
          А кому нужны? Все об этом говорят, а работы с этим BigData почти не появляется. Почему?
            0
            Появляется, просто для того, чтобы это стало заметно всем, требуется несколько лет в любом случае. Я упоминал вакансию от EMC в статье — это первый предвестник новой специальности в России. Я больше, чем уверен, что в будущем потребность в таких специалистах будет расти. Вот, как например, с Java — в 2000 году никто о ней не слышал и специалистов не было, сейчас о Java знают все.

            Проекты с Big Data появляются в России — некоторые компании накопили большие объемы данных, соответственно, у них есть желание заняться их анализом. Причем объем новых данных не снижается, а только растет.
              0
              > Java — в 2000 году никто о ней не слышал

              В 1996г лично изучал Java. Правда, это была не та Java, что есть сейчас.

              > и специалистов не было, сейчас о Java знают все.

              Если бы не было специалистов по Java, то и развития никакого бы не было.

              Сейчас о Java все знают, но как и 15 лет назад, мало кто её реально использует.
              +1
              Не сочтите за рекламу, но нам нужны — company.yandex.ru/job/vacancies/analyst_search_robot.xml :)
                0
                Осталось дождаться, когда яндекс откроет офисы в регионах :)
              0
              В долине data scientist просто разрывают на куски. Так что если есть бэкграунд и язык, добро пожаловать в штаты.
                +1
                В результате появления новых технологий, позволяющих накапливать информацию в новом виде – цифровом, начало формироваться информационное общество, приходящее на смену индустриальному. Информационное общество – общество, в котором большинство занято производством, хранением, переработкой и реализацией информации. По сравнению с индустриальном обществом, где все силы направлены на производство и потребление товаров, в информационном обществе потребляются интеллект и знания, что приводит к увеличению доли умственного труда. Развитие информационных технологий планомерно меняет структуру общества, а также влияют на метод принятия решений. На первый план в информационном обществе выходят люди, обеспечивающие производство, передачу и обработку информации, т.е. специалисты в информационно-коммуникационных технологиях.

                Типичная байка. Просто производство вывезено в Мексику или Китай, вот и создаётся ощущение, что нет человека важнее it-шника. Фигня это всё про информационное общество, килобайтами сыт не будешь, огород нужно не только знать, как копать, но и просто копать.

                Правильный контекст должен быть таким: it-шник хороший человек, потому что помогает копать огород эффективнее. Но это не означает, что он должен быть на первом плане. Я думаю, фермеры проживут без it-технологий, а вот it-специалисты без сельского хозяйства, вряд ли. Вот и вопрос: кто на первом плане?

                С остальным согласен.
                  0
                  Я согласен с тем, что в начале длинной цепочки, наверху которой находиться it-шник, стоит человек с лопатой. Тем не менее, в развитых странах сейчас есть, и развиваются, все технологические предпосылки для формирования так называемого информационного общества. Это не означает, что фермеров сократят за ненадобностью. Скорей это означает, что их значение в создание продуктов, которые позволяют развиваться обществу дальше сокращается. А значение it-шника в этом обществе повышается, так как он является движущей силой в этом обществе. Никто на них конечно молиться не будет — проще говоря, it-шник потенциально сможет принести больше пользы обществу, чем например продавец автомобилей или фермер, выращивающий кукурузу. Тем не менее, нужны и те, и те, но ценность у них разная. То, что сельское хозяйство очень важно для государства — это бесспорно, и любое разумное государство поддерживает его дотациями. Но, также, любое разумное государство не призывает всех своих сограждан идти в фермера, потому что это развивает общество в целом.
                    0
                    Хм… А как же биотехнологии? Вообще-то современный фермер — это продвинутый чувак, который занимается аэропоникой и мечтает строить небоскрёбы-фермы. То есть, в этом направлении тоже есть развитие. Другое дело, что it-шник способен на порядок ускорить это развитие, повысить эффективность и т.д. Но it-шник сам по себе, ради создания бессмысленного контента зачем нужен обществу? Ну вот есть у нас куча it-шников, клепающих игры для фэйсбука и вконтакта. Какая от них польза для общества? IT-шник не может нормально работать без предметной области, он не может сам по-себе обеспечивать прогресс. Мы — сфера обслуживания, это надо осознавать, как мне кажется. Иначе, появляются сферические it-шники в вакууме, смысл жизни которых выдумывать всякие никому не нужные морфизмы.
                      0
                      Но it-шник сам по себе, ради создания бессмысленного контента зачем нужен обществу?
                      Такой конечно не нужен. А вот it-шник, создающий осмысленный контент очень даже полезен. Я имею ввиду, что data science — это то, что позволит выделить что-то новое из данных, что в любом случае позволит переосмыслить некоторые вещи и узнать новое. А предметная область для data science — это сами данные, и методы их анализа.
                      Мы — сфера обслуживания, это надо осознавать, как мне кажется.
                      С этим согласен не полностью, так как сложно определить что является сферой в некоторых случаях. Вот, например, создают медицинского хирургического робота и it-шники создают ПО под него. Производители роботов — это сфера обслуживания медицины или все-таки производство? Исследователи, которые создают его, могут утверждать, что работают в сфере обслуживания? Если всё рассматривать в таком аспекте, то любой человек работает в сфере обслуживания, только сфера эта большая — обслуживание общества, где он существует.
                      Я не пытаюсь возвысить it-шника, тем не менее, хочу сказать, что роль it-шника(не просто клепающего игры для фейсбука) достаточна велика. Если раньше это были бородатые админы в серверной, и не все понимали, зачем они нужны, то сейчас это полноправный участник бизнес-процесса и без них уже зачастую тяжело справиться.
                  0
                  В этой диаграмме очень странно получается, что специалист по machine learning отличается от специалиста по data science только знанием предметной области?
                  Сколько занимаюсь профессионально разработкой алгоритмов ML, всегда приходится очень глубоко вникать в предметную область. Так в чем разница?
                    0
                    Хмм… ML и Data Science — это смежные области и часто задачи, которыми они занимаются, совпадают. На этой диаграмме она разделены, как я понимаю, по причине того, что Data Science отталкивается от данных, с которыми придется работать — то есть надо понимать, какой смысл несут эти данные. Задача перед ML сходная — машина должна уметь разобрать и понять информацию. Я не специалист по ML, но, как я подозреваю, там основанием являются алгоритмы машинного обучения, а данные уже подстраивают под них, т.е. теоретически, можно работать в области машинного обучения и не знать предметную область :) Как это на практике — не берусь утверждать.
                    0
                    Если посмотреть на кривую роста объема данных, то можно увидеть, что она приобретает экспоненциальную форму, т.е. практически растет в геометрической прогрессии.


                    Что-то чушь какая-то. Судя по приведённым здесь данным, ежегодный прирост информации в периоды 2005—2010 и 2010—2012 гг. составлял, соответственно 56 % и 50 %, то есть это похоже на экспоненту, хотя и с тенденцией к понижению темпа. Но на период 2012—2015 гг прогнозируется рост почти в триста раз, это почти семикратный ежегодный рост. Вместо полуторакратного. Такой скачок темпа — это никакая не геометрическая прогрессия.
                      0
                      Да, верное замечание для периода с 2005 — 2015. Но если брать период 2012 — 2015, то график роста можно отразить в виде геометрической прогрессии с знаменателем 7. Я убрал упоминание о геометрической прогрессии, чтобы не вводить в заблуждение :)

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое