Big Data глазами разных индустрий — это очередная мечта о Граале, который решит, спасет и защитит! В жизни всё точностью до наоборот: Big Data — это совершенно новые задачи, свертывания застойных проектов и увольнения неперестроившихся специалистов. Предлагаем цикл статей по практике реального применения неструктурированных Big Data в разных индустриях, становлении новых специальностей, которым еще только придумываются названия — аналитик и социолог Big Data, HiLoad-лингвист, журналист-трендист (от слова трЕнд, а не трЫндеть), — и, надеемся, плодотворных обсуждений куда должна привести новая большая дорога.
Розовые мечты, как и представления, по BD (Big Data) у всех разные: у вендоров — много железа, у софтовиков — много нового софта, у телекома — облака, у клиентов — волшебная палочка: «Нажал на кнопку, а она сама все сделала за меня!». Нет худшего облома, чем облом от несбывшихся мечт. При этом вендоры, софтовики, телеком и пр. свои мечты исполнят, и полетят собирать пыльцу с новых мечт разочаровавшихся в BD клиентов. Знания — сила, пора применить эту силу и посмотреть трезвым взглядом на BD глазами и ожиданиями клиентов и индустрий.
Несколько лет как мы занимаемся самыми «вкусными» BD — неструктурированными rtBD&A (real-time Big Data & Analytics). В сегменте rtBD&A взрывно создаются быстрорастущие или преобразуются существующие индустрии, для которых нужны «правильные» специалисты и очень много: Gartner оценивает только в США рынок аналитиков BD к 2018 году в 190 тыс человек. Как практики, уже столкнувшиеся с новыми вызовами, мы понимаем, что «с нас причитается»: рассказывать, объяснять, помогать — иначе будет как обычно: мечта из граалистого «розового слоника» превратится в «большую свинью» со всеми вытекающими.
Термин Big Data, как новое понятие всего-то с 5-летней историей, начинает активно проникать и использоваться в разных сферах и индустриях: видео, RTB, социология, медицина, космос, финансы и далее везде — куда ни ткни, везде найдутся люди, которые с гордостью расскажут, как они мужественно борются с террабайтами и триллионами записей для улучшения ТЕКУЩЕЙ работы конкретных индустрий.
К сожалению, такой подход, возможно, и есть самая большая ошибка клиентского понимания Big Data как мечты о светлом будущем. Давайте попробуем разобраться в чем проблема. Дальше мы излагаем наше видение, сформулированное 20-летним опытом создания различных интернет-проектов «в области Big Data» (раньше их обзывали по другому) и с акцентом на rtBD&A.
Наше видение в некоторых аспектах может отличаться, и даже значительно, от привычного технологического шаблона VVV (объем, разнообразие, скорость) для Big Data, поскольку:
1) Со стороны клиента должен быть виден только результат (рыба-кит, таблица Менделеева), а не сам океан данных;
2) Разнообразие не только в данных, но и в многообразии источников, а также многообразии отношения к самим источникам;
3) В качестве источников-«датчиков» BD могут выступать такие суперсложные «системы» как человек, группы людей или целые народы, со своими индивидуальным мироощущением, историей, взаимоотношениями, фразеологией и лексикой;
4) Жизнь всегда шире любых шаблонов.
Итак, во-первых, давайте забудем про «BD — это много данных». Аналитикам (исследователям, изобретателям, и прочим «научникам» и клиентам) данных для «взрыва» нужно столько, чтобы хватило устроить «взрыв» СТАРОЙ формации индустрии. Замечательный пример: мы не знаем сколько было данных у Менделеев, но их хватило, чтобы он сформировал на выходе «Периодическую таблицу химических элементов» из менее 100 ячеек. Дальнейшие комментарии не требуются — химию теперь в школе изучают все.
Во-вторых, необходимо разделять:
А) персонализированные «много-данных-по-объекту»,
Б) информационное поле данных в индустрии и вокруг объектов.
Пример типа А: RTB-данные для показа конкретному браузеру на конкретном устройстве «таргетированной» рекламы. Вас до сих пор преследует ненужная реклама высоких банковских вкладов, поскольку ваша половинка ткнула в красивую рекламу с сумочкой? — Это оно, система типа А — «путешествия» вашего браузера на ноуте складируются в петабайты, чтобы напомнить вам все прегрешения молодости, даже если вы уже сменили пол.
Примеры типа Б: какие проблемы iPhone сыграли на снижение продаж в России? Сумеет ли Ле Пен обойти Саркози на региональных выборах?
Тип А часто именуется как тип «Досье»: есть конкретный известный объект (например, человек, или счет-кошелек, или телефон), при любом «шевелении» данные по объекту пополняются еще одной записью в Досье. Для типа Б не важен конкретный объект (вон та большая рыба в океане), анализируются данные по всему океану в целом, со всеми рыбками, водорослями и планктоном.
«Уинвуд Рид хорошо сказал об этом, — продолжал Холмс. — Он говорит, что отдельный человек — это неразрешимая загадка, зато в совокупности люди представляют собой некое математическое единство и подчинены определенным законам. Разве можно, например, предсказать действия отдельного человека, но поведение целого коллектива можно, оказывается, предсказать с большей точностью. Индивидуумы различаются между собой, но процентное отношение человеческих характеров влюбом коллективе остается постоянным.» (Артур Конан Дойл, «Знак четырех»)
В-третьих, придется различать структурированные данные (например, чек на покупку в магазине) и неструктурированные (да хоть вот эта статья на МегаМозге). Конечно всегда найдется кто-то, кто посчитает текст статьи «структурированным» — хоть в виде набора 33 букв алфавита, 10 цифр и нескольких знаков пунктуации. Ерундистов можно отправлять в школу учить ту же химию (почему из двух горючих и летучих химических атомов «H» и «О» получается жидко-ледяная молекула воды).
В-четвертых, что уже ближе к технократии, BD можно разделить на реал-тайм и … не-реалтайм. Опять таки без фанатизма, пожалуйста. Года два назад, в общении с коллегами из Cloudera, когда показывали им некоторые примеры применения rtBD&A, один из их спецов жалобно сказал, что Hadoop, конечно, круто, и томографию мозга обработать за сутки-двое — самое то, но реал-тайм требует совсем других решений. Но об этом в другой песне.
Краткое изложение 1-ой серии: Big Data — объем данных, необходимых для революции, а не эволюции. Данные бывают объектовые или по всему инфополю, могут представляться как структурированные или нет, некоторые задачи требуют обработки данных в режиме близкому к реал-тайм.
В следующих сериях: Кто они, аналитики Big Data? Зачем IBM готова обучить 10 тысяч сотрудников анализу данных Twitter? Некоторые уникальные кейсы аналитики неструктурированных BD. Какие индустрии уже ходят «под люстрой»? Какие технологии требуются для обработки Big Data? Почему «умерли» такие успешные компании как Motorola, Nokia, HTC, и выживет ли Samsung в борьбе с Apple? Где теперь рождаются идеи и кто их придумывает?..
Но, как часто происходит в rtBigData&A, все вышеозвученные планы могут отойти на второй план, и следующие серии будут посвящены обсуждению тех вопросов и задач, которые будут поставлены в комментариях к этому вводному материалу :-)
2-я серия: Big Data негатива или позитива?
Розовые мечты, как и представления, по BD (Big Data) у всех разные: у вендоров — много железа, у софтовиков — много нового софта, у телекома — облака, у клиентов — волшебная палочка: «Нажал на кнопку, а она сама все сделала за меня!». Нет худшего облома, чем облом от несбывшихся мечт. При этом вендоры, софтовики, телеком и пр. свои мечты исполнят, и полетят собирать пыльцу с новых мечт разочаровавшихся в BD клиентов. Знания — сила, пора применить эту силу и посмотреть трезвым взглядом на BD глазами и ожиданиями клиентов и индустрий.
Несколько лет как мы занимаемся самыми «вкусными» BD — неструктурированными rtBD&A (real-time Big Data & Analytics). В сегменте rtBD&A взрывно создаются быстрорастущие или преобразуются существующие индустрии, для которых нужны «правильные» специалисты и очень много: Gartner оценивает только в США рынок аналитиков BD к 2018 году в 190 тыс человек. Как практики, уже столкнувшиеся с новыми вызовами, мы понимаем, что «с нас причитается»: рассказывать, объяснять, помогать — иначе будет как обычно: мечта из граалистого «розового слоника» превратится в «большую свинью» со всеми вытекающими.
Термин Big Data, как новое понятие всего-то с 5-летней историей, начинает активно проникать и использоваться в разных сферах и индустриях: видео, RTB, социология, медицина, космос, финансы и далее везде — куда ни ткни, везде найдутся люди, которые с гордостью расскажут, как они мужественно борются с террабайтами и триллионами записей для улучшения ТЕКУЩЕЙ работы конкретных индустрий.
К сожалению, такой подход, возможно, и есть самая большая ошибка клиентского понимания Big Data как мечты о светлом будущем. Давайте попробуем разобраться в чем проблема. Дальше мы излагаем наше видение, сформулированное 20-летним опытом создания различных интернет-проектов «в области Big Data» (раньше их обзывали по другому) и с акцентом на rtBD&A.
Наше видение в некоторых аспектах может отличаться, и даже значительно, от привычного технологического шаблона VVV (объем, разнообразие, скорость) для Big Data, поскольку:
1) Со стороны клиента должен быть виден только результат (рыба-кит, таблица Менделеева), а не сам океан данных;
2) Разнообразие не только в данных, но и в многообразии источников, а также многообразии отношения к самим источникам;
3) В качестве источников-«датчиков» BD могут выступать такие суперсложные «системы» как человек, группы людей или целые народы, со своими индивидуальным мироощущением, историей, взаимоотношениями, фразеологией и лексикой;
4) Жизнь всегда шире любых шаблонов.
Итак, во-первых, давайте забудем про «BD — это много данных». Аналитикам (исследователям, изобретателям, и прочим «научникам» и клиентам) данных для «взрыва» нужно столько, чтобы хватило устроить «взрыв» СТАРОЙ формации индустрии. Замечательный пример: мы не знаем сколько было данных у Менделеев, но их хватило, чтобы он сформировал на выходе «Периодическую таблицу химических элементов» из менее 100 ячеек. Дальнейшие комментарии не требуются — химию теперь в школе изучают все.
Во-вторых, необходимо разделять:
А) персонализированные «много-данных-по-объекту»,
Б) информационное поле данных в индустрии и вокруг объектов.
Пример типа А: RTB-данные для показа конкретному браузеру на конкретном устройстве «таргетированной» рекламы. Вас до сих пор преследует ненужная реклама высоких банковских вкладов, поскольку ваша половинка ткнула в красивую рекламу с сумочкой? — Это оно, система типа А — «путешествия» вашего браузера на ноуте складируются в петабайты, чтобы напомнить вам все прегрешения молодости, даже если вы уже сменили пол.
Примеры типа Б: какие проблемы iPhone сыграли на снижение продаж в России? Сумеет ли Ле Пен обойти Саркози на региональных выборах?
Тип А часто именуется как тип «Досье»: есть конкретный известный объект (например, человек, или счет-кошелек, или телефон), при любом «шевелении» данные по объекту пополняются еще одной записью в Досье. Для типа Б не важен конкретный объект (вон та большая рыба в океане), анализируются данные по всему океану в целом, со всеми рыбками, водорослями и планктоном.
«Уинвуд Рид хорошо сказал об этом, — продолжал Холмс. — Он говорит, что отдельный человек — это неразрешимая загадка, зато в совокупности люди представляют собой некое математическое единство и подчинены определенным законам. Разве можно, например, предсказать действия отдельного человека, но поведение целого коллектива можно, оказывается, предсказать с большей точностью. Индивидуумы различаются между собой, но процентное отношение человеческих характеров влюбом коллективе остается постоянным.» (Артур Конан Дойл, «Знак четырех»)
В-третьих, придется различать структурированные данные (например, чек на покупку в магазине) и неструктурированные (да хоть вот эта статья на МегаМозге). Конечно всегда найдется кто-то, кто посчитает текст статьи «структурированным» — хоть в виде набора 33 букв алфавита, 10 цифр и нескольких знаков пунктуации. Ерундистов можно отправлять в школу учить ту же химию (почему из двух горючих и летучих химических атомов «H» и «О» получается жидко-ледяная молекула воды).
В-четвертых, что уже ближе к технократии, BD можно разделить на реал-тайм и … не-реалтайм. Опять таки без фанатизма, пожалуйста. Года два назад, в общении с коллегами из Cloudera, когда показывали им некоторые примеры применения rtBD&A, один из их спецов жалобно сказал, что Hadoop, конечно, круто, и томографию мозга обработать за сутки-двое — самое то, но реал-тайм требует совсем других решений. Но об этом в другой песне.
Краткое изложение 1-ой серии: Big Data — объем данных, необходимых для революции, а не эволюции. Данные бывают объектовые или по всему инфополю, могут представляться как структурированные или нет, некоторые задачи требуют обработки данных в режиме близкому к реал-тайм.
В следующих сериях: Кто они, аналитики Big Data? Зачем IBM готова обучить 10 тысяч сотрудников анализу данных Twitter? Некоторые уникальные кейсы аналитики неструктурированных BD. Какие индустрии уже ходят «под люстрой»? Какие технологии требуются для обработки Big Data? Почему «умерли» такие успешные компании как Motorola, Nokia, HTC, и выживет ли Samsung в борьбе с Apple? Где теперь рождаются идеи и кто их придумывает?..
Но, как часто происходит в rtBigData&A, все вышеозвученные планы могут отойти на второй план, и следующие серии будут посвящены обсуждению тех вопросов и задач, которые будут поставлены в комментариях к этому вводному материалу :-)
2-я серия: Big Data негатива или позитива?