anastasiagrishina 3 апр 2017 в 15:39

7 кейсов использования технологий Big Data в сфере производства

5 мин

17K

Блог компании New Professions LabBig Data*Data Mining*Машинное обучение*

Recovery Mode

Комментарии 10

mephistopheies 3 апр 2017 в 16:58

На сегодняшний день технологии Big Data

а расскажите пожалуйста, что входит в технологии Big Data, кроме Hadoop/Spark?

lash05 4 апр 2017 в 09:51

Это термин для тех, кто не в теме…

mephistopheies 4 апр 2017 в 09:56

типа это просто buzzword? а это что просто пиар статья без содержания?

lash05 4 апр 2017 в 10:01

Я бы назвал маркетинговым «слоганом». Трудно подобрать даже русское определение (синоним) понятия «слоган».

klementiev 3 апр 2017 в 18:27

История Сургутнефтегаза скорей об автоматизации процессов, а не о Big Data. Просто наконец сделали CRM по своим процессам, никакого машинного обучения

ratatosk 3 апр 2017 в 21:41

В тегах sap обидели)

lash05 4 апр 2017 в 09:50

Содержательно про модели\методы ничего не указано…

i_shutov 4 апр 2017 в 10:45

Уважаемые коллеги.

Понятно, что это публикация в блоге компании, продающей курсы по big data технологиям. Но неплохо бы внести немного ясности в опубликованные кейсы, которые пока выглядят как перепечатки из маркетинговой листовки.
Если не затрагивать кейсы Apple и Intel, несомненно ведущих серьёзную научную и инженерную деятельность и обладающие действительно большими объемами полезных данных, все остальные кейсы вызывают большое подозрение и вот почему.

Сам термин Big Data используется человечеством очень давно. Применительно к вычислительной технике есть интересная статья по истории этого вопроса: Francis X. Diebold, "A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline". В целом склоняются к авторству SGI (John R. Mashey (Chief Scientist), SGI, "Big Data… and the Next Wave of InfraStress"), но в целом этот термин просто означал данные, которые не помещаются в оперативную память, а память тогда была крайне маленькой.

Сейчас же вы легко можете за разумные деньги купить ноутбук с 32-64 Гб и сервер с 512 Гб оперативной памяти.
Единственные цифры, которые упомянуты в кейсах — это 200 млн. записей в Газпроме. По-видимому, это time-series данные. С учётом того, что это 1700 скважин, получается < ~ 100 тыс записей на скважину. А с применением современных open source data science инструментов такие объёмы можно элементарно крутить на офисном ноутбуке. Таким образом, без конкретных цифр все остальные кейсы рассыпаются.
Доступные возможности по обработке больших данные никак не отменяют необходимости следования научному подходу и сохранению критического мышления. Понимание механики процесса (физики, химии, математики,… подставьте что применимо в конкретном случае) позволяет ставить правильные вопросы, высказывать гипотезы и экспериментально подтверждать или опровергать их. Правильная аналитическая модель (ну или численное приближенное вычисление) и её экспериментальная проверка позволяют описать процессы и дать ответ о поведении системы по нескольким ключевым измерениям и показаниям.
Большие данные — не замена интеллекту, а вынужденная необходимость в крайне ограниченных областях (например, эксперименты на адронном коллайдере). "Мусор на входе — мусор на выходе". "Ветер возникает из-за колебания деревьев". И прочие интересные выводы.
В действительности, большинство задач человеческой деятельности описывается Small Data и это вызвано особенностями наблюдаемых объектов.
Пример SAP HANA вообще имеет слабое отношение к большим данным. Использование для задач сводной отчётности (всего то операций +, -, подитог) более подходящего инструмента (колоночной БД вместо реляционной) и не более того. Да и сколько там этих данных? 100 Гб? 200 Гб? 500 Гб?
Большие данные могут возникать не только в хранении и обработке. Есть и другой немаловажный кейс, когда необходимо обрабатывать в режиме реального или почти реального времени потоки поступающих данных, в т.ч. с применением методов машинного обучения. Классический пример — антифрод системы, или анализатор трафика в системах безопасности (например, 50 Гбит входного канала — весьма немаленький поток). Но таких примеров в публикации нет и про них вообще как-то мало говорят.
Где модели, алгоритмы, схема встраивания в бизнес (операционная аналитика)?

У профессора Павлова было 40 собак, однако созданная теория успешно описывает поведение миллионов организмов.
В медицине вы почти всегда имеете малое количество пациентов, которые готовы на себе тестировать новые лекарства. "Why do so many statisticians not want to become a data scientist and why are they not interested in Big Data?"
все маркетинговые манипуляции с людьми с применением Big Data меняют объект наблюдения и его поведение. Сильно или несильно — другой вопрос, но обязательно меняют. А это означает, что все накопленные ранее исторические данные теряют валидность, поскольку описывают совершенно другой объект наблюдения. Их можно спокойно выкинуть (или сбросить на ленту).
и многое другое.

"But if you’re working with large data, the performance payoff is worth the extra effort required to learn it.

If your data is bigger than this, carefully consider if your big data problem might actually be a small data problem in disguise. While the complete data might be big, often the data needed to answer a specific question is small. You might be able to find a subset, subsample, or summary that fits in memory and still allows you to answer the question that you’re interested in. The challenge here is finding the right small data, which often requires a lot of iteration.

...

Once you’ve figured out how to answer the question for a single subset using the tools described in this book, you learn new tools like sparklyr, rhipe, and ddr to solve it for the full dataset.", R for Data science, p. 1.3.1.

Отдельно отмечу, что в моем комментарии не надо усматривать никакого негатива. Тема достаточно сложная и обширная, чтобы напускать тумана и оставлять массу недоговорок. Только ясное мышление позволяет решать поставленные задачи. А из вашей публикации вообще становится непонятно, какое именно отношение имеет Big Data к реальному бизнесу и не надуманно ли это.

i_shutov 5 апр 2017 в 09:40

Уважаемые коллеги.

Дабы пресечь неконструктивность треда, в первом же предложении декларирую, что в целом я очень уважительно отношусь к вашей деятельности и очень хорошо знаком с сопутствующей закулисным трудом. Поэтому все время, что я потратил здесь, вызвано желанием разобраться в ситуации.

Жаль, что никаких комментариев не удалось получить. Возможно, вы не усмотрели в них вопросов.
Допуская, что это именно так, а не потому что публикации на хабре делаются только в режиме рупора, задам вопросы "в лоб".
Ниже развёрнутые пояснения к этим вопросам.

Вопросы

Упомянутый курс стоит 180 тыс. руб.

Если предполагается, что эти деньги будет оплачивать текущий работодатель, то дайте серьёзные аргументы, чтобы его убедить.
Если предполагается, что эти деньги обучающийся будет оплачивать из своего кармана, то приведите хотя бы скелет схемы их отбивки. Естественно, если у обучающегося это не будет проходить по статье "Хобби".
Есть ли у вас соглашения с работодателями, которые готовы будут взять специалистов, успешно прошедших этот курс?
Насколько реально востребованы полученные знания? В Data Science сейчас все очень быстро развивается. Почему, нет материалов по Spark, например?

Подобные мысли всплывали у читателей новостной публикации 2015 года, но там тоже все как-то обошли стороной.

Пояснения

Я давно поглядываю на ваши публикации на хабре. Внутренне с ними сильно не согласен, в т.ч. потому что по ряду российских кейсов видел ситуацию изнутри.
Честно ходил на пару DataScience Weekend. Ни разу не досидел до конца — доклады являли собой смесь маркетинга и красивых картинок.
Посчитаем честно какова длительность обучения. Смотрим на программу "Трехмесячный интенсив от лидеров индустрии".
3 дня в неделю * 3 часа * 80% (потери времени на вхождение в работу) * 4 недели/месяц * 3 месяца ~ 86 астрономических часов (11 рабочих дней).
180К руб/ 11 дней ~ 16К руб/ день. Это примерная ставка по которой в среднем большой интегратор предлагает большой компании своих специалистов (считаем, что у вас накладные меньше в силу малого размера).
График 3 дня в неделю по три часа — примерный график для любых занятий, требующих достижения определенных результатов. Фитнес\бассейн\рисование\язык\музыка\литература\доп. образование…
Ваша стоимость в размере 60К руб/месяц за такие курсы — это ~ в 3-10 раз выше, чем занятия по всем указанным выше направлениям. У вас действительно дают супер уникальные знания и навыки?
Курсы по DataScience на западных сайтах стоят на порядок дешевле при материале в разы превышающем курс этой программы. DataCamp — $300/год. SharpSight — $600/год. Udemy по скидке — $10 за курс и т.д.

180 тыс кэшом ($3.2K) — в потребительском плане это реально ОЧЕНЬ БОЛЬШИЕ деньги (BIG MONEY).

Это нормальный самостоятельный отпуск в Европе на двоих (без излишеств и шопинга).
Это хороший круиз на лайнере на двоих (при заблаговременном выкупе по дисконтным программам).
Это примерная месячная зарплата для специалиста по большим данным со слов Павла Лебедева (Superjob.ru) на упомянутой выше вашей странице.

Если новичок возьмёт кредит на это дело (на 2 года, например, т.е. ~ +30% overhead), то месячный платёж составит 180К+30%/24 ~10K руб. Как ему это отбить?
Если на этот курс пойдёт работающий человек, то кроме потраченных денег он теряет ещё и время. Время — крайне ценный ресурс, а у этого человека это может быть время семьи/подработки. В случае потери подработки — ещё дополнительные затраты. Насколько востребованными будут полученные навыки?

Публикации на хабре подразумевают, что материал будут читать "не блондинки". И могут следовать неудобные вопросы. Очень хочется, чтобы на вопросы следовали ответы. А иначе можно просто запрещать комментарии — так будет гораздо честнее.

a-pichugin 5 апр 2017 в 12:04

Илья, спасибо за комментарий! В общем-то все, что вы написали в предыдущем комментарии — верно. Компании не очень любят публиковать в открытом доступе детали своих кейсов, и, действительно, бывает сложно понять — какой объем данных они обрабатывают, в real-time или нет и т.д.

По текущему комментарию. Пунктов много, попробую ничего не упустить из вида.

1. Аргументы для работодателей. Мы их даем, но не в каждом посте просто. Например, в нашем выступлении на Data Science Weekend такая аргументация была. Аргумент-то довольно простой — либо вы сейчас внедряете у себя data science, либо внедрит конкурент и обыграет вас. На мой взгляд, это особо разжевывать не надо уже сейчас. Многие уже это и так понимают, поэтому неоднократно к нам отправляют обучать своих сотрудников.

2. Схема отбивки — интересная мысль, пожалуй, возьмем на вооружение. По факту те, кто к нам приходят, ее и так для себя уже сформировали, но возможно для других будет полезно.

3. Есть соглашение с рекрутинговой компанией, которая оказывает помощь в трудоутройстве: помогает сформировать правильное резюме, подготовиться к собеседованию, найти заинтересованного работодателя. В общем, весь процесс под ключ.

4. Про Spark — у нас весь второй модуль, 1.5 месяца проходит на нем. Действительно, это быстро развивающаяся область, поэтому мы постоянно адаптируем программу. Как пример — тот же Spark. Во время предыдущего запуска вышла версия 2.0, мы переделали все наши учебные материалы под датафреймы.

5. Соглашаться или не соглашаться — во-первых, ваше право. Во-вторых, вы, действительно, можете знать больше о каких-то кейсах.

6. Data Science Week — мы выбрали для себя правильным организацию конференции для широкой аудитории, поэтому продвинутому человеку, как вам, там может быть порой, действительно, скучно. Таким же образом, не очень продвинутому будет скучно на DataFest, потому что он ничего не понимает, о чем говорят.

7. Ок. Не очень понимаю, смысл этих расчетов. Да, посчитали чистое время аудиторной работы. Во-первых, если просто весь материал уложить в 11 дней подряд по 8 часов, то выхлоп будет намного хуже, чем от размеренного распределения. Во-вторых, аудиторная работа — на нашей программе, это второстепенная часть. Довольно много работы проходит дома над нашими лабораторными заданиями. Это еще примерно 20 часов в неделю.

8. Ок. Пускай ставка такая же. Но через эти пресловутые 11 дней расходы на обучение закнчиваются.

9. Про уникальность — фитнес-центров, школ рисования и т.д. намного больше, чем буткэмпов по data science. Поэтому уже здесь уникальность закладывается.

10. Проблема в том, что вы сравниваете нас с сайтами. Они для нас конечно конкуренты, но второго уровня. Конкуренты первого уровня — это все буткэмпы, которые готовят людей на текущий момент в сфере data science. Я уже писал в комментарии к одному из постов, что в нашем случае есть добавленная ценность по сравнению с онлайн-курсами, за которую человек и платит. Продублирую и здесь:

1. Упаковка продукта происходит таким образом, что человек получает нужную инъекцию знаний и навыков, которая позволяет ему совершить переход с одной карьерной траектории на другую гораздо быстрее и в более приятном с точки зрения процесса варианте. Чтобы упаковать продукт таким образом, нужно быть хорошим специалистом в области современного (!) образования. И в этом вопросе вообще далеко не каждый разбирается — как правильно организовать программу, как правильно выстроить занятие и т.д.

2. Вероятность того, что человек пройдет программу до конца и получит то, зачем пришел существенно выше. В онлайн-курсах, например, процент людей, которые доходят до конца — в среднем 15%. Редкие курсы способны преодолеть порог в 40%. Их единицы. Вся проблема в том, что доходят люди, обладающие высоким уровнем дисциплинированности. Своего рода супермены. За что бы они не взялись, они доводят до конца. Это те люди, которые всегда доедают блюдо, потому что просто они не могу его не доесть, им по барабану на свои желания. Ничего плохого против них не имею, как и не считаю, что остальные люди ущербные.

3. Нетворк. Важная часть, которая порой недооценивается. Люди приходят не за знаниями и навыками, люди приходят за изменениями. Знания и навыки — это только ингридиенты, которые помогают эти изменения совершить, но не единственные. Часто я проходил онлайн-курсы, заканчивал и оставался с вопросом «А дальше-то что?» Куда бежать, кому показывать (ни для кого онлайн-курсы не являются значимым фактором для того, чтобы взять человека на работу). Нетворк — это именно тот дополнительный ингридиент, который помогает дальше воплощать желаемые изменения в жизнь — что бы это не было: трудоустройство, запустить новое направление на текущем месте работы, запилить стартап — что угодно.

11. По поводу кредита. Во-первых, мы предоставляем беспроцентную рассрочку. Во-вторых, люди и больше 10к на другие нужды как-то отбивают. Но по разбивке — да, еще раз — идея хорошая. Возьмем на вооружение.

12. Да, это инвестиции в человеческий капитал. Как показывает практика — навыки, востребованные. Как пример, один из работодателей уже 3 раз отправляет к нам учиться своих сотрудников. Их уже под 10 человек будет. Сейчас уже идет 6 запуск программы. С плохим продуктом вряд ли бы нам это удалось.

Еще раз спасибо за вопросы, хоть и действительно неудобные. Извиняюсь, что не ответили более оперативно. Тоже нас поймите, что вокруг полно троллей, не готовых обсуждать что-то конструктивно, порой бывает непросто отличить тролля от обычного человека.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий