fabernovel Jun 16 2014 at 15:03

Бизнес и Большие данные: лаборатория FABERNOVEL

3 min

8.8K

FaberNovel corporate blogBig Data*

+15

Comments 21

crmMaster Jun 16 2014 at 15:47

Спецов по BigData нет скорее не потому что их нет, а потому что вы не там ищите.

Многие senior программеры успешно и с удовольствием могли бы работать с такими проектами, но их никто не берет, потому что у них нет опыта работы с BigData, а те у кого есть — либо особо не афишируют либо уже захантены.

Да и вообще — что такое BigData? Сколько данных надо, чтобы называться Big? 1гб, 10гб, 100гб, террабайт?

-1

alinatestova Jun 16 2014 at 15:58

Думаю, что тут вопрос, который требует специфических знаний, а не просто понимания общих принципов работы с данными и знания ряда языков программирования. В других отраслях все аналогично — наличие специалиста по графической работе не гарантирует решение вопросов юзабилити-исследований в крупных проектах.

crmMaster Jun 16 2014 at 17:47

Потому и написал «многие» а не «все»

Специфические знания — это, конечно, серебрянная пуля, и найдя человека с набором знаний идеально подходящим под ваши нужды — несомненно удача, но навыки работы с большими объемами данных зачастую формируются на бекграунде, в процессе оптимизации / доработки больших проектов.

Я вот 5 лет не встречал базы больше 3-х гигов, но тут пришел в проект, где 100 гигабайт — ежедневная рутина.

Конечно, пришлось пересмотреть свои взгляды на некоторые технологии, но больше всего мне помогли навыки, выработанные ранее.

Согласен, что есть специфический стек технологий, не используемый больше нигде (тот же hadoop, например), но таких техноогий немало, и именно понимание принципов их работы позволяет находить более эффективные решения.

andyN Jun 17 2014 at 11:45

Вы определитесь, что Вы таки хотите сказать. Big Data цепляет Data Science, а уж там алгоритмов, терминов и прочего — немеряно. Вы хотите сказать, что любой адекватный программист может стать специалистом в Big Data? Тогда это примерно то же самое, что сказать «любой человек с IQ не ниже 80 может стать адекватным программистом».

Выучиться можно любой профессии, другое дело, что бизнесу не нужно учить кого-то чему-то — бизнесу нужен результат здесь и сейчас, а не выращивание птенцов в инкубаторе, которые потом подрастут и улетят в другую компанию.

Ну а насчет Вашего заблуждения, что там «все просто»… Поработайте с объемами хотя бы в несколько сотен терабайт и зоопарком разнообразного железа, настройте там резервирование, визуализацию, мониторинг состояния кластера и организуйте административное взаимодействие с админами в датацентрах (при таких объемах жесткие диски статистически будут у вас сыпаться с завидной регулярностью). После этого (то есть через год-полтора как минимум) можно уже нырять в глубину — то есть в алгоритмы.

crmMaster Jun 17 2014 at 12:45

Это же кто в России кроме зубров вроде яндекса оперирует сотнями терабайт в день?

А в алгоритмы стоит нырять сразу, эффективность позволяет по крайней мере уменьшить количество железа для горизонтального масштабирования.

К тому же, некоторые задачи должны работать в реальном времени, и без обширных оптимизационных мероприятий этого не добиться, имея для обаботки большие объемы данных.

andyN Jun 20 2014 at 20:52

Сотни терабайт? Российские компании? Пожалуйста: ahrefs.com. И еще вот эти ребята есть (не уверен насчет сотен ТБ, но десятки там точно есть): wordstat.io. Опять же, всяческие крупные мониторинги соцсетей. Возможно, научные\промышленные центры еще.

4ikist Jun 16 2014 at 16:40

Количество данных имеет меньший приоритет, чем умение прослеживать связь, а навыки программирования — лишь средство реализации этого умения.

fabernovel Jun 16 2014 at 20:15

В нашем понимании БигДата это любое кол-во данных, анализ которых может привести к определенным бизнес результатам., причем достаточно быстро.

irriss Jun 17 2014 at 09:45

Да и вообще — что такое BigData? Сколько данных надо, чтобы называться Big? 1гб, 10гб, 100гб, террабайт?

Вообще считается что должно быть три V аспекта: volume, velocity, variety — большой поток разнообразных данных.

ivanko Jun 17 2014 at 10:02

Плюс Value туда же добавляют. Но это в основном уже заумь.

irriss Jun 17 2014 at 11:04

Еще иногда Veracity добавляют. Больше вроде умных слов на V нет.

andyN Jun 17 2014 at 11:57

Давайте я расскажу немного о рынке. На своем опыте. Специалист по Big Data — это нынче любой, кто просмотрел пару видеокурсов. Заказчик не понимает, как оценивать эффективность и профессионализм работника в этой сфере — что дает огромный простор для всяких «индусов» (собирательное слово, к национальности отношения имеет мало). Любой, кто ставил ту-самую-виртуалку от Hortonworks, уже считает себя специалистом. Т.е. конкуренция есть, критериев оценки профессионализма очень мало, область новая и непонятно что с ней будет через 10 лет. Заказчиков на oDesk — полтора человека, просто потому, что big data = big money и городить кластер из 100 машин может себе позволить только ничтожно малая часть бизнесов, представленных там. Выход? Bloody Enterprise, продаться в Гугл, Яндекс, Facebook или подобную большую компанию. Если это читает программист, подумывающий и походе в Big Data — оценивайте трезво перспективы развития, шума сейчас много и кажется, что на рынке огромный спрос и все компании бросились возиться с большими данными. Так вот это заблуждение. Профильную работу будет найти намного тяжелее, чем по специализации «web development», ну а конкуренция от «индусов» никуда не исчезла. Еще один плохой момент — везде свои требования, типовых Big Data задач очень мало. Поэтому в одной компании нужен будет BigData-сисадмин, в другой — «настройщик» Хадупа, в третьей — неспешная Data Science на 100 гигабайтах, в четвертой — отмасштабировать кластер Postgres. Иными словами, специалист по BigData должен быть как шампунь — «три в одном». Иначе шансы найти работу падают еще ниже.

knagaev Jun 17 2014 at 12:10

BigData не обязательно требует кластера и «хадупа».
На хабре как раз была отличная статья, очень хорошо объясняющая такого рода заблуждения.
Вам не нужен Hadoop — у вас просто нет столько данных

andyN Jun 17 2014 at 20:27

Технически все верно. Мы например используем Хадуп только на 10-20 процентах всего data pipeline, остальное прекрасно обрабатывается куда более простыми и приятными инструментами. Я не люблю монструозный Хадуп с огромными, но непонятными трэйсбэками ошибок, с убогой инсталляцией и зашкаливающим уровнем недружественности к пользователю. Но мои предпочтения чаще всего мало что значат, когда я только-только ищу вакансию.

На практике в половине (если не больше) вакансий по Big Data были требования — Hadoop и\или его экосистема. Мои попытки объяснить, что 1) иногда Хадуп это overkill, 2) помимо Хадупа есть намного более приятный Disco — ни к чему не привели. Хэдхантеры на «западе» работают по тегам — видят в резюме ключевое слово — пропускают вакансию, не видят — сразу отфильтровывают. Не знаю, может в пост-СССР как-то все иначе стало, но насколько я помню все было примерно так же.

Иными словами — все-таки да, искать работу в Big Data без знания Hadoop — еще тяжелее.

knagaev Jun 18 2014 at 00:19

Всё это очень странно.
Понимаю, маркетинг, но вот по моему скромному мнению знание разведочного анализа данных во сто крат полезнее хадупа и суперкластера.

knagaev Jun 16 2014 at 16:28

Думаю, что было бы здорово, если в этой статье привести хотя бы один пример сценария (кусочек этого однодневного курса), а не только агенду.
Иначе складывается впечатление, что этот курс обо всём и ни о чём.

alinatestova Jun 16 2014 at 18:08

Думаю, что есть неплохой шанс увидеть и статьи по конкретным семинарам. Начали с вводной статьи :)

fabernovel Jun 16 2014 at 20:16

оставьте свой имейл — я отправлю презентацию с описанием лабы.

knagaev Jun 17 2014 at 10:50

Отправил личной почтой, спасибо.

knagaev Jun 18 2014 at 00:13

Получил презентацию — извините, ничего не нашёл по своему вопросу, только общие слова.
Всё-таки «основные сценарии применения больших данных » и картинки про увеличивающийся рынок — это две большие разницы.

mggtsnppr Jun 17 2014 at 15:49

Но мало просто захотеть использовать данные, нужно еще понимать, что и как собирать и изучать. Сегодня мы рассмотрим именно эту проблему.

Эх, повелся…

-1