Pull to refresh

Comments 21

Спецов по BigData нет скорее не потому что их нет, а потому что вы не там ищите.

Многие senior программеры успешно и с удовольствием могли бы работать с такими проектами, но их никто не берет, потому что у них нет опыта работы с BigData, а те у кого есть — либо особо не афишируют либо уже захантены.

Да и вообще — что такое BigData? Сколько данных надо, чтобы называться Big? 1гб, 10гб, 100гб, террабайт?
Думаю, что тут вопрос, который требует специфических знаний, а не просто понимания общих принципов работы с данными и знания ряда языков программирования. В других отраслях все аналогично — наличие специалиста по графической работе не гарантирует решение вопросов юзабилити-исследований в крупных проектах.
Потому и написал «многие» а не «все»

Специфические знания — это, конечно, серебрянная пуля, и найдя человека с набором знаний идеально подходящим под ваши нужды — несомненно удача, но навыки работы с большими объемами данных зачастую формируются на бекграунде, в процессе оптимизации / доработки больших проектов.

Я вот 5 лет не встречал базы больше 3-х гигов, но тут пришел в проект, где 100 гигабайт — ежедневная рутина.

Конечно, пришлось пересмотреть свои взгляды на некоторые технологии, но больше всего мне помогли навыки, выработанные ранее.

Согласен, что есть специфический стек технологий, не используемый больше нигде (тот же hadoop, например), но таких техноогий немало, и именно понимание принципов их работы позволяет находить более эффективные решения.

Вы определитесь, что Вы таки хотите сказать. Big Data цепляет Data Science, а уж там алгоритмов, терминов и прочего — немеряно. Вы хотите сказать, что любой адекватный программист может стать специалистом в Big Data? Тогда это примерно то же самое, что сказать «любой человек с IQ не ниже 80 может стать адекватным программистом».

Выучиться можно любой профессии, другое дело, что бизнесу не нужно учить кого-то чему-то — бизнесу нужен результат здесь и сейчас, а не выращивание птенцов в инкубаторе, которые потом подрастут и улетят в другую компанию.

Ну а насчет Вашего заблуждения, что там «все просто»… Поработайте с объемами хотя бы в несколько сотен терабайт и зоопарком разнообразного железа, настройте там резервирование, визуализацию, мониторинг состояния кластера и организуйте административное взаимодействие с админами в датацентрах (при таких объемах жесткие диски статистически будут у вас сыпаться с завидной регулярностью). После этого (то есть через год-полтора как минимум) можно уже нырять в глубину — то есть в алгоритмы.
Это же кто в России кроме зубров вроде яндекса оперирует сотнями терабайт в день?

А в алгоритмы стоит нырять сразу, эффективность позволяет по крайней мере уменьшить количество железа для горизонтального масштабирования.

К тому же, некоторые задачи должны работать в реальном времени, и без обширных оптимизационных мероприятий этого не добиться, имея для обаботки большие объемы данных.
Сотни терабайт? Российские компании? Пожалуйста: ahrefs.com. И еще вот эти ребята есть (не уверен насчет сотен ТБ, но десятки там точно есть): wordstat.io. Опять же, всяческие крупные мониторинги соцсетей. Возможно, научные\промышленные центры еще.
Количество данных имеет меньший приоритет, чем умение прослеживать связь, а навыки программирования — лишь средство реализации этого умения.
В нашем понимании БигДата это любое кол-во данных, анализ которых может привести к определенным бизнес результатам., причем достаточно быстро.
Да и вообще — что такое BigData? Сколько данных надо, чтобы называться Big? 1гб, 10гб, 100гб, террабайт?


Вообще считается что должно быть три V аспекта: volume, velocity, variety — большой поток разнообразных данных.
Плюс Value туда же добавляют. Но это в основном уже заумь.
Еще иногда Veracity добавляют. Больше вроде умных слов на V нет.
Давайте я расскажу немного о рынке. На своем опыте. Специалист по Big Data — это нынче любой, кто просмотрел пару видеокурсов. Заказчик не понимает, как оценивать эффективность и профессионализм работника в этой сфере — что дает огромный простор для всяких «индусов» (собирательное слово, к национальности отношения имеет мало). Любой, кто ставил ту-самую-виртуалку от Hortonworks, уже считает себя специалистом. Т.е. конкуренция есть, критериев оценки профессионализма очень мало, область новая и непонятно что с ней будет через 10 лет. Заказчиков на oDesk — полтора человека, просто потому, что big data = big money и городить кластер из 100 машин может себе позволить только ничтожно малая часть бизнесов, представленных там. Выход? Bloody Enterprise, продаться в Гугл, Яндекс, Facebook или подобную большую компанию. Если это читает программист, подумывающий и походе в Big Data — оценивайте трезво перспективы развития, шума сейчас много и кажется, что на рынке огромный спрос и все компании бросились возиться с большими данными. Так вот это заблуждение. Профильную работу будет найти намного тяжелее, чем по специализации «web development», ну а конкуренция от «индусов» никуда не исчезла. Еще один плохой момент — везде свои требования, типовых Big Data задач очень мало. Поэтому в одной компании нужен будет BigData-сисадмин, в другой — «настройщик» Хадупа, в третьей — неспешная Data Science на 100 гигабайтах, в четвертой — отмасштабировать кластер Postgres. Иными словами, специалист по BigData должен быть как шампунь — «три в одном». Иначе шансы найти работу падают еще ниже.
Технически все верно. Мы например используем Хадуп только на 10-20 процентах всего data pipeline, остальное прекрасно обрабатывается куда более простыми и приятными инструментами. Я не люблю монструозный Хадуп с огромными, но непонятными трэйсбэками ошибок, с убогой инсталляцией и зашкаливающим уровнем недружественности к пользователю. Но мои предпочтения чаще всего мало что значат, когда я только-только ищу вакансию.

На практике в половине (если не больше) вакансий по Big Data были требования — Hadoop и\или его экосистема. Мои попытки объяснить, что 1) иногда Хадуп это overkill, 2) помимо Хадупа есть намного более приятный Disco — ни к чему не привели. Хэдхантеры на «западе» работают по тегам — видят в резюме ключевое слово — пропускают вакансию, не видят — сразу отфильтровывают. Не знаю, может в пост-СССР как-то все иначе стало, но насколько я помню все было примерно так же.

Иными словами — все-таки да, искать работу в Big Data без знания Hadoop — еще тяжелее.
Всё это очень странно.
Понимаю, маркетинг, но вот по моему скромному мнению знание разведочного анализа данных во сто крат полезнее хадупа и суперкластера.
Думаю, что было бы здорово, если в этой статье привести хотя бы один пример сценария (кусочек этого однодневного курса), а не только агенду.
Иначе складывается впечатление, что этот курс обо всём и ни о чём.
Думаю, что есть неплохой шанс увидеть и статьи по конкретным семинарам. Начали с вводной статьи :)
оставьте свой имейл — я отправлю презентацию с описанием лабы.
Отправил личной почтой, спасибо.
Получил презентацию — извините, ничего не нашёл по своему вопросу, только общие слова.
Всё-таки «основные сценарии применения больших данных » и картинки про увеличивающийся рынок — это две большие разницы.
Но мало просто захотеть использовать данные, нужно еще понимать, что и как собирать и изучать. Сегодня мы рассмотрим именно эту проблему.

Эх, повелся…
Sign up to leave a comment.