Comments 35
Хотелось бы, чтобы каждый новый автор, решающий открыть миру глаза на Big Data, начинал со слов: " я заработал своей компании на Big Data XX млн, что подтверждено такой-то и такой аудированной отчетностью". Это даст импульс внимания со стороны читающей публики, а ряду читателей поможет сэкономить время
Спасибо за комментарий по существу:)
Моей целью не является «открыть миру глаза», лишь систематизировать свои знания и поделиться ими с теми кому это интересно.
Моей целью не является «открыть миру глаза», лишь систематизировать свои знания и поделиться ими с теми кому это интересно.
Я действительно занимаюсь преподавательской деятельностью и горжусь этим.
Но преподавательская деятельность не является моим основным занятием — это хобби и оно не приносит существенного дохода для меня.
Основная деятельность — разработка и проектирование систем связанных с большими данными, более конкретно о тем чем занимаюсь я и компания в которой я работаю можно прочитать в других статьях этого блога и просто поискав в интернете.
Меряться миллионами — это мне кажется не для хабра, а для forbes или ведомостей. Оценить уровень зарплат в сфере работы с данными можно посмотрев вакансии по соответствующим запросам на hh.ru, яндекс.работа и прочих сервисов. Как работадатель могу сказать, что на рынке существует существенный кадровый голод и найти сотрудника с нужными компетенциями очень-очень сложно и поиск сотрудника на позицию длится как правило месяцами.
Но преподавательская деятельность не является моим основным занятием — это хобби и оно не приносит существенного дохода для меня.
Основная деятельность — разработка и проектирование систем связанных с большими данными, более конкретно о тем чем занимаюсь я и компания в которой я работаю можно прочитать в других статьях этого блога и просто поискав в интернете.
Меряться миллионами — это мне кажется не для хабра, а для forbes или ведомостей. Оценить уровень зарплат в сфере работы с данными можно посмотрев вакансии по соответствующим запросам на hh.ru, яндекс.работа и прочих сервисов. Как работадатель могу сказать, что на рынке существует существенный кадровый голод и найти сотрудника с нужными компетенциями очень-очень сложно и поиск сотрудника на позицию длится как правило месяцами.
То есть в вашем случае XX =0
Нет.
Считаю бессмысленным дальнейшее обсуждение моих доходов в данной статье. Мне хватает на хлеб, а также масло и возможность съездить в отпуск.
Считаю бессмысленным дальнейшее обсуждение моих доходов в данной статье. Мне хватает на хлеб, а также масло и возможность съездить в отпуск.
Речь не про ваши доходы конечно, они меня не касаются. Просто хочется понять, вы преподаете, потому что… что?
Потому что мне нравится преподавать. Я получаю удовольствие от того что делюсь знаниями с людьми. Мне нравится заводить новые знакомства, которые часто переходят в совместные проекты. Нравится наблюдать за формирующимся сообществом единомышленников.
До того как преподавать на курсах NPL я преподавал в кружках олимпиадного программирования — тоже не за деньги(естественно зарплата была, но весьма символическая).
До того как преподавать на курсах NPL я преподавал в кружках олимпиадного программирования — тоже не за деньги(естественно зарплата была, но весьма символическая).
Del
Извините за невнимательность, ответ не вам
У индейцев племени Пираха, живущих в тропических лесах Бразилии, в отдалении от цивилизации в языке имеются только три числительных, одно переводится примерно как «один-два», другое — «несколько» и третье — «гораздо больше». Последнее удивительным образом напоминает Big Data.
Как и большинство таких публикаций — ни о чём. Писать статью «введение в MR» по содержанию меньше чем tutorial к hadoop'у — просто смешно.
Если хочется несколько погрузиться в тему, то сейчас на coursera есть интересный курс от Стэнфорда.
Если хочется несколько погрузиться в тему, то сейчас на coursera есть интересный курс от Стэнфорда.
Туториал по hadoop'у в следующей части. Считаю что правильно разбивать материал на порции на осознание которых не уйдет больше 20 минут. Если вы уже знали материал то для вас естественно статья «ниочем» :)
Ссылка хорошая, так же могу порекомендовать книжку на основании которой построен курс: www.mmds.org.
Ссылка хорошая, так же могу порекомендовать книжку на основании которой построен курс: www.mmds.org.
Да, книжка есть в описании курса.
А с подходом
— сильно замусоривает ленту;
— автор обычно исчезает в середине цикла.
Результат получается удручающий: в энный раз описаны тривиальные вещи, а до сложных так и не дошло. Возможно, у вас этого не случится, но пока статистика по многим циклам публикаций такова.
А с подходом
Считаю что правильно разбивать материал на порции на осознание которых не уйдет больше 20 минут.крайне не согласен. Проблемы:
— сильно замусоривает ленту;
— автор обычно исчезает в середине цикла.
Результат получается удручающий: в энный раз описаны тривиальные вещи, а до сложных так и не дошло. Возможно, у вас этого не случится, но пока статистика по многим циклам публикаций такова.
Злые вы все какие-то.
А мне понравилась статья. Даже несмотря на то, что почти все это я знал.
Изложено просто и понятно, читать приятно, без лишней воды. Есть ощущение, что автор действительно знает тему и потому, есть надежда, что цикл дойдет до сложных статей. Надежда на это подкупает.
Что касается того, что «обычно до сложных тем не доходит в циклах» — так может потому и не доходит, что все набрасываются за то, что цикл начинается с простого?
В общем, к автору обращаюсь с просьбой продолжать писать и завершить цикл, а не прервать его на середине.
А мне понравилась статья. Даже несмотря на то, что почти все это я знал.
Изложено просто и понятно, читать приятно, без лишней воды. Есть ощущение, что автор действительно знает тему и потому, есть надежда, что цикл дойдет до сложных статей. Надежда на это подкупает.
Что касается того, что «обычно до сложных тем не доходит в циклах» — так может потому и не доходит, что все набрасываются за то, что цикл начинается с простого?
В общем, к автору обращаюсь с просьбой продолжать писать и завершить цикл, а не прервать его на середине.
Спасибо!
Постараюсь не обмануть ожиданий :)
Постараюсь не обмануть ожиданий :)
Я также поддержу, главное продолжайте читать очень легко и понятно, хочется узнать чем все закончилось :)
Увы, обманули… :(
Часть 6 и т.д так и не появилась.
Часть 6 и т.д так и не появилась.
Big Data от А до Я. Часть 2: Hadoop habr.com/ru/company/dca/blog/268277
Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений habr.com/ru/post/270453
Big Data от А до Я. Часть 4: Hbase habr.com/ru/company/dca/blog/280700
Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce habr.com/ru/post/283212
Big Data от A до Я. Часть 5.2: Продвинутые возможности hive habr.com/ru/company/dca/blog/305838
Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений habr.com/ru/post/270453
Big Data от А до Я. Часть 4: Hbase habr.com/ru/company/dca/blog/280700
Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce habr.com/ru/post/283212
Big Data от A до Я. Часть 5.2: Продвинутые возможности hive habr.com/ru/company/dca/blog/305838
А, вы про часть «6». Да, на пяти частях я остановился, но кажется на тот момент я покрыл более менее основные компоненты инфраструктуры hadoop.
Сейчас уже конечно не все из написанного актуально.
Сейчас уже конечно не все из написанного актуально.
Мне тоже понравилось. Просто и ясно написано. Автор, давай ишчо!
Как-то странно читать про MapReduce, без ссылок на MapReduce: Simplied Data Processing on Large Clusters.
Интересно было бы почитать про потоковые алгоритмы обработки данных.
Интересно было бы почитать про потоковые алгоритмы обработки данных.
До потоковой обработки тоже надеюсь дойдем.
Про то как мы занимаемся потоковой обработкой можно почитать в одной из наших предыдущих статей:
habrahabr.ru/company/dca/blog/260845
Про то как мы занимаемся потоковой обработкой можно почитать в одной из наших предыдущих статей:
habrahabr.ru/company/dca/blog/260845
Спасибо, интересно. Еще было бы интересно, если бы осветили вопрос тюнинга нод в Hadoop-кластерах. Какие параметры есть, на что влияют и как крутить и при каких условиях и для каких задач. С точки зрения сисадминов и devops. Если, конечно же, знаете.
Хорошая статья. Написано простым и понятным языком.
Продолжайте писать. :)
Продолжайте писать. :)
Мне понравился стиль изложения. Объем тоже. Не слушайте критиков — пишите дальше!
Для новичка в области BigData — то, что нужно, чтобы постичь общую суть и ознакомиться с принципами.
Спасибо, интересная тема, читабельный текст, не много букв )) Жду статью про Хадуп в таком же стиле.
А можно попродробнее насчет:
shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1])Каков псевдокод этого метода?
псевдокода нету, поскольку это делает MapReduce framework. По сути — происходит распределенная сортировка по ключу, а дальше объединение всех значений соответствующих одому ключу в список значений.
А почему бы не посчитать количество сразу на это этапе?
«Hadoop-кластер Yahoo имеет более 42000 машин» — неверно. На момент публикации 42000 — это общее кол-во машин под Hadoop у Yahoo. На середину 2015 года максимальный кластер у них — 4500 машин при общем кол-ве около 100К.
Sign up to leave a comment.
Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce