Как стать автором
Обновить

Компания New Professions Lab временно не ведёт блог на Хабре

Сначала показывать

Spark 3.0: новые возможности и примеры их использования – часть 1

Время на прочтение6 мин
Количество просмотров7.7K

К нашей новой программе "Apache Spark на Scala для дата-инженеров" и вебинару о курсе, который пройдет 2 декабря, мы подготовили перевод обзорной статьи о Spark 3.0.

Spark 3.0 вышел с целым набором важных улучшений, среди которых: повышение производительности с помощью ADQ, чтение бинарных файлов, улучшенная поддержка SQL и Python, Python 3.0, интеграция с Hadoop 3, поддержка ACID. 

В этой статье автор постарался привести примеры использования этих новых функций. Это первый первый материал о функциональности Spark 3.0 и у этой серии статей планируется продолжение.

Читать далее
Всего голосов 4: ↑3 и ↓1+5
Комментарии2

5 подходов к разметке данных для проектов машинного обучения

Время на прочтение4 мин
Количество просмотров7.9K

Когда мы в конце прошлого года перерабатывали свой курс по Deep Learning, чтобы сделать его более наглядным и ориентированным на кейсы из реальной бизнес-практики, мы включили в него новый модуль по разметке данных на крауд-платформе "Яндекс.Толока". 

Но так как краудсорсинг -- это не единственный способ разметки, мы подготовили для новых слушателей курса перевод статьи из блога Lionbridge с обзором основных подходов к разметке данных в Deep Learning. 

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии5

Возросший спрос на аналитику, продуктовые команды, Amazon, Израиль, Сингапур, удаленная работа и пр. — обсудили многое

Время на прочтение5 мин
Количество просмотров2.7K
Хабр, привет! Скорее всего вы не знаете, но мы раз в месяц встречаемся с нашими выпускниками и преподавателями в московском баре за пивом\ чаем. И вот в условиях новой реальности, new normal, мы вынуждены приводить наши традиции в соответствие с действительностью. В онлайн-формат с программами ушли еще в середине марта, а на прошлой неделе впервые устраивали онлайн-встречу сообщества Newprolab и остались настолько довольны новым опытом, что решили немного написать о том, что обсуждалось, а также выложить в наш канал на Youtube запись встречи (для удобства перемещения по видео проставили таймкоды). Мы смогли пообщаться с нашими выпускниками из Израиля, Сингапура, преподавателем, переехавшим в Шотландию. Приятно было видеть всех с кружками и бокалами, как и на обычной встрече в баре. А еще это была первая встреча, на которую выпускники пришли с детьми, а я — с собакой :)

image

Обычные наши встречи проходят без какой бы то ни было повестки, но в этот раз решили сделать встречу тематической, попросили выпускников поделиться тем, что сейчас происходит в их компаниях\ командах, с процессами, продуктами, как они меняются в новых обстоятельствах и пр. Но по факту затрагивали и другие темы как на обычной вечеринке.
Читать дальше →
Всего голосов 5: ↑3 и ↓2+3
Комментарии4

Как сделать свой автоскейлер для кластера

Время на прочтение7 мин
Количество просмотров1.8K

Привет! Мы обучаем людей работе с большими данными. Невозможно себе представить образовательную программу по большим данным без своего кластера, на котором все участники совместно работают. По этой причине на нашей программе он всегда есть :) Мы занимаемся его настройкой, тюнингом и администрированием, а ребята непосредственно запускают там MapReduce-джобы и пользуются Spark'ом.


В этом посте мы расскажем, как мы решали проблему неравномерной загрузки кластера, написав свой автоскейлер, используя облако Mail.ru Cloud Solutions.

Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии3

Вертикальная и горизонтальная карьера в сфере Data Science

Время на прочтение9 мин
Количество просмотров15K
В любой сфере деятельности, как правило, выделяют два типа карьеры: вертикальная и горизонтальная. Вертикальная означает, что человек все меньше делает что-либо руками, а занимается организационными задачами. Горизонтальная означает, что человек растет как специалист, разбираясь во все большем количестве вещей и/или как можно глубже. В этом посте мы пообщались с различными экспертами о тех или иных ролях и позициях, чтобы показать весь ландшафт карьеры сфере Data Science.
Читать дальше →
Всего голосов 15: ↑5 и ↓10-1
Комментарии2

Истории

Data Engineer – самая сексуальная профессия XXI века

Время на прочтение7 мин
Количество просмотров9.3K
Недавно в разговоре с HR’ами одной крупной компании прозвучало «Каждый data engineer, приходящий к нам на интервью, мечтает стать data scientist’ом». Меня это тогда сильно удивило и стало очень обидно за дата инженера, честно говоря.

Мы здесь (и не только) уже публиковали несколько материалов про data engineer’ов и их ценность для бизнеса – например, интервью с Николаем Марковым или «4 причины стать data engineer», но это было давно. Время идет, материал накапливается, мир развивается, поэтому есть что рассказать.

Возможно, надо сначала коротко напомнить, из чего складывается круг задач дата инженера (плюс-минус, конечно, т.к. каждая компания может добавлять что-то свое\ что-то из перечисленного может выполняться другими сотрудниками):
Читать дальше →
Всего голосов 22: ↑13 и ↓9+4
Комментарии15

Как спроектировать идеальное занятие

Время на прочтение12 мин
Количество просмотров4.5K

В какой-то момент у профессионала возникает точка, когда он уже много чего знает и умеет и хочет этим поделиться с другими. Начинает преподавать. Однако, оказывается, что преподавание – это не так уж просто: чтобы сделать хорошее занятие, нужны какие-то знания и навыки. В нашей компании есть специальный документ, который содержит в себе массу советов о том, как новичку в преподавании сразу сделать достаточно качественное занятие. Мы подумали, а почему бы этим документом не поделиться со всем сообществом. Ведь никому хуже не станет от того, что у нас в разных местах будут преподавать лучше и интереснее.


Ниже сам документ.

Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии2

Топ-13 библиотек Scala для анализа данных

Время на прочтение6 мин
Количество просмотров6.1K

Последнее время язык Scala стал обширно применяться специалистами Data Science. Он приобрел популярность в основном благодаря появлению Spark, который написан на Scala. На практике, часто на этапе исследования анализ и создание модели выполняются в Python, а затем реализуются в Scala, поскольку этот язык больше подходит для production.


Мы подготовили подробный обзор наиболее интересных библиотек, используемых для реализации задач машинного обучения и data science в Scala. Часть из них используется в нашей образовательной программе "Анализ данных на Scala".


Для удобства все представленные в рейтинге библиотеки были разделены на 5 групп: анализ данных и математика, NLP, визуализация, машинное обучение и прочее.

Читать дальше →
Всего голосов 14: ↑8 и ↓6+2
Комментарии0

Как я узнал, что моя виза не готова, сообщением в Slack

Время на прочтение6 мин
Количество просмотров7.4K

Пост актуальный для майских праздников. 6 недель назад я подал документы, чтобы получить визу в Ирландию. Вылет запланирован на 30 апреля. Существует сайт посольства, на котором публикуются списки решений по визам. Они это делают по понедельникам и четвергам. И вот я сижу в воскресенье, 28 апреля, по моей визе решения еще нет. И дальнейшие мои действия в понедельник зависят от того, будет ли мое заявление в новом отчете или нет. Если нет, то надо будет ехать в посольство и разбираться. Если есть, то дергать визовый центр. Сидеть и обновлять страничку целый день в понедельник казалось унылым времяпрепровождением, поэтому я написал скрипт на Python.



Disclaimer. Я не программист, но умею программировать. Это значит, что я не могу написать изящный и эффективный код, но я могу заставить эту шарманку делать то, что мне от нее нужно.

Читать дальше →
Всего голосов 20: ↑16 и ↓4+12
Комментарии11

«Так я понял, что теперь я дата инженер, и по-другому можно себя спозиционировать на рынке»

Время на прочтение11 мин
Количество просмотров8.9K
Хабр, привет! Еще одно интервью с нашим выпускником – Николай Рекубратский, тимлид команды разработчиков в компании XING. Николай рассказал о жизни в Германии, о ресурсе, на котором он нашел работу, чем европейские специалисты отличаются от российских в подходе к работе, о востребованности профессии data engineer в Европе, о проектах в XING и пр.

— Коля, какой у тебя бэкграунд и как складывался твой карьерный путь в data engineer и тимлида?

— Тимлидом я стал примерно год назад, но до сих пор стараюсь не упускать возможности немножко попрограммировать, когда доходят руки. До этого я долгое время был разработчиком и тем, кого сейчас называют дата инженером.

image

В своей прошлой конторе я занимался видеорекламой, строил аналитическую систему для наших клиентов. Это был стартап, который постепенно рос, пока не лопнул. Росли объемы бизнеса, и с ними – количество обрабатываемых данных, и в какой-то момент инструменты, которые я использовал и архитектуры, которые у нас применялись, перестали работать. В итоге я притащил новые инструменты, новые архитектуры, тогда была очень модной lambda-архитектура.

Потом был проект по составлению профилей для сотен миллионов пользователей, тоже довольно интересно. И во всех этих проектах мне нравился вызов: есть какие-то требования по отклику, по консистентности данных, еще по чему-то. Чтобы соответствовать этим ожиданиям и требованиям, нужно очень сильно переосмыслить текущую архитектуру. Это был и вызов, и свобода действий одновременно, именно это меня так и привлекало.
Читать дальше →
Всего голосов 20: ↑15 и ↓5+10
Комментарии1

Как сделать триггер DAG'а в Airflow, используя Experimental API

Время на прочтение4 мин
Количество просмотров7.4K

При подготовке наших образовательных программ мы периодически сталкиваемся со сложностями с точки зрения работы с некоторыми инструментами. И на тот момент, когда мы с ними сталикваемся, не всегда есть достаточно документации и статей, которые помогли бы с этой проблемой справиться.


Так было, например, в 2015 году и мы на программе “Специалист по большим данным” пользовались Hadoop-кластером со Spark на 35 одновременных пользователей. Как его готовить под такой юзкейс с использованием YARN, было непонятно. В итоге, разобравшись и пройдя путь самостоятельно, сделали пост на Хабре и еще выступили на Moscow Spark Meetup.


Предыстория


В этот раз речь пойдет о другой программе – Data Engineer. На ней наши участники строят два типа архитектуры: lambda и kappa. И в lamdba-архитектуре в рамках батч-обработки используется Airflow для перекладывания логов из HDFS в ClickHouse.


Все в общем-то хорошо. Пусть строят свои пайплайны. Однако, есть "но": все наши программы технологичны с точки зрения самого процесса обучения. Для проверки лаб мы используем автоматические чекеры: участнику нужно зайти в личный кабинет, нажать кнопку “Проверить”, и через какое-то время он видит какую-то расширенную обратную связь на то, что сделал. И именно в этот момент мы начинаем подходить к нашей проблеме.

Читать дальше →
Всего голосов 7: ↑6 и ↓1+5
Комментарии0

«Не вижу ни одного резона использовать Python для работы со Spark, кроме лени»

Время на прочтение6 мин
Количество просмотров9.9K

На днях мы решили пообщаться c Дмитрием Бугайченко (dmitrybugaychenko), одним из наших преподавателей программы "Анализ данных на Scala", и обсудить с ним актуальные вопросы использования Scala в задачах Data Science и Data Engineering. Дмитрий является инженером-аналитиком в "Одноклассниках".


image

Читать дальше →
Всего голосов 25: ↑16 и ↓9+7
Комментарии16

«Мне кажется, идеи команды – самое важное при разработке продукта»

Время на прочтение14 мин
Количество просмотров5.6K
Хабр, привет! Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в data science. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Недавно встретились с Яной Чаруйской, Product Owner в МТС. Яна рассказала, как она пришла в большие данные, как профессионально росла, вспомнила о своем любимом проекте, подарившем ей помимо знаний и опыта, еще и друзей. Рассказала о рабочей атмосфере в МТС, о проектах, которые делает ее команда, о своей мечте, планах на будущее и пр.

— Яна, расскажи немного о себе и своем бэкграунде.

— Меня зовут Яна Чаруйская, я Product Owner в МТС. Интересуюсь областью Big Data и занимаюсь ею уже порядка двух лет. Если вкратце про мою историю: я закончила ВШЭ по направлению «Бизнес-информатика», училась 6 лет, затем год училась на психолога. Четыре года я проработала в IT-консалтинге, три из них занималась хранилищами данных, витринами данных, построением управленческой отчетности в основном для крупных банков. Последний год в консалтинге занималась машинным обучением и предиктивной аналитикой. Сейчас я работаю в МТС менеджером по продукту, у меня команда из 6 человек, и она растет, в ближайшее время нанимаю еще 7. В целом, компания тоже расширяется, сейчас в МТС более 150 Big Data специалистов и еще открыто множество вакансий (планируем увеличить штат практически в 2 раза!). Мы с командой разрабатываем несколько продуктов одновременно, в настоящий момент они на разных стадиях реализации: есть продукты, которые находятся в стадии R&D, какие-то — в стадии продуктивизации.
Читать дальше →
Всего голосов 14: ↑13 и ↓1+12
Комментарии0

«Data Science, как математика и физика, — еще один способ познавать мир вокруг себя»

Время на прочтение17 мин
Количество просмотров8.8K
Хабр, привет! Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Знакомьтесь — Олег Хомюк, Head of R&D в Lamoda.

Олег рассказал про свой карьерный путь, ценности, почему выбрал Lamoda, а не компанию в Долине, про текущие проекты, свою команду, про самый успешный и самый неудачный проекты, про отношение к data science и многое другое.

image
Читать дальше →
Всего голосов 17: ↑14 и ↓3+11
Комментарии4

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

«Мне кажется, мы приближаемся к тому времени, когда каждый будет уметь кодить. Код – это свобода»

Время на прочтение17 мин
Количество просмотров4.3K
Хабр, привет! Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории все разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Сегодня у нас, скорее всего, второй вариант. Знакомьтесь – Дмитрий Родин, в душе разработчик, контрибьютер open source аналитической платформы Rockstat; со-основатель, со-автор и преподаватель Digital God – образовательные программы для digital специалистов; CEO Xeteq.

Поговорили с Димой о языках программирования и какие решения он на них пишет, о его open source проекте и зачем он это делает, про новую специальность, которой они обучают и пр.

image

— Дима, расскажи немного о себе.

— В голову сразу приходит мое карамельное ремесло, давно отшучиваюсь им, а если серьезно, то в душе я программист, ну или архитектор, мне нравится придумывать и создавать новые решения, вовлекать в них других людей. Последние 10 лет я занимаюсь маркетинговыми технологиями, причем я так увлекся ими, что это превратилось и в хобби. Разрабатывал практически все: от системы управления рекламой и DSP до антифрода с аппаратными модулями мониторинга. Мне кажется, я познал дзен, но это не точно.

— Ты программируешь уже больше 15 лет, скажи, сколько языков программирования ты знаешь и используешь в работе и своих личных проектах?

— Думаю, считать количество языков неправильно, самый главный скилл – разобраться в нескольких концепциях языков, и тогда практически не будет разницы, на чем писать. Да, конечно, у каждого языка есть свои преимущества и подводные камни, об этом не надо забывать.
Читать дальше →
Всего голосов 17: ↑6 и ↓11-5
Комментарии19

«На курсы шли не только ради знаний, у многих были карьерные амбиции и профессиональные задачи развития»

Время на прочтение10 мин
Количество просмотров3.3K
Хабр, привет! Знакомьтесь — Артём Москалец, СЕО компании Brightlab, с которым мы пообщались в рамках нашей серии интервью с выпускниками. В рамках интервью наши выпускники рассказывают о своей истории перехода в область работы с большими данными. Истории все разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать новые задачи.
Артём — кандидат психологических наук, бывший зам. директора ГУУ. Волею судеб оказавшись в Ростове-на-Дону, познакомившись с местными талантливыми разработчиками, Артём открыл для себя мир новых технологий, начал активно изучать данную область, собрал команду профессионалов и теперь успешно развивает свою компанию.

image

— Артём, представься, пожалуйста, и расскажи о своем бэкграунде.

— Артём Москалец, CEO в компании Brightlab LLC. Компания наша не самая большая в мире разработки, но дружный коллектив из 24 молодых ребят позволяет решать, не побоюсь этого слова, задачи любого уровня в вeбе.

Мое профессиональное становление можно описывать по аналогии с диалектическим законом единства и борьбы противоположностей. К примеру, проявляя способности к точным наукам, алгебре и физике, в частности, высшее образование решил получать по направлению социологии и психологии управления. Мой репетитор по физике, зная, что его домашние задания решались в прямом смысле слова на коленке по дороге к нему, говорил: “В тебе умирает физик”. Путь наименьшего сопротивления, свойственный молодым ребятами 16-ти лет, и развитые коммуникативные навыки предопределили мой профессиональный путь развития. Хотя инициативность во мне не дремала уже тогда. К примеру, я все же поступил на факультет прикладной математики и информатики в МИСиС, но оригинал аттестата туда не отнес. Может быть, из-за страха. Наверное, это один из моментов, оглядываясь на которые, я испытываю сожаления.
Читать дальше →
Всего голосов 10: ↑5 и ↓50
Комментарии0

«Если хочешь создать нечто действительно крутое, надо копать глубже и знать, как твой код работает в системе, на железе»

Время на прочтение11 мин
Количество просмотров8.3K
Хабр, привет! Интересно, как много программистов и разработчиков открыли для себя data science или data engineering, и строят успешную карьеру в области больших данных. Илья Маркин, Software engineer в Directual, — как раз один из разработчиков, перешедших в data engineering. Поговорили об опыте в роли тимлида, любимом инструменте в data engineering, Илья рассказал о конференциях и интересных профильных каналах джавистов, о Directual с пользовательской стороны и технической, о компьютерных играх и пр.

image

— Илья, спасибо, что нашел время встретиться. Поздравляю и с относительно недавним переходом в новую компанию, и с рождением дочки, хлопот и забот у тебя сейчас много. Сразу же первый вопрос: чем таким интересным тебе предложили заниматься в Directual, что ты ушел из DCA?

— Наверное, прежде надо рассказать, чем я в DCA занимался. В DCA (Data-Centric Alliance) я попал после прохождения программы «Специалист по большим данным». В тот момент я активно интересовался темой big data и понял, что это именно та область, в которой я хочу развиваться. Ведь там, где много данных, интересных инженерных проблем, которые необходимо решать, тоже предостаточно. Программа помогла мне довольно быстро погрузиться в экосистему мира биг дата, там я получил необходимые начальные знания о Hadoop, YARN, парадигме Map-Reduce, HBase, Spark, Flink, и многом другом, и о том, как это работает под высокой нагрузкой.
Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии3

Учиться нельзя откладывать

Время на прочтение9 мин
Количество просмотров3.5K
Хабр, привет! Скоро 1 сентября, и это навевает мысли об учебе. Если перефразировать известное выражение из советского мультфильма: «учиться нельзя откладывать», то актуальным все еще остается вопрос, куда же поставить запятую.

Мы решили дать возможность поделиться своими впечатлениями от программы “Специалист по большим данным” выпускникам весенней группы. Их истории разные: кто-то долго откладывал учёбу, но осознал, что уже пора; а для кого-то решение пойти на оффлайн программу, и переезд из другой страны с устоявшейся жизнью за 2 недели до старта программы, было осознанным шагом; для кого-то мнение друзей и коллег, уже прошедших программу, было решающим после некоторых раздумий; а кто-то бросился в учёбу с головой, осознавая, что не хватает начальных знаний, и успешно пробежал марафон в 12 недель; кто-то уже в 16 лет продал свой проект — система пропуска на мероприятие с распознаванием лиц — и решил дальше изучать большие данные. Итак, кто наши участники, зачем они шли на программу, чему научились, и как пережили 3 месяца программы.

image
Читать дальше →
Всего голосов 10: ↑5 и ↓50
Комментарии0

«Мне сложно понять мотивацию data scientist’а, который не видит красоты в математике» — Кирилл Данилюк, Data Scientist

Время на прочтение11 мин
Количество просмотров12K
Привет, Хабр! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, об отличии ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.



— Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?

— У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.

Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.
Читать дальше →
Всего голосов 18: ↑14 и ↓4+10
Комментарии1

ConvNets. Создание прототипа проекта с помощью Mask R-CNN

Время на прочтение7 мин
Количество просмотров8.1K
Привет, Хабр! Мы, наконец, дождались еще одной части серии материалов от выпускника наших программ “Специалист по большим данным” и “Deep Learning”, Кирилла Данилюка, об использовании популярных на сегодняшний день нейронных сетей Mask R-CNN как части системы для классификации изображений, а именно оценки качества приготовленного блюда по набору данных с сенсоров.

Рассмотрев в предыдущей статье игрушечный набор данных, состоящий из изображений дорожных знаков, теперь мы можем перейти к решению задачи, с которой я столкнулся в реальной жизни: «Возможно ли реализовать Deep Learning алгоритм, который мог бы отличить блюда высокого качества от плохих блюд по одной фотографии?». Вкратце, бизнес хотел вот это:

Что представляет бизнес, когда думает о машинном обучении:
Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Комментарии3