• «Не вижу ни одного резона использовать Python для работы со Spark, кроме лени»

      На днях мы решили пообщаться c Дмитрием Бугайченко (dmitrybugaychenko), одним из наших преподавателей программы "Анализ данных на Scala", и обсудить с ним актуальные вопросы использования Scala в задачах Data Science и Data Engineering. Дмитрий является инженером-аналитиком в "Одноклассниках".


      image

      Читать дальше →
    • «Мне кажется, идеи команды – самое важное при разработке продукта»

      Хабр, привет! Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в data science. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Недавно встретились с Яной Чаруйской, Product Owner в МТС. Яна рассказала, как она пришла в большие данные, как профессионально росла, вспомнила о своем любимом проекте, подарившем ей помимо знаний и опыта, еще и друзей. Рассказала о рабочей атмосфере в МТС, о проектах, которые делает ее команда, о своей мечте, планах на будущее и пр.

      — Яна, расскажи немного о себе и своем бэкграунде.

      — Меня зовут Яна Чаруйская, я Product Owner в МТС. Интересуюсь областью Big Data и занимаюсь ею уже порядка двух лет. Если вкратце про мою историю: я закончила ВШЭ по направлению «Бизнес-информатика», училась 6 лет, затем год училась на психолога. Четыре года я проработала в IT-консалтинге, три из них занималась хранилищами данных, витринами данных, построением управленческой отчетности в основном для крупных банков. Последний год в консалтинге занималась машинным обучением и предиктивной аналитикой. Сейчас я работаю в МТС менеджером по продукту, у меня команда из 6 человек, и она растет, в ближайшее время нанимаю еще 7. В целом, компания тоже расширяется, сейчас в МТС более 150 Big Data специалистов и еще открыто множество вакансий (планируем увеличить штат практически в 2 раза!). Мы с командой разрабатываем несколько продуктов одновременно, в настоящий момент они на разных стадиях реализации: есть продукты, которые находятся в стадии R&D, какие-то — в стадии продуктивизации.
      Читать дальше →
    • «Data Science, как математика и физика, — еще один способ познавать мир вокруг себя»

      Хабр, привет! Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Знакомьтесь — Олег Хомюк, Head of R&D в Lamoda.

      Олег рассказал про свой карьерный путь, ценности, почему выбрал Lamoda, а не компанию в Долине, про текущие проекты, свою команду, про самый успешный и самый неудачный проекты, про отношение к data science и многое другое.

      image
      Читать дальше →
      • +11
      • 5,7k
      • 4
    • «Мне кажется, мы приближаемся к тому времени, когда каждый будет уметь кодить. Код – это свобода»

      Хабр, привет! Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории все разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Сегодня у нас, скорее всего, второй вариант. Знакомьтесь – Дмитрий Родин, в душе разработчик, контрибьютер open source аналитической платформы Rockstat; со-основатель, со-автор и преподаватель Digital God – образовательные программы для digital специалистов; CEO Xeteq.

      Поговорили с Димой о языках программирования и какие решения он на них пишет, о его open source проекте и зачем он это делает, про новую специальность, которой они обучают и пр.

      image

      — Дима, расскажи немного о себе.

      — В голову сразу приходит мое карамельное ремесло, давно отшучиваюсь им, а если серьезно, то в душе я программист, ну или архитектор, мне нравится придумывать и создавать новые решения, вовлекать в них других людей. Последние 10 лет я занимаюсь маркетинговыми технологиями, причем я так увлекся ими, что это превратилось и в хобби. Разрабатывал практически все: от системы управления рекламой и DSP до антифрода с аппаратными модулями мониторинга. Мне кажется, я познал дзен, но это не точно.

      — Ты программируешь уже больше 15 лет, скажи, сколько языков программирования ты знаешь и используешь в работе и своих личных проектах?

      — Думаю, считать количество языков неправильно, самый главный скилл – разобраться в нескольких концепциях языков, и тогда практически не будет разницы, на чем писать. Да, конечно, у каждого языка есть свои преимущества и подводные камни, об этом не надо забывать.
      Читать дальше →
    • «На курсы шли не только ради знаний, у многих были карьерные амбиции и профессиональные задачи развития»

      Хабр, привет! Знакомьтесь — Артём Москалец, СЕО компании Brightlab, с которым мы пообщались в рамках нашей серии интервью с выпускниками. В рамках интервью наши выпускники рассказывают о своей истории перехода в область работы с большими данными. Истории все разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать новые задачи.
      Артём — кандидат психологических наук, бывший зам. директора ГУУ. Волею судеб оказавшись в Ростове-на-Дону, познакомившись с местными талантливыми разработчиками, Артём открыл для себя мир новых технологий, начал активно изучать данную область, собрал команду профессионалов и теперь успешно развивает свою компанию.

      image

      — Артём, представься, пожалуйста, и расскажи о своем бэкграунде.

      — Артём Москалец, CEO в компании Brightlab LLC. Компания наша не самая большая в мире разработки, но дружный коллектив из 24 молодых ребят позволяет решать, не побоюсь этого слова, задачи любого уровня в вeбе.

      Мое профессиональное становление можно описывать по аналогии с диалектическим законом единства и борьбы противоположностей. К примеру, проявляя способности к точным наукам, алгебре и физике, в частности, высшее образование решил получать по направлению социологии и психологии управления. Мой репетитор по физике, зная, что его домашние задания решались в прямом смысле слова на коленке по дороге к нему, говорил: “В тебе умирает физик”. Путь наименьшего сопротивления, свойственный молодым ребятами 16-ти лет, и развитые коммуникативные навыки предопределили мой профессиональный путь развития. Хотя инициативность во мне не дремала уже тогда. К примеру, я все же поступил на факультет прикладной математики и информатики в МИСиС, но оригинал аттестата туда не отнес. Может быть, из-за страха. Наверное, это один из моментов, оглядываясь на которые, я испытываю сожаления.
      Читать дальше →
    • «Если хочешь создать нечто действительно крутое, надо копать глубже и знать, как твой код работает в системе, на железе»

        Хабр, привет! Интересно, как много программистов и разработчиков открыли для себя data science или data engineering, и строят успешную карьеру в области больших данных. Илья Маркин, Software engineer в Directual, — как раз один из разработчиков, перешедших в data engineering. Поговорили об опыте в роли тимлида, любимом инструменте в data engineering, Илья рассказал о конференциях и интересных профильных каналах джавистов, о Directual с пользовательской стороны и технической, о компьютерных играх и пр.

        image

        — Илья, спасибо, что нашел время встретиться. Поздравляю и с относительно недавним переходом в новую компанию, и с рождением дочки, хлопот и забот у тебя сейчас много. Сразу же первый вопрос: чем таким интересным тебе предложили заниматься в Directual, что ты ушел из DCA?

        — Наверное, прежде надо рассказать, чем я в DCA занимался. В DCA (Data-Centric Alliance) я попал после прохождения программы «Специалист по большим данным». В тот момент я активно интересовался темой big data и понял, что это именно та область, в которой я хочу развиваться. Ведь там, где много данных, интересных инженерных проблем, которые необходимо решать, тоже предостаточно. Программа помогла мне довольно быстро погрузиться в экосистему мира биг дата, там я получил необходимые начальные знания о Hadoop, YARN, парадигме Map-Reduce, HBase, Spark, Flink, и многом другом, и о том, как это работает под высокой нагрузкой.
        Читать дальше →
        • +10
        • 5,4k
        • 3
      • Учиться нельзя откладывать или не только машинным обучением жив человек

          Хабр, привет! Скоро 1 сентября, и это навевает мысли об учебе. Если перефразировать известное выражение из советского мультфильма: «учиться нельзя откладывать», то актуальным все еще остается вопрос, куда же поставить запятую.

          Мы решили дать возможность поделиться своими впечатлениями от программы “Специалист по большим данным” выпускникам весенней группы. Их истории разные: кто-то долго откладывал учёбу, но осознал, что уже пора; а для кого-то решение пойти на оффлайн программу, и переезд из другой страны с устоявшейся жизнью за 2 недели до старта программы, было осознанным шагом; для кого-то мнение друзей и коллег, уже прошедших программу, было решающим после некоторых раздумий; а кто-то бросился в учёбу с головой, осознавая, что не хватает начальных знаний, и успешно пробежал марафон в 12 недель; кто-то уже в 16 лет продал свой проект — система пропуска на мероприятие с распознаванием лиц — и решил дальше изучать большие данные. Итак, кто наши участники, зачем они шли на программу, чему научились, и как пережили 3 месяца программы.

          image
          Читать дальше →
        • «Мне сложно понять мотивацию data scientist’а, который не видит красоты в математике» — Кирилл Данилюк, Data Scientist

          Привет, Хабр! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, об отличии ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.

          image

          — Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?

          — У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.

          Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.
          Читать дальше →
          • +10
          • 7,6k
          • 1
        • ConvNets. Создание прототипа проекта с помощью Mask R-CNN

            Привет, Хабр! Мы, наконец, дождались еще одной части серии материалов от выпускника наших программ “Специалист по большим данным” и “Deep Learning”, Кирилла Данилюка, об использовании популярных на сегодняшний день нейронных сетей Mask R-CNN как части системы для классификации изображений, а именно оценки качества приготовленного блюда по набору данных с сенсоров.

            Рассмотрев в предыдущей статье игрушечный набор данных, состоящий из изображений дорожных знаков, теперь мы можем перейти к решению задачи, с которой я столкнулся в реальной жизни: «Возможно ли реализовать Deep Learning алгоритм, который мог бы отличить блюда высокого качества от плохих блюд по одной фотографии?». Вкратце, бизнес хотел вот это:

            Что представляет бизнес, когда думает о машинном обучении:
            Читать дальше →
          • Введение в Data Engineering. ETL, схема «звезды» и Airflow

            • Перевод
            Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.

            При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.


            Читать дальше →

          Самое читаемое