• «Мне кажется, идеи команды – самое важное при разработке продукта»

    Хабр, привет! Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в data science. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Недавно встретились с Яной Чаруйской, Product Owner в МТС. Яна рассказала, как она пришла в большие данные, как профессионально росла, вспомнила о своем любимом проекте, подарившем ей помимо знаний и опыта, еще и друзей. Рассказала о рабочей атмосфере в МТС, о проектах, которые делает ее команда, о своей мечте, планах на будущее и пр.

    — Яна, расскажи немного о себе и своем бэкграунде.

    — Меня зовут Яна Чаруйская, я Product Owner в МТС. Интересуюсь областью Big Data и занимаюсь ею уже порядка двух лет. Если вкратце про мою историю: я закончила ВШЭ по направлению «Бизнес-информатика», училась 6 лет, затем год училась на психолога. Четыре года я проработала в IT-консалтинге, три из них занималась хранилищами данных, витринами данных, построением управленческой отчетности в основном для крупных банков. Последний год в консалтинге занималась машинным обучением и предиктивной аналитикой. Сейчас я работаю в МТС менеджером по продукту, у меня команда из 6 человек, и она растет, в ближайшее время нанимаю еще 7. В целом, компания тоже расширяется, сейчас в МТС более 150 Big Data специалистов и еще открыто множество вакансий (планируем увеличить штат практически в 2 раза!). Мы с командой разрабатываем несколько продуктов одновременно, в настоящий момент они на разных стадиях реализации: есть продукты, которые находятся в стадии R&D, какие-то — в стадии продуктивизации.
    Читать дальше →
  • «Data Science, как математика и физика, — еще один способ познавать мир вокруг себя»

    Хабр, привет! Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Знакомьтесь — Олег Хомюк, Head of R&D в Lamoda.

    Олег рассказал про свой карьерный путь, ценности, почему выбрал Lamoda, а не компанию в Долине, про текущие проекты, свою команду, про самый успешный и самый неудачный проекты, про отношение к data science и многое другое.

    image
    Читать дальше →
    • +11
    • 4,7k
    • 4
  • «Мне кажется, мы приближаемся к тому времени, когда каждый будет уметь кодить. Код – это свобода»

    Хабр, привет! Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в область работы с большими данными. Истории все разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Сегодня у нас, скорее всего, второй вариант. Знакомьтесь – Дмитрий Родин, в душе разработчик, контрибьютер open source аналитической платформы Rockstat; со-основатель, со-автор и преподаватель Digital God – образовательные программы для digital специалистов; CEO Xeteq.

    Поговорили с Димой о языках программирования и какие решения он на них пишет, о его open source проекте и зачем он это делает, про новую специальность, которой они обучают и пр.

    image

    — Дима, расскажи немного о себе.

    — В голову сразу приходит мое карамельное ремесло, давно отшучиваюсь им, а если серьезно, то в душе я программист, ну или архитектор, мне нравится придумывать и создавать новые решения, вовлекать в них других людей. Последние 10 лет я занимаюсь маркетинговыми технологиями, причем я так увлекся ими, что это превратилось и в хобби. Разрабатывал практически все: от системы управления рекламой и DSP до антифрода с аппаратными модулями мониторинга. Мне кажется, я познал дзен, но это не точно.

    — Ты программируешь уже больше 15 лет, скажи, сколько языков программирования ты знаешь и используешь в работе и своих личных проектах?

    — Думаю, считать количество языков неправильно, самый главный скилл – разобраться в нескольких концепциях языков, и тогда практически не будет разницы, на чем писать. Да, конечно, у каждого языка есть свои преимущества и подводные камни, об этом не надо забывать.
    Читать дальше →
  • «На курсы шли не только ради знаний, у многих были карьерные амбиции и профессиональные задачи развития»

    Хабр, привет! Знакомьтесь — Артём Москалец, СЕО компании Brightlab, с которым мы пообщались в рамках нашей серии интервью с выпускниками. В рамках интервью наши выпускники рассказывают о своей истории перехода в область работы с большими данными. Истории все разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать новые задачи.
    Артём — кандидат психологических наук, бывший зам. директора ГУУ. Волею судеб оказавшись в Ростове-на-Дону, познакомившись с местными талантливыми разработчиками, Артём открыл для себя мир новых технологий, начал активно изучать данную область, собрал команду профессионалов и теперь успешно развивает свою компанию.

    image

    — Артём, представься, пожалуйста, и расскажи о своем бэкграунде.

    — Артём Москалец, CEO в компании Brightlab LLC. Компания наша не самая большая в мире разработки, но дружный коллектив из 24 молодых ребят позволяет решать, не побоюсь этого слова, задачи любого уровня в вeбе.

    Мое профессиональное становление можно описывать по аналогии с диалектическим законом единства и борьбы противоположностей. К примеру, проявляя способности к точным наукам, алгебре и физике, в частности, высшее образование решил получать по направлению социологии и психологии управления. Мой репетитор по физике, зная, что его домашние задания решались в прямом смысле слова на коленке по дороге к нему, говорил: “В тебе умирает физик”. Путь наименьшего сопротивления, свойственный молодым ребятами 16-ти лет, и развитые коммуникативные навыки предопределили мой профессиональный путь развития. Хотя инициативность во мне не дремала уже тогда. К примеру, я все же поступил на факультет прикладной математики и информатики в МИСиС, но оригинал аттестата туда не отнес. Может быть, из-за страха. Наверное, это один из моментов, оглядываясь на которые, я испытываю сожаления.
    Читать дальше →
  • «Если хочешь создать нечто действительно крутое, надо копать глубже и знать, как твой код работает в системе, на железе»

      Хабр, привет! Интересно, как много программистов и разработчиков открыли для себя data science или data engineering, и строят успешную карьеру в области больших данных. Илья Маркин, Software engineer в Directual, — как раз один из разработчиков, перешедших в data engineering. Поговорили об опыте в роли тимлида, любимом инструменте в data engineering, Илья рассказал о конференциях и интересных профильных каналах джавистов, о Directual с пользовательской стороны и технической, о компьютерных играх и пр.

      image

      — Илья, спасибо, что нашел время встретиться. Поздравляю и с относительно недавним переходом в новую компанию, и с рождением дочки, хлопот и забот у тебя сейчас много. Сразу же первый вопрос: чем таким интересным тебе предложили заниматься в Directual, что ты ушел из DCA?

      — Наверное, прежде надо рассказать, чем я в DCA занимался. В DCA (Data-Centric Alliance) я попал после прохождения программы «Специалист по большим данным». В тот момент я активно интересовался темой big data и понял, что это именно та область, в которой я хочу развиваться. Ведь там, где много данных, интересных инженерных проблем, которые необходимо решать, тоже предостаточно. Программа помогла мне довольно быстро погрузиться в экосистему мира биг дата, там я получил необходимые начальные знания о Hadoop, YARN, парадигме Map-Reduce, HBase, Spark, Flink, и многом другом, и о том, как это работает под высокой нагрузкой.
      Читать дальше →
      • +10
      • 5,1k
      • 3
    • Учиться нельзя откладывать или не только машинным обучением жив человек

        Хабр, привет! Скоро 1 сентября, и это навевает мысли об учебе. Если перефразировать известное выражение из советского мультфильма: «учиться нельзя откладывать», то актуальным все еще остается вопрос, куда же поставить запятую.

        Мы решили дать возможность поделиться своими впечатлениями от программы “Специалист по большим данным” выпускникам весенней группы. Их истории разные: кто-то долго откладывал учёбу, но осознал, что уже пора; а для кого-то решение пойти на оффлайн программу, и переезд из другой страны с устоявшейся жизнью за 2 недели до старта программы, было осознанным шагом; для кого-то мнение друзей и коллег, уже прошедших программу, было решающим после некоторых раздумий; а кто-то бросился в учёбу с головой, осознавая, что не хватает начальных знаний, и успешно пробежал марафон в 12 недель; кто-то уже в 16 лет продал свой проект — система пропуска на мероприятие с распознаванием лиц — и решил дальше изучать большие данные. Итак, кто наши участники, зачем они шли на программу, чему научились, и как пережили 3 месяца программы.

        image
        Читать дальше →
      • «Мне сложно понять мотивацию data scientist’а, который не видит красоты в математике» — Кирилл Данилюк, Data Scientist

        Привет, Хабр! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, об отличии ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.

        image

        — Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?

        — У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.

        Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.
        Читать дальше →
      • ConvNets. Создание прототипа проекта с помощью Mask R-CNN

          Привет, Хабр! Мы, наконец, дождались еще одной части серии материалов от выпускника наших программ “Специалист по большим данным” и “Deep Learning”, Кирилла Данилюка, об использовании популярных на сегодняшний день нейронных сетей Mask R-CNN как части системы для классификации изображений, а именно оценки качества приготовленного блюда по набору данных с сенсоров.

          Рассмотрев в предыдущей статье игрушечный набор данных, состоящий из изображений дорожных знаков, теперь мы можем перейти к решению задачи, с которой я столкнулся в реальной жизни: «Возможно ли реализовать Deep Learning алгоритм, который мог бы отличить блюда высокого качества от плохих блюд по одной фотографии?». Вкратце, бизнес хотел вот это:

          Что представляет бизнес, когда думает о машинном обучении:
          Читать дальше →
        • Введение в Data Engineering. ETL, схема «звезды» и Airflow

          • Перевод
          Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.

          При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.


          Читать дальше →
        • Стартапы, чат-боты, Кремниевая долина. Интервью с российскими разработчиками в Сан-Франциско

            Во время своей недавней поездки в Сан-Франциско я встретился с выпускниками нашей программы «Специалист по большим данным», эмигрировавшими в США — Евгением Шапиро (Airbnb) и Игорем Любимовым (ToyUp), а также с Артемом Родичевым (Replika), нашим партнером. Ребята рассказали массу интересных вещей: зачем Airbnb выкладывает свои проекты в open-source; как устроена Replika — нейросетевой чат-бот, способный стать твоим другом; про миссию стартапов Кремниевой Долины и предпринимательскую экосистему.


            Читать дальше →
            • +27
            • 10,2k
            • 2
          • Специалист по разметке данных

              Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных.

              На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных.

              Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними. Некоторые сложнее, некоторые проще. Но порог для входа вполне приемлемый. Остается только последний компонент — это данные. И вот здесь и возникает загвоздка.

              Deep learning требует действительно больших данных: сотни тысяч–миллионы объектов. Если вы хотите заниматься, например, задачей классификации изображений, то вам, помимо самих данных, нужно передать нейронке информацию, к какому классу относится тот или иной объект. Если у вас задача связана еще и с сегментацией изображения, то получение хорошего датасета — это уже фантастически сложно. Представьте, что вам нужно на каждом изображении выделить границы каждого объекта.


              В этом посте хочется сделать обзор тех инструментов (коммерческих и бесплатных), которые пытаются облегчить жизнь этих прекрасных людей — разметчиков данных.
              Читать дальше →
              • +18
              • 8,9k
              • 3
            • Обзор второго дня Data Science Weekend 2018. Data Engineering, ETL, поисковые сервисы и многое другое

                Несколько дней назад мы публиковали обзор первого дня Data Science Weekend 2018, который прошел 2-3 марта на Мансарде Rambler&Co. Изучив практику использования алгоритмов машинного обучения, теперь перейдем к обзору второго дня конференции, в течении которого спикеры рассказывали об использовании различных инструментов дата инженера для нужд дата-платформ, ETL, сервисах подсказок при поиске и многом другом.


                Читать дальше →
              • Обзор первого дня Data Science Weekend 2018. Практика машинного обучения, новый подход к соревнованиям и многое другое

                  Привет, Хабр! 2-3 марта на Мансарде наших партнёров, компании Rambler&Co, прошел уже традиционный Data Science Weekend, на котором было множество выступлений специалистов в области работы с данными. В рамках этой статьи расскажем вам о самых интересных моментах первого дня нашей конференции, когда все внимание было уделено практике использования алгоритмов машинного обучения, управлению коллективами и проведению соревнований в области Data Science.


                  Читать дальше →
                • Обзор нового алгоритма уменьшения размерности UMAP. Действительно ли он лучше и быстрее, чем t-SNE?

                    Привет, Хабр! Задача снижения размерности является одной из важнейших в анализе данных и может возникнуть в двух следующих случаях. Во-первых, в целях визуализации: перед тем, как работать с многомерными данными, исследователю может быть полезно посмотреть на их структуру, уменьшив размерность и спроецировав их на двумерную или трехмерную плоскость. Во-вторых, понижение размерности полезно для предобработки признаков в моделях машинного обучения, поскольку зачастую неудобно обучать алгоритмы на сотне признаков, среди которых может быть множество зашумленных и/или линейно зависимых, от них нам, конечно, хотелось бы избавиться. Наконец, уменьшение размерности пространства значительно ускоряет обучение моделей, а все мы знаем, что время — это наш самый ценный ресурс.

                    UMAP (Uniform Manifold Approximation and Projection) — это новый алгоритм уменьшения размерности, библиотека с реализацией которого вышла совсем недавно. Авторы алгоритма считают, что UMAP способен бросить вызов современным моделям снижения размерности, в частности, t-SNE, который на сегодняшний день является наиболее популярным. По результатам их исследований, у UMAP нет ограничений на размерность исходного пространства признаков, которое необходимо уменьшить, он намного быстрее и более вычислительно эффективен, чем t-SNE, а также лучше справляется с задачей переноса глобальной структуры данных в новое, уменьшенное пространство.

                    В данной статье мы постараемся разобрать, что из себя представляет UMAP, как настраивать алгоритм, и, наконец, проверим, действительно ли он имеет преимущества перед t-SNE.


                    Читать дальше →
                    • +20
                    • 3,6k
                    • 2
                  • Как собрать сильную команду аналитиков и инженеров данных? Опыт компании Wish. Часть 2

                    • Перевод
                    В первой части мы рассмотрели, как в компании Wish была перестроена инфраструктура данных для того, чтобы увеличить их аналитические возможности. На этот раз уделим внимание человеческим ресурсам и поговорим о том, как дальше масштабировать компанию и создать идеальные команды инженеров и аналитиков. Также расскажем и о нашем подходе к найму самых талантливых кандидатов на рынке.


                    Читать дальше →
                  • Сравнение топ-4 популярных BI платформ. Какую выбрать?

                    • Перевод
                    Сегодня существует огромное количество BI-платформ и инструментов визуализации данных, которые делают так, чтобы данные могли говорить, а всю аналитику можно было наглядно отобразить на экране и поделиться с клиентами. В данной статье мы сравним наиболее популярные и широко используемые BI системы и проанализируем их преимущества и недостатки, чтобы вы могли выбрать одну или несколько из них для своей компании, ведь без качественной бизнес-аналитики сегодня практически невозможно обойтись.

                    Пытаясь оценить различные BI платформы часто сложно понять, где миф, а где правда, поскольку каждый вендор позиционирует свой продукт, как “лучший на рынке”, приводя в качестве аргумента сотни субъективных обзоров, заполонивших Интернет. Если же вы хотите разобраться, какой инструмент подходит именно вашей компании, не пролистывая сотни страниц “честных” мнений, то ниже будет то, что нужно.

                    Мы рассмотрим наиболее популярные платформы, такие как QlikView, Klipfolio, Tableau и Power BI, и сравним их ключевые параметры: удобство использования, цену, легкость установки, поддержку, работу с различными типами данных и многое другое. Итак, вперед!


                    Читать дальше →
                  • Как мы выстраивали инфраструктуру данных в Wish

                    • Перевод
                    Я пришел в Wish 2,5 года назад, дела в компании шли отлично. Наше приложение было в топе в iOS и Android магазинах и продавало более 2 миллионов товаров в день.

                    Мало кто верил, что можно построить большой бизнес, продавая дешевые товары. Однако, используя данные, Wish смогли бросить вызов этим сомнениям. Аналитика данных всегда была у нас в крови.

                    Но когда наш бизнес стал расти огромными темпами, мы не были к этому готовы, обнаружилось множество проблем с аналитикой. Каждая команда внутри компании стала нуждаться в срочной поддержке в работе с данными и многое упускала из виду в своем поле деятельности. В то время наши аналитические возможности еще только зарождались и не могли удовлетворить все растущий спрос.

                    В данном посте я расскажу о том, какие уроки мы извлекли за это время, а также распишу верный путь для компаний, находящихся в поисках способов масштабирования их аналитических функций.


                    Читать дальше →
                  • Кто занимается машинным обучением и что сейчас популярно в Data Science? Результаты опроса среди пользователей Kaggle

                      Привет, Хабр! В августе 2017 года платформа для проведения соревнований по машинному обучению Kaggle провела опрос среди более чем 16 000 респондентов с целью узнать, в каком состоянии сейчас находится анализ данных и машинное обучение. Результаты были выложены в открытый доступ, поэтому мы решили проанализировать, чем отечественный Data Science отличается от зарубежного, как выглядит типичный пользователь Kaggle в России и в мире, и, наконец, какие алгоритмы и фреймворки наиболее популярны.


                      Читать дальше →
                      • +17
                      • 8,1k
                      • 3
                    • Введение в обучение с подкреплением: от многорукого бандита до полноценного RL агента

                      • Перевод
                      Привет, Хабр! Обучение с подкреплением является одним из самых перспективных направлений машинного обучения. С его помощью искусственный интеллект сегодня способен решать широчайший спектр задач: от робототехники и видеоигр до моделирования поведения покупателей и здравоохранения. В этой вводной статье мы изучим главную идею reinforcement learning и с нуля построим собственного самообучающегося бота.


                      Читать дальше →
                    • 1-я лабораторная работа программы Data Engineer

                        Как говорится, никогда такого не было, и вот опять. Мы подумали и решили выложить в свободный доступ первую лабораторную работу нашей новой программы Data Engineer. Бесплатно. Без смс.


                        Чуть ранее мы писали, зачем вообще стоит присмотреться к этой профессии. Недавно взяли интервью у одного из таких специалистов, и по совместительству, нашего преподавателя.



                        Так вот. Потенциально каждый самостоятельно может пройти эту лабу и почувствовать себя немножко этим дата инженером. Для этого будет все, что требуется.


                        А делать в этой лабе мы будем следующее.


                        1. Зарегимся на облачном сервисе.
                        2. Поднимем на нем 4 виртуальных машины.
                        3. Развернем кластер при помощи Ambari.
                        4. Поднимем сайт на nginx на одной из виртуалок.
                        5. Добавим специальный javascript на каждую страницу этого сайта.
                        6. Соберем кликстрим на HDFS.
                        7. Соберем его же в Kafka.
                        Читать дальше →
                        • +5
                        • 10,6k
                        • 4

                      Самое читаемое