• Как стать датасайнтистом, если тебе за 40 и ты не программист

      Бытует мнение, что стать датасайентистом можно только имея соответствующее высшее образование, а лучше ученую степень.

      Однако мир меняется, технологии становятся доступны и для простых смертных. Возможно, я кого-то удивлю, но сегодня любой бизнес-аналитик в состоянии освоить технологии машинного обучения и добиться результатов, конкурирующих с профессиональными математиками, и, возможно, даже лучших.

      Дабы не быть голословным, я расскажу вам свою историю — как из экономиста я стал дата-аналитиком, получив необходимые знания через онлайн-курсы и участвуя в соревнованиях по машинному обучению.



      Сейчас я ведущий аналитик в группе больших данных в QIWI, но еще три года назад я был довольно далек от датасайнс и об искусственном интеллекте слышал только из новостей. Но потом все изменилось, во многом благодаря Coursera и Kaggle.

      Итак, обо всем по порядку.
      Читать дальше →
    • Как правильно «фармить» Kaggle

        image
        *фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).


        Введение


        Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме, то ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

        проверить глубину этой кроличьей норы
      • Итоги развития компьютерного зрения за один год

        • Перевод
        Часть первая. Классификация/локализация, обнаружение объектов и слежение за объектом

        Этот фрагмент взят из недавней публикации, которую составила наша научно-исследовательская группа в области компьютерного зрения. В ближайшие месяцы мы опубликуем работы на разные темы исследований в области Искусственного Интеллекта  —  о его экономических, технологических и социальных приложениях — с целью предоставить образовательные ресурсы для тех, кто желает больше узнать об этой удивительной технологии и её текущем состоянии. Наш проект надеется внести свой вклад в растущую массу работ, которые обеспечивают всех исследователей информацией о самых современных разработках ИИ.

        Введение


        Компьютерным зрением обычно называют научную дисциплину, которая даёт машинам способность видеть, или более красочно, позволяя машинам визуально анализировать своё окружение и стимулы в нём. Этот процесс обычно включает в себя оценку одного или нескольких изображений или видео. Британская ассоциация машинного зрения (BMVA) определяет компьютерное зрение как «автоматическое извлечение, анализ и понимание полезной информации из изображения или их последовательности».

        Термин понимание интересно выделяется на фоне механического определения зрения — и демонстрирует одновременно и значимость, и сложность области компьютерного зрения. Истинное понимание нашего окружения достигается не только через визуальное представление. На самом деле визуальные сигналы проходят через оптический нерв в первичную зрительную кору и осмысливаются мозгом в сильно стилизованном смысле. Интерпретация этой сенсорной информации охватывает почти всю совокупность наших естественных встроенных программ и субъективного опыта, то есть как эволюция запрограммировала нас на выживание и что мы узнали о мире в течение жизни.
        Читать дальше →
      • Можно скачать материалы семинара Nanometer ASIC (РОСНАНО / МИСиС / Imagination Technologies) — ликбез по всему про чипы

          Господа! Семинар Nanometer ASIC, организованный РОСНАНО, МИСиС и Imagination Technologies, оказался довольно популярным — на него зарегистрировались более 180 человек, пришли 127, причем в аудитории засветились предствители всех значимых российских микроэлектронных проектов — от радиационно-стойких микросхем для космоса из НИИСИ до чипов для умных камер от ЭЛВИС-НеоТек, инженеров из Байкал Электроникс, руководителей проектов по автоматизации проектирования микросхем из МГУ, разработчики российских ПЛИС-ов из Воронежа, преподаватели из ВШЭ/МИЭМ и других вузов, организаторов олимпиад для школьников из МФТИ и многие другие.

          Несмотря на то, что для профессиональных спецов по использованию Synopsys IC Compiler семинар был слишком элементарный, но его вводный характер искупился его широтой — инженеры из всей цепочки проектирования и производства могли освежить в памяти области, которые они забыли, инвесторы в полупроводниковой индустрии смогли посмотреть что делают компании, в которые они инвестируют, студенты посмотрели, что им может нравится и так сказать куда копать (в полупроводниковой индустрии Silicon Valley молодые инженеры специализируются в логический / физический / аналоговый дизайн довольно рано в своей карьере).

          Ведущий семинара, лектор Калифорнийского университета в Санта-Крус (отделение в Кремниевой долине) Чарльз Данчек (Charles Dancak) отвечает на вопросы:



          Скачать все слайды на русском можно здесь.

          Под катом — избранные слайды Nanometer ASIC (25 из 322):
          Читать дальше →
        • Как применение кодов избыточности в SDS помогает Яндексу дёшево и надёжно хранить данные

            Яндекс, как и любая другая большая интернет-компания, хранит много, а точнее очень много данных. Это и пользовательские данные из разных сервисов, и намайненные сайты, и промежуточные данные для расчёта погоды, и резервные копии баз данных. Стоимость хранения ($/ГБ) — один из важных показателей системы. В этой статье я хочу рассказать вам про один из методов, который позволил нам серьезно удешевить хранилище.




            В 2015 году, как вы все помните, сильно вырос курс доллара. Точнее, расти-то он начал в конце 2014-го, но новые партии железа мы заказывали уже в 2015-м. Яндекс зарабатывает в рублях, и поэтому вместе с курсом выросла и стоимость железа для нас. Это заставило нас в очередной раз подумать о том, как сделать, чтобы в текущий кластер можно было положить больше данных. Мы такое, конечно, делаем регулярно, но в этот раз мотивация была особенно сильной.


            Каждый сервер кластера предоставляет для нас следующие ресурсы: процессор, оперативную память, жёсткие диски и сеть. Сеть здесь — более сложное понятие, чем просто сетевая плата. Это ещё и вся инфраструктура внутри дата-центра, и связность между разными дата-центрами и точками обмена трафиком. В кластере для обеспечения надёжности применялась репликация, и суммарный объём кластера определялся исключительно через суммарную ёмкость жёстких дисков. Нужно было придумать, как обменять оставшиеся ресурсы на увеличение места. Кстати, если после поста у вас останутся вопросы, которые бы вы хотели обсудить лично, приходите на нашу встречу.


            Читать дальше →
          • Big Data в Билайне: реальный опыт



              Привет, хабр! Меня зовут Александр Крот, я отвечаю за разработку алгоритмов машинного обучения и интеллектуального анализа данных в компании Билайн, а также за подготовку и отбор специалистов по работе с данными под руководством Сергея Марина, который ранее знакомил Вас с работой нашего подразделения Big Data. Я уже писал про отдельные аспекты Big Data и Machine Learning, но сегодня я расскажу, как это устроено на практике, а именно — как мы в Билайн решаем задачи, связанные с анализом больших данных, как отбираем специалистов, какие инструменты и методы применяем на практике.
              Читать дальше →
            • Система пространственного позиционирования для авиации (применяем FPGA)

                Пролог


                В любой статье, посвященной FPGA, в комментариях рано или поздно появляется мысль, дескать «прикольная штука, собрал простой проект, помигал светодиодами, а что с этим сделать полезного — ума не приложу». Кто-то под FPGA создает игры, кто-то портирует стандартные процессоры старых времен, но все это позиционируется в первую очередь в качестве развлечения и освоения технологии. И действительно, технология FPGA в применении «для дома, для семьи» слишком дорога и явно избыточна. Сегодня я постараюсь рассказать о системе, в которой FPGA находит свое гармоничное применение исключительно в мирных и общественно-полезных целях (никаких механизмов для биржевых спекуляций, вуайеризма или убийства себе подобных). Впрочем, как можно будет заметить из дальнейшего рассказа, значительная часть повествования будет уделена предметной области и уровню системного проектирования.
                Читать дальше →
              • Wi-Fi термометр на ESP8266 + DS18B20 всего за 4$



                В последнее время всё большую популярность набирают Wi-Fi модули на основе ESP8266. Я тоже решил приобщиться к прекрасному, задумав реализовать термометр, отдающий данные по HTTP. Итак, поехали.
                Читать дальше →
              • Поднимаем SOC: ARM + FPGA



                На днях ко мне в руки попала EBV SoCrates Evaluation Board. В двух словах — это плата с SoC от фирмы Altera, на борту которой есть двухъядерный ARM и FPGA Cyclone V.

                ARM и FPGA на одном чипе — это должно быть очень интересно! Но для начала всё это добро нужно «поднять».
                Об этом процессе я и поведаю в данной статье.

                Если вам в руки попала такая или подобная плата и вы не до конца уверены, что же с ней нужно делать. Если вы всегда думали, что FPGA — это что-то сложное и непонятно, как к этому подступиться. Или вы просто любопытный инженер. Тогда заходите. Мы всем рады.

                А в качестве маленького бонуса измерим пропускную способность между CPU и FPGA.
                Добро пожаловать
              • Обзор Makeblock Starter Robot Kit V2.0. Часть 1. Распаковываем

                Так случилось, что сегодня я стал обладателем конструктора для продвинутых Makeblock Starter Robot Kit V2.0. Так как в Рунете не нашёл ни одного обзора этого не совсем обычного и, на мой взгляд, интересного конструктора, решил поделиться своими впечатлениями об этом продукте. Сегодня расскажу о том, что такое Makeblock Starter Robot Kit V2.0, и что входит в его комплектацию, попутно сопровождая немногословный рассказ фотографиями.

                Что такое Makeblock


                Makeblock — это открытая платформа для конструирования, разработанная в Шэньчжэнь, Китай. Выпускает и продаёт Makeblock одноимённая компания. Кроме открытости для Makeblock также характерны:

                • прочные анодированные алюминиевые детали двух цветов (голубого и золотистого);
                • электроника на базе контроллера, совместимого с Arduino;
                • возможность использования деталей LEGO Mindstorms, включая моторы.

                Читать дальше →
              • Docker, SkyDNS и SkyDock — быстро и удобно

                • Tutorial
                Не так давно начал изучать, что такое docker, который уже успел нашуметь по всему миру. Не буду вдаваться в философские изыски «а зачем оно надо?», или «фи, это просто очередной модный тренд!», или «кто же такой сырой продукт выпускает?». Я просто хочу дать краткие советы, как можно быстро в домашних условиях пощупать, что такое docker, используя такие блага и удобства как SkyDock и SkyDNS.
                Данная заметка рассчитана на людей, у кого мало времени, чтобы читать горы статьей на английском (или не знают английского), но есть небольшие познания в том, что такое консоль и как установить docker самостоятельно.
                Краткая суть статьи для ленивых
                docker pull crosbymichael/skydns
                docker pull crosbymichael/skydock
                docker run -d -v /var/run/docker.sock:/docker.sock --name skydock crosbymichael/skydock -ttl 30 -environment dev -s /docker.sock -domain docker -name skydns
                docker run -d -p 172.17.42.1:53:53/udp --name skydns crosbymichael/skydns -nameserver 8.8.8.8:53 -domain docker
                

                Далее следует настройка роутера или правка /usr/lib/systemd/system/docker.service, но за такими подробностями придется всё же залезть под хабракат.

                Хочу подробней!
              • Пример решения задачи множественной регрессии с помощью Python

                  Введение


                  Добрый день, уважаемые читатели.
                  В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
                  Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.
                  Читать дальше →