• Подборка рабочих примеров обработки данных

      Привет, читатель.

      По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

      Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

      + бонус в конце статьи — крутой курс от ФПМИ МФТИ.

      image

      Итак, давайте приступим.

      Подборка датасетов с рабочими примерами обработки данных:


      Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

      Примеры обработки:

      Читать дальше →
    • Галерея лучших блокнотов по ML и Data Science

        Привет, читатель.

        Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

        image

        Итак, приступим.

        Вводные курсы в Jupyter Notebook


        Читать дальше →
        • +26
        • 13.6k
        • 7
      • Что я узнал о машинном обучении, поработав в 12 стартапах

        • Translation
        Всем привет.

        Поработав в 12 стартапах в сфере машинного обучения, я сделал восемь полезных выводов о продуктах, данных и людях.

        Все стартапы были из разных сфер (финтех, биотехнологии, здравоохранение, технологии обучения) и на разных этапах: и на этапе pre-seed, и на этапе приобретения крупной компанией. Менялась и моя роль. Я был стратегическим консультантом, главой отдела анализа данных, заваленный делами штатным сотрудником. Все эти компании старались создать хороший продукт, и многим это удалось.

        За время работы я пришел к таким выводам:

        Продукт важнее ИИ


        Эти стартапы разрабатывают продукты, а не изучают искусственный интеллект. Меня, как убежденного математика, сначала больше интересовало машинное обучение и создание новых методов и алгоритмов.

        Вскоре я понял, что даже точные модели машинного обучения не ценны сами по себе. Ценность ИИ и машинного обучения напрямую зависит от ценности продукта, в котором они используются. Цель стартапа – научиться создавать продукты, основанные на машинном обучении.

        При таком подходе иногда выясняется, что машинное обучение – не самый эффективный инструмент. Иногда дело не в поставленной задаче, а в процессе решения. Даже в таких ситуациях полезно обратиться к ученым: они используют научный, основанный на данных подход. Тем не менее, не тратьте время на ИИ там, где нужно исправить процесс.
        Читать дальше →
        • +16
        • 14.9k
        • 7
      • Дайджест статей машинного обучения и искусственного интеллекта

          Хабр, привет.

          Отфильтровав большое количество статей, конференций и подписок — собрал для вас все наиболее значимые гайды, статьи и лайфхаки из мира машинного обучения и искусственного интеллекта. Всем приятного чтения!

          1. Проекты искусственного интеллекта, с которыми можно поиграться уже сегодня. Что вы знаете про искусственный интеллект и машинное обучение? Современный тренд или потенциально мощная сила, способная убивать людей? Эти модные понятия всё чаще на слуху, но далеко не все знают, что же это на самом деле. Пришло время изучить эти технологии с помощью простого и интересного подхода — попробовать искусственный интеллект и нейросети самостоятельно на практике.

          image
          Читать дальше →
          • +14
          • 7.5k
          • 3
        • Дайджест новостей машинного обучения и искусственного интеллекта за июнь

            Хабр, привет.

            Отфильтровав большое количество источников и подписок — собрал для вас все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июнь. Всем приятного чтения!

            1. Команда исследователей из Карнеги-Меллона сделала прорыв в области неинвазивного управления роботизированными устройствами.

            Используя неинвазивный интерфейс мозг-компьютер, они разработали первую в мире успешную роботизированную руку, которая управляется с помощью мыслей и без хирургического (!) вмешательства. Технология продемонстрировала способность непрерывно отслеживать и следовать за курсором компьютера.

            image
            Читать дальше →
          • Лучшие дистрибутивы Linux для старых компьютеров

            • Translation
            Привет!

            Вкратце: пока не бросайте свой старый компьютер — используйте легкий дистрибутив Linux, чтобы возродить его!

            Что вы делаете со своим старым компьютером? Тот, который когда-то имел хорошую аппаратную конфигурацию, но теперь считается устаревшим. Почему бы не восстановить его вместе с Linux? Я собираюсь перечислить лучшие легкие дистрибутивы Linux, которые вы можете использовать на своем старом ПК.

            Лучшие легкие дистрибутивы Linux для старых ноутбуков и десктопов


            Я постараюсь упорядочить список в порядке убывания требований к оборудованию. Это означает, что легкому дистрибутиву Linux, занимающему первое место, потребуется минимальное аппаратное обеспечение.

            10. Peppermint


            image

            Peppermint  —  это облачно-ориентированный дистрибутив Linux, не требующий мощного железа для запуска. Он основан на Lubuntu и использует окружение рабочего стола LXDE для более плавной работы.
            Читать дальше →
          • A selection of Datasets for Machine learning

              Hi guys,

              Before you is an article guide to open data sets for machine learning. In it, I, for a start, will collect a selection of interesting and fresh (relatively) datasets. And as a bonus, at the end of the article, I will attach useful links on independent search of datasets.

              Less words, more data.

              image

              A selection of datasets for machine learning:


              Read more →
              • +10
              • 1.5k
              • 2
            • Подборка датасетов для машинного обучения

                Привет, читатель!

                Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

                Меньше слов, больше данных.

                image

                Подборка датасетов для машинного обучения:


                Читать дальше →
                • +62
                • 17.6k
                • 4
              • Ищем свободное парковочное место с Python

                • Translation
                image

                Я живу в хорошем городе. Но, как и во многих других, поиск парковочного места всегда превращается в испытание. Свободные места быстро занимают, и даже если у вас есть своё собственное, друзьям будет сложно к вам заехать, ведь им будет негде припарковаться.

                Поэтому я решил направить камеру в окно и использовать глубокое обучение, чтобы мой компьютер сообщал мне, когда освободится место:

                image

                Это может звучать сложно, но на самом деле написать рабочий прототип с глубоким обучением — быстро и легко. Все нужные составляющие уже есть — нужно всего лишь знать, где их найти и как собрать воедино.

                Поэтому давайте немного развлечёмся и напишем точную систему уведомлений о свободной парковке с помощью Python и глубокого обучения
                Читать дальше →
              • Работаем с Wordstat правильно. Полное руководство

                • Tutorial
                image

                Хабр, привет!

                Многие люди не знают, как работать с трендами в интернете, где их искать. Перед тем, как начинать бизнес не знают, где посмотреть будет ли этот бизнес вообще популярен и нужен ли он. Поэтому напишу полный туториал, чтобы закрыть все вопросы по этой тематике.

                Работать мы будем со специальным сервисом по сбору поисковых запросов пользователей Яндекса Вордстатом, интерфейс которого довольно прост и понятен:

                image

                В начале, по традиции, поставлю цели:

                • Понять весь функционал и научиться работать с Вордстатом;
                • Как правильно собирать семантику с максимальной релевантностью и CTR >50%;
                • Так как мы на Хабре, поработаем с API Wordstat напрямую.
                Читать дальше →
                • +24
                • 7.4k
                • 4
              • Прорабатываем навык использования группировки и визуализации данных в Python

                  image

                  Привет, Хабр!

                  Сегодня будем прорабатывать навык использования средств группирования и визуализации данных в Python. В предоставленном датасете на Github проанализируем несколько характеристик и построим набор визуализаций.

                  По традиции, в начале, определим цели:

                  • Сгруппировать данные по полу и году и визуализировать общую динамику рождаемости обоих полов;
                  • Найти самые популярные имена за всю историю;
                  • Разбить весь временной промежуток в данных на 10 частей и для каждой найти самое популярное имя каждого пола. Для каждого найденного имени визуализировать его динамику за все время;
                  • Для каждого года рассчитать сколько имен покрывает 50% людей и визуализировать (мы увидим разнообразие имен за каждый год);
                  • Выбрать 4 года из всего промежутка и отобразить для каждого года распределение по первой букве в имени и по последней букве в имени;
                  • Составить список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценить их влияние на динамику имен. Построить наглядную визуализацию.

                  Меньше слов, больше кода!

                  И, поехали.
                  Читать дальше →
                  • +40
                  • 9.5k
                  • 5