Подборка рабочих примеров обработки данных

    Привет, читатель.

    По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

    Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

    + бонус в конце статьи — крутой курс от ФПМИ МФТИ.

    image

    Итак, давайте приступим.

    Подборка датасетов с рабочими примерами обработки данных:


    Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

    Примеры обработки:


    Spotify's Worldwide Daily Song Ranking — ежедневный рейтинг 200 самых прослушиваемых песен в 53 странах с 2017 и 2018 годов пользователями Spotify.

    Пример обработки:


    Crimes in Boston — записи из Бостонской системы отчетов о происшествиях с преступностью, включающая в себя происшествия, и информацию о том когда и где оно произошло.

    Пример обработки:


    Google Play Store Apps — категории, рейтинги, размер всех приложений Google Play.

    Пример обработки:


    Pokémon for Data Mining and Machine Learning — статистика и особенности покемонов;

    Пример обработки:


    A Million News Headlines — данные заголовков новостей, опубликованных за последние 15 лет.

    Пример обработки:


    Airplane Crashes Since 1908 — полная история авиакатастроф по всему миру, с 1908 года по настоящее время.

    Пример обработки:


    News Headlines Dataset For Sarcasm Detection — высококачественный набор данных для задачи обнаружения сарказма.

    Пример обработки:


    Historical Air Quality — данные о качестве воздуха, собранные на наружных мониторах по всей территории США.

    Пример обработки:


    Nutrition Facts for McDonald's Menu — анализ питания каждого пункта меню в McDonald's США.

    Пример обработки:


    LEGO Database — детали / комплекты / цвета и запасы каждого официального набора LEGO в базе данных Rebrickable.

    Пример обработки:


    Global Commodity Trade Statistics — объемы импорта и экспорта для 5000 товаров в большинстве стран мира за последние 30 лет.

    Пример обработки:


    Crime in India — полная информация о различных аспектах преступлений, совершенных в Индии с 2001 года.

    Пример обработки:


    Predicting a Pulsar Star — данные по пульсарам, собранные во время обзора Вселенной.

    Примеры обработки:


    French employment, salaries, population per town — данные, показывающие равенство и неравенство во Франции.

    Пример обработки:


    United States Census — данные переписи в США.

    Пример обработки:


    California Housing Prices — цена на жилье в Калифорнии.

    Пример обработки:


    US Unemployment Rate by County, 1990-2016 — данные по безработице министерства труда США.

    Пример обработки:


    World of Warcraft Avatar History — набор записей, которые детализируют информацию о персонажах игрока в игре с течением времени.

    Пример обработки:


    The Gravitational Waves Discovery Data — данные о событиях гравитационных волн GW150914.

    Пример обработки:


    Бонус!


    А бонусом у нас сегодня будет прекрасный курс по Deep Learning, рассчитанный на старшеклассников, интересующихся программированием и математикой, а также студентов, которые хотят начать заниматься глубоким обучением.

    Цель курса — познакомить с основными принципами глубокого обучения (нейронных сетей) в интерактивном формате и на примере практических задач.

    Программа курса


    1. Python: основы, Google Colab;
    2. Введение в линейную алгебру. Векторы. Матрицы и операции с ними. Библиотека NumPy;
    3. Библиотеки Pandas и MatPlotlib. Основы машинного обучения;
    4. Элементы теории оптимизации. Градиент. Градиентный спуск. Линейные модели;
    5. Введение в глубокое обучение. Перцептрон. Нейрон с сигмоидой (и другими функциями активации). Основы ООП в Python;
    6. Библиотека PyTorch. Многослойные нейросети;
    7. Обучение нейронных сетей на практике. Cifar10, notMNIST;
    8. Сверточные нейросети. Сверточный слой. Пулинг слой;
    9. Практика обучения нейросетей. Классификация дорожных знаков;
    10. Transfer Дearning. Популярные в Computer Vision архитектуры;
    11. Сегментация картинок. U-Net;
    12. Участие в соревнованиях на Kaggle;
    13. Object Detection. YOLOv3;
    14. Классический GAN. Нейронный перенос стиля;
    15. Базовые методы обработки текста;
    16. Word Embeddings;
    17. Рекуррентные нейронные сети;
    18. LSTM, GRU ячейки;
    19. Языковые модели;
    20. Машинный перевод;
    21. Text2Speech;
    22. SuperResolution.

    Также вы можете заглянуть на Youtube-канал Deep Learning School. Там много отличных видео ;)

    На этом наша короткая подборка примеров обработки данных подошла к концу. Надеюсь вы узнали для себя что-нибудь новое. Как принято на Хабре, понравился пост — поставь плюс. Не забудьте поделиться с коллегами. Также, если у вас есть то, чем вы можете поделиться сами — пишите в комментариях. Больше информации о машинном обучении и Data Science на Хабре и в телеграм-канале Нейрон (@neurondata).

    Всем знаний!
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 0

    Only users with full accounts can post comments. Log in, please.