Подборка датасетов для машинного обучения

    Привет, читатель!

    Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

    Меньше слов, больше данных.

    image

    Подборка датасетов для машинного обучения:


    • Данные смертей и сражений из игры престолов — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
    • Глобальная база данных терроризма — Более 180 000 террористических атак по всему миру, 1970-2017.
    • Биткойн, исторические данные — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.
    • FIFA 19 полный набор данных игроков — 18k + FIFA 19 игроков, ~ 90 атрибутов, извлеченных из последней базы данных FIFA.
    • Статистика видео YouTube — ежедневная статистика трендовых видео на YouTube.
    • Обзор показателей самоубийств с 1985 по 2016 год — Сравнение социально-экономической информации с показателями самоубийств по годам и странам.
    • Huge Stock Market Dataset — исторические дневные цены и объемы всех американских акций и ETF.
    • Индикаторы мирового развития — показатели развития стран со всего мира.
    • Kaggle Machine Learning & Data Science Survey 2017 — Большое представление о состоянии науки о данных и машинного обучения.
    • Данные о насилии и оружии — полный отчет о более чем 260 тыс. американских инцидентов с применением оружия в 2013-2018 гг.
    • Рентгенография грудной клетки (пневмония) — 5,863 изображения, 2 категории.
    • Распознавание пола по голосу — эта база данных была создана, чтобы идентифицировать голос как мужской или женский, основываясь на акустических свойствах голоса и речи. Набор данных состоит из 3168 записанных голосовых сэмплов, собранных от мужчин и женщин.
    • Студенческое потребление алкоголя — данные были получены в ходе опроса учащихся по математике и португальскому языку на курсах в средней школе. Он содержит много интересной социальной, гендерной и учебной информации о студентах.
    • Набор данных о клетках малярии — сотовые изображения для выявления малярии.
    • Опросы молодых людей — данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
    • Мировые рейтинги университетов — исследуйте лучшие университеты мира.
    • Обнаружение мошенничества с кредитными картами — датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
    • Датасет болезней сердца — эта база данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
    • Европейская футбольная база — 25 000+ матчей, атрибуты игроков и команд для европейского профессионального футбола.
    • Винные обзоры — 130k винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
    • Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
    • Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
    • Распознавание цветов — этот набор данных содержит 4242 изображения цветов. Сбор данных основан на данных flicr, изображениях Google, изображениях Яндекса.
    • Ежедневная рыночная цена каждой криптовалюты — исторические цены на криптовалюту для всех токенов.
    • Шоколадный рейтинг — Экспертный рейтинг более 1700 шоколадных батончиков.
    • Рынок медицинского страхования — данные о планах в области здравоохранения и стоматологии на рынке медицинского страхования США.
    • Звуки сердцебиения — классификация аномалий сердцебиения по стетоскопу.
    • База данных аниме рекомендаций — рекомендации от 76 000 пользователей на myanimelist.net
    • Изображения клеток крови — 12 500 изображений: 4 разных типа клеток.
    • Рентгенография грудной клетки — более 112 000 рентгенограмм грудной клетки от более чем 30 000 уникальных пациентов.
    • Отчеты об убийствах, 1980-2014 гг. — проект «Ответственность за убийства» — самая полная база данных об убийствах в Соединенных Штатах, доступных в настоящее время.
    • База данных подержанных автомобилей — более 370000 подержанных автомобилей. Содержание данных на немецком языке, поэтому нужно сначала перевести их, если вы не говорите на немецком.
    • Дом открытых данных правительства США — данные, инструменты и ресурсы для проведения исследований, разработки веб-приложений и мобильных приложений, разработки визуализаций данных.
    • Национальный центр профилактики хронических заболеваний и укрепления здоровья (NCCDPHP). Центр работает над снижением факторов риска хронических заболеваний.
    • Крупнейший в Великобритании сборник социальных, экономических и демографических ресурсов.
    • EconData — несколько тысяч экономических временных рядов, подготовленных рядом правительственных учреждений США и распространенных в различных форматах и ​​СМИ.
    • Центр исследования побережья — интересные данные о море и его биологическом составе. Здесь можно найти датасеты начиная с анализа данных модели Красного моря до исследования температуры и течений над узким южным калифорнийским шельфом.
    • Набор данных цифр языка жестов — Турция, Анкара, Айранджи, Анадолу. Набор данных о языке жестов средней школы.
    • Качество красного вина — простой и понятный практический набор данных для регрессионного или классификационного моделирования.
    • Таблицы английской футбольной премьер-лиги (1968-2019).
    • HotspotQA Dataset — датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
    • xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
    • Labelme — Большой датасет аннотированных изображений.
    • ImageNet — Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
    • LSUN. — датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
    • MS COCO — крупномасштабный датасет для обнаружения и сегментации объектов.
    • COIL100 — 100 разных объектов, изображённых под каждым углом в круговом обороте.
    • Visual Genome — датасет с ~100 тыс. подробно аннотированных изображений.
    • Google’s Open Images. — коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
    • Labelled Faces in the Wild — набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
    • Stanford Dogs Dataset — содержит 20 580 изображений из 120 пород собак.
    • Indoor Scene Recognition. — датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
    • Oxford’s Robotic Car — более 100 повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
    • Cityscape Dataset — большой датасет, содержащий записи ста уличных сцен в 50 городах.
    • KUL Belgium Traffic Sign Dataset — более 10 000 аннотаций тысяч разных светофоров в Бельгии.
    • LISA Laboratory for Intelligent & Safe Automobiles — датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
    • Bosch Small Traffic Light Dataset — датасет с 24 000 аннотированных светофоров.
    • WPI datasets — датасет для распознавания светофоров, пешеходов и дорожной разметки.
    • Berkeley DeepDrive — огромный датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
    • MIMIC-III — датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии (демографическими данными, показатели жизнедеятельности, лабораторными анализами и лекарствами).
    • Amazon Reviews — Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.

    Полезные ссылки по поиску датасетов:


    • Конечно же Kaggle — место встречи всех любителей соревнований по машинному обучению.
    • Google Dataset Search — поиск датасетов по всей сети интернет. Также, при необходимости можно добавить свои наборы данных.
    • Machine Learning Repository — набор баз данных, теорий предметной области и генераторов данных, которые используются сообществом машинного обучения для эмпирического анализа алгоритмов машинного обучения.
    • VisualData — поиск датасетов для машинного зрения, с удобной классификацией по категориям.
    • DATA USA — полный набор по общедоступным данным США c визуализацией, описанием и инфографикой.

    На этом наша короткая подборка подошла к концу. Если у кого-то есть, что дополнить или поделиться — пишите в комментариях.

    Всем знаний!
    Подпишись на канал «Нейрон» в Телеграме (@neurondata) ― там свежие статьи и новости из мира науки о данных появляются каждую неделю. Спасибо всем, кто помогает с полезными ссылками, особенно Игорю Мариарти, Андрею Бондаренко и Матвею Кочергину.

    Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

    А какие данные вы бы могли собрать?

    • +62
    • 22,1k
    • 4
    Поддержать автора
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 4

      –2
      Не подскажете, можно ли ввести ограничения на выходные данные? Например, я хочу чтобы сумма чисел на выходе сети равнялась нулю.
        0
        Да
          +1
          Хорошая подборка. А можно тоже самое, только на английском? С Коллегами поделиться…

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое