
Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили специализированную поисковую систему Dataset Search. 23 января 2020 года поисковик вышел из беты, с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.
Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
Специализированный инструмент предназначен для научного сообщества, Google не получит на нём особой прибыли. Компания говорит, что за год с момента запуска поступили поисковые запросы от «сотен тысяч пользователей».
Очень важно, чтобы наборы данных были доступны для поиска. В самом деле, какой смысл в научных исследованиях или государственной статистике, если данные недоступны или их трудно найти?
Чтобы датасет появился в поисковом индексе, нужно добавить к нему метаданные. Многие научные организации оперативно отреагировали на это требование. Например, престижный научный журнал Nature в январе 2020 года изменил свою политику, и теперь требует от авторов статей предоставлять датасеты обязательно с надлежащими метаданными.
С выходом из бета-версии в поисковик добавлены новые функции, в том числе фильтрация данных по типу (таблицы, изображения, текст и т. д.), по свободной лицензии и по географическому охвату. Движок теперь также доступен с мобильных устройств и имеет расширенные описания датасетов.
Google говорит, что поисковик охватывает почти 25 миллионов наборов данных — это только «часть датасетов в интернете», но всё равно «значительный объём информации». Лучше всего проиндексированы исследования, связанные с науками о земле, биологией и сельским хозяйством, а самые распространённые поисковые запросы — [образование], [погода], [рак], [преступность], [футбол] и [собаки], сообщает Google по итогам бета-тестирования. По открытию государственных датасетов лидируют США с более чем двумя миллионами датасетов онлайн.
Наташа Ной говорит, что команда сейчас думает о новых функциям, которые могут быть полезны, включая «понимание того, как наборы данных цитируются и повторно используются» и «помощь пользователям в изучении наборов данных в поиске наборов данных, когда точно не знают, что ищут… И, конечно, продолжать расширять корпус».

Кроме поисковика от Google, есть и другие места, где можно найти датасеты. Вот большая подборка ссылок на датасеты по компьютерному зрению, анализу тональности текста, обработке естественного языка, автопилотам, медицинским данным.
В России на датасетах для машинного обучения специализируется «Яндекс». Например, в июле 2019 года компания начала выкладывать в открытый доступ наборы данных «Яндекс Толоки» — крупнейшего источника размеченных людьми данных для задач машинного обучения. Здесь есть данные для обучения чат-ботов на русском языке, мнения носителей русского языка о родо-видовых отношениях между словами и другие наборы данных.