company_banner

Яндекс открывает датасеты Толоки для исследователей

    Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.

    Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.

    Интересный факт: чем сложнее технология искусственного интеллекта, тем больше ей нужна помощь человека. Люди размечают изображения по категориям, чтобы натренировать компьютерное зрение; люди оценивают релевантность страниц поисковым запросам; люди преобразуют речь в текст, чтобы голосовой помощник научился понимать и говорить. Человеческие оценки нужны машине, чтобы дальше она работала без людей и лучше людей.

    Раньше многие компании собирали такие оценки исключительно с помощью специально обученных сотрудников — асессоров. Но со временем задач в области машинного обучения стало слишком много, а сами задачи в массе своей перестали требовать особых знаний и опыта. Так появился спрос на помощь «толпы» (crowd). Но самостоятельно найти большое количество случайных исполнителей и работать с ними не каждому под силу. Краудсорсинговые платформы решают эту проблему.

    Яндекс.Толока́ (правильно произносить именно так, с ударением на последний слог) — одна из крупнейших в мире краудсорсинговых платформ. У нас более 4 млн зарегистрированных пользователей. Более 500 проектов каждый день собирают оценки с нашей помощью. Приятный факт: в этом году на секции Data Labeling на конференции Data Fest все шесть докладчиков из разных компаний упоминали Толоку как источник разметки для своих проектов.

    О применении Толоки в бизнесе уже много сказано. Сегодня мы поговорим о другом нашем направлении, которое считаем не менее полезным.

    Исследования в Толоке


    Краудсорсинг и вообще задача массового сбора человеческих разметок существует примерно столько же, сколько и промышленное применение машинного обучения. Это область, на которую во всех технологических компаниях тратятся огромные деньги. Но при этом почему-то именно она сильно недоинвестирована с точки зрения исследований: о работе с краудом, в отличие от других областей ML, относительно мало серьёзных исследований и статей. 



    Мы бы хотели это изменить. Наша команда видит Толоку не только как инструмент для решения прикладных задач, но и как площадку для научных исследований в разных предметных областях.

    Публичные датасеты Толоки


    Мы хотим поддержать научное сообщество и привлечь исследователей в Толоку, поэтому начинаем публиковать наборы данных для некоммерческих, академических целей. Они могут быть интересны исследователям разных направлений: здесь и чат-боты, и данные для тестирования моделей агрегации вердиктов толокеров, для лингвистических исследований, для задач компьютерного зрения. Расскажем о них:

    Toloka Persona Chat Rus
    Датасет из 10 тыс. диалогов поможет исследователям диалоговых систем отработать подходы к обучению чат-ботов. Мы подготовили его совместно с iPavlov — проектом лаборатории нейронных систем и глубокого обучения МФТИ, который проводит исследования в области разговорного искусственного интеллекта и разрабатывает DeepPavlov, открытую библиотеку для создания диалоговых ассистентов. Датасет Persona Chat Rus содержит профили с описанием личности человека и диалоги между участниками исследования.

    Как собирались данные
    На первом этапе с помощью пользователей Толоки мы собрали профили, содержащие сведения о человеке, его увлечениях, профессии, семье и событиях жизни, и отобрали те, что подходят для диалогов.



    На втором этапе мы предложили участникам сыграть роль человека, описанного одним из таких профилей, и пообщаться друг с другом в мессенджере. Цель диалога — узнать больше о собеседнике и рассказать о себе. Полученные диалоги проверили другие исполнители.



    Toloka Aggregation Relevance 2
    Датасет позволяет исследовать методы контроля качества в краудсорсинге. В нём содержится почти полмиллиона анонимизированных оценок исполнителей, собранных на проекте «Релевантность (2 градации)» в 2016 году. Вы найдёте здесь как обезличенные оценки толокеров, так и эталонные оценки, которые помогут измерить качество ответов. Изучение этих данных позволит проследить, как мнение исполнителей влияет на качество итоговой оценки, какие методы агрегации результатов лучше использовать и сколько мнений нужно собрать, чтобы получить достоверный ответ.

    Как собирались данные
    Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, возможность воспользоваться поисковыми системами и варианты ответов: «Релевантен», «Нерелевантен», «Не отображается».



    Toloka Aggregation Relevance 5
    Этот датасет такой же, как предыдущий, только оценки здесь собирались не по бинарной, а по пятибалльной шкале в проекте «Релевантность (5 градаций)». Датасет содержит более миллиона оценок.

    Как собирались данные
    Оценка документов по пяти градациям более сложная и требует большей квалификации. Исполнителю предлагался запрос и регион пользователя, который его задал, скриншот документа и ссылка на него, кнопки для использования поисковых систем и пять вариантов ответа: «Витальный», «Полезный», «Релевантный +», «Релевантный –», «Нерелевантный».



    Основной показатель качества — точность агрегированных ответов, оцениваемая на основе контрольных заданий (голденсетов). У некоторых заданий в датасете не один, а несколько правильных ответов. Любой из таких ответов считается правильным. Точность по основным методам агрегации:

    ● Мнение большинства — 89,92%.
    ● Dawid-Skene — 90,72%.
    ● GLAD — 90,16%.

    Lexical Relations from the Wisdom of the Crowd (LRWC)
    Датасет содержит мнения носителей русского языка о родо-видовых отношениях между словами: связи общего (гиперонима) и частного (гипонима). Собран исследователем Дмитрием Усталовым в 2017 году.

    Как собирались данные
    Для исследования взято 300 наиболее употребляемых в современном русском языке существительных. С помощью тезаурусов (РуТез, RuWordNet) и автоматизированных методов образования гиперонимов (Watset, Hyperstar) получено 10 600 родо-видовых пар (типа «котёнок» — «млекопитающее»). Участникам исследования нужно было ответить на вопрос: «Правда ли, что котёнок — это разновидность млекопитающего?» Чтобы грамотно сформулировать вопрос, гиперонимы поставили в родительный падеж при помощи морфологического анализатора и генератора pymorphy2.



    Каждую пару разметили семь русскоязычных исполнителей старше 20 лет. По результатам, полученным после агрегации всех оценок, 4576 пар слов получили положительные ответы, а 6024 — отрицательные. Интересно, что участники исследования оказались более единодушны в выборе отрицательного ответа, чем положительного.

    Human-Annotated Sense-Disambiguated Word Contexts for Russian
    В датасете собрано 2562 контекстных значения 20 слов, представляющих наибольшее разнообразие смысловых значений. Исследование проведено Дмитрием Усталовым в 2017 году.

    Как собирались данные
    Участникам исследования демонстрировалось слово и пример его употребления в речи. Нужно было определить значение слова в контексте высказывания и выбрать один из вариантов ответа.



    Toloka Business ID Recognition
    Для этого датасета мы подготовили 10 тыс. фотографий информационных табличек организаций и текстовый файл с номерами (ИНН и ОГРН), которые были указаны на табличке. Обучившись на этих данных, модель компьютерного зрения сможет распознавать последовательность цифр на изображении. Датасет предоставлен сервисом Яндекс.Справочник.

    Как собирались данные
    Сначала мы запустили задание в мобильном приложении Толоки: исполнителям предлагалось приехать по адресу, отмеченному на карте, найти организацию и сфотографировать её информационную табличку. Это и другие полевые задания помогают поддерживать актуальной информацию в Яндекс.Справочнике.



    Затем качество выполненных заданий проверили другие исполнители. Фотографии, на которых указаны ИНН и ОГРН, мы отправили на расшифровку. Толокеры перепечатали эти номера с фотографий, после чего мы обработали результаты и сформировали датасет.



    Toloka Aggregation Features
    Датасет содержит около 60 тыс. оценок в 1 тыс. заданий с правильными ответами почти для всех заданий. Исполнители классифицировали сайты по пяти категориям по наличию контента для взрослых. Дополнительно к каждому заданию прилагаются 52 действительнозначных показателя, которые можно использовать для предсказания категории.

    Выбрать и скачать датасеты можно по ссылке: https://toloka.yandex.ru/datasets/. Мы не планируем останавливаться на этом и призываем исследователей обратить внимание на краудсорсинг и рассказывать о своих проектах.
    Яндекс
    641,86
    Как мы делаем Яндекс
    Поделиться публикацией

    Комментарии 19

      0

      Это классная новость, спасибо! И всё же, почему ударение падает на последний слог, если в слове "толока", от которого и произошло название сервиса, он — на втором слоге?

      +1
      Батюшки! Я надеюсь мне эти данные пригодятся — в закладки, однозначно!
      • НЛО прилетело и опубликовало эту надпись здесь
          +3
          Ну, такое. Учитывая прямой запрет на использование в коммерческих проектах :)
            +3
            Кто ж узнает, на чем вы свою сеть обучали? :)
              +2
              Обучат другую нс, которая будет вычислять кто на чем учился
                0
                В суде могут настойчиво попросить рассказать, на чем же на самом деле обучали. И если рассказать будет нечего, результат будет грустным.
              0
              Для Toloka Business ID Recognition в ссылке ошибка, лишний пробел влез
                0
                Поправили, спасибо за внимательность!
                0
                Круто, прямо руки чешутся. Ещё бы какие задания придумали.
                  +1
                  Запаковали бы хоть нормально…
                  $ unzip -l TlkPersonaChatRus.zip
                  Archive: TlkPersonaChatRus.zip
                  Length Date Time Name
                  --------- ---------- ----- ----
                  0 04-04-2019 14:00 TlkPersonaChatRus/
                  37431241 03-26-2019 13:27 TlkPersonaChatRus/dialogues.tsv
                  0 04-04-2019 14:02 __MACOSX/
                  0 04-04-2019 14:02 __MACOSX/TlkPersonaChatRus/
                  213 03-26-2019 13:27 __MACOSX/TlkPersonaChatRus/._dialogues.tsv
                  1297 04-04-2019 14:00 TlkPersonaChatRus/readme_TlkPersonaChatRus.txt
                  269 04-04-2019 14:00 __MACOSX/TlkPersonaChatRus/._readme_TlkPersonaChatRus.txt
                  246800 03-26-2019 13:35 TlkPersonaChatRus/profiles.tsv
                  213 03-26-2019 13:35 __MACOSX/TlkPersonaChatRus/._profiles.tsv
                  213 04-04-2019 14:00 __MACOSX/._TlkPersonaChatRus
                  --------- -------
                  37680246 10 files
                    0
                    Всё перепаковали, как надо, спасибо за замечание :)
                    0
                    Без коммерческого разрешения (как у того же ImageNet) это как игрушка.
                      +1
                      Обидно как раз что нет никаких датасетов с лейблами организаций, дорожными Знаками, и т.д.
                      Нет, я понимаю что их все больше появляется, но уверен что у вас есть датасет более приближенный к нашим реалиям. Хотелось бы на Jetson Nano их погонять для себя.
                        0
                        Мы не собираемся останавливаться на текущем списке датасетов и с радостью будем открывать новые. Нам только нужно лучше понимать потребности. Будет здорово, если вы расскажете поподробнее, что за датасет вам интересен, возможно, приведёте какие-нибудь примеры аналогов. А мы подумаем, насколько реально такое найти у нас и опубликовать.
                          0
                          Ну Лично мне были бы интересны датасеты с эмоциями людей (для определенной реакции робота), датасет наших дорог с разметкой и знаков(на том же нано чтобы понять максимальную скорость реакции). Датасет Зданий, для определения типа архитектуры. Все можно при помощи поисковика найти в том числе и у вас и поставить полуавтоматичесскую разметку… но если были бы пакеты сразу было бы удобно. по знакам могу прислать что находил, но в личку. Чтобы за рекламу не посчитали.
                            0
                            Спасибо, мы подумаем, что из этого у нас есть и можем ли что-то опубликовать.
                            На счёт примеров пишите конечно, тоже посмотрим.
                        0
                        Интересны различные медицинские датасеты. Например, размеченные данные МСКТ, МРТ, биологические датасеты

                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                        Самое читаемое