Дмитрий, спасибо вам большое за очень интересную статью!
Прочитал от корки до корки несколько раз)
После прочтения у меня возникло несколько вопросов. Буду рад, если вы их прокомментируете)
1. Почему вы используете биномиальный тест для проверки статистической значимости? Ведь биномиальный тест предполагает использование Z-критерия. А он применим, когда мы точно знаем распределение для генеральной совокупности (нормальное или гауссово). На сколько я понял, распределение генеральной совокупности нам неизвестно.
2. Как перед тестом вы определяете необходимый размер выборки людей, чтобы результаты теста получились статзначимыми?
3. Отбираете ли вы исполнителей для выполнения задания? Если да, то в каком формате они проходят обучение и экзамен? Как вы высчитываете навык исполнителей на проекте?)
4. Какими способами вы контролируете качество в проекте? Ведь в таком типе заданий нет 100% правильно ответа, поэтому контроль “мнением большинства” и многие другие методы контроля качества не работают.
5. Применяете ли вы модель Bradley-Terry для агрегации полученных оценок?
Данный сервис работает по всему миру, но в основном в Толоке люди из России и из стран СНГ, также есть небольшая часть людей из Турции. Как мне кажется, для вашей задачи больше подойдет «Amazon Mechanical Turk», чем «Яндекс.Толока».
Артем, попробовал загрузить через интерфейс пустой файлик (без заданий) и выбрать «Умное смешивание». Все получилось, после этого действия загрузка заданий через API стала работать. Спасибо за очень интересный и простой способ решения проблемы!)
В случае, когда пул создается не через API, а через интерфейс, в настройках пула отсутствует блок «Количество заданий на странице». Если добавлять в такой пул задания через API, то задания добавляются, но при этом пользователи их не видят.
Довольно интересный факт для пользователей каршеринга Яндекс.Драйв. Если в начале аренды вы фотографируете повреждения/царапины на автомобиле, то полученные фотографии первым делом загружаются в Толоку и люди оценивают присланные изображения.
Данное задание довольно легкое, имеет простую инструкцию, не содержит пула обучения. Такие задания люди выполняют на много охотнее, чем сложные задания с десятистраничной инструкцией и долгим процессом обучения. Плюс практически у каждого человека есть счетчик в квартире. Поэтому процент желающих выполнить задание довольно большой. Единственная проблема: количество пользователей мобильной версии Толоки в несколько раз меньше, чем пользователей десктопной версии. На данный момент в Толоке зарегистрировано 4 миллиона человек, DAU более 25к человек.
Так как на Толоке исполнителям задания подаются в написанной вами html, то можно сделать любой тип разметки, который только можно запихнуть в браузер. С готовыми шаблонами вы можете ознакомиться тут.
Да, вы совершенно правы. Если бы это была реальная задача, а не игрушечный пример, то я:
1) Скачал бы фото Киркорова.
2) С помощью dlib нашел бы и вырезал все лица
3) Удалил бы все лица, которые меньше 299*299, а все, которые больше 299*299, привел бы к нужному размеру.
4) И уже полученные лица проверил через Толоку.
В основном на Толоке сидят люди из дальних регионов, где работы совсем нет и они готовы работать за любые деньги. На самом деле, если задание сложное и на освоение инструкции исполнителям придется потратить некоторое время, то цена часа вырастает где-то до 70-120 руб.
На странице с заданием размещено 40 фото. В среднем исполнители 40 фото проверяют за 1 мин 37 сек. Попробовав сам наиболее быстро проверить 40 фото, у меня вышло 52 сек, поэтому было решено, что если исполнитель выполняет быстрее, чем за 40 сек, то либо он невнимательно делает, либо является ботом.
Нужно сегментировать и МГУ и Дисней. Причем цвета для сегментации надо выбирать именно такие, а не рандомные) Сегментация для МГУ называется examples/segmentation/in1.png, а для Диснея examples/segmentation/tar1.png
Прочитал от корки до корки несколько раз)
После прочтения у меня возникло несколько вопросов. Буду рад, если вы их прокомментируете)
1. Почему вы используете биномиальный тест для проверки статистической значимости? Ведь биномиальный тест предполагает использование Z-критерия. А он применим, когда мы точно знаем распределение для генеральной совокупности (нормальное или гауссово). На сколько я понял, распределение генеральной совокупности нам неизвестно.
2. Как перед тестом вы определяете необходимый размер выборки людей, чтобы результаты теста получились статзначимыми?
3. Отбираете ли вы исполнителей для выполнения задания? Если да, то в каком формате они проходят обучение и экзамен? Как вы высчитываете навык исполнителей на проекте?)
4. Какими способами вы контролируете качество в проекте? Ведь в таком типе заданий нет 100% правильно ответа, поэтому контроль “мнением большинства” и многие другие методы контроля качества не работают.
5. Применяете ли вы модель Bradley-Terry для агрегации полученных оценок?
Но это не точно :)
1) Скачал бы фото Киркорова.
2) С помощью dlib нашел бы и вырезал все лица
3) Удалил бы все лица, которые меньше 299*299, а все, которые больше 299*299, привел бы к нужному размеру.
4) И уже полученные лица проверил через Толоку.
Еще есть Step by step console commands