Как стать автором
Обновить

Как из любого количества вариантов выбрать лучший: простой пайплайн ранжирования данных в Яндекс.Толоке

Время на прочтение 6 мин
Количество просмотров 4.2K
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 3

Комментарии 3

Дмитрий, спасибо вам большое за очень интересную статью!
Прочитал от корки до корки несколько раз)
После прочтения у меня возникло несколько вопросов. Буду рад, если вы их прокомментируете)

1. Почему вы используете биномиальный тест для проверки статистической значимости? Ведь биномиальный тест предполагает использование Z-критерия. А он применим, когда мы точно знаем распределение для генеральной совокупности (нормальное или гауссово). На сколько я понял, распределение генеральной совокупности нам неизвестно.

2. Как перед тестом вы определяете необходимый размер выборки людей, чтобы результаты теста получились статзначимыми?

3. Отбираете ли вы исполнителей для выполнения задания? Если да, то в каком формате они проходят обучение и экзамен? Как вы высчитываете навык исполнителей на проекте?)

4. Какими способами вы контролируете качество в проекте? Ведь в таком типе заданий нет 100% правильно ответа, поэтому контроль “мнением большинства” и многие другие методы контроля качества не работают.

5. Применяете ли вы модель Bradley-Terry для агрегации полученных оценок?
Роман, привет!
Спасибо за вопросы, постараюсь ответить на них :)

1. Применяется вот этот тест. У нас биномиальная случайная величина {0 – выбор варианта 0; 1 – выбор варианта 1}. Есть N наблюдений за этой случайной величиной. Далее мы вычисляем среднее полученного ряда. Средняя асимптотически распределена нормально (спасибо ЦПТ). Нас интересует отклонение средней от 0.5 (подбрасывания монетки). Поэтому мы и сравниваем получившееся среднее с 0.5.

2. Размер выборки зависит от задачи. В каком-то смысле, он просто принят. Если есть только пара объектов и нужно сравнить их – можно набрать больше выборку (например, 500 человек). Если задача проранжровать объекты (как у меня пример с фотографиями), то здесь будет накладно брать много людей, да и ни к чему, потому что интересуют не парные сравнение (каждого объекта с каждым), а общее упорядочивание. Цели <получить статзначимый результат> обычно нет. Если такой эксперимент не прокрасился, надо запускать следующий, а не прокрасить его увеличением выборки.

3-4. Задача отбора и контроля качества скорее творческая, чем методологическая. Для примеров, которые упомянуты в моем рассказе, я запускал только с использованием встроенных механизмов Толоки: соотношения скорости/качества и других инструментов. Однако если речь идет о больших больших объемах сбора данных, то, надо придумывать что-то хитрее и держать в секрете :)

5. Для тестов, которые я описал в статье, я пробовал использовать модель Bradley Terry, но явных причин ее использовать, я не увидел.

Дмитрий, спасибо большое за ответы!)
Зарегистрируйтесь на Хабре , чтобы оставить комментарий