• Как из любого количества вариантов выбрать лучший: простой пайплайн ранжирования данных в Яндекс.Толоке
    0
    Роман, привет!
    Спасибо за вопросы, постараюсь ответить на них :)

    1. Применяется вот этот тест. У нас биномиальная случайная величина {0 – выбор варианта 0; 1 – выбор варианта 1}. Есть N наблюдений за этой случайной величиной. Далее мы вычисляем среднее полученного ряда. Средняя асимптотически распределена нормально (спасибо ЦПТ). Нас интересует отклонение средней от 0.5 (подбрасывания монетки). Поэтому мы и сравниваем получившееся среднее с 0.5.

    2. Размер выборки зависит от задачи. В каком-то смысле, он просто принят. Если есть только пара объектов и нужно сравнить их – можно набрать больше выборку (например, 500 человек). Если задача проранжровать объекты (как у меня пример с фотографиями), то здесь будет накладно брать много людей, да и ни к чему, потому что интересуют не парные сравнение (каждого объекта с каждым), а общее упорядочивание. Цели <получить статзначимый результат> обычно нет. Если такой эксперимент не прокрасился, надо запускать следующий, а не прокрасить его увеличением выборки.

    3-4. Задача отбора и контроля качества скорее творческая, чем методологическая. Для примеров, которые упомянуты в моем рассказе, я запускал только с использованием встроенных механизмов Толоки: соотношения скорости/качества и других инструментов. Однако если речь идет о больших больших объемах сбора данных, то, надо придумывать что-то хитрее и держать в секрете :)

    5. Для тестов, которые я описал в статье, я пробовал использовать модель Bradley Terry, но явных причин ее использовать, я не увидел.