Комментарии 10
Классный кейс.
Здравая оценка реальных требований, как делать не «абстрактно идеально», а «максимально полезно».
Здравая оценка реальных требований, как делать не «абстрактно идеально», а «максимально полезно».
+1
Вы не могли бы подробнее рассказать, как именно считали «среднюю «самосогласованность» решений модераторов»?
0
1. у нас было i=1,2,3,4 модератора в эксперименте
2. выборка на стенде состояла из четырех равных подвыборок r_i (i=1...4) длиной N, для каждой из которых мы знали исходные оценки i-го модератора.
то есть для 0...(N-1) элемента у нас была исходная оценка первого модератора, для N...2*N-1 элемента — исходная оценка второго модератора, и так далее
3. так как на стенде каждый человек размечал всю выбору целиком, для каждой четверти выборки у нас было две оценки от одного и того же человека — исходная и собранная в ходе эксперимента
итого, для каждого модератора самосогласованность = доля совпавших оценок по его подвыборке (для каждой. а дальше, так как размеры выборок равны, то нестрашно брать среднее арифметическое. тем более у нас они получились похожи — все попали в диапазон 0.88-0.92.
ну или более формально, но менее читаемо:
4. обозначим за x_ij = {0,1} — оценку i-го модератора для j-го элемента выборки (общей длиной 4N), полученную в ходе эксперимента
5. по каждому модератору мы знали его исходные оценки m_ij = {0,1} на «его же» подвыборке и можно было посчитать самосогласованность s_i=sum[x_ij for j in range(i*N, (i+1)*N)] / sum[m_ij for j in range(0, 4*N)]
2. выборка на стенде состояла из четырех равных подвыборок r_i (i=1...4) длиной N, для каждой из которых мы знали исходные оценки i-го модератора.
то есть для 0...(N-1) элемента у нас была исходная оценка первого модератора, для N...2*N-1 элемента — исходная оценка второго модератора, и так далее
3. так как на стенде каждый человек размечал всю выбору целиком, для каждой четверти выборки у нас было две оценки от одного и того же человека — исходная и собранная в ходе эксперимента
итого, для каждого модератора самосогласованность = доля совпавших оценок по его подвыборке (для каждой. а дальше, так как размеры выборок равны, то нестрашно брать среднее арифметическое. тем более у нас они получились похожи — все попали в диапазон 0.88-0.92.
ну или более формально, но менее читаемо:
4. обозначим за x_ij = {0,1} — оценку i-го модератора для j-го элемента выборки (общей длиной 4N), полученную в ходе эксперимента
5. по каждому модератору мы знали его исходные оценки m_ij = {0,1} на «его же» подвыборке и можно было посчитать самосогласованность s_i=sum[x_ij for j in range(i*N, (i+1)*N)] / sum[m_ij for j in range(0, 4*N)]
+1
сорри, но вот только в формуле в пятом пункте я перемудрил, правильно очевидно так: sum[x_ij == m_ij for j in range(i*N, (i+1)*N)] / N
0
Спасибо, понял.
То есть, считали самосогласованность на разных подвыборках, но не исследовали групповую согласованность всех четверых модераторов на всей выборке (я, как раз, надеялся подглядеть, как непараметрическую статистику умные люди используют, причем именно в случае оценок, а не ранжирования).
То есть, считали самосогласованность на разных подвыборках, но не исследовали групповую согласованность всех четверых модераторов на всей выборке (я, как раз, надеялся подглядеть, как непараметрическую статистику умные люди используют, причем именно в случае оценок, а не ранжирования).
0
мы ее конечно исследовали, но в силу своих скромных способностей.
оказалось, можно много интересно понять, если внимательно посмотреть табличку (в процентах):
4 ответа «да»
4 ответа «нет»
3 ответа «да» + 1 ответ «нет»
2 ответа «да» + 2 ответа «нет»
1 ответ «да» + 3 ответа «нет»
ну вообще Вас, вероятно, интересует, а как вычислить доверительный интервал для полученной оценки эмпирической точности (это, по сути, и есть «самосогласованность»). Про это стоит написать отдельно, если кто-нибудь из нас возьмется. Но вообще в таких случаях рекомендуется использовать бутстреп, что мы и сделали, а правильно его применить нам как раз и помог Роман Поборчий
оказалось, можно много интересно понять, если внимательно посмотреть табличку (в процентах):
4 ответа «да»
4 ответа «нет»
3 ответа «да» + 1 ответ «нет»
2 ответа «да» + 2 ответа «нет»
1 ответ «да» + 3 ответа «нет»
ну вообще Вас, вероятно, интересует, а как вычислить доверительный интервал для полученной оценки эмпирической точности (это, по сути, и есть «самосогласованность»). Про это стоит написать отдельно, если кто-нибудь из нас возьмется. Но вообще в таких случаях рекомендуется использовать бутстреп, что мы и сделали, а правильно его применить нам как раз и помог Роман Поборчий
0
Объясните пожалуйста ещё раз, что у вас такое такое «полнота» и «точность». Лучше в терминах вероятностей. Статье не хватает математики.
Я так понял, что есть два алгоритма. Первый отбирает резюме, с которыми в принципе готов работать, и его эффективность есть «полнота». Второй алгоритм непосредственно обрабатывает и выставляет оценку, его характеризует «точность».
Я так понял, что есть два алгоритма. Первый отбирает резюме, с которыми в принципе готов работать, и его эффективность есть «полнота». Второй алгоритм непосредственно обрабатывает и выставляет оценку, его характеризует «точность».
0
Точность — доля настоящих правильных резюме среди всех выделенных машиной. То есть: верно выделенные / (верно-выделенные + ошибочно засчитанные как правильные). Или: precision = TruePositive / (TruePositive + FalsePositive)
Полнота — доля правильно выделенных резюме среди всех правильных в выборке. То есть: верно выделенные / (верно выделенные + ошибочно отброшенные правильные). Или: recall = TruePositive / (TruePositive + FalseNegative).
Эти два параметра тесно связаны между собой. Чем полнее вы хотите извлечь что-то, тем больше у вас будет попадаться лишнего. И в другую сторону — чем чище хотите результат, тем больше потеряется по дороге.
Полнота — доля правильно выделенных резюме среди всех правильных в выборке. То есть: верно выделенные / (верно выделенные + ошибочно отброшенные правильные). Или: recall = TruePositive / (TruePositive + FalseNegative).
Эти два параметра тесно связаны между собой. Чем полнее вы хотите извлечь что-то, тем больше у вас будет попадаться лишнего. И в другую сторону — чем чище хотите результат, тем больше потеряется по дороге.
+3
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.
Как мы искали компромисс между точностью и полнотой в конкретной задаче ML