lleo Sep 13 2016 at 09:48

Как мы искали компромисс между точностью и полнотой в конкретной задаче ML

5 min

7.6K

hh.ru corporate blogBig Data*Data Mining*Machine learning*

+17

Comments 10

el777 Sep 13 2016 at 13:16

Классный кейс.
Здравая оценка реальных требований, как делать не «абстрактно идеально», а «максимально полезно».

msulyaev Sep 13 2016 at 16:37

Вы не могли бы подробнее рассказать, как именно считали «среднюю «самосогласованность» решений модераторов»?

lleo Sep 13 2016 at 17:32

1. у нас было i=1,2,3,4 модератора в эксперименте
2. выборка на стенде состояла из четырех равных подвыборок r_i (i=1...4) длиной N, для каждой из которых мы знали исходные оценки i-го модератора.
то есть для 0...(N-1) элемента у нас была исходная оценка первого модератора, для N...2*N-1 элемента — исходная оценка второго модератора, и так далее
3. так как на стенде каждый человек размечал всю выбору целиком, для каждой четверти выборки у нас было две оценки от одного и того же человека — исходная и собранная в ходе эксперимента
итого, для каждого модератора самосогласованность = доля совпавших оценок по его подвыборке (для каждой. а дальше, так как размеры выборок равны, то нестрашно брать среднее арифметическое. тем более у нас они получились похожи — все попали в диапазон 0.88-0.92.

ну или более формально, но менее читаемо:
4. обозначим за x_ij = {0,1} — оценку i-го модератора для j-го элемента выборки (общей длиной 4N), полученную в ходе эксперимента
5. по каждому модератору мы знали его исходные оценки m_ij = {0,1} на «его же» подвыборке и можно было посчитать самосогласованность s_i=sum[x_ij for j in range(i*N, (i+1)*N)] / sum[m_ij for j in range(0, 4*N)]

lleo Sep 13 2016 at 17:41

сорри, но вот только в формуле в пятом пункте я перемудрил, правильно очевидно так: sum[x_ij == m_ij for j in range(i*N, (i+1)*N)] / N

msulyaev Sep 13 2016 at 17:43

Да, конечно, так проще. Работает только для бинарной оценки.

msulyaev Sep 13 2016 at 17:42

Спасибо, понял.
То есть, считали самосогласованность на разных подвыборках, но не исследовали групповую согласованность всех четверых модераторов на всей выборке (я, как раз, надеялся подглядеть, как непараметрическую статистику умные люди используют, причем именно в случае оценок, а не ранжирования).

lleo Sep 13 2016 at 17:48

мы ее конечно исследовали, но в силу своих скромных способностей.
оказалось, можно много интересно понять, если внимательно посмотреть табличку (в процентах):
4 ответа «да»
4 ответа «нет»
3 ответа «да» + 1 ответ «нет»
2 ответа «да» + 2 ответа «нет»
1 ответ «да» + 3 ответа «нет»

ну вообще Вас, вероятно, интересует, а как вычислить доверительный интервал для полученной оценки эмпирической точности (это, по сути, и есть «самосогласованность»). Про это стоит написать отдельно, если кто-нибудь из нас возьмется. Но вообще в таких случаях рекомендуется использовать бутстреп, что мы и сделали, а правильно его применить нам как раз и помог Роман Поборчий

eugenero Sep 14 2016 at 10:10

Объясните пожалуйста ещё раз, что у вас такое такое «полнота» и «точность». Лучше в терминах вероятностей. Статье не хватает математики.
Я так понял, что есть два алгоритма. Первый отбирает резюме, с которыми в принципе готов работать, и его эффективность есть «полнота». Второй алгоритм непосредственно обрабатывает и выставляет оценку, его характеризует «точность».

lleo Sep 14 2016 at 10:14

Модель одна, а формулы есть по осям графиков. В качестве первого шага можно почитать википедию, там очень понятная табличка.

el777 Sep 14 2016 at 12:15

Точность — доля настоящих правильных резюме среди всех выделенных машиной. То есть: верно выделенные / (верно-выделенные + ошибочно засчитанные как правильные). Или: precision = TruePositive / (TruePositive + FalsePositive)

Полнота — доля правильно выделенных резюме среди всех правильных в выборке. То есть: верно выделенные / (верно выделенные + ошибочно отброшенные правильные). Или: recall = TruePositive / (TruePositive + FalseNegative).

Эти два параметра тесно связаны между собой. Чем полнее вы хотите извлечь что-то, тем больше у вас будет попадаться лишнего. И в другую сторону — чем чище хотите результат, тем больше потеряется по дороге.