Как отлаживать модели машинного обучения / Комментарии / Хабр

IliaSafonov 1 фев 2017 в 10:25

Спасибо за перевод! Важные советы для практического применения. Жалко, что нет дискуссии от практиков, что работает, а что нет в разных задачах. Замечу, что автор текста специализируется на Natural Language Processing.

Это можно проверить, добавив признаки, которые идеально соответствуют меткам классов.Убедитесь, что в этом случае классификация обучающих данных работает верно.

В оригинале «You can do this by adding „cheating“ features — a feature that correlates perfectly with the label. Make sure you can successfully overfit the training data.» Во-первых, мне кажется, что напрасно не перевели «cheating» — «мошеннические» или «поддельные» признаки. Я не понял без обращения к оригиналу, о чем идет речь. Видимо, простейшим примером такого признака будет индикаторная функция, которая для каждого объекта обучающей выборки возвращает его класс. Во-вторых, я согласен, что при обучении на всей обучающей выборке «классификация обучающих данных работает верно», но, мне кажется, что автор имел ввиду большее: «overfit the training data», т.е. переобучается (и теряет обобщающую способность), что можно увидеть, например, на cross-validation.

2.Удалите все признаки кроме добавленных на шаге 1.… Если в какой-то момент модель перестает работать, значит, у вас слишком много признаков или слишком мало данных.

От себя добавлю, или признаки противоречат друг другу.