Pull to refresh

Comments 1

Спасибо за перевод! Важные советы для практического применения. Жалко, что нет дискуссии от практиков, что работает, а что нет в разных задачах. Замечу, что автор текста специализируется на Natural Language Processing.
Это можно проверить, добавив признаки, которые идеально соответствуют меткам классов.Убедитесь, что в этом случае классификация обучающих данных работает верно.

В оригинале «You can do this by adding „cheating“ features — a feature that correlates perfectly with the label. Make sure you can successfully overfit the training data.» Во-первых, мне кажется, что напрасно не перевели «cheating» — «мошеннические» или «поддельные» признаки. Я не понял без обращения к оригиналу, о чем идет речь. Видимо, простейшим примером такого признака будет индикаторная функция, которая для каждого объекта обучающей выборки возвращает его класс. Во-вторых, я согласен, что при обучении на всей обучающей выборке «классификация обучающих данных работает верно», но, мне кажется, что автор имел ввиду большее: «overfit the training data», т.е. переобучается (и теряет обобщающую способность), что можно увидеть, например, на cross-validation.
2.Удалите все признаки кроме добавленных на шаге 1.… Если в какой-то момент модель перестает работать, значит, у вас слишком много признаков или слишком мало данных.
От себя добавлю, или признаки противоречат друг другу.

Only those users with full accounts are able to leave comments. Log in, please.