mr-pickles Jun 24 at 12:15

Почему модель не работает?

Medium

20 min

4.7K

Wunder Fund corporate blogProgramming*Machine learning*Artificial Intelligence

Translation

+14

Comments 5

Vindicar Jun 24 at 12:31

Получается, что нет ничего необычного в том, чтобы обучать нечто вроде автоэнкодера, выполняющего извлечение признаков, а затем использовать выход этой модели при обучении следующей модели. Занимаясь подобными вещами, очень важно обеспечить, чтобы тестовые данные, используемые в следующей модели, не пересекались бы с обучающими данными, используемыми в автоэнкодере.

Почему?

avdosev Jun 24 at 14:11

Если вы будете использовать одни и те же данные для обучения и тестирования модели, то не сможете точно оценить, насколько хорошо модель будет работать в реальных условиях.

Vindicar Jun 24 at 18:55

Как я понял эту часть статьи, если модель состоит из двух компонент (скажем, автоэнкодер + классификатор/регрессия), то нельзя допускать пересечения наборов данных, на которых обучаются компоненты. Вот этого-то я и не пойму.

avdosev Jun 24 at 22:36

чтобы тестовые данные, используемые в следующей модели, не пересекались бы с обучающими данными

Нет, наоборот, можно чтобы обучающие пересекались, но стоит недопускать пересечения обучающей и тестовой сквозь модели.

То есть, предлагается следующее: у моделей нижнего уровня (автоэнкодер) не должно быть в обучении того, что используется в тесте у моделей верхнего уровня (классификатор)

Sadler Jun 24 at 15:45

Было у вас когда‑нибудь такое: вы обучали модель, которую считали хорошей, а потом, на реальных данных, эта модель с треском проваливалась?

По пальцам можно перечесть случаи, когда было не так. Почти всегда работа по подготовке сырых данных и гиперпараметров под данные занимает больше времени, чем проработка изначальной архитектуры, иначе сходимость околонулевая.