averin61 Jan 26 2020 at 11:16

Управляемое обучение

3 min

2.8K

Machine learning *

From sandbox

Comments 4

andreyverbin Jan 26 2020 at 20:55

Не сразу дошло, что «покрывающей выборке» может соответствовать бесконечно много программ. Без этого было непонятно, зачем нужна управляющая выборка.

Еще не сразу было очевидно, что «покрывающая выборка» не обязательно равна «выборке из всех возможных входов и выходов». «Покрывающая выборка» это подмножество «всех возможных» с указанным вами свойством.

Примеры для управляющей выборки станем подбирать из области определения нашей программы так, чтобы поочередно
исключить все программы с номерами меньше номера искомой программы.
Процесс остановится на программе, эквивалентной искомой, или же на ней
самой.

Тут нельзя применять отношение порядка на числах и говорить о «больших» и «меньших» номерах. Программы с номерами больше искомой ничем не лучше тех, что мы пометили номерами меньшими. Если программы с большими номерами стали «эквивалентными», то что такого особенного было в нашем методе назначения им номеров? Без этого разваливается определение «управляющей выборки» и все последующие рассуждения.

averin61 Feb 7 2020 at 19:47

Вы правы, потеряна часть фразы: «Перенумеруем все программы этого множества в порядке возрастания их колмогоровской сложности». То есть короткие программы имеют меньшие номера.

Спасибо.

CrazyElf Jan 27 2020 at 08:19

Одна из основных проблем машинного обучения, особенно на «малых данных» — это отсутствие гарантий, что новые данные, на которых в дальнейшем будет применяться обученная модель (а иначе зачем мы её вообще тренируем, кроме как для этого) будут похожи на те данные, на которых модель училась. Если данные у нас «статичные» (в дальнейшем данные будут повторять те, на которых мы учились), то машинное обучение вообще не нужно, особенно если обучающих данных совсем мало — можно просто запомнить все ответы как есть.
Машинное обучение бывает нужно потому, что:
1) Нет чётких правил получения ответа на тренировочной выборке, разные подвыборки данных дают немного разные параметры моделей
2) Нам неизвестно, какие данные являются точными, а какие приблизительными и мы поэтому не можем построить однозначную модель, модель всегда будет считать целевую переменную с неким приближением.
3) Из-за пункта 2 нам также неизвестно, в какой степени будут точны новые данные и какую часть тренировочной выборки они будут повторять. Возможно, те данные, которые мы посчитали выбросами в тренировочной части, таковыми не являются, например.

averin61 Feb 7 2020 at 19:57

Мы говорим о разных задачах. В нашем случае алгоритм (чёткие правила) известен учителю, но он не может передать его напрямую, только посредством примеров.

Наша задача не в том, чтобы открыть некое «новое знание», а в том, чтобы научить машину тому, чему легко научается человек, но что трудно формализуется. Например, чтобы отличать собачек от кошечек, ребенку достаточно десятка примеров.