Найти готовый датасет под уникальную задачу в 99% случаев невозможно. Создать свой вполне реально, хоть и трудоемко. Если говорить о ваших примерах, то автомобильные знаки, собак найти можно, хоть и не 1кк экземпляров. Нужно 1кк? Запустите краудсорсинг по фотографированию знаков/собачек. Если ваши объекты, менее популярны, например, кофе-машины или заколки, то придется запустить датамайнинг или краудсорсинг.
Про первую. Мне кажется, было бы хорошо иметь возможность убедиться в том, что у нас нет одинаковых снэпшотов. Можно, конечно, веса посравнивать. Но без этого мы рискуем получить M клонов одной модели. Второе соображение состоит в том, что если время обучения одного снэпшота T/M сильно меньше обучения одной модели, то мы рискуем получать не локальные минимумы, что даст нам малополезные результаты. А если сравнимо, то итоговое время сравнимо со временем обучения всей модели.
Подозреваю, что Вы перенесли мое сравнение на себя. Не стоит, мне просто нужно было привести сравнение, которое раскроет мысль о том, что Ваша реплика о богах, хоть и справедлива, но не рациональна, т.к. статистически их мнение кое-чего значит. Да, и в смысле этого разделения на банкиры-домохозяйки, я с Вами в одной категории :).
Подозреваю, что Вы перенесли мое сравнение на себя. Не стоит, мне просто нужно было привести сравнение, которое раскроет мысль о том, что Ваша реплика о богах, хоть и справедлива, но не рациональна, т.к. статистически их мнение кое-чего значит. Да, и в смысле этого разделения на банкиры-домохозяйки, я с Вами в одной категории :).
Я нет. И хоть они не боги, но к их мнению считаю разумным прислушаться.