Скорее всего мне нужен так называемый data orchestration framework, но всё равно спрошу.
Есть ли возможность подключить несколько серверов разных конфигураций?
Есть возможность задавать разные типы тасков и разные типы воркеров?
Есть ли возможность запускать задачи которые описаны через directed acyclic graph? В этой связи больше интересует запуск с места в графе где задача зафейлилась.
Как это всё дебажить и мониторить(хотелось бы что то типа дашборда с метриками и т.д.)?
Мне кажется надо смотреть в сторону что используется на mobile devices и embedded systems.
Типа http://libccv.org/post/how-to-run-a-state-of-the-art-image-classifier-on-a-iphone/
Есть работы где сеть 'сжимают' разными методами с небольшой потерей точности, где сеть 'учитель' учит сеть 'ученика' с ботлнеком, используют квантизацию, раскладывают свертки на сепарабельные, используют меньшую чем float32 точность, есть даже где используются бинарные активации.
В целом я не особо в теме в этой области и на Caffe готовое решение не видел.
Я мерил forward pass через встроенную в Caffe утилиту как то так, не исключено, что какой то оверхед и от Caffe идёт.
Memory:
SqueezeNet has 50x fewer weights than AlexNet, but the activations are not particularly small.
https://github.com/DeepScale/SqueezeNet/issues/7
Speed:
https://github.com/DeepScale/SqueezeNet/issues/19
https://github.com/DeepScale/SqueezeNet/issues/29
Гм, а тут пишут что быстрее:
https://github.com/DeepScale/SqueezeNet/issues/16#issuecomment-250696943
Непонятно только зачем сохранять промежуточные результаты на диск и обучать отдельную модель, можно ведь просто переобучить последние слои. Или это какое то ограничение в Keras?
1. Так как всё таки формируется batch? Мы рэндомно дергаем из базы тройки сэмплов и смотрим выполняется ли неравенство и добавляем тройку в батч?
2. Как влияет на обучение (когда у нас задача классификации на N индивидов) то что у нас разное кол-во фоток на каждого индивида? (по идее не сбалансированная выборка должна плохо влиять).
У них там не «стандартный» HOG+Linear SVM как в https://lear.inrialpes.fr/people/triggs/pubs/Dalal-cvpr05.pdf, а HOG+Structured SVM https://arxiv.org/pdf/1502.00046v1.pdf И там не надо делать hard negative mining и non-maximum suppression.
Несколько вопросов:
1. Можно ли как то автоматизировать сравнение цен на спот инстансы в разных регионах чтобы выбрать минимальную?
2. Можно ли сделать так чтобы не запускать каждый раз скрипт с установкой необходимых библиотек, а как то разворачивать уже готовый образ?
3. Можно ли как то сбрасывать промежуточные результаты расчетов на S3 и после того как спот интсанс вырубится, подождать пока цены опять упадут и перезапустить с того же момента?
4. Я так понимаю не учтены расходы на передачу данных и хранение и т.д.?
Так за счёт чего произошел прорыв то? Как раньше играли программы в GO? Можете объяснить тот же Monte Carlo Tree Search поподробней и почему его одного не хватает?
Есть ли возможность подключить несколько серверов разных конфигураций?
Есть возможность задавать разные типы тасков и разные типы воркеров?
Есть ли возможность запускать задачи которые описаны через directed acyclic graph? В этой связи больше интересует запуск с места в графе где задача зафейлилась.
Как это всё дебажить и мониторить(хотелось бы что то типа дашборда с метриками и т.д.)?
Типа http://libccv.org/post/how-to-run-a-state-of-the-art-image-classifier-on-a-iphone/
Есть работы где сеть 'сжимают' разными методами с небольшой потерей точности, где сеть 'учитель' учит сеть 'ученика' с ботлнеком, используют квантизацию, раскладывают свертки на сепарабельные, используют меньшую чем float32 точность, есть даже где используются бинарные активации.
В целом я не особо в теме в этой области и на Caffe готовое решение не видел.
Memory:
https://github.com/DeepScale/SqueezeNet/issues/7
Speed:
https://github.com/DeepScale/SqueezeNet/issues/19
https://github.com/DeepScale/SqueezeNet/issues/29
Гм, а тут пишут что быстрее:
https://github.com/DeepScale/SqueezeNet/issues/16#issuecomment-250696943
Сравнение:
https://github.com/DeepScale/SqueezeNet/issues/19#issuecomment-234714578
https://github.com/DeepScale/SqueezeNet/issues/16#issuecomment-231955551
https://github.com/DeepScale/SqueezeNet/issues/3
https://github.com/mrgloom/kaggle-dogs-vs-cats-solution
В итоге для Caffe на практике меньше захламляет HDD своими снапшотами при тренировке.
2. Как влияет на обучение (когда у нас задача классификации на N индивидов) то что у нас разное кол-во фоток на каждого индивида? (по идее не сбалансированная выборка должна плохо влиять).
>На следующем уровне логично взять чуть меньшую рецепторную область.
почему логично?
>Network can decide how deep it needs to be
А можно поподробнее как это реализуется на практике?
>Далее в статье идет множество картинок, которые еще больше подтверждают то, что их модель строится в полуавтоматическом режиме.
Откуда такие догадки?
p.s А как DL применяют в Mail.ru: поиск по картинкам, NLP, что еще?
http://cs231n.github.io/convolutional-networks/
1. Можно ли как то автоматизировать сравнение цен на спот инстансы в разных регионах чтобы выбрать минимальную?
2. Можно ли сделать так чтобы не запускать каждый раз скрипт с установкой необходимых библиотек, а как то разворачивать уже готовый образ?
3. Можно ли как то сбрасывать промежуточные результаты расчетов на S3 и после того как спот интсанс вырубится, подождать пока цены опять упадут и перезапустить с того же момента?
4. Я так понимаю не учтены расходы на передачу данных и хранение и т.д.?