Наверняка так будет ровно до тех пор, пока кто-нибудь другой не выйдет на рынок с аналогичным продуктом.
Правда Google, возможно, сможет задушить конкурентов патентами. Без детального анализа трудо сказать наверняка.
>> до последнего времени, когда внедрила машинное обучение для ряда практических задач, и на эти нейросети начала расти нагрузка с миллиардами запросов от пользователей
А я думал основные мощности во время обучения идут, а потом нет. А тут оказывается от к-ва запросов к обученой сети зависит
Обучение действительно очень вычислительно затратное, но оно делается один раз, а запросы к обученной сети — это уже пользовательский трафик, который идёт постоянно и в огромных объёмах.
>>в то время как в более новой версии Broadwell Xeon E5 v4 количество инструкций на цикл увеличилось на 5% благодаря архитектурным улучшениям, а в версии Skylake Xeon E5 v5, которая ожидается летом количество
инструкций на цикл может увеличиться ещё на 9-10%.
И все? Вот берем Бродвель, сравниваем со Скайлейком и получаем только +10%? Странно что их кто то покупает…
Сравнивают плавающее умножение на CPU и GPU с умножением 8 битных целых на TPU. Конечно, в итоге будет сравнение по теплу будет в сто раз. Но что интересно, заявлено что на Haswell пускали также целочисленное 8 битное умножение и оно дало в два раза большие цифры, чем плавающие операции. Что странно, ибо в AVX2 есть инструкции для умножения векторов с 8 битными элементами, что даёт 4 кратное увеличение пропускной способности по сравнению с 32 битным FP умножением, а не двукратное.
Размышления про Skylake тоже странные, ибо в серверной версии будут AVX512 инструкции, которые дадут вдвое большую ширину вектора, чем доступно в Haswell.
Думал можно для это использовать VPMADDUBSW из AVX2, но похоже из-за того, что потом результат нужно вручную ужимать из 16 до 8 бит получается просад производительности.
в статье все цифры сравнения производительности только с процессором, но многократно повторяют что превосходит GPU до 70 раз
GPU по сравнению с CPU дает 10-кратный прирост, без какой либо привязке к архитектуре сети (ограничения только на объем памяти, но она измеряется в гигабайтах, а не 64к страничках)
Я не сомневаюсь что ASIC даст очень большой прирост, но сравнивать нужно все же не с процессором
По идее, всё то же самое можно сделать на инстансах F1 в амазоновском EC2. Причём кастомного типа, под свою конкретную задачу.
Как знать, может это не сильно хуже по эффективности будет.
Специализированный ASIC от Google для машинного обучения в десятки раз быстрее GPU