Комментарии 6
Хотелось бы сравнения с другими архитектурами. Например, у Интел есть такой AVX-512 VNNI для перемножения 8-bit int матриц. Так он дает где-то до 256 целочисленных операций на ядро за такт. И частота у них раза в 2-3 выше будет.
0
Пример для Intel c SSE4 был тут, для AVX-512 VNNI все еще проще, потому что это расширение специально под нейронные сети. Можно оценить и сложность на элемент матрицы, и прикинуть время, это не выглядит сложной задачей. В первую очередь мы хотели показать, как привычные методы могут повести себя на конкретном не слишком обычном вычислителе, и насколько важно задуматься об архитектуре процессора перед оптимизацией.
0
Вопрос: 4 такта на умножение. Я так понимаю канал не блокируется, а просто результаты будут доступны через 4 такта. Я правильно понял?
Эх, молодость, medialib. Напомнило мой код для векторного умножения на некой VLIW архитектуре.
0
Вот про ПЛИС не согласен, на десятых семействах от интела там с плавающей точкой всё более-менее (FP32 выходит жирновато, а вот с FP16 всё вполне себе нормально), DSP блоки там вполне терпимые.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
8-битные сети на Эльбрусе, есть ли смысл?