Вся соль блочного подхода в том, что при правильном порядке умножения матриц (вычислительная сложность: O^3, зависимость по данным: O^2) скорость всегда упирается в вычислительные ресурсы. При этом последовательно задействуются: регистры, кэш процессора 1 уровня, 2-го уровня, 3-его, оперативная память, SSD, HDD и т.п.
Это не так. Существуют методы, которые эффективно работают и с такими большими матрицами (пример реализации умножения матриц, в нем добавляется еще один уровень иерархии — и можно умножать матрицы превышающие размер оперативной памяти).
Задача нахождения косинусного расстояния сводится к перемножению матриц. Имеется масса стандартных библиотек, которые решают эту операцию как на CPU так и на GPU.
И отличие между CPU и GPU при этом будет на более десяти раз.
Хотелось бы сравнения с другими архитектурами. Например, у Интел есть такой AVX-512 VNNI для перемножения 8-bit int матриц. Так он дает где-то до 256 целочисленных операций на ядро за такт. И частота у них раза в 2-3 выше будет.
GPU используют при обучении сетей потому, что они обладают большими вычислительными способностями и большей пропускной способностью памяти по сравнению с CPU при прочих равных. Т.е. на них можно обучать нейросети гораздо быстрее. Есть исключения — нейросети малого размера (они слишком малы, что бы приемущество GPU смогло себя проявить) или с нестандартными слоями (их трудно портировать на GPU или еще банально просто до них руки не дошли). Использования уже обученных с на CPU более широко распространенно, например при помощи Inference Engine или Synet, но опять же обычно только сетей малого и среднего размера.
Ну и как уже было выше отмечено, к сожалению из статьи не ясно что же такого прорывного было сделано.
Если между Землей и Марсом летает по элиптической орбите Tesla Roadster с манекеном на борту, что достоверно изместно, то не вижу причин почему там не может летать фарфоровый чайник :)
Хвалите себя — мнение остается, источник забывается.
По тексту статьи — вроде описано поведение идеального руководителя с точки зрения подчиненных (что и вызывает подозрение — хотелось бы независимых оценок). Почему нет текучки? Все же думаю случайность — даже когда все хорошо люди могут менять место жительство и работу, например, по семейным обстоятельствам. Когда коллектив большой — текучка неизбежна. Если вы конечно не на подводной лодке.
Добавить issue на гитхаб. Желательно по каждому конкретному багу.
P.S. text-detection — уже работает. По остальным жду более подробного описания проблемы.
И отличие между CPU и GPU при этом будет на более десяти раз.
Не пойму только как задейстовать расширение AES-NI для криптографии к обучению неросетей.
Ну и как уже было выше отмечено, к сожалению из статьи не ясно что же такого прорывного было сделано.
По тексту статьи — вроде описано поведение идеального руководителя с точки зрения подчиненных (что и вызывает подозрение — хотелось бы независимых оценок). Почему нет текучки? Все же думаю случайность — даже когда все хорошо люди могут менять место жительство и работу, например, по семейным обстоятельствам. Когда коллектив большой — текучка неизбежна. Если вы конечно не на подводной лодке.
Целочисленные функции конвертации.
P.S. text-detection — уже работает. По остальным жду более подробного описания проблемы.