Amazon перенесла часть операций, которые обеспечивают функционирование голосового помощника Alexa, на чипы собственной разработки Inferentia. Компания отказалась от решений Nvidia.
Чип Inferentia производит до 128 триллионов операций в секунду и поддерживает типы данных FP16, BF16 и INT8. Он состоит из четырех ядер NeuronCore. Каждое ядро включает большое количество блоков DPU, которые обрабатывают данные линейным образом. Чип обладает солидным кэшем, что позволяет уменьшить задержки.
Около 80% обработки данных Alexa уже перевели на инстансы Elastic Compute Cloud (EC2) Inf1, которые используют новые чипы. По сравнению с G4, в которых использовались традиционные графические процессоры, инстансы Inf1 увеличивают пропускную способность на 30% и снижают затраты на 45%. Amazon считает, что это лучший экземпляр на рынке для анализа рабочих нагрузок естественного языка и обработки голоса.
Пользователи устройств с голосовым помощником, в том числе и Amazon Echo, задают ему вопрос, и он отправляется в один из ЦОД Amazon для обработки и формирования ответа в формате текста. Затем он переводится в формат аудио и озвучивается Alexa.
Если раньше в этих операциях задействовали микросхемы Nvidia, то теперь большую часть процесса будут выполнять с использованием вычислительного чипа Inferentia.
Чипы начали внедрять и в работу облачной службы распознавания лиц Rekognition.
См. также: