SLY_G Jul 19 2017 at 07:15

Эпоха Nvidia

8 min

45K

GadgetsDesktop PC'sCPU

Translation

+18

122

Comments 122

AndreyNagih Jul 19 2017 at 07:53

Однако, Intel уже сегодня встраивает FPGA в свои процессоры, пусть и для особых заказчиков.

SADKO Jul 19 2017 at 10:44

… ну, просто массы до этого ещё не доросли, сама концепция использования подобных устройств ещё в процессе, средств разработки\оптимизации нет, ну в смысле есть но лишь для решения частных задач, а в будущем легко представить себе не только вычислительные библиотеки на всякую потребу, но возможно и хитрые, интеловские компиляторы, которые и старый код ускорят, как-нибудь :-)

qw1 Jul 19 2017 at 14:53

А что там с количеством перепрограммирований?
Матрица при перепрошивке деградирует ли, как flash-память при перезаписи?

JerleShannara Jul 19 2017 at 15:43

Ничего, прошивка лежит во внешней памяти и по большому счёту её никогда не перезаписывают, т.к. она представляет собой bootloader. Когда вам надо научить ~~намайнить битк~~помучать нейросеть вы просто даёте команду на загрузку в ПЛИС прошивки нейросети, которая в свою очередь грузится не в ROM, а в RAM (да, я знаю, что обзывать реконфигурируемую матрицу соединений в плис RAMом это не очень, но понятие «кол-во циклов перезаписи» тут имеет тот-же смысл, что и в модуле обычной DDR/кеше вашего процессора)

ktod Jul 19 2017 at 16:05

В FPGA нет flash-памяти. Там ячейки конфигурации на базе статического ОЗУ.
Flash нативно был в CPLD и как костыль в некоторых сериях FPGA, которые пришли на замену CPLD.

RubyFOX Jul 19 2017 at 08:20

Рост цены акций обусловлен ростом цены на криптовалюты добываемые майнерами на видеокартах. На видеокартах именно потому, что так было задумано создателями тех или иных монет, в частности эфира.

yurisv3 Jul 19 2017 at 08:30

экономика надувания пузырей

denkle Jul 19 2017 at 08:45

Но рост акций зеленых начался раньше роста эфира. c 2016 года. Вот последний майский рывок это да, эфир. У амд схожая ситуация.

UFO landed and left these words here

ktod Jul 19 2017 at 16:10

Весной 2016 точно так же были сложности с покупкой видеокарт. Только тогда это не приняло такой размах и прошло незамеченно для широких масс.

JekaMas Jul 19 2017 at 13:05

Какие-то факты есть или это личные измышления?
Хотя бы есть цифры, что рынки сопоставимы и могут влиять друг на друга?

QuakeMan Jul 19 2017 at 14:27

Конечно личные
И отсутствие видеокарт в продаже по ценам сколько нибудь близким к рекомендованным — тоже личные измышления.

JekaMas Jul 19 2017 at 14:45

Это логическая ошибка

NIKOSV Jul 19 2017 at 22:33

У nvidia основной доход от датацентров, а не из консьюмерского сектора. Так что доля майнинга в росте не такая уж и большая.

FenixArt Jul 20 2017 at 05:25

Я понимаю что брякнуть можно что угодно, но мы же в интернете, таблица по доходности разных секторов гуглится в два счета, датацентры только 13%, а потребительский рынок 62%:

mypallmall Jul 20 2017 at 08:13

Более свежие результаты. Доля доходов от дата центров растет, от потребителей падает:

qw1 Jul 20 2017 at 09:40

Это не «более свежие результаты». Это те же самые фактические данные + прогнозы на будущее время.

jetexe Jul 20 2017 at 12:29

«свежими» вы называете за первый квартал 18 года?

buriy Jul 20 2017 at 20:31

Ну, обычно, Q1 FY18 это 4 квартал 2017 года (October 1 2017 — December 31 2017)
( см. https://en.wikipedia.org/wiki/Fiscal_year и страну USA )
Но в случае NVidia — это февраль-апрель 2017 года.
http://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-first-quarter-fiscal-2018
http://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-fourth-quarter-and-fiscal-2017

Noa69 Jul 19 2017 at 08:22

Сравнивает «ядра» видеокарты и x86 из количеству. Это или очень жирный троллинг или просто невероятная глупость.

clawham Jul 19 2017 at 08:52

Это вообще несравнимые вещи… гпу работают с примерными вычислениями где точность сильно уменьшена в угоду скорости. там даже есть спец генераторы белого цифрового шума чтоб одинаковые не точные вычисления в итоге давали случайные размытые границы на картинке… да это дает нереальный профит для криптовалют и нейросетей но и только. все остальное что требует гарантированной предсказуемости и точности — работать на видеокартах НЕ БУДЕТ! Покажите мне нормальный работающий перегонщик MP3 на видеокарте? качество перегона всех что я встречал перегонщиков на куде — полный отстой. и самое интересное что каждый прогон по сути уникальный… даже размер файла меняется на VBR! а у CPU Lame перегонщике размер файла не меняется от прогона к прогону.

Не все так просто как кажется. Да появилась ниша где CPU слабее ну и ладно. главное что остальные потребности так и остались востребоваными. Хотя вот что правда то правда — изза обратной совместимости приходится тащить на себе багаж межденных инструкций путающих кэш и потому считалка хоть точная и универсальная но медленная. Ну и роста производительности увы нет. Я люблю амд и их райзен мне кажется намного интереснее коре но тут кагбэ два разных подхода. ктото ударился в мощ одного потока а ктото — оптимизирован для многопотоковой производительности. универсального решения не будет. или так или этак. только если процы научатся свою структуру на лету перестраивать и это поняли в интел… вот только на транзисторах да на 6 нм вся логика выйдет намного более дешевле и менее энергоемкой чем на FPGA. хотя скорее всего они и не дойдут до полной эмуляции всего ядра — только отдельных программируемых функций в этой смой pga

Noa69 Jul 19 2017 at 09:01

Спасибо что пасписали все подробно, а то самому лень было. И да, последний скачек акция на картинке, скорее с ростом криптовалют и ванакраем связан, чем со всем, во что автору статьи хотелось бы верить

avvor Jul 19 2017 at 09:11

Хотите сказать, что автор статьи Alex St. John стоял у истоков команды DirectX в Microsoft и создал Direct3D API и совершенно не разбирается в том о чем говорит?

denkle Jul 19 2017 at 09:32

Он стоял у истоков в 1994-1997 году. Потом работал в игровом бизнесе, где занимался средненькими игрушенциями. Так что он вполне может и не разбираться в теме.

Noa69 Jul 19 2017 at 10:17

Даже самые заслуженные и умные люди иногда несут чушь. И наоборот.
Оценивать верность высказывания по титулам и регалиям автора этого высказывания не очень хорошая идея.

clawham Jul 19 2017 at 12:47

хочу сказать что человек увидел брешь в архитектору х86, которая не позволяет ему быстро отрабатывать милиарды флоат умножений без ветвления в огромном массиве 3-хмерных матриц. это идеальные условия для видеокарт и ещё более идеальные условия для FPGA где можно собрать ASIC ядро с просто космическими скоростями в пересчете на тактомую или ватт. но ничего сложного там делаться не сможет. — только одинаковые монотонные и простые операции. практически лишенные ветвления. только тогда видики и азики показывают ураганную скорость.

InChaos Jul 19 2017 at 11:58

гпу работают с примерными вычислениями где точность сильно уменьшена в угоду скорости… Покажите мне нормальный работающий перегонщик MP3 на видеокарте?

Не надо путать игровые видеокарты и профессиональные. Все вами сказанное справедливо для игровых карт, где нет двойной точности (даже чаще используется 16 бит вместо 32), для игр она и не нужна, у профессиональных решений все это присутствует (64 битная точность вычислений).

clawham Jul 19 2017 at 12:19

можете прислать 2-3-4 мп3 файла сжатых проф гпу? или пару видиков пережатых этим самым гпу при одних и тех же настройках одной и той же программой. у меня на квадре получается один и тот же результат — файлы немного НО РАЗНЫЕ! а на CPU — одинаковые один-в-один.

Это ключевая особенность видеокарт 2х2 у них может быть и 3 и 5. главное что очень быстро и в статистическом распределении если на 10000 выборок посчитать среднее арифметическое то будет гауссово распределение шаром вокруг 4-ки :) да иногда и 4 получится :) Пытался писать под гпу… немного знаю что к чему… с целыми числами там все более менее хорошо. но по скорости конечно же это 24 и 32 битные флоаты и умножения/деления. и ещё они пипец как не людят срывов конвеера — любые ветвления условия и т.д. проще отрабатывать на CPU и в ГПУ выгружать уже поток, который обрабатывается без ветвлений — можно создать по два потока на каждое ответвление и даже если использовать их попеременно — скорость будет выше чем загрузить их впаралель но с ветвленным кодом. звучит жутко и странно но это так.

InChaos Jul 19 2017 at 12:36

А уверены, что программа использует честные вычиления? На инженерных калькуляторах испокон веков 2*2 давало 3,999999999999. Давно не работал с точными числами, но буквально несколько лет назад писал программку, и получалось что перемножение целочисленных, но приведенных к double чисел, давало формат ХХ,9999999999999999. Это все от софта зависит. А по вашему значит и CPU не умеет считать точно. Весь вопрос в точности и правильного приведения погрешности вычисления к нужной разрядности.

InChaos Jul 19 2017 at 12:49

В довесок. Посмотрите исходники CUETools с поддержкой GPU. Там рип и конвертация и mp3 и FLAC и море еще чего (https://sourceforge.net/p/cuetoolsnet/code/ci/default/tree/), не нашел ни одной переменной с двойной и даже с одинарной точностью, или int или int64, что согласитесь совсем не то. Вот такой вот софт конвертации.

HomoLuden Jul 19 2017 at 14:04

Есть разница между систематической и случайной ошибкой. Перевод целого числа в число с плавающей точкой всегда сопряжено с систематической девиацией, т.к. битовое представление этих типов данных отличается. Однако одни и те же входные параметры операций всегда будут давать детерминированный результат.

Если я правильно понял комментаторов выше, то на GPU вычисления порождают случайные девиации, которые недетерминированы.

UFO landed and left these words here

MrShoor Jul 19 2017 at 19:16

2*2 будет 4. На любой видеокарте. Даже не 3.9999999, и даже не 4.000000001. Все потому, что 2 можно представить в float без погрешностей, и 4 тоже можно представить в float без погрешностей.
Все вычисления видеокарт детерминированы. На этом принципе даже техника рендеригна есть, depth prepass называется.

beeruser Jul 20 2017 at 05:56

>> Это ключевая особенность видеокарт 2х2 у них может быть и 3 и 5.
FPU на современных видеокартах соответсвует стандарту IEEE-754-2008, так же как и х86.
У Nv есть статья с обсуждением этого вопроса
http://docs.nvidia.com/cuda/floating-point/index.html

dimaleks Jul 25 2017 at 18:02

Я довольно давно профессионально работаю на CUDA, и вы не совсем правы.

2х2 на видеокарте всегда будет одним и тем же числом. Все операции (кроме специальной быстрой математики, которую еще нужно включить) IEEE-compliant. Недетерменированность может возникать разве что от использования атомарных операций с плавающей запятой, их порядок неопределен. Это может повлиять на результат, но обычно разница в последних нескольких значащих разрядах. А если использовать хороший устойчивый алгоритм, то разница между запусками и вовсе будет минимальная.

Я никогда не смотрел ни на код, ни на работу кодеков, по этому поводу ничего не могу сказать. Возможно, вы нашли какой-то баг. Возможно, алгоритму нужна высокая точноть, и single precision и 32 бита — это просто недостаточно. Тогда, как заметил InChaos, нужно переходить на карты Tesla и double precision

PsyHaSTe Jul 26 2017 at 22:06

Не надо путать игровые видеокарты и профессиональные. Все вами сказанное справедливо для игровых карт, где нет двойной точности (даже чаще используется 16 бит вместо 32), для игр она и не нужна

Скажите это EA

qw1 Jul 19 2017 at 14:54

Это вообще несравнимые вещи… гпу работают с примерными вычислениями где точность сильно уменьшена в угоду скорости

У GPU есть векторные инструкции, работающие с целочисленными данными разной длины, работающие абсолютно точно. Без этого нельзя было бы считать хеши, например.

clawham Jul 19 2017 at 15:02

есть конечно — попробуйте ними посчитать чтото и вы увидите что скорость — не их конек. да и целочисленные вычисления неплохо даются и cpu

qw1 Jul 19 2017 at 15:10

попробуйте ними посчитать чтото и вы увидите что скорость — не их конек

Я не вижу причин, почему целочисленные вычисления будут медленнее.

У меня есть опыт с векторными вычислениями на SSE. Cравнивая векторные целочисленные операции и с плавающей точкой, замечу, что скорость одинаковая (а почему бы и нет — сложить вектор из 4 double, или из 4 int64 — второе даже проще в реализации).

Практически же, майнинг etherium — это целочисленное сложение, XOR, ADD, выборки из памяти по рандомным адресам.

AMD R9 390X даёт 32 мегахеша, 4-ядерный Intel Xeon 88 килохеша. Вот такой «не их конёк».

да и целочисленные вычисления неплохо даются и cpu

В одном потоке — да. Но ядер мало.

clawham Jul 19 2017 at 15:30

Ну собственно с памятью у меня и была проблема… не изучал код эфира но по биткоину насколько слышал — там достаточно тяжелый расчет. В любом случае конечно же тысяча ядер гпу каждый пусть в 10 раз слабее одного ядра cpu в итоге всеравно быстрее.

qw1 Jul 19 2017 at 17:01

Ну собственно с памятью у меня и была проблема

На CPU проблема? По эфиру на любом CPU — менее 1 мегахеша, на GPU — десятки мегахешей.

В любом случае конечно же тысяча ядер гпу каждый пусть в 10 раз слабее одного ядра cpu в итоге всеравно быстрее

Зачем строить предположения, если есть таблицы мощностей.
Справочник по железу bitcoin: https://en.bitcoin.it/wiki/Non-specialized_hardware_comparison

В списке всё довольно старое, т.к. bitcoin сейчас майнят только на спец-девайсах, но всё же:

NVidia GTX570: 160 Мегахешей/сек
Intel Core i7 2600K (специально подобрал ровесника по дате выпуска): 18,6 Мегахешей/сек

У современных GPU отрыв больше, т.к. архитектура развивается быстрее, перенимая решения из мира CPU

ktod Jul 19 2017 at 16:23

Странные вещи Вы пишете. Последний проект, который я делал на куде, было размытие по гауссу изображений в реальном времени с помощью фильтра с БИХ. Было последовательно реализовано 4 версии кода: многопоточный ЦПУ, многопоточный AVX, на шейдерах OGL и на куде. Для проверки корректности работы проводилось сравнение между результатами этих реализаций. И совершенно точно, что результаты работы 1, 2 и 4 совпадали до бита.

clawham Jul 19 2017 at 16:30

на куде делали целочисленно или во флоатах?
а как по скорости AVX?

ktod Jul 19 2017 at 17:38

Насколько я помню:
На ГПУ. Исходная картинка u8 RGB, нормализация [0,1) FP32, вычисления, обратная нормализация в u8 RGB.
На AVX нормализация во float (одинарная точность) и обратно.
По скорости AVX работал отлично! Практически 8 раз быстрее кода на «голом» ЦПУ. Код основного цикла на асм.

MrShoor Jul 19 2017 at 19:09

Все как-то мимо.

гпу работают с примерными вычислениями где точность сильно уменьшена в угоду скорости.

GPU сейчас работают в основном с float который 32 битный. Точность в них никак не уменьшена, это вполне себе IEEE 754 single-precision floating point. Раньше не было сильной потребности в другой точности, поэтому GPU и развивался в этом направлении. Будет потребность в большей точности — будет развитие в этом направлении.

там даже есть спец генераторы белого цифрового шума чтоб одинаковые не точные вычисления в итоге давали случайные размытые границы на картинке

Тут вообще непонятно что вы имели ввиду. Где там то, какие границы? Если вы возьмете тут спец генератор, и просто исполните его на CPU — то картинка внезапно не станет четкой. Нет в GPU неточностей, там все детерменировано, и на одном и том же GPU a+b всегда дадут один и тот же результат, а не какой-то примерный.

все остальное что требует гарантированной предсказуемости и точности — работать на видеокартах НЕ БУДЕТ!

Вообще глупость. Видеокарта — такой же детерменированный процессор, просто с другими возможностями и с другими ограничениями. Считает видеокарта точно так же точно, как и обычный процессор считает float 32.

Покажите мне нормальный работающий перегонщик MP3 на видеокарте? качество перегона всех что я встречал перегонщиков на куде — полный отстой

А это уже извините проблема алгоритма, а не GPU. Традиционно у GPU частота значительно ниже чем у CPU (1ГГц против почти 4ГГц). Поэтому поток на CPU может позволить себе потратить значительно больше времени на более качественное сжатие.

и самое интересное что каждый прогон по сути уникальный… даже размер файла меняется на VBR!

Перенесите GPU алгоритм на CPU, запустите в несколько потоков — и получите ровно такой же плавающий результат. Ровно такого же говнистого качества.

а у CPU Lame перегонщике размер файла не меняется от прогона к прогону.

Но это только благодаря алгоритму, который использует Lame. Вы можете 1 в 1 переложить этот алгоритм на GPU, и получите точно такой же качественный и не плавающий результат, но GPU будет просто в разы медленнее на этом алгоритме. Алгоритмы сжатия вообще очень плохо распараллеливаются.

Короче проблема GPU сейчас — только алгоритмы, которые тяжело распарллелить. Увы, таких алгоритмов сегодня очень много, что затрудняет использовать на полную катушку GPU, но ситуация постепенно меняется.

0serg Jul 19 2017 at 21:45

Предсказуемость и точность у GPU те же что у обычных процессоров. И они точно так же подвержены проблемам из-за дефектных модулей или перегрева, хотя встречаются эти проблемы там несколько чаще так как мощности там выше, места для охлаждения меньше, а у производителей меньше стимулов к обеспечению надежности. Ну и fp64 на GPU далеко не всегда реализуют (тогда как для x86 это обязательный компонент) из-за чего нередко алгоритмы для GPU пытаются переносить на fp32 что ухудшает их точность (но не повторяемость).

С повторяемостью результатов есть интересная проблема в многопоточном программировании. Довольно часто встречается ситуация когда быстрый параллельный алгоритм не детерминирован (точнее зависит от производительности отдельных потоков, которая по меняется от фаз луны и чихания пользователя). Например часто встречается «поиск достаточно хорошего решения» когда мы ищем что-то допускающее несколько ответов из которых нам подходит любой: если мы ищем «в параллель» и «до первого подходящего результата», то какой из результатов найдется первым заранее предсказать нельзя. Еще интереснее проблема в потоковой обработке данных где один «быстрый» блок осуществляет преобразование данных по набору правил а другой, значительно более «медленный» блок анализирует его работу и динамически подстраивает набор правил под входные данные. Период обратной связи здесь не детерминирован, выходной поток в результате тоже. Причем для CPU подобные вещи даже актуальнее, на GPU обычно алгоритмы «потупее» устроены.

Так что все очень часто зависит от алгоритма и того что именно пытались оптимизировали его создатели — воспроизводимость и качество или скорость. А GPU или CPU здесь глубоко вторично, GPU хорошего качества ничем не уступает CPU по точности и воспроизводимости результатов.

DjOnline Jul 20 2017 at 10:09

FlaCuda работает прекрасно.

romovs Jul 25 2017 at 18:03

Это вообще несравнимые вещи… гпу работают с примерными вычислениями где точность сильно уменьшена в угоду скорости. там даже есть спец генераторы белого цифрового шума чтоб одинаковые не точные вычисления в итоге давали случайные размытые границы на картинке… да это дает нереальный профит для криптовалют и нейросетей но и только. все остальное что требует гарантированной предсказуемости и точности — работать на видеокартах НЕ БУДЕТ!

Прям таки совсем не будет? GPU кластеры используемые для научных исследований могут не согласится. :)

Это правда только в отношении трансцендентных функций и 16/32-бит (и то последнее даже не во всех случаях) и очень сильно зависит от драйверов и конфигурации компилятора.

А МП3 энкодеры вообще трудно распараллеливать. Там разве что только мультипоточное кодирование разных файлов имеет смысл.

elcondor Jul 25 2017 at 18:05

Подозреваю что все вычисления чисел с плавающей точкой примерные. Не зря есть понятие требуемой точности вычислений, и соответствующих длин переменных для этого — половинная точность, одинарная точность, или расширенная точность. Если вычисления не происходят над дробями — они примерные. Это как вычислить точно 2/3, верно будет и 0.66667, и 0.666666667, и 0.6666666666667.

tarasale Jul 19 2017 at 13:05

Ну почему же? Скорость одиночного ядра скоро упрётся в квантовые эффекты, а распараллелить однопоточное приложение на два и более ядер зачастую сложнее распараллеливания двухпоточного приложения на 20, 200 или 2000 ядер. И тут роигрывающие в скорости одного ядра, но при том на порядки превосходящие в их количестве окажутся в выигрыше.

0serg Jul 19 2017 at 21:17

Это не так. На GPU хорошо ложится только определенный класс задач, т.н. embarrassingly parallel computing, да и тот требует определенных трюков и хаков для того чтобы все нигде не затыкалось из-за ограничений железа что приводит к тому что сильно затруднена разработка кода который будет одинаково хорошо работать на разных GPU, а код для GPU писать сложнее и дольше чем для CPU. GPGPU — классная штука, но довольно нишевая

beavis88 Jul 19 2017 at 09:30

Nvidia с геймеров переключается на оборудование для AI, отсюда и рост акций, а вовсе не от того что автор пишет.

minusnaminus Jul 19 2017 at 13:06

Увидели рядом с названием «NVidia» слово «автопилот», и понеслась. Рост котировок не есть зеркало действительности, и уж тем более не хрустальный шар, показывающий будущее…

willyd Jul 25 2017 at 18:02

Там рядом еще Toyota было написано. Так что смысл шумихи понятен. Теперь каждый эксперт, который стоял у каких-либо истоков, будет предлагать свою версию прошлого и будущего.
Я вот только не могу понять одного. Автор так хорошо разбирается в теме и уверен в крахе CPU перед GPU. Он сам деньги вложил в NVDA? Можно было 900% за 2 года поднять.

Sixshaman Jul 19 2017 at 09:34

Очередное сравнение слона с китом.

От сравнения акций NVIDIA и Intel автор перешёл к доминированию GPU над x86 в узком спектре задач. При этом совершенно не учёл, что x86 годами наращивал оптимизацию последовательных вычислений. Кэш, branch prediction — всего этого на GPU либо нет, либо реализовано со значительно меньшей эффективностью.

О чём статья, кстати? О росте акций NVIDIA? О том, что x86 в очередной раз похоронен? О том, что нейронные сети эффективнее тренируются на GPU?

edd_k Jul 19 2017 at 11:02

Статья об "Intel капут!". На сколько понимаю, у них там модно для раскрутки бложика включать идиота и массу адекватных выводов/фактов объединять под идиотским "желтым" заявлением.

Типа, все равно завтра уже никто не вспомнит. Но сегодня блог пропиарится. Вот, даже до нас дошел… А зачем такое на GT — не понятно =)

JerleShannara Jul 19 2017 at 15:46

Мне эта статья из памяти две строчки выудила — «Убийца айфона» и «вендекапец». Результат будет такой-же.

UFO landed and left these words here

Mogwaika Jul 19 2017 at 10:45

Что угодно за 1 такт, за ваши деньги, а видяхи дешевле и примерно с похожим софтом для разных платформ.

nerudo Jul 19 2017 at 11:29

Можно. И будет этот такт продолжаться 10 минут…

UFO landed and left these words here

nerudo Jul 19 2017 at 12:12

Это был как бы намек, что не каждый алгоритм можно распараллелить даже за счет экстенсивного увеличения аппаратных затрат.

Mogwaika Jul 19 2017 at 12:23

А современные процессоры на гигагерцах…
Только вот чтобы получить сотни мегагерц на плис нужно реализовывать конвейеризируемый алгоритм. Майнинг в конвейер хорошо ложится?

UFO landed and left these words here

Mogwaika Jul 19 2017 at 12:40

На плис разные операции выполняются разное время и цепочка итераций уложенная в один такт требует меньшую тактовую частоту, чем конвейер из элементарных операций на такт.
Процессор cpu или gpu имеет уже оптимизированные блоки конвейеров или сложных операций, уложенных компактно рядом и выполняющихся за меньшее время, например за тот же такт высокой частоты в несколько гигагерц за счёт известной структуры вычислений, а не универсальной как у плис.
Т.е. быстрее всего оптимизированный под операцию asic. Но везде нужно оценивать стоимость, а не только возможности.

UFO landed and left these words here

Mogwaika Jul 19 2017 at 18:45

Специализированная микросхема всегда эффективнее, чем универсальная, это очевидно же.
Вопрос в окупаемости партии.

UFO landed and left these words here

Mogwaika Jul 19 2017 at 21:08

Я возможно отстал от жизни, но не видел ML на смартфонах (и возможно этот термин не есть нейросети). Я считал, что это делается на мощных серверах, которые потом обрабатывают короткие данные и не обязательно на них учатся, т.к. не знают верного ответа.
Вполне реально сделать, микросхему под определённый алгоритм обучения, но эти алгоритмы слишком быстро развиваются, посмотрите на те же конкурсы по распознаванию лиц. Плюс обучение как я понимаю задача не риалтаймовая и служит для вычисления неких коэффициентов, которые потом быстро используются.
Выпускают специализированные чипы для новых вайфаев, для новых видеокодеков и т.д… Какие нейросети или функции вы предлагаете я не очень понял.

UFO landed and left these words here

Mogwaika Aug 1 2017 at 15:29

Они работают не на смартфоне, а в облаке.
Лица на фотках — это детектирование лица, а не распознавание…

UFO landed and left these words here

Mogwaika Aug 8 2017 at 07:25

Могу ошибаться, но я думал, что локально распознаётся только «привет гугол».
Призма не обучается на телефоне, а только применяет коэффициенты.
Распознавание текстов я искренне надеюсь работает не на нейросетях, а честно графы по ключевым формам буковок строятся…
В большинстве ваших примеров достаточно GPU, мне кажется.

UFO landed and left these words here

0serg Jul 19 2017 at 21:09

Конвейер и «куча всего в 1 такт» — это совершенно разные вещи.
Длину конвейера как раз можно наращивать бесконечно, именно благодаря тому что скорость переключения транзисторов ограничивает только отдельную стадию конвейера а не цепочку в целом.

0serg Jul 19 2017 at 21:07

Частота на которой будет работать FPGA зависит от сложности схемы которую туда закинули
Попытка запихнуть достаточно сложные вычисления в 1 такт гарантирует что никаких сотен мегагерц там уже не будет.

qw1 Jul 19 2017 at 15:02

А не эффективней ли майники на FPGA?

Эффективнее, если нужно только считать хеш. Тогда 100500 медленных (по сравнению с CPU) ядер FPGA в сумме будут быстрее.

Но новые криптовалюты используют такие хеши, для расчёта которых нужно 1-2 ГБ быстрой памяти.

Каждому вычислительному ядру, реализованному в FPGA, просто невозможно дать столько памяти в монопольное владение. А если память расшаривать, возникнет узкое место с конкурентным доступом.

Поэтому разница между FPGA-схемой и GPU — в пользу GPU, с учётом более тонкого техпроцесса GPU и оптимизированных шин к памяти.

JerleShannara Jul 19 2017 at 15:52

А для того, чтобы FPGA+OpenCL было шустрее чем GPU+OpenCL\CUDA надо оптимизировать алгоритм. Например какие-то блоки, к которым идёт постоянный доступ, можно выкинуть в кеш/локальную память, или закинуть в QDR.

qw1 Jul 19 2017 at 17:12

Там, где создатели сознательно заложили зависимость от RAM, ничего не оптимизируешь.
Например, хеш в майнинге etherium — 200 итераций

X_N+1 = X_N xor RAM [ X_N mod RAMSIZE ]

где RAM — таблица псевдослучайных данных (заполнена хешами), размером более гигабайта, размер каждого X_i — 256 бит.

JerleShannara Jul 20 2017 at 22:13

Тут да, с ходу не скажу. Хотя если RAM статичная, то можно раскидать её кусками по кернелам считающим какой-то конкретный диапазон. Ну или разбить её на два контроллера памяти (оверкил по тупому использованию памяти конечно, но я так на ускоритель вполне спокойно засуну и 32 гигабайта DDR4). Или опять варианты вида «считаем блоками, кусок хешей перегружаем в QDR и мучаем там, далее выгружаем обратно в DDR/отдаём хосту»

qw1 Jul 21 2017 at 14:24

Вроде не получается раскидывать кусками. Каждому кернелу нужен массив всего объёма.

А увеличение количества контроллеров не масштабируется.
Ну, можно сделать 16 контроллеров и у каждого своя DDR небольшого объёма.
Но схема коммутации, к какому контроллеру идти за какими данными, будет огромной (у каждого контроллера — своя шина адреса и данных, т.е. нужно 16 шин к каждому ядру).

А масштаб x16 — это мало для ASIC-ов, тут хотя бы 4096 сделать.

JerleShannara Jul 19 2017 at 15:49

Можно и на FPGA, берём OpenCL и переписываем майнер на него. Современные ускорители на FPGA вполне себе имеют 16Gb DDR3/4, а если вам нужна огромная скорость/минимальные задержки, то можно и с QDR4 купить (но тут ценник уже взлетит совсем).

Axedem Jul 19 2017 at 13:05

Ну назвали бы «Эпоха GPU» или вроде того, а то уж очень попахивает рекламой Nvidia.

kengur8 Jul 19 2017 at 13:05

Был у меня телефон на тегре, грелся как сволочь и тормозил. На сколько знаю Денвер дальше прототипа не выйдет, из-за патентных споров.

Нвидиа это такой же Интел — доить покупателей в премиум сегменте это их стратегия. Обновлять технологии и архитектуру только в крайнем случае.

Mairon Jul 19 2017 at 14:27

Denver уже продавался в Nexus 9.

evgenyspace Jul 19 2017 at 13:06

лол, раскрутили тему с биткойнами и заработали над этом

SlTr Jul 19 2017 at 13:06

У автора статьи ни разу в тексте не употребляется аббревиатура PCI, только PCIe. Грубо говоря общего у шины PCI и у «шины» PCI Express только слово PCI.

nerudo Jul 19 2017 at 13:21

PCIe является преемницей PCI, вплоть до программной совместимости (с нюансами, конечно же), пусть и поверх другого физического интерфейса.

SlTr Jul 20 2017 at 07:36

Так все что вы перечислили это и есть:

общего у шины PCI и у «шины» PCI Express только слово PCI

потому что PCI Express технологически не является развитием шины PCI.

nerudo Jul 20 2017 at 07:45

Что значит «технологически»? Физический уровень другой, все остальное обратно совместимо. Так что общего у них сильно больше чем три буквы в названии.

SlTr Jul 20 2017 at 13:40

Что значит «технологически»?

Наверно стоило написать технологическим развитием шины PCI, но имелось ввиду то что PCI Express это:
1.Не усовершенствованная шина PCI
2 А ПО СУТИ ДРУГАЯ ШИНА.

А написал я все это потому, что покоробило:

1. Intel оставляла скорость шины PCI на низком уровне и ограничивала количество путей ввода-вывода, поддерживаемое их процессором, тем самым гарантируя, что GPU всегда будут зависеть от процессоров

Еще раз повторю, у автора статьи везде используется слово «PCIe».

SlTr Jul 21 2017 at 07:31

За что минус к карме я так и не понял. Для тех кто не согласен пусть элементарно загуглит матчасть начиная с википедии: что из себя представляет шина PCI и PCI Express. А совместимость программных интерфейсов оставлена для обратной совместимости программных интерфейсов, и все. Мог быть и другой программный интерфейс и слова PCI в названии могло и не быть вообще (есть и другое название). Еще раз: PCI Express не была развитием PCI.

И да:

1. Intel оставляла скорость шины PCI на низком уровне и ограничивала количество путей ввода-вывода, поддерживаемое их процессором, тем самым гарантируя, что GPU всегда будут зависеть от процессоров

Неплохой экскурс в историю, я не помню, честно, может такое и было, кстати может поэтому agp и появился…

Но я морально готов к следующим минусам! Правду не задушишь лол ахахах!

JerleShannara Jul 21 2017 at 13:09

AGP появился из-за i740 =) Intel придумали такую вещь как более шустрый доступ к системной памяти для видеокарты с той целью, чтобы не ставить на видеокарты (дешевые) кучу памяти, а обойтись необходимым минимумом под framebuffer, а все текстурки и прочее держать в системной памяти.

А с цитатой из статьи можно спокойно поспорить. PCI была и на 66Mhz, и была в варианте 64Bit(и это было в эпоху Pentium-III). Ну а на исходе была PCI-X с 64 битами и 133Мгц (Уже ближе к концу эпохи Pentium-4)

nerudo Jul 21 2017 at 14:41

Про минус это не ко мне. А по сути «была — не была» — это демагогия. Факт в том, что взяли транспортный уровень PCI. Выкинули физический. То, что выкинулось вместе с физическим — сэмулировали, чтобы сохранить совместимость с PCI. По крайней мере PCIe заметно ближе к PCI, чем все прочие современные протоколы типа Serial RapidIO, Infiniband или еще чего.

Mairon Jul 19 2017 at 14:44

Не очень понятно, а на чем автор собирается работать на десктопе? ARM, прямо скажем, оказался в идейной депрессии — рынок планшетов накрылся, на телефонах такой круг задач, что стало абсолютно неважно, какой у тебя процессор, году так в 2015, а ARM на десктопы так и не влез. Реинкарнация Windows RT — очередные вялые попытки Майкрософт вдохнуть жизнь в Windows Mobile, не говоря уж о том, что у Qualcomm, которая является ключевым партнёром по WoA, известно какое отношение к обновлениям, и покупать десктоп на снапдрагоне, который через полтора года будет снят с поддержки, никто не будет. Это ещё оставляю за скобками вопрос легальности трансляции x86-32 в AArch, а также отношение Майкрософт к своим экспериментам.

Так что если выбирать между Intel и Qualcomm, то выбор очевидно не в пользу вторых.

Areso Jul 19 2017 at 18:08

На ARM делают миллионы хромбуков, и миллионы же SBC (по крайней мере — малин миллионы, тираж остальных SBC сильно меньше).

Mairon Jul 19 2017 at 20:03

Все эти миллионы хромбуков занимают <5% рыночной доли настольных систем даже на рынках ключевого распространения при невероятном субсидировании со стороны Гугла, который пихает их с доплатой каждой американской госконторе. Про малины вообще не говорю, ими вообще никто не пользуется на консюмерском рынке.

romxx Jul 19 2017 at 21:52

Вы в каком-то своем мире живете, даже неловко вам что-то возражать, нарушать такой красиво выстроенный мир :)

x67 Jul 20 2017 at 11:01

Я живу в своем мире и тут я уже года два не видел живого хромбука. Скажите, как построить портал в ваш мир?

jetexe Jul 20 2017 at 13:30

Периодически встречаю материнки со впаяным ARM: ток не жрет, охлаждать (почти) не надо, кино/музыку крутит, страички в браузерах рисует. В итоге отличные «печатные машинки» получаются

Areso Jul 20 2017 at 14:38

Хз, хз, у меня малинка 3 в цикле крутит простой скрипт (подключиться к БД, выполнить селект, отдать результат на I2C), нагревается ооочень ощутимо этим скриптом, палец на терпит прикосновения к поверхности чипа.
В браузере работает медленно (js регулярно вешает малинку намертво), видео тоже не всякое воспроизводит. Сопоставима с одноядерным удушенным Intel Atom на нетбуке 2008 года выпуска, который у меня когда-то был и от которого я избавился в 2014 по причине его устаревания.

romxx Jul 22 2017 at 06:18

Приехать в США будет достаточно.

RoboShop Jul 25 2017 at 18:04

Посадил сотрудников офисных на Orange Pi Plus 2E. Да, в Ведьмака они не поиграют, но для рабочих задач этого с головой хватит. Ну и опять же, тонкие клиенты.

Mairon Jul 27 2017 at 16:52

>>на консюмерском рынке.

beeruser Jul 20 2017 at 11:46

>> рынок планшетов накрылся
«Накрылся» в смысле не растёт?
Так и рынок PC уже несколько лет падает.

>> Реинкарнация Windows RT — очередные вялые попытки Майкрософт вдохнуть жизнь в Windows Mobile
О чём речь? Эта полноценная 10-ка не связанная с WM.
Наконец-то появится вменяемое железо, а не хромбуки с убогими характеристиками вида «2-гига, 2-ядра».

>> известно какое отношение к обновлениям, и покупать десктоп на снапдрагоне, который через полтора года будет снят с поддержки, никто не будет.

Разумеется будет — я куплю =)
У QCOMM нормальное отношение к обновлениям, просто они это делают не бесплатно.
Производители не хотят платить.
Почитайте тред
https://twitter.com/jhamby/status/886823340484083712

Mairon Jul 21 2017 at 15:00

«Накрылся» в смысле не растёт?
Так и рынок PC уже несколько лет падает.

Накрылся в смысле «падает». И во многом он ещё только падает, а не проваливается в бездну, как раз из-за Intel-планшетов. АРМы-то проваливаются, и из всех планшетов худо-бедно растут только виндопланшеты.
А рынок традиционных ПК скорее стагнирует, у IDC по свежим данным как раз именно так.

О чём речь? Эта полноценная 10-ка не связанная с WM.

В каком месте она «полноценная» без x86-64? На момент анонса обещали только x86-32, может что-то изменилось?

У QCOMM нормальное отношение к обновлениям, просто они это делают не бесплатно.
Производители не хотят платить.
Почитайте тред

Удобная позиция. Мы, конечно, за обновления, но отгрузите нам 100500 нефти, чтобы мы вам это обновление сделали. На русский язык это переводится как «у квалкома отвратное отношение к обновлениям». Это верно как для Nexus, так и для Windows, включая, но не ограничиваясь, Mobile.

Не говоря уж о том, что даже если SoC поддерживаются, поставщики телефонов получают код от Квалкома только через несколько месяцев после релиза нового Android в AOSP. А до этого они могут только провью клепать как Сони, не более того.

dendron Jul 19 2017 at 21:29

Немного в сторону… Мне грустно от того что nVidia и прочие забыли про игры и бросились в нейросети для Большого Брата. Игры хотя бы были безобидные для человечества. Сейчас уже шагу нельзя ступить, как твоя личность уже идентифицирована и оцифрована, поведение предугадано, социальные связи установлены, индекс лояльности посчитан, алгоритм манипуляции определён. Такой вот ИИ. Вряд ли фантасты о таком мечтали.

NIKOSV Jul 19 2017 at 22:48

А вы терминатора ожидали?

ivanius Jul 25 2017 at 18:05

Мне кажется это не совсем так, правильно писали тут про майнинг, про нейросети и ИИ меньше, НО производители игр для того и сотрудничают с AMD или nVidia чтобы их игры были более оптимизированы и работали хорошо, при этом используют новые технологии.
И к стати не увидел в коментах ни слова об VR, который тоже сейчас развивается на ряду со всем этим и ему тоже нужна производительность видео т.к. 2 рендера под каждый глаз в 2к и выше немало ресурсов кушает, не говорю уже о vsync 60fps и выше.

peterpro Jul 19 2017 at 22:23

Алекс Св. Джон? Божечки-кошечки. А чем вам классическая советская транслитерация Сент-Джон не угодила?

leorush Jul 20 2017 at 08:38

Да, тоже глаз резануло )
Saint — это второе имя, а не часть фамилии КМК

peterpro Jul 20 2017 at 09:03

Ну вот навскидку: https://ru.wikipedia.org/wiki/%D0%A1%D0%B5%D0%BD%D1%82-%D0%9A%D0%BB%D1%8D%D1%80,_%D0%90%D1%80%D1%82%D1%83%D1%80

leorush Jul 20 2017 at 13:53

Да, вы правы, фамилия всё же )
https://en.wikipedia.org/wiki/St_John_(name)

vikarti Jul 19 2017 at 23:48

Даже сегодня самый мощный CPU от Intel справляется только с 24 ядрами

Строго говоря это не совсем корректно. У Xeon Phi ядер от 64 (а потоков от 256).
Производит их Intel и даже штатную версию Windows на них — запускали (пусть нужна спецматеринка) — смотрим например https://www.servethehome.com/intel-xeon-phi-x200-knights-landing-boots-windows/
Цены правда негуманные. Ну так на топовые Xeon'ы они тоже не особо гуманные.

JerleShannara Jul 20 2017 at 22:36

Впринципе можно пойти другим путём (который интел и купили ради фая) — потратить 10к$ на FPGA ускоритель и лицензии на софт.

msts2017 Jul 20 2017 at 07:49

Теперь понятно почему апи директ икс изначально был каким-то, неожиданно, кривоватым (удивлялся в прошлом веке), это специально было сделано.

UFO landed and left these words here

unclechu Jul 21 2017 at 17:12

Я хотел создать новый набор драйверов Windows, позволявших проводить массивную конкуренцию на рынке железа, чтобы работа новых медиа, включая аудио, ввод данных, видео, сетевые технологии, и т.п. на создаваемом нами рынке игр для ПК зависела от собственных драйверов Windows. Intel не справилась бы с конкуренцией на свободном рынке, созданной нами для компаний, производящих потребительское железо, и поэтому не смогла бы создать CPU, способный эффективно виртуализировать всю функциональность, которую могли потребовать пользователи. Так и родился DirectX.

Всё что нужно знать о некрософте в ответ на вопрос: «почему её называют копрорацией зла».

AIxray Jul 25 2017 at 18:05

А как же процессорные инструкции SSE,AVX…? И ещё, если бы и вправду было так, то скажем Pentium 4 Prescott до сих пор бы тянул все современные игры, а Gpu NVidia обрабатывала все необходимые вычисления.
Вот стоит обсудить, что где как, а затем можно загадывать.
И не забывайте современный мир таков, что завтра одна технология может переехать/вжиться в другую, так что не удивительно будет, вопрос только в целесообразности.

PsyHaSTe Jul 26 2017 at 22:15

SSE дают ускорение в 2-4 раза, AVX — в 8, а GPGPU — в 100+. Вроде бы есть разница…

agarus Jul 29 2017 at 17:39

А тем временем: «Доход Intel достиг рекордного значения 14,8 млрд долларов… Чистая прибыль тоже увеличилась.»