Комментарии 39
В текущей ситуации делать графический чип не имеет никакого смысла, так что правильно что сосредоточились на чисто AI. В плане поддержки кажется лучше ориентироваться на PyTorch, а не на CUDA, но это уже холиварный вопрос.
Из описанного не увидел что у вас с сетью? nVidia выигрывает еще и за счет того что предоставляет сразу готовую экосистему где каждый компонент оптимизирован под общее решение (недаром они покупали Mellanox). Вот один из перспективных вариантов. В этом плане лучше сразу ориентироваться на общий дизайн стойки, чтобы не было узких мест. Альтернативное видение облачного компьютера можно посмотреть тут
Смотрели ли вы в сторону Tesla Dojo? Там помимо нестандартных технических решений обещают детерминированный порядок исполнения, что позволяет делать более глубокую оптимизацию на программном уровне.
В плане поддержки кажется лучше ориентироваться на PyTorch, а не на CUDA, но это уже холиварный вопрос
Это несколько разные вещи. По сути, поддержка Cuda даёт автоматически поддержку PyTorch, т.к. там есть cuda-backend.
Из описанного не увидел что у вас с сетью?
Это вопрос для следующих проектов. В моей голове для "взрослого" конкурентного продукта с точки зрения HW необходимо решить 3 ключевых задачи:
Разработать хорошее вычислительное ядро GPGPU (то, что у Nvidia называется SM)
Разработать качественную подсистему памяти (L2-кэш, интерконнект, GPDDR/HBM и т.д.)
Разработать сетевой интерконнект, позволяющий объединять вычислители в кластер.
На самом деле каждая из этих задач - очень сложная, и решить их все вместе сразу невозможно. Поэтому надо двигаться последовательно, от п.1 к п.3
Дальнейшие задачи, стоящие перед командой, хотя и более прямолинейные, но местами ещё более сложные и объёмные:
Имплементация разработанной микроархитектуры GPGPU на RTL.Анализ производительности и улучшение микроархитектурных решений.
Верификация разработанного IP-блока GPGPU.
Создание FPGA-прототипа.
Реализация большого количества системного ПО – драйвер, рантайм, компилятор и т.д.
Проектирование финального ASIC с разработанным IP-блоком GPGPU.
То есть всё ещё впереди?
А можно поподробнее про разработанную вами ISA ? Какого типа в ней команды, как выглядит регистровый файл ? Это RISC, VLIW или что-то иное ?
Пункты 9 (плис) и 11 (эсик) должны быть форками, а не последовательностью. Причем в этом форке приоритет на запросы по оптимизации и архитектурным изменениям должен быть у эсика, а не плис.
Они и есть "форки", потому как схемотехника блока уже готова в пункте 8.
а не последовательностью
По-вашему их обязательно нужно делать паралельно?
Для того чтобы что? По результатам fpga симуляции вполне могут быть доработки.
приоритет на запросы по оптимизации и архитектурным изменениям должен быть у эсика
Капитан очевидность. Логично, что приоритет имеет финальный продукт. Архитектурных изменений на стадии 11 не может быть. Это означает вернуться к самому началу.
Отвечу, господин хамло. Архитектура (схема тактирвоания, сброса, дфт, иерархия блоков, границы доменов питания и т.д.) как правило меняется на первых этапах физического проектирования - в целях именно физического проектирования. Если нужно, то возвращаются к самому началу. Даже интерфейсы могут меняться в зависимости от расположения в чипе: если надо, к примеру, пробросить сквозной интерфейс между ближайшими соседями.
Отвечу, господин хамло.
Учусь у лучших, сенсей =)
Вы не находите, что учить команду, которая выпустила уже не один процессор, как нужно разрабатывать чипы - это как минимум странно? Да ещё в такой манере.
Под архитектурой процессора, в общем смысле, подразумевается ISA, а не детали реализации физического уровня.
Так вроде нигде нет утверждения, что это должно быть последовательностью. По факту все пункты так или иначе идут в параллель
Резюмируя, пока ничего не готово и только ведутся исследования по данной теме, поэтому ждать AI ускоритель в ближайшее время не нужно.
Вопрос еще в том, стоит ли вообще его делать. Даже amd с её возможностями не смогла сделать продукт не уступающий nvidia(тут проблема в том, что они не сделали свое api, как тот же Intel), а Россия, учитывая что она находится под кучей санкций, вряд ли сможет сделать что-то конкурентно способное.
Даже amd с её возможностями не смогла сделать продукт не уступающий nvidia
Во-первых, возможности AMD сильно преувеличены. Во-вторых, всё же у нас задача несколько проще, чем "не уступать" Nvidia
Возможно, но у них явно больше возможностей чем у вас. Касаемо вашей задачи, продукт должен быть конкурентно способным, в противном случае это плохой продукт, которым не будут пользоваться отечественные компании(если только государство не заставит).
Как говорится, спасибо, кэп. Правда из ваших рассуждений, например, не совсем понятно, как Nvidia, имевшая до недавнего времени куда меньшие возможности и ресурсы, чем Intel или AMD, не говоря уж про кучу других компаний из полупроводниковой индустрии, вдруг взяла и всех нагнула на рынке AI железа. "Возможности" - это не цифра, это достаточно сложная и объёмная материя.
Если вы перечитаете мое первое сообщение, то заметите, что я говорил о программной части продуктов AMD. Почему у AMD она хуже чем у Nvidia? Без понятия. Про "возможности" с вами соглашусь.
Если говорить лично про меня, то я бы хотел, чтобы у России появился хороший AI ускоритель, но я реалист и поэтому сомневаюсь в том, что в ближайшие несколько лет появится что-то отдаленно конкурентно способное.
В любом случае желаю удачи с проектом. Всего вам хорошего
На картинке лейаут одного ядра? Если не секрет, какой ПЛИС? И про 255 регистров вопрос, это из за многотредности?
На картинке лейаут одного ядра?
Да, на ПЛИС
Если не секрет, какой ПЛИС?
Секрет )
И про 255 регистров вопрос, это из за многотредности?
Многомерный вопрос. Базовый ответ звучит примерно так - из-за большой дороговизны spill/fill'ов и необходимости максимально переложить все данные на регистры при исполнении кернела.
Учитывая как NV внедряет тензоры в графику так скоро и GPU не понадобится, все на тензорах будет считаться)
Так тензоры давно в графике используются. Просто там много всякой нагрузки, где тензоры не подходят. В этом и есть огромное достоинство GPGPU - в гибкости, и при этом ещё и без ущерба производительности.
Сейчас даже фильтрацию текстур не нужно поддерживать - придумали стохастическую, читается один пиксель за кадр. Поддержка сжатых форматов не нужна - придумали расжимать на тензорных. Тригонометрия и прочие SFU не нужны - научились считать PBR на тензорах.
Учитывая, что для первого кремния экватор пройден, можете поделиться проектными характеристиками?
Частота, потребление, пиковые TOPS, поддерживаемые типы данных и т.д.
Пока рановато делиться этими данными публично. Но как только, так сразу)
Хорошо, будем ждать, спасибо :)
Из российского в обозримом будущем (в 2028 году) выходит Арамис от Модуля, будет интересно сравнить. Из общемирового он сравним с вышедшим в прошлом году Lunar Lake (iGPU) по TOPSам, в обоих случаях (вашем и Модуля) интересно будет посмотреть реальную производительность на практике.
Я то ли туплю, то ли тема не раскрыта: вопрос производства - китай или дымное отечество?
Intel Foundry !)
Может я чего-то не понимаю, но разве Байкал не под санкциями?
Где-то мелькала информация, что полностью отечественный литограф для какого-то большого техпроцесса у нас освоили, мол собираются освоить следующий большой рубеж.
освоили))

Нет, без рофлов, мне интересно, где будут производить на каком техпроцессе. Про TOPS и прочее парой веток выше уже спросили.
Эта новость не имеет вообще отношения к реальности. Типичное "журналист изнасиловал инженера".
С ума сойти! Т.е. выход годных под 50% ???
Как добились столь потрясающего результата???
Наверное поставили по НКВДшнику с маузером к каждому степперу!
Может я чего-то не понимаю, но разве Байкал не под санкциями?
конечно же под сакнциями. Причём не только как компания, но и как отрасль, и как представитель России. Так сказать, полный букет)
Где-то мелькала информация, что полностью отечественный литограф для какого-то большого техпроцесса у нас освоили, мол собираются освоить следующий большой рубеж.
Открою вам небольшой, но неприятный секрет - это всё не имеет никакого отношения к реальному производству чипов.
А где вы планируете производить?
Я надеюсь вы понимаете, что в текущей ситуации никто вам это не скажет, ни публично, ни кулуарно. Слишком чувствительный вопрос.
Понимаю, но всё равно интересно. Лучше спросить, чем не спросить.
Открою вам небольшой, но неприятный секрет - это всё не имеет никакого отношения к реальному производству чипов.
А что они сделали, кстати? Просто R&D? Мне интересно, насколько мы реально близки к своему литографу. Информация везде либо ангажированная, либо шум.
Спасибо за интересную статью. Вы планируете делать ещё статьи на эту или связанные темы (GPGPU) или выложить подборку материалов , которые помогли вашей компании в разработке своего решения ? Может быть статьи более углубленные .
Мне как начинающему rtl-разработчику было бы интересно изучить такие материалы ибо , как вы и написали, открытой информации по тематике gpu\gpgpu не так уж и много , а хорошей ещё меньше . Я ожидаю что в 7 издании Computer Architecture: A Quantitative Approach будет больше информации про такие типы вычислителей , но я могу и скорее всего ошибаюсь .
Как мы разрабатываем отечественный AI-процессор. Часть 2. Секреты GPGPU