• Мы приближаемся к пределу вычислительных мощностей – нам нужны новые программисты
    0
    Вот вам прямо список с годами, объясните мне хотя бы его половину.

    MIT в прошлом году опубликовал хорошую статью с анализом по этому вопросу.
  • Мы приближаемся к пределу вычислительных мощностей – нам нужны новые программисты
    0
    А как они этот бутерброд охлаждать будут?

    Хороший вопрос. Xilinx пишут, что использовали корпус без крышки (lidless, bare die).
  • Мы приближаемся к пределу вычислительных мощностей – нам нужны новые программисты
    +1
    Варианты с HBM — интегрированные, за счет этого и быстрота. Но никто не мешает держать в системе ещё и обычную DDR, большего объема и меньшей пропускной способности. Будет ещё один уровень в иерархии памяти.
  • Мы приближаемся к пределу вычислительных мощностей – нам нужны новые программисты
    0
    По мнению руководства TSMC до пределов вычислительных мощностей ещё очень далеко и закон Мура продолжит здравствовать. В качестве решения они предлагают 2.5D и 3D интеграцию. В случае 2.5D с помощью вертикальных линий (inter-level vias, ILV) в одном корпусе объединяются несколько слоев, например памяти и процессора. Этот же подход, кстати, ключ к существенному повышению производительности в краткосрочной перспективе: преодоление memory bottleneck за счет размещения оперативной памяти в корпусе с вычислителем и организации взаимодействия между ними по широким шинам (всё те же ILV). Кстати, промышленность уже выпускает такие вещи, например, некоторые FPGA Xilinx, Intel-Altera и некоторые GPU от AMD содержат слой HBM DRAM памяти. К слову, HBM на хабре уже рассматривалась.
    Что касается раздутого кода, следует учитывать, что сложность решаемых проблем (или как минимум контекст и запросы) растёт, и неизбежным следствием попыток обуздать эту сложность становится увеличение уровней абстракций. Но я согласен, это не повод не думать над тем, что пишешь, просто не всё так плохо.
  • Инкапсулятор Etherblade.net и импортозамещение сетевых компонентов (часть вторая)
    0
    Количество специалистов умеющих в FPGA сравнительно невелико, задачи сетевой обработки — это достаточно малая часть от всех задач, решаемых на FPGA, а количество специалистов, владеющих одновременно и сетями и FPGA ещё меньше. Не очевидна мотивация, которая побудит их делать достаточно сложную работу бесплатно, если можно делать её же за деньги. Глядя на opencores.org, где за 20 лет накопилось только порядка 1200 проектов, ваш замысел в части репозитория выглядит очень амбициозно.
  • Как работают двоичные нейронные сети, и почему они будут популярными в 2020-м
    0
    Вот ещё ссылка, правда здесь уже не коробочный акселератор, а университетское исследование на стартките. В таблице в конце 7.6 TOPs на 8 Вт. В статье они также грубо оценивают вычислительный параллелизм GPU и FPGA, при этом на 1 LUT в среднем по их прикидке выходит 2.5 операции XNOR. Не знаю, корректно ли это считать за АЛУ, но если да, то вот вам порядка миллиона АЛУ на кристалле.
    Конечно есть вопросы к их реализации: как и в ссылке на Nallatech, они тоже кодили с использованием средств высокоуровневого синтеза (HLS), вероятно обычным RTL было бы эффективнее по ресурсам и частоте, кроме того, по идее могли бы попробовать вписаться в меньший и более дешёвый кристалл. У них там дорогой Virtex за 5K$, хотя наверно удалось бы влезть в Kintex за 1.5К$.
    За пределами FPGA что-то похожее на описанные вами миллионы АЛУ с собственной памятью делают GSI Technology: вот презентация их APU, здесь простейшие вычислители совмещены с ячейками памяти.
  • Как работают двоичные нейронные сети, и почему они будут популярными в 2020-м
    0
    ситуация может в очередной раз поменяться только когда вместо 10-1000 ALU на устройстве мы захотим сделать миллионы ALU с собственной памятью, вот тогда бинаризация существенно упростит конструкцию и расход энергии на один ALU.

    Вроде как такие вещи хорошо делаются на FPGA, например.
  • 5.8 млн IOPS: зачем так много?
    0
    Из статьи не очевидно, в чём инновационность GPUDirect Storage? Судя по описанию, это очередная реализация идей Near-Data Processing, которые известны уже давно (хороший обзор по теме).
  • 5.8 млн IOPS: зачем так много?
    0
    Такие сравнения есть например здесь, правда для случая FPGA, а не GPU.
  • Как российский биотехстартап помогает бороться с раком
    +1
    Можно немного подробнее про вычислительные проблемы, с которыми вы имеете дело?
    Имели бы спрос и были бы уместны в вашей области специализированные вычислительные устройства, например на базе FPGA, которые бы существенно ускоряли эти вычисления или какую-то их часть?
  • Скоростная отказоустойчивая компрессия (Продолжение)
    0
    Можно подробнее про «усиление стойкости криптографии»? Где почитать выкладки и доказательства?
  • Аппаратное шифрование DRAM уже близко. Чем оно грозит простым пользователям?
    0
    К сожалению моих знаний недостаточно, чтобы про это компетентно спорить. C вами согласен, что для выборки одиночного слова задержка возрастет где-то вдвое. Однако в контексте системы в контроллере памяти наверняка организована конвейеризация (хотя бы для тех же блочных режимов доступа), кроме того, там есть планировщик, который переставляет команды обращения к памяти для минимизации конфликтов по банкам. В результате, когда мы имеем выборку не одного слова, а нескольких, то ожидание в очередях до и после обработки запросов к памяти как раз может замаскировать задержку, вносимую шифрованием, для остальной системы.
  • Аппаратное шифрование DRAM уже близко. Чем оно грозит простым пользователям?
    +1
    Уточню, не предлагаю использовать плис, стоить она будет дорого, да и незачем это делать. Однако привожу в пример то, что на плис (которые имеют сравнительно низкие тактовые частоты) уже давно делают быстрое шифрование. Следовательно, ASIC-реализация, врожденно допускающая более высокие тактовые частоты, может быть гораздо быстрее/экономнее/компактнее и т.д. Значит специализированное hardened-ядрышко шифрования (AES-XTS engine) внутри процессора проблем с производительностью вызвать не должно.
  • Аппаратное шифрование DRAM уже близко. Чем оно грозит простым пользователям?
    0
    Даже DDR3 это десятки гигабайт в секунду. Даже допуская, что «движок» это некий ASIC (ну или что, например?), всё равно какую-то задержку это да принесёт.

    Пренебрежимую? Ваш второй вопрос заинтересовал, попробую грубо прикинуть. В их доках на AES-XTS engine написано, что производительность 18 Гбит/с на частоте 3.2 ГГц (это не слишком много, сейчас ядра aes для плис умеют 100-400 Гбит/с на скромных частотах до 400 МГц). Далее, на шифрование 128-битного блока данных AES-ом надо порядка 30-50 тактов, при этом если задействована конвейеризация (режим вроде позволяет, зависимостей сходу не увидел), тогда за эти 30-50 тактов можно обработать несколько блоков по 128 бит. Итого, на обработку одного блока уйдет порядка 50*(1/3.2 ГГц) = 15.7 нс. С режимом XTS особо не знаком, судя по кратким описаниям, он позволяет работу с произвольными блоками без расшифровки всей страницы памяти. Мне кажется, эти задержки во-первых сопоставимы с задержками выборки данных из DDR, во-вторых, могут быть замаскированы конвейеризацией контроллером памяти и контроллером кэша. Но поправьте, если не прав, мне тоже интересно.
  • SP701 + PCAM-5C + 15 Минут+ VITIS = Easy MIPI на FPGA
    0
    Вас понял, благодарю.
  • SP701 + PCAM-5C + 15 Минут+ VITIS = Easy MIPI на FPGA
    +3
    Прикольно. А можно пару пояснений про содержимое тестового примера, а то там на блок-дизайне под 40 сущностей, microblaze c каким-то кодом и ни слова о происходящем? И ещё, можно Ваше впечатление о Vitis? Как он, особенно на больших проектах, синтезирует быстро или как Vivado? Пока пощупать не удалось, интересно услышать отзывы реальных пользователей (рекламные проспекты уже листал).
  • «Музыка Большого Брата»: как звучит антиутопия, и кто пел о теории заговора и техногенном пост-апокалипсисе
    0
    Творчество System of a Down близко к указанным темам и в целом поднимает большое количество социальных проблем.
  • Анатомия одного ПТК
    0
    Вас понял, благодарю.
  • Анатомия одного ПТК
    0
    В западных статьях много хайпа вокруг Industrial Internet of Things, если не секрет, как с этим у вас и в целом в СНГ? Знакомые ребята из одного белорусского универа делали какую-то портативную вещь для вибродиагностики турбин местных электростанций, но это было лет 8 назад.
  • Компьютер на базе вентилей NOR: внутри бортового управляющего компьютера «Аполлона»
    +1
    Мне в своё время интересно было почитать про устройство всяких Alpha, Power и Pentium-ов, про причины тех или иных проектных решений. А многие идеи потом пригодились при разработке под ПЛИС.
  • Простая реализация небольших CAM на ПЛИС
    0
    CAM там маленький кусок большого дизайна

    Теперь понятно, благодарю.
  • Простая реализация небольших CAM на ПЛИС
    +4
    CAM — content addresable memory, наверно.
    BRAM — это устоявшееся у плисоводов сокращение от Block Random Access Memory (встроенных блоков памяти ПЛИС).
    А по существу, у меня вопрос: зачем такие тяжелые плисины использовали, вроде overkill по ресурсам и ценнику?
  • Ускорение программы для синтезированного процессора комплекса Redd без оптимизации: замена тактового генератора
    0
    Вашу точку зрения понял, благодарю.
  • Ускорение программы для синтезированного процессора комплекса Redd без оптимизации: замена тактового генератора
    0
    И понимаю, что это — для тех, кто делает серьёзные проекты.

    Не скромничайте, скорее уж для тех, в чьих проектах есть хоть какие-то интерфейсы. По-моему, на своём железе нет шансов не столкнуться с timing constraints. Но, конечно, в макетах, на которых обычно происходит первое знакомство с ПЛИС, эти вещи уже решены.
  • Применение MATLAB/Simulink с аппаратурой производства АО «ИнСис»
    0
    Надо использовать внешний преобразователь из 4x3.125 Гбит/с в 10 Гбит/с.

    Вас понял, благодарю.
  • Применение MATLAB/Simulink с аппаратурой производства АО «ИнСис»
    0
    Если не ошибаюсь, то Artix-ы, используемые в статье, 10Гбит Ethernet не умеют, только гиг.
  • Ультимативное сравнение embedded платформ для AI
    0
    Когда плисы доберуться до того же уровня «production ready» в плане разработки

    Вроде как в случае нейронок производители ПЛИС последние пару лет в этом направлении серьезно рыли и уже добрались. Xilinx не так давно кое-что по теме выкатил. Не знаю как обстоят дела в действительности, обещали, что знать «железячную» часть при работе с этим инструментом не придется. Intel/Altera имеют свой аналог — упомянутый ранее OpenVino.
  • Intel Nervana NNP-T и NNP-I — специализированные чипы для AI
    +1
    Вроде напутали, здесь пишут, что 32 ГБ.
  • Линейка Agilex — 10-нм FPGA Intel
    +5
    Здесь всё не так однозначно. С одной стороны, LUT6 позволяют вместить больше логики, а с другой — тянут увеличение энергопотребления, а также увеличение количества трассировочных линий на кристалле (и задержек распространения сигналов). Для LUT8 всё будет ещё хуже.
    Для примера, Microsemi в своих энергоэффективных FPGA целенаправленно использует 4-входовые LUT (их рассуждения о причинах).
    Вообще, размер LUT — это область активных исследований. Та же Altera/Intel выбрала LUT6, приводя данные по увеличению производительности на 14% за счет уменьшения числа уровней логики, но при этом и оверхед по площади в 17% (по сравнению с LUT4). Далее, они же приводят информацию о том, что средства синтеза используют LUT6 неэффективно, т.е. в большинстве случаев LUT6 остаются заполненными не до предела. Тема очень интересна, подробности можно глянуть например здесь и здесь. Видно много компромиссов и насколько я могу судить из их выкладок, оптимальное решение лежит в районе LUT4-LUT6.
  • Нужны абсолютно прозрачные выборы? — Их есть у меня
    0
    Возможно, речь о гомоморфном шифровании.
  • Российский геймдев, бессмысленный и беспощадный
    0
    Что вас ждет? Если коротко:

    — личная жизнь \ + адский труд бесплатно
    — поддержка близких \ + стадо критиков
    — стандарты качества \ + зато оригинально
    — Я всё могу \ + депрессия средней степени тяжести

    К слову, о многих из этих вещей упоминал Джон Кармак в недавнем подкасте Joe Rogan Experience и ещё ранее сотрудники Blizzard в этом цикле статей, описывая разработку Starcraft. Но с другой стороны, они об этом отзывались достаточно терпимо, и при этом гордились причастностью к тому, что делали и в итоге сделали.
  • Новый российский моноблок «Бином-КА» вместил два разных ЦПУ и две ОС
    0
    Вроде всё в порядке.
    Гальваническая развязка это про защиту электронных компонентов от внешних воздействий

    Грубо говоря, представьте, что какой-то секьюрный проц торчит ножками в сеть Ethernet. В этом случае он будет подвержен манипуляциям с искажением тактовых частот, напряжений и прочего. В случае гальванической развязки между процем и враждебной средой будет аппаратный элемент. Представьте теперь вариант с DDR, когда кто-то пытается провести rowhammer attack и магнитными наводками сбить флажки привилегий у защищенных секторов. Без гальванической развязки у него есть шансы.
  • Похождения электронной подписи в России
    +1
    Ещё раз, его не было, когда он был нужен. Без него разработали своё, в результате многое в инфраструктуре давно работает на своём. Сейчас Вы предлагаете всё переписать ради модного алгоритма, серьёзно? В РБ бюджет не резиновый. Ваша точка зрения в этом вопросе непонятна.
  • Похождения электронной подписи в России
    0
    Очевидно, что годом выпуска, он вышел примерно в те же времена, что и белорусский. Предстандарт белорусского алгоритма также 2011 года. Обратите внимание, ED25519 был только опубликован в 2011, а белорусский алгоритм уже был в пререлизе стандарта в это время.
  • Похождения электронной подписи в России
    0
    И второй момент по поводу «своего пути»: а что плохого в собственных алгоритмах ЭЦП?
    Так-то DSA создан (и запатентован) в недрах института США, почему его стоит принимать на веру и использование просто так у нас, чем он лучше местных?
    Если речь о совместимости ЭЦП, так вроде год назад собирались принять закон о взаимном признании ЭЦП в ЕАЭС, так что опять же вопрос не в алгоритмах по идее, а в законотворчестве.
  • Похождения электронной подписи в России
    +1
    При подготовке статьи с удивлением обнаружил ещё нескольких представителей клуба искателей своего пути.

    К слову, справедливости ради, если копнёте глубже, обнаружите, что в РБ закон об электронном документе принят на пару дней раньше, чем в США. Не удивительно, что Беларусь пошла своим путём в этом вопросе, она вроде как была самая первая. Хотя да, стандарт на алгоритм ЭЦП уже позже нарисовался.
  • Криптографический алгоритм «Кузнечик»: просто о сложном
    0
    Благодарю! Отличная ссылка.
    Со своей стороны могу сказать, что все режимы работы со сцеплением или генерацией имитовставки в чистом виде будут неэффективны в реализациях для FPGA.

    Да, с этим согласен.
  • Криптографический алгоритм «Кузнечик»: просто о сложном
    +1
    Присоединяюсь к вопросу про оптимизированные реализации. Особенно интересует линейное преобразование и в частности под FPGA. Когда-то заинтересовало, выглядит неочевидным, но глубоко не ковырял его, может Вы встречали и порекомендуете чего. В своё время видел данные по очень эффективным реализациям под FPGA этого алгоритма, но деталей особо не раскрывали.
  • Выставка в Лас-Вегасе — для разработчиков электроники, а не ее потребителей. A report from Design Automation Conference
    0
    Понял, благодарю.
  • Как разрабатываются и производятся процессоры: будущее компьютерных архитектур
    +2
    К упомянутым отдельным FPGA-акселераторам добавлю такую тему как встраиваемые FPGA (embedded FPGA, eFPGA). В этом случае на кристалл к процессору или SoC добавляется логика FPGA, причем заказчик может заранее указать требуемые соотношения и количество LUT/DSP/BRAM блоков в зависимости от своей специфики, а также добавить свои блоки. Такими вещами занимаются например Menta, Flex-Logic, Achronix.