Мера, конечно, вынужденная, но думаю даже если бы у КНР был свободный доступ к ARM и x86, разработки собственных архитектур так или иначе начались бы - вряд ли стране захочется отстегивать лицензионные, когда есть мощности для создания собственных, независимых платформ. Тем более тут играет тот факт, что скорее всего большинство перечисленных компаний имеют серии чипов, построенные на тех же уникальных архитектурах, но подробности о которых не разглашаются ввиду принадлежности к оборонке. Так что без своих разработок, думаю, Китай бы далеко не уехал)
Тут буду выглядеть скептиком. Но я не особо видел прирост от L3 кеша в программах и корпоративных приложениях. Вот игры, это безусловно. Пора тест Гилева проводить на 9950x и 9950X3D и исследовать то как 3д кеш влият на производительность
Я в лице ARM ожидал тут увидеть решения от Huawei Kunpeng 920 ну или Ampere Altra. Может быть китайский суперкомьютеры тут не учитывается. Нужно провести ресеч в этом направлении и сделать TOP500 China.
Как человеку, который всей душой любит железки, мне грустно наблюдать обилие проприетарщины в суперкомпьютерах. С одной стороны, очевидно, что для достижения максимальной производительности это необходимо, но с другой – я практически лишен возможности поюзать это железо и насладиться им.
В 2022 году в мои руки попал интересный процессор - Xeon E5 2692v2, купленный на Авито за пару тысяч рублей. Процессор обладал скромной тактовой частотой 2.2 GHz, но при этом имел максимальное число ядер для этого сокета - 12 штук. Модель процессора не была опубликована на сайте Intel, так как это был OEM-вариант с оптимизированной стоимостью для частных заказчиков. Однако скажу сразу, этот процессор отлично работал на Supermicro X9 и справлялся с базовой виртуализацией.
Позже я узнал, что именно эти процессоры стояли в суперкомпьютере Tianhe-2A в 2013 году. Таким образом, мне удалось прикоснуться к части суперкомпьютера.
Мне почему-то кажется, что мы стоим на пороге некого "технологического рывка". Боюсь, что бедный кремний с размером затвора менее 1нм не получится эффективно развивать. Можно посмотреть в сторону квантовых процессоров от IBM и более детально изучить их характеристики. Я думаю IBM не просто так вкладывают огромные деньги в исследование этого направления. Современный IBM Condor насчитывает уже более 1 тыс. кубитов. Считаю потенциал есть. И сразу других типов вычислительных устройств, квантовые процессоры звучат как тот самый альтернативный путь развития микроэлектроники, который возможен на ближайшие 50 лет.
Я думаю 30 лет технологического прогресса и мощности этого шкафчика будут у вас в портативном устройстве. Не буду писать что телефоне(не уверен в развитии этого класса устройств на 30 лет вперед). Может в каком-нибудь нейроморфном чипе вживленном в ваше тело.
Это действительно похоже на мейнфремы IBM) Даже если на чипы смотреть, IBM ранее представала нечто похожее на суперчипы NVIDIA. И там уже чуть ли не в 80-е годы была заветная 1000W)))
GB200 NVL72 это безусловно круто. Но я только сейчас заметил, что 8x MI325 в OAM будут попроизводительнее H200) И памяти больше. Конечно с B200 не сравнивали, но возможно MI325X с ROCm 6.3 может пошатнуть позиции Nvidia на корпоративном рынке.
Я так понимаю ollama выбрана исходя из ее популярности. Разделяю ваш подход и вероятно нам бы не помешало повысить уровень технической подготовки под тесты.
Кстати, хочу отметить, что ServerFlow открыт к сотрудничеству и мы ищем авторов способных выполнить такие манипуляции.
На самом деле тут все совсем сложно. Дело в том что NVLink работает по числу линий. И это число линий NVLink может крайне различаться в зависимости от продукта. Видеокарты Tesla P100 были флагманами от Nvidia, поэтому там все работает на полную катушку.
А вот A5000 это бывшая Quadro и тут NVlink есть, однако в таком демо режиме)
Если делать более корректное сравнение, то за референс у Ампера надо брать A100(бывшая линейка Tesla). Вот у этой карты для линка потребуется сразу 3 мостика и их суммарная пропускная способность составит 600 гигабайт в секунду, что составляет ~40% от пропускной способности ее HBM2E памяти)
Кстати еще интересное наблюдение для любителей Putty на Windows. Если вы открыли nvtop и вместо элегантных линий вас встречает зацикленное сочетание "qqqqqq", то просто смените кодировку с UTF-8 на ISO-8859-1 во вкладке Window/Translation и внешний вид будет как в статье автора.
Putty на базе UTF-8 с несколько некорректным выводом графиков
Не смогу не отметить мою искреннюю любовь к утилитам TOP. Начиная с непосредственного опыта работы с top на базе Intel Linux, когда приходилось ковыряться с сопроцессором Xeon Phi, заканчивая htop и nvtop в повседневном использовании.
LLAMA 3.2 11B конечно круто, но хотелось бы и посерьёзнее нейронки пощупать, чтобы приблизиться к результатам лидеров рынка(онлайн варианты GPT4, копайлот), но полагаю, что тестовый стенд придется серьезно модернизировать.
По моим расчетом для запуска квантизированной LLAMA 3.2 90B в режиме FP16 потребуется примерно ~90GB видеопамяти. Если прикинуть теслами из этой статьи это всего 4x P40 24GB, однако придется "объединять" VRAM. Но в любом случае это будет интереснее чем компактные версии.
С чего вы взяли, что я решил половину страны посадить на один сервер? У половины страны есть свой парк серверов. У кого-то сервер один, а у кого-то целые группы, размещенные в различных ДЦ по всей стране для достижения лучшего аптайма. Кто-то не возится и сидит в облаке — и это тоже прекрасный выбор. Человек с облаком "решил" кучу проблем, которые стоят перед владельцем собственного железа. И, по факту, он платит за решение этих проблем и отсутствие "головной боли" с настройкой и отладкой.
Касательно китайских хостеров. С чего вы взяли, что я так считаю? Я же ни слова не написал про хостеров. Я уделил внимание Huawei и отметил, что этот бренд серверов уже перерос в высшую лигу и работает наравне с "западной" техникой. Я представляю масштабы Alibaba и четко даю себе отчет, что китайские мощности готовы дать фору многим европейским компаниям.
Вы считаете задачи по типу 1С - задачами для рабочих станций?
У нас пол страны работает на 1С и ее стабильность обеспечивает работу миллионов торговых точек. Поэтому я считаю, что 1С - строго серверная задача, которая не терпит проблемы с резервированием и т.д. Должна запускаться на серверных мощностях и гарантировать стабильную работу годами.
Конечно 1С нельзя сравнить с Cloudflare, уж очень громоздкий пример, понятно, что для работы Cloudflare нужны сотни тысяч серверов и затраты на такую инфраструктуру будут соразмерны бюджету некоторых стран.
Также не совсем понимаю ваши слова про Huawei. За эти годы Fusion Server стали полноценным конкурентом Supermicro, HPE и DELL. Да может менюшки слегка китайские, но по надежности вполне сопоставимо. Может какой Tyan или Insur надо сравнивать с китайскими хостерами, но никак не хуавей.
Мера, конечно, вынужденная, но думаю даже если бы у КНР был свободный доступ к ARM и x86, разработки собственных архитектур так или иначе начались бы - вряд ли стране захочется отстегивать лицензионные, когда есть мощности для создания собственных, независимых платформ. Тем более тут играет тот факт, что скорее всего большинство перечисленных компаний имеют серии чипов, построенные на тех же уникальных архитектурах, но подробности о которых не разглашаются ввиду принадлежности к оборонке. Так что без своих разработок, думаю, Китай бы далеко не уехал)
Тут буду выглядеть скептиком. Но я не особо видел прирост от L3 кеша в программах и корпоративных приложениях. Вот игры, это безусловно. Пора тест Гилева проводить на 9950x и 9950X3D и исследовать то как 3д кеш влият на производительность
Когда-то у меня был ThinkPad X220 на i5 2 поколения. Думаю опыт работы на коленках будет схож
Думаю релиз исходя из логики, что нужен CPU на любой кошелек. 9800X3D чисто игровым решением(8 ядер), 9950X3D уже будет пригоден для всего.
Я в лице ARM ожидал тут увидеть решения от Huawei Kunpeng 920 ну или Ampere Altra. Может быть китайский суперкомьютеры тут не учитывается. Нужно провести ресеч в этом направлении и сделать TOP500 China.
Как человеку, который всей душой любит железки, мне грустно наблюдать обилие проприетарщины в суперкомпьютерах. С одной стороны, очевидно, что для достижения максимальной производительности это необходимо, но с другой – я практически лишен возможности поюзать это железо и насладиться им.
В 2022 году в мои руки попал интересный процессор - Xeon E5 2692v2, купленный на Авито за пару тысяч рублей. Процессор обладал скромной тактовой частотой 2.2 GHz, но при этом имел максимальное число ядер для этого сокета - 12 штук. Модель процессора не была опубликована на сайте Intel, так как это был OEM-вариант с оптимизированной стоимостью для частных заказчиков. Однако скажу сразу, этот процессор отлично работал на Supermicro X9 и справлялся с базовой виртуализацией.
Позже я узнал, что именно эти процессоры стояли в суперкомпьютере Tianhe-2A в 2013 году. Таким образом, мне удалось прикоснуться к части суперкомпьютера.
Мне почему-то кажется, что мы стоим на пороге некого "технологического рывка". Боюсь, что бедный кремний с размером затвора менее 1нм не получится эффективно развивать. Можно посмотреть в сторону квантовых процессоров от IBM и более детально изучить их характеристики. Я думаю IBM не просто так вкладывают огромные деньги в исследование этого направления. Современный IBM Condor насчитывает уже более 1 тыс. кубитов. Считаю потенциал есть. И сразу других типов вычислительных устройств, квантовые процессоры звучат как тот самый альтернативный путь развития микроэлектроники, который возможен на ближайшие 50 лет.
Я думаю 30 лет технологического прогресса и мощности этого шкафчика будут у вас в портативном устройстве. Не буду писать что телефоне(не уверен в развитии этого класса устройств на 30 лет вперед). Может в каком-нибудь нейроморфном чипе вживленном в ваше тело.
Это действительно похоже на мейнфремы IBM) Даже если на чипы смотреть, IBM ранее представала нечто похожее на суперчипы NVIDIA. И там уже чуть ли не в 80-е годы была заветная 1000W)))
Можно еще в студию Артемия Лебедева такой шкафчик поставить. Думаю экспресс дизайн через "Иронова" мог бы сильно преобразиться.
GB200 NVL72 это безусловно круто. Но я только сейчас заметил, что 8x MI325 в OAM будут попроизводительнее H200) И памяти больше. Конечно с B200 не сравнивали, но возможно MI325X с ROCm 6.3 может пошатнуть позиции Nvidia на корпоративном рынке.
Я так понимаю ollama выбрана исходя из ее популярности. Разделяю ваш подход и вероятно нам бы не помешало повысить уровень технической подготовки под тесты.
Кстати, хочу отметить, что ServerFlow открыт к сотрудничеству и мы ищем авторов способных выполнить такие манипуляции.
На самом деле тут все совсем сложно. Дело в том что NVLink работает по числу линий. И это число линий NVLink может крайне различаться в зависимости от продукта. Видеокарты Tesla P100 были флагманами от Nvidia, поэтому там все работает на полную катушку.
А вот A5000 это бывшая Quadro и тут NVlink есть, однако в таком демо режиме)
Если делать более корректное сравнение, то за референс у Ампера надо брать A100(бывшая линейка Tesla). Вот у этой карты для линка потребуется сразу 3 мостика и их суммарная пропускная способность составит 600 гигабайт в секунду, что составляет ~40% от пропускной способности ее HBM2E памяти)
Кстати еще интересное наблюдение для любителей Putty на Windows. Если вы открыли nvtop и вместо элегантных линий вас встречает зацикленное сочетание "qqqqqq", то просто смените кодировку с UTF-8 на ISO-8859-1 во вкладке Window/Translation и внешний вид будет как в статье автора.
Не смогу не отметить мою искреннюю любовь к утилитам TOP. Начиная с непосредственного опыта работы с top на базе Intel Linux, когда приходилось ковыряться с сопроцессором Xeon Phi, заканчивая htop и nvtop в повседневном использовании.
LLAMA 3.2 11B конечно круто, но хотелось бы и посерьёзнее нейронки пощупать, чтобы приблизиться к результатам лидеров рынка(онлайн варианты GPT4, копайлот), но полагаю, что тестовый стенд придется серьезно модернизировать.
По моим расчетом для запуска квантизированной LLAMA 3.2 90B в режиме FP16 потребуется примерно ~90GB видеопамяти. Если прикинуть теслами из этой статьи это всего 4x P40 24GB, однако придется "объединять" VRAM. Но в любом случае это будет интереснее чем компактные версии.
Этого не утверждается в статье, о чем вы говорите
С чего вы взяли, что я решил половину страны посадить на один сервер? У половины страны есть свой парк серверов. У кого-то сервер один, а у кого-то целые группы, размещенные в различных ДЦ по всей стране для достижения лучшего аптайма. Кто-то не возится и сидит в облаке — и это тоже прекрасный выбор. Человек с облаком "решил" кучу проблем, которые стоят перед владельцем собственного железа. И, по факту, он платит за решение этих проблем и отсутствие "головной боли" с настройкой и отладкой.
Касательно китайских хостеров. С чего вы взяли, что я так считаю? Я же ни слова не написал про хостеров. Я уделил внимание Huawei и отметил, что этот бренд серверов уже перерос в высшую лигу и работает наравне с "западной" техникой. Я представляю масштабы Alibaba и четко даю себе отчет, что китайские мощности готовы дать фору многим европейским компаниям.
Естественно не без этих "облачных нюансов"
Вы считаете задачи по типу 1С - задачами для рабочих станций?
У нас пол страны работает на 1С и ее стабильность обеспечивает работу миллионов торговых точек. Поэтому я считаю, что 1С - строго серверная задача, которая не терпит проблемы с резервированием и т.д. Должна запускаться на серверных мощностях и гарантировать стабильную работу годами.
Конечно 1С нельзя сравнить с Cloudflare, уж очень громоздкий пример, понятно, что для работы Cloudflare нужны сотни тысяч серверов и затраты на такую инфраструктуру будут соразмерны бюджету некоторых стран.
Также не совсем понимаю ваши слова про Huawei. За эти годы Fusion Server стали полноценным конкурентом Supermicro, HPE и DELL. Да может менюшки слегка китайские, но по надежности вполне сопоставимо. Может какой Tyan или Insur надо сравнивать с китайскими хостерами, но никак не хуавей.