Да, там миллионы оптимизаций в продакшене. То же расширение до FP32 во время обучения в то время, как сама модель FP16, чтобы размер был не слишком большим. А при обучении важно, чтобы не терялись очень маленькие инкременты.
Плюс в агентских схемах к промпту подмешивается столько, что ожидать двух одинаковых результатов даже в разных чатах не приходится.
В общем согласен, что по факту ответ управляется не только температурой.
Но я повторюсь, что для большинства задач вам не обязательна специальная сеть. В пределах одного коммутатора и если обучение длится не много недель — так точно.
Потребительские карты не поддерживают кластеризацию до 8 штук. Насколько мне известно, NVLink — только 2 штуки.
А вот дальше интересно — всё зависит от задач и сроков. Что вы хотите обучать и как быстро. Если доморощенные ллмки на пару миллиардов параметров, то вам не нужен ни IB, ни RoCE — обычный Ethernet подойдёт.
Поэтому сценарий попарно через nvlink, а наружу ethernet — вполне рабочий.
Можете взглянуть на мой профиль, где мега-статей в мега-байты некоторое количество из ещё той эпохи, где нейросети не были в такой доступности. И, честно говоря, я бы не стал рисковать своей репутацией, публикуя ИИ-слоп.
И еще вопрос: что вы думаете на тему IB в рамках стойла, а в рамках зала уже RoCE?
А что в этом случае будет делать переход из IB в RoCE? Это же принципиально разные сети — так просто вы их не состыкуете.
Кажется что строить большие фабрики IB оаерпрайс.
Смотря, что вы считаете. При равных скоростях, IB уже не настолько дороже. Тут вопрос, скорее в том, как это железо купить, если нужно современное.
При это IB — включил и работает. А RoCE — это тонкая настройка всего тракта, плюс QoS со всеми его ECN и PFC — и тут нужны уже инженеры с экспертизой, причём не в формате один раз настроил и забыл, а с отладкой и совместным тюнингом кластера.
Когда мы дойдём до количества нейронов, сравнимого с тем, сколько их в человеческом мозге, оно не появится? Но на самом деле пока внутри чёткие алгоритмы, опасаться нечего. А вот когда мы заложим в них позитронный мозг стимулы и возможность перестраивать связи, можно и напрячься.
Кластера для обучения и инференса обычно разные, потому что и процессы в них несколько разные. Для инференса не обязательно собирать именно выделенный кластер со специальной сетью. Более того инференс не обязательно делать распределённым. Всё зависит от: экономики, нагрузки на сервис, необходимой эффективности и скорости ответа. Думаю, что в будущих статьях я об этом расскажу.
Никак нет! Текст полностью написан мной от первой до последней строчки. Но Сам я использовал их очень много — помогают найти конец верёвки, за которую тянуть, чтобы распутать клубок. Плюс код manim для всех иллюстраций писали тоже они.
Спасибо за добрые слова)
Продолжаем)
Да, там миллионы оптимизаций в продакшене. То же расширение до FP32 во время обучения в то время, как сама модель FP16, чтобы размер был не слишком большим. А при обучении важно, чтобы не терялись очень маленькие инкременты.
Плюс в агентских схемах к промпту подмешивается столько, что ожидать двух одинаковых результатов даже в разных чатах не приходится.
В общем согласен, что по факту ответ управляется не только температурой.
Всё так, да.
Но я повторюсь, что для большинства задач вам не обязательна специальная сеть. В пределах одного коммутатора и если обучение длится не много недель — так точно.
Но если есть возможность собрать IB.. :)
Ваши вопросы тянут на отдельную приличную статью)
На все вопросы ответить не смогу.
Потребительские карты не поддерживают кластеризацию до 8 штук. Насколько мне известно, NVLink — только 2 штуки.
А вот дальше интересно — всё зависит от задач и сроков. Что вы хотите обучать и как быстро. Если доморощенные ллмки на пару миллиардов параметров, то вам не нужен ни IB, ни RoCE — обычный Ethernet подойдёт.
Поэтому сценарий попарно через nvlink, а наружу ethernet — вполне рабочий.
Вероятно, этим пары и отличаются от реальной работы)
Можете взглянуть на мой профиль, где мега-статей в мега-байты некоторое количество из ещё той эпохи, где нейросети не были в такой доступности. И, честно говоря, я бы не стал рисковать своей репутацией, публикуя ИИ-слоп.
Да, ты прав! Статья действительно написана нейросетью. ✅
Извиняюсь за путаницу в своём первом ответе.
Важно критически относиться к предоставляемой информации.
Спасибо, что поправил! 👍
А что в этом случае будет делать переход из IB в RoCE? Это же принципиально разные сети — так просто вы их не состыкуете.
Смотря, что вы считаете. При равных скоростях, IB уже не настолько дороже. Тут вопрос, скорее в том, как это железо купить, если нужно современное.
При это IB — включил и работает. А RoCE — это тонкая настройка всего тракта, плюс QoS со всеми его ECN и PFC — и тут нужны уже инженеры с экспертизой, причём не в формате один раз настроил и забыл, а с отладкой и совместным тюнингом кластера.
Отличная шутка)
Я буду от этом, кстати, рассказывать через месяц в Новосибирске. И там же у нас ещё будут мастер-классы по практическому использованию LLM и MCP)
Пока
Мыслит ли улитка?
Когда мы дойдём до количества нейронов, сравнимого с тем, сколько их в человеческом мозге, оно не появится?
Но на самом деле пока внутри чёткие алгоритмы, опасаться нечего. А вот когда мы заложим в них
позитронный мозгстимулы и возможность перестраивать связи, можно и напрячься.Кластера для обучения и инференса обычно разные, потому что и процессы в них несколько разные. Для инференса не обязательно собирать именно выделенный кластер со специальной сетью. Более того инференс не обязательно делать распределённым.
Всё зависит от: экономики, нагрузки на сервис, необходимой эффективности и скорости ответа.
Думаю, что в будущих статьях я об этом расскажу.
Вот тут не понял: я сарказм не распознал или всё серьёзно? :)
Это будет две разные статьи, потом холивар неизбежен. Можно даже и спичку первую зажечь.
Никак нет! Текст полностью написан мной от первой до последней строчки.
Но
Сам я использовал их очень много — помогают найти конец верёвки, за которую тянуть, чтобы распутать клубок. Плюс код manim для всех иллюстраций писали тоже они.
Это не опечатки, а ханипоты
Так в том-то и дело, что терабайты данных нужно гонять по сети. Если под шиной вы имеете в виду NVLink, то он лучше — и по полосе и по задержкам.
Отдельной — нет. Обзорно я коснулся в этой статье. А дальше я буду уходить в специфику инфраструктуры для кластеров. И даже более точечно — сетей.
Здравствуйте. Вы правы. Но ирония в том, что в области именно нейросетей у меня опыта нет — я строю сеть для кластеров.
А почему настораживает?
Как говорил Докинз в "Бог как иллюзия", что полное понимание процессов во время секса, не мешает наслаждаться им)
Ну в каком-то смысле трансформеры — это последовательность сумматоров, и компараторов (нелинейных функций).
Не думал, что так быстро спалят))