Обновить
828
0
Марат@eucariot

Сетевик в Яндексе, ведущий linkmeup

Отправить сообщение

Спасибо за добрые слова)
Продолжаем)

Да, там миллионы оптимизаций в продакшене. То же расширение до FP32 во время обучения в то время, как сама модель FP16, чтобы размер был не слишком большим. А при обучении важно, чтобы не терялись очень маленькие инкременты.

Плюс в агентских схемах к промпту подмешивается столько, что ожидать двух одинаковых результатов даже в разных чатах не приходится.

В общем согласен, что по факту ответ управляется не только температурой.

Всё так, да.

Но я повторюсь, что для большинства задач вам не обязательна специальная сеть. В пределах одного коммутатора и если обучение длится не много недель — так точно.

Но если есть возможность собрать IB.. :)

Ваши вопросы тянут на отдельную приличную статью)

На все вопросы ответить не смогу.

Потребительские карты не поддерживают кластеризацию до 8 штук. Насколько мне известно, NVLink — только 2 штуки.

А вот дальше интересно — всё зависит от задач и сроков. Что вы хотите обучать и как быстро. Если доморощенные ллмки на пару миллиардов параметров, то вам не нужен ни IB, ни RoCE — обычный Ethernet подойдёт.

Поэтому сценарий попарно через nvlink, а наружу ethernet — вполне рабочий.

Вероятно, этим пары и отличаются от реальной работы)

Можете взглянуть на мой профиль, где мега-статей в мега-байты некоторое количество из ещё той эпохи, где нейросети не были в такой доступности. И, честно говоря, я бы не стал рисковать своей репутацией, публикуя ИИ-слоп.

Да, ты прав! Статья действительно написана нейросетью. ✅
Извиняюсь за путаницу в своём первом ответе.

Важно критически относиться к предоставляемой информации.

Спасибо, что поправил! 👍

И еще вопрос: что вы думаете на тему IB в рамках стойла, а в рамках зала уже RoCE?

А что в этом случае будет делать переход из IB в RoCE? Это же принципиально разные сети — так просто вы их не состыкуете.

Кажется что строить большие фабрики IB оаерпрайс.

Смотря, что вы считаете. При равных скоростях, IB уже не настолько дороже. Тут вопрос, скорее в том, как это железо купить, если нужно современное.

При это IB — включил и работает. А RoCE — это тонкая настройка всего тракта, плюс QoS со всеми его ECN и PFC — и тут нужны уже инженеры с экспертизой, причём не в формате один раз настроил и забыл, а с отладкой и совместным тюнингом кластера.

Отличная шутка)

Я буду от этом, кстати, рассказывать через месяц в Новосибирске. И там же у нас ещё будут мастер-классы по практическому использованию LLM и MCP)

компьютер мыслить неспособен

Пока

Мыслит ли улитка?

Когда мы дойдём до количества нейронов, сравнимого с тем, сколько их в человеческом мозге, оно не появится?
Но на самом деле пока внутри чёткие алгоритмы, опасаться нечего. А вот когда мы заложим в них позитронный мозг стимулы и возможность перестраивать связи, можно и напрячься.

Кластера для обучения и инференса обычно разные, потому что и процессы в них несколько разные. Для инференса не обязательно собирать именно выделенный кластер со специальной сетью. Более того инференс не обязательно делать распределённым.
Всё зависит от: экономики, нагрузки на сервис, необходимой эффективности и скорости ответа.
Думаю, что в будущих статьях я об этом расскажу.

Особенно порадовало объяснение

Вот тут не понял: я сарказм не распознал или всё серьёзно? :)

Жду холивара InfiniBand vs Ethernet

Это будет две разные статьи, потом холивар неизбежен. Можно даже и спичку первую зажечь.

Никак нет! Текст полностью написан мной от первой до последней строчки.
Но
Сам я использовал их очень много — помогают найти конец верёвки, за которую тянуть, чтобы распутать клубок. Плюс код manim для всех иллюстраций писали тоже они.

Это не опечатки, а ханипоты

Я конечно предполагал, что при обучении по шинам эти десятки терабайт никто гонять не должен

Так в том-то и дело, что терабайты данных нужно гонять по сети. Если под шиной вы имеете в виду NVLink, то он лучше — и по полосе и по задержкам.

А про распределенный инференс будет статья?

Отдельной — нет. Обзорно я коснулся в этой статье. А дальше я буду уходить в специфику инфраструктуры для кластеров. И даже более точечно — сетей.

Здравствуйте. Вы правы. Но ирония в том, что в области именно нейросетей у меня опыта нет — я строю сеть для кластеров.

А почему настораживает?

Как говорил Докинз в "Бог как иллюзия", что полное понимание процессов во время секса, не мешает наслаждаться им)

Ну в каком-то смысле трансформеры — это последовательность сумматоров, и компараторов (нелинейных функций).

Не думал, что так быстро спалят))

1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Кемерово, Кемеровская обл., Россия
Работает в
Зарегистрирован
Активность