Комментарии 4
Она делится и размышляет над методом обучения
Попахивает машинным переводом.
Полностью согласен. Например, "Если вам показалось, что для понимания этого поста вам нужна более фундаментальная информация...". Этот фрагмент даже Хром из коробки отрабатывает лучше "Если вам нужна дополнительная базовая информация для понимания этой статьи...". Рекомендую Технократии сменить автопереводчик 🙂
Ну и туда же: "должны быть основные интуитивные представления", "возможность превосходить не только в рассуждениях, но и в других типах задач.", "На иллюстрации из двенадцатой главы" и т.п.
Сами создатели DeepSeek пишут, что их ключевая инновация заключается в следующем.
Есть принцип разбиения нейросети на отдельных "экспертов" (MoE), каждый из которых обрабатывает только токены определенного типа. Это позволяет задействовать только часть вычислительных мощностей, что приводит к экономии. Проблема этого подхода в том, что многие токены подходят для нескольких специализаций, в результате "эксперты" начинают дублировать друг друга и особого выигрыша нет. А если "экспертов" жестко изолировать, то система остается глупой.
Но создатели, во-первых, используют гораздо больше "экспертов" чем делалось ранее, а сами "эксперты" мельче. Во-вторых, они помимо обычных применяют специализированные "эксперты", которые собирают "общие знания" - т.е. знания, которые при обычном подходе попадают сразу к нескольким "экспертам". (With a conventional routing strategy, tokens assigned to different experts may necessitate some common knowledge or information. As a result, multiple experts may converge in acquiring shared knowledge in their respective parameters, thereby resulting in redundancy in expert parameters. However, if there are shared experts dedicated to capturing and consolidating common knowledge across varying contexts )
В результате система остается фрагментированной (т.е. при обработке каждого токена используется лишь небольшая часть мощности), но одновременно умной.
Не уверен, что корректно изложил, но явно ключевое - это "эксперты".
Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах