Search
Write a publication
Pull to refresh

Kimi-K2

Level of difficultyEasy
Reading time14 min
Views5.2K

😎 Π‘Π»Π΅Π΄ΡƒΠΉ Π·Π° Π±Π΅Π»Ρ‹ΠΌ ΠΊΡ€ΠΎΠ»ΠΈΠΊΠΎΠΌ πŸ’Š

πŸ“Œ TelegramΒ @TheWeeklyBriefΒ β€” ΠΊΡ€Π°Ρ‚ΠΊΠΈΠ΅ ΠΎΠ±Π·ΠΎΡ€Ρ‹ ΠΈ подкасты πŸ“°πŸŽ§πŸ‡

πŸ“ŒΒ GitHub PagesΒ β€” ΡƒΠ³Π»ΡƒΠ±Π»Ρ‘Π½Π½Ρ‹ΠΉ Ρ€Π°Π·Π±ΠΎΡ€ статСй, ныряСм Π² ΠΊΡ€ΠΎΠ»ΠΈΡ‡ΡŒΡŽ Π½ΠΎΡ€Ρƒ πŸ“πŸ’»πŸΎ

Figure_0
Π’ΠΈΠΌΠΌΠΈ πŸ˜…

Π’Π²Π΅Π΄Π΅Π½ΠΈΠ΅

Π‘ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ большиС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ (LLM) стали ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌ инструмСнтом Π² самых Ρ€Π°Π·Π½Ρ‹Ρ… областях β€” ΠΎΡ‚ автоматичСской Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ тСкста ΠΈ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π° Π΄ΠΎ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… Π°Π³Π΅Π½Ρ‚ΠΎΠ², способных Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ слоТныС Π·Π°Π΄Π°Ρ‡ΠΈ. Π‘ ростом ΠΎΠ±ΡŠΡ‘ΠΌΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈ числа Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² прСдобучСния ΠΌΡ‹ наблюдаСм качСствСнный скачок Π² способностях ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ: ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ понимания контСкста, точности Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ ΡƒΠΌΠ΅Π½ΠΈΠΉ Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ узкоспСциализированныС Π·Π°Π΄Π°Ρ‡ΠΈ.

МодСль Kimi-K2, разработанная Moonshot AI, прСдставляСт собой ΠΎΠ΄ΠΈΠ½ ΠΈΠ· самых Π°ΠΌΠ±ΠΈΡ†ΠΈΠΎΠ·Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΠ² Π² экосистСмС ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… LLM. Она ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ Mixture-of-Experts (MoE) ΠΈ насчитываСт Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΏΡ€ΠΈ этом благодаря «разряТСнной» Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ задСйствуСт для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π° лишь порядка 32 ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄ΠΎΠ² ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². Kimi-K2 сочСтаСт Π² сСбС ΠΏΠ΅Ρ€Π΅Π΄ΠΎΠ²Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ внимания для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ свСрхдлинных контСкстов (Π΄ΠΎ 128 тысяч Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²), ΠΈΠ½Π½ΠΎΠ²Π°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΉ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ MuonClip для ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΠ³ΠΎ ΠΈ эффСктивного обучСния Π½Π° ΠΏΠΎΡ‚Ρ€ΡΡΠ°ΡŽΡ‰Π΅ΠΌ ΠΎΠ±ΡŠΡ‘ΠΌΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… (15,5 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²), Π° Ρ‚Π°ΠΊΠΆΠ΅ комплСксный пост-Ρ‚ΡŽΠ½ΠΈΠ½Π³ для прСвращСния Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ, Π°Π³Π΅Π½Ρ‚Π½ΠΎ-ΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ ассистСнта.

Π’ этом ΠΎΠ±Π·ΠΎΡ€Π΅ ΠΌΡ‹ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎ рассмотрим:

  1. АрхитСктуру Kimi-K2 β€” ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΡ‹ Ρ€Π°Π±ΠΎΡ‚Ρ‹ MoE, ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ° внимания, ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΈ ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Π½Ρ‹Π΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ для ускорСния инфСрСнса.

  2. ΠŸΡ€ΠΎΡ†Π΅ΡΡ обучСния модСли β€” ΠΏΡ€Π΅Π΄ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠΌ корпусС Π΄Π°Π½Π½Ρ‹Ρ…, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Π΅ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Ρ‹ ΠΈ Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ распрСдСлённого обучСния, Π° Ρ‚Π°ΠΊΠΆΠ΅ этапы fine-tuning ΠΈ RL-подкрСплСния для формирования Β«agenticΒ»-возмоТностСй.

  3. ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΈ сравнСниС с ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΠΌΠΈ вСрсиями ΠΈ Π»ΠΈΠ΄Π΅Ρ€Π°ΠΌΠΈ отрасли β€” Π½Π° акадСмичСских Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ°Ρ…, Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… программирования ΠΈ Π°Π³Π΅Π½Ρ‚Π½Ρ‹Ρ… сцСнариях.

АрхитСктура ΠΌΠΎΠ΄Π΅Π»ΠΈ Kimi-K2

ΠžΠ±Ρ‰ΠΈΠ΅ характСристики:

Kimi-K2 – это крупная языковая модСль с Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉΒ Mixture-of-ExpertsΒ (MoE), ΠΏΡ€ΠΎ MoE ΠΌΡ‹ ΠΊΠ°ΠΊ-Ρ‚ΠΎ писали Π²ΠΎΡ‚Β Ρ‚ΡƒΡ‚. ΠžΠ±Ρ‰ΠΈΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ составляСт 1 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΎΠ΄Π½Π°ΠΊΠΎ Π² ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Π°ΠΊΡ‚ΠΈΠ²Π½Π° лишь ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎΒ 32 ΠΌΠ»Ρ€Π΄ парамСтров – Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ нСбольшая Ρ‡Π°ΡΡ‚ΡŒ вСсов участвуСт Π² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π°. МодСль содСрТит 61 трансформСр-слой (ΠΈΠ· Π½ΠΈΡ… ΠΎΠ΄ΠΈΠ½ – Β«ΠΏΠ»ΠΎΡ‚Π½Ρ‹ΠΉΒ», Π±Π΅Π· разбиСния Π½Π° экспСртов). Π Π°Π·ΠΌΠ΅Ρ€ скрытых прСдставлСний (эмбСддингов) Ρ€Π°Π²Π΅Π½Β 7168, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡΒ 64 Π³ΠΎΠ»ΠΎΠ²Ρ‹ внимания. Π‘Π»ΠΎΠ²Π°Ρ€Π½Ρ‹ΠΉ запас – 160kΒ Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², Π° максимальная Π΄Π»ΠΈΠ½Π° контСкста ΠΌΠΎΠ΄Π΅Π»ΠΈ – 128k Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². МодСль являСтся Π°Π²Ρ‚ΠΎ-рСгрСссионным Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€ΠΎΠΌ (Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ GPT) – Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΠ΅Ρ‚ тСкст, ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ прСдсказывая ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ Ρ‚ΠΎΠΊΠ΅Π½ Π½Π° основС ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ….

Figure_01
MoE Π½Π° Π±Π°Π·Π΅ DeepSeek V3 (Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΡŽΡ‚ родство)

Mixture-of-Experts:

Π’ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ слоС трансформСра, Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½ΠΎΠΌ ΠΊΠ°ΠΊ MoE, присутствуСт 384 ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… экспСрта (спСциализированных подсСтСй-MLP). Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ токСна динамичСский ΠΌΠ°Ρ€ΡˆΡ€ΡƒΡ‚ΠΈΠ·Π°Ρ‚ΠΎΡ€Β (gating) Π²Ρ‹Π±ΠΈΡ€Π°Π΅Ρ‚Β Ρ‚ΠΎΠΏ-8 экспСртов из этих 384, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½Ρ‹ для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π°, плюс ΠΎΠ΄ΠΈΠ½ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉΒ ΠΎΠ±Ρ‰ΠΈΠΉ экспСрт, Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ всСгда. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π½Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‚ΠΎΠΊΠ΅Π½ приходится вычислСниС ΠΏΠΎ 9 экспСртным подсСтям (8 Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹Ρ… + 1 ΠΎΠ±Ρ‰ΠΈΠΉ), Ρ‡Ρ‚ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π±Π΅Π· Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ³ΠΎ роста вычислСний. НСнуТныС экспСрты ΠΎΡΡ‚Π°ΡŽΡ‚ΡΡ «спящими», благодаря Ρ‡Π΅ΠΌΡƒ достигаСтся ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹ΠΉ ΠΎΠ±Ρ‰ΠΈΠΉ ΠΎΠ±ΡŠΡ‘ΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² (1T) ΠΏΡ€ΠΈ ΠΏΡ€ΠΈΠ΅ΠΌΠ»Π΅ΠΌΡ‹Ρ… Π·Π°Ρ‚Ρ€Π°Ρ‚Π°Ρ… Π½Π° Π²Ρ‹Π²ΠΎΠ΄ (Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎ 32B). ΠœΠ°Ρ€ΡˆΡ€ΡƒΡ‚ΠΈΠ·Π°Ρ†ΠΈΡ выполняСтся ΠΏΠΎ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΡƒΒ top-kΒ (Π² Kimi-K2 Π²Ρ‹Π±Ρ€Π°Π½ΠΎ k=8), вСроятно с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠΎΠ² top-2 ΠΈΠ»ΠΈ top-8 gating, Ρ‡Ρ‚ΠΎ позволяСт ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ Ρ‚ΠΎΠΊΠ΅Π½Ρƒ ΠΏΠΎΠ»ΡƒΡ‡Π°Ρ‚ΡŒ ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡŽ ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… Β«ΠΌΠ½Π΅Π½ΠΈΠΉΒ» экспСртов вмСсто ΠΎΠ΄Π½ΠΎΠ³ΠΎ. НаличиС Π΅Π΄ΠΈΠ½ΠΎΠ³ΠΎΒ shared (ΠΎΠ±Ρ‰Π΅Π³ΠΎ) экспСрта, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ участвуСт всСгда, слуТит для ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ устойчивости ΠΈ Π±Π°Π·ΠΎΠ²ΠΎΠ³ΠΎ качСства – этот элСмСнт обСспСчиваСт, Ρ‡Ρ‚ΠΎ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ слоС присутствуСт ΠΎΠ΄Π½Π° общая плотная ΠΏΠΎΠ΄ΡΠ΅Ρ‚ΡŒ, Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‰Π°Ρ узкоспСциализированных экспСртов. Активация Ρ‚ΠΎΠ»ΡŒΠΊΠΎ части подсСтСй (sparse activation) экономит вычислСния: Π½Π΅ всС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΡƒΡ‡Π°ΡΡ‚Π²ΡƒΡŽΡ‚ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΠΏΡ€ΠΎΡ…ΠΎΠ΄Π΅, Π° Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ для Ρ‚Π΅ΠΊΡƒΡ‰Π΅Π³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π°.

ΠœΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹ внимания:

МодСль ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ самовнимания, ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ для Π΄Π»ΠΈΠ½Π½ΠΎΠ³ΠΎ контСкста. Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, количСство Π³ΠΎΠ»ΠΎΠ² Π²Π½ΠΈΠΌΠ°Π½ΠΈΡΒ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΎΒ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ со стандартными трансформСрами – Kimi-K2 ΠΈΠΌΠ΅Π΅Ρ‚ 64 Π³ΠΎΠ»ΠΎΠ²Ρ‹ Π½Π° слой ΠΏΡ€ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Π΅ эмбСддинга 7168 (Ρ‡Ρ‚ΠΎ Π΄Π°Ρ‘Ρ‚ Π½Π΅Ρ‚ΠΈΠΏΠΈΡ‡Π½Ρ‹ΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΏΡ€ΠΎΠ΅ΠΊΡ†ΠΈΠΈ ~112 Π½Π° Π³ΠΎΠ»ΠΎΠ²Ρƒ). Π‘ΠΎΠ»Π΅Π΅ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Π΅ Π³ΠΎΠ»ΠΎΠ²Ρ‹ Π² мСньшСм количСствС ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ расчёты внимания Π±ΠΎΠ»Π΅Π΅ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½Ρ‹ΠΌΠΈ Π½Π° Π±ΠΎΠ»ΡŒΡˆΠΈΡ… Π΄Π»ΠΈΠ½Π°Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ. Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, заимствованный ΠΌΠ΅Ρ‚ΠΎΠ΄Β Multi-HeadΒ LatentΒ Attention (MLA) – Β«ΠΌΠ½ΠΎΠ³ΠΎΠ³ΠΎΠ»ΠΎΠ²ΠΎΠ΅ Π»Π°Ρ‚Π΅Π½Ρ‚Π½ΠΎΠ΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅Β», ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π±Ρ‹Π» Π²ΠΏΠ΅Ρ€Π²Ρ‹Π΅ продСмонстрирован Ρƒ DeepSeek V3, ΠΎΠ± этом ΠΌΡ‹ максимально ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎ писали тут. Π­Ρ‚ΠΎΡ‚ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Ρ€Π°Π΄ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎ сниТаСт трСбования ΠΊ памяти ΠΈ вычислСниям ΠΏΡ€ΠΈ Ρ€Π°Π±ΠΎΡ‚Π΅ с Π΄Π»ΠΈΠ½Π½Ρ‹ΠΌ контСкстом. Π’ Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠΌ ΠΌΠ½ΠΎΠ³ΠΎΠ³ΠΎΠ»ΠΎΠ²ΠΎΠΌ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠΈ трСбуСтся Ρ…Ρ€Π°Π½ΠΈΡ‚ΡŒ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ‚ΠΎΠΊΠ΅Π½Π° большиС ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΊΠ»ΡŽΡ‡Π΅ΠΉ ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ (Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΎΠΏΠΎΡ€Ρ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Π° числу Π³ΠΎΠ»ΠΎΠ² ΠΈ ΠΈΡ… размСрности). Π’ MLA ΠΆΠ΅ каТдая позиция Π² контСкстС сохраняСтся Π² видС компрСссированного Π»Π°Ρ‚Π΅Π½Ρ‚Π½ΠΎΠ³ΠΎ вСктора фиксированной размСрности (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ~512-576 ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ) нСзависимо ΠΎΡ‚ числа Π³ΠΎΠ»ΠΎΠ². По сути, ΠΊΠ»ΡŽΡ‡ΠΈ/значСния Π½Π΅ хранятся Ρ€Π°Π·Π΄Π΅Π»ΡŒΠ½ΠΎ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π³ΠΎΠ»ΠΎΠ²Ρ‹, Π° ΡΠΆΠΈΠΌΠ°ΡŽΡ‚ΡΡ Π² ΠΎΠ±Ρ‰Π΅Π΅ прСдставлСниС; Π·Π°Ρ‚Π΅ΠΌ Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉΒ query-Π²Π΅ΠΊΡ‚ΠΎΡ€ проСцируСтся Π² это сТатоС пространство для вычислСния скалярных вСсов внимания, ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ проСцируСтся ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎ. Π’Π°ΠΊΠΎΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ позволяСт ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ ΠΎΠ±ΡŠΡ‘ΠΌ кСша ΠΊΠ»ΡŽΡ‡Π΅ΠΉ/Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉΒ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Π² 60 Ρ€Π°Π· ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с ΠΎΠ±Ρ‹Ρ‡Π½Ρ‹ΠΌ MHAΒ ΠΈ Π² ~12 Ρ€Π°Π· ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ΠΌ (GQA), Ρ‡Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ ΠΏΡ€Π°ΠΊΡ‚ΠΈΡ‡Π½Ρ‹ΠΌ использованиС контСкста Π² 128k Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π±Π΅Π· пСрСполнСния памяти. НСсмотря Π½Π° Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΎΠ΅ΠΊΡ†ΠΈΠΈ, общая ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ вычислСний внимания Π½Π° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡΡ… сущСствСнно ΠΏΠ°Π΄Π°Π΅Ρ‚ – расчёты для обновлСния KV-кСша ΠΈ для шага внимания Π² MLA Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ Π½Π° порядки мСньшС FLOPs ΠΈ ΠΎΠ±ΡŠΡ‘ΠΌΠ° памяти, Ρ‡Π΅ΠΌ Π² стандартном случаС.

Для Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ внимания Π² Ρ‚Π°ΠΊΠΎΠΌ ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠΌ контСкстС Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈΒ FlashAttention – высокоэффСктивный слитный GPU-Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ вычислСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ† внимания. Π’ публикациях отмСчаСтся, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈ Π°Π²Ρ‚ΠΎ-рСгрСссии (Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ Ρ‚ΠΎΠΊΠ΅Π½Ρƒ) MLA интСгрируСтся с FlashAttention-ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹ΠΌ ядром для этапов ΠΌΠ°Ρ‚Ρ€ΠΈΡ‡Π½ΠΎΠ³ΠΎ умноТСния QKΒ ΠΈΒ AV, выполняя ΠΈΡ… Π² Ρ‚.Π½. Β«Ρ‚Π°ΠΉΠ»Π°Ρ…Β» для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, Kimi-K2 ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚Β Ρ€ΠΎΡ‚Π°Ρ€ΠΈ ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ эмбСддинги (RoPE) для кодирования полоТСния Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π² ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ. Благодаря Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ΅Β RoPE scalingΒ (Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΌΡƒ ΠΈΠ»ΠΈ динамичСскому ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ шага Ρ„Π°Π·ΠΎΠ²ΠΎΠΉ Ρ€ΠΎΡ‚Π°Ρ€ΠΈ-Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ) модСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ ΡƒΠ΄Π»ΠΈΠ½Ρ‘Π½Π½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ контСкста Π±Π΅Π· ΠΏΠΎΡ‚Π΅Ρ€ΠΈ способности Ρ€Π°Π·Π»ΠΈΡ‡Π°Ρ‚ΡŒ Π±Π»ΠΈΠ·ΠΊΠΈΠ΅ ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ. НаконСц, Π² проСкциях внимания нС ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ смСщСния (bias), ΠΈ вСроятно ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Ρ‘Π½ dropout Π² слоях внимания – эти упрощСния часто ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ Π² ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… LLM для экономии ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ. Π’ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… функциях модСль задСйствуСт SwiGLUΒ (Swish + Gated Linear Unit) Π² ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎ-нСзависимых MLP слоёв – эта функция Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ Π΄ΠΎΠΊΠ°Π·Π°Π»Π° ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ Π² Π±ΠΎΠ»ΡŒΡˆΠΈΡ… трансформСрах (ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΠ»Π°ΡΡŒ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π² PaLM).

ΠŸΡ€ΠΎΡ†Π΅ΡΡ обучСния

ДатасСты ΠΈ ΠΎΠ±ΡŠΡ‘ΠΌΡ‹ Π΄Π°Π½Π½Ρ‹Ρ…:

Kimi-K2 ΠΎΠ±ΡƒΡ‡Π΅Π½Π° Π½Π°Β ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠΌ корпусС тСкстовых Π΄Π°Π½Π½Ρ‹Ρ…Β ΠΎΠ±ΡŠΡ‘ΠΌΠΎΠΌΒ 15,5 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² токСнов – это ΠΎΠ΄ΠΈΠ½ ΠΈΠ· самых Π±ΠΎΠ»ΡŒΡˆΠΈΡ… датасСтов, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½Π½Ρ‹Ρ… для обучСния LLM Π½Π° сСгодняшний дСнь. По сути модСль Β«ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Π»Π°Β» практичСски вСсь доступный ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚-ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚ (Π²ΠΊΠ»ΡŽΡ‡Π°Ρ мноТСство источников Π½Π° английском, китайском ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΡ… языках, ΠΊΠΎΠ΄ΠΎΠ²Ρ‹Π΅ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ, Π½Π°ΡƒΡ‡Π½Ρ‹Π΅ тСксты ΠΈ ΠΏΡ€.) ΠΌΠ½ΠΎΠ³ΠΎΠΊΡ€Π°Ρ‚Π½ΠΎ. Вакая Π·Π°Π΄Π°Ρ‡Π° обучСния заставляСт модСль Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΠ±ΠΎΠ±Ρ‰Ρ‘Π½Π½ΠΎΠ΅ прСдставлСниС ΠΎ языкС ΠΈ знаниях, содСрТащихся Π² Π΄Π°Π½Π½Ρ‹Ρ…. ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ Π½Π° ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡΡ… с ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ Π΄Π»ΠΈΠ½ΠΎΠΉ ΠΈ, вСроятно, с ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ΠΌ максимальной Π΄Π»ΠΈΠ½Ρ‹ контСкста ΠΏΠΎ ΠΌΠ΅Ρ€Π΅ обучСния (Ρ‡Ρ‚ΠΎΠ±Ρ‹ эффСктивно Π·Π°Π΄Π΅ΠΉΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ 128k контСкст ΠΊ ΠΊΠΎΠ½Ρ†Ρƒ обучСния). Π’ состав ΠΏΡ€Π΅Π΄ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ корпуса вошли тСксты Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹Ρ… Π΄ΠΎΠΌΠ΅Π½ΠΎΠ²: ΠΎΡ‚ энциклопСдий ΠΈ новостСй Π΄ΠΎ ΠΊΠΎΠ΄Π° ΠΈ матСматичСских Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ. ΠžΡΠΎΠ±Ρ‹ΠΉ ΡƒΠΏΠΎΡ€, судя ΠΏΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ, дСлался Π½Π° Π΄Π°Π½Π½Ρ‹Π΅ для программирования ΠΈ матСматичСскиС Π·Π°Π΄Π°Ρ‡ΠΈ – модСль дСмонстрируСт Π²Ρ‹Π΄Π°ΡŽΡ‰ΠΈΠ΅ΡΡ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π² ΠΊΠΎΠ΄ΠΈΠ½Π³Π΅ ΠΈ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅, Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π±Π΅Π½Ρ‡ΠΎΠ² Π±ΡƒΠ΄ΡƒΡ‚ Ρ‡ΡƒΡ‚ΡŒ Π½ΠΈΠΆΠ΅.

ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ Muon ΠΈ Π΅Π³ΠΎ ограничСния

Muon β€” это Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ, основанный Π½Π° ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠ°Ρ… ΠΎΡ€Ρ‚ΠΎΠ³ΠΎΠ½Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†, Π² частности, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‰ΠΈΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΡŽ ΠΡŒΡŽΡ‚ΠΎΠ½Π°-Π¨ΡƒΠ»ΡŒΡ†Π° для ΠΎΡ€Ρ‚ΠΎΠ³ΠΎΠ½Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΠ°Ρ‚Ρ€ΠΈΡ† Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ². Основная идСя Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² ΠΏΠΎΠΎΡ‰Ρ€Π΅Π½ΠΈΠΈ Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹Ρ… Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΉ обновлСния, прСдотвращая коллапс вСсовых ΠΌΠ°Ρ‚Ρ€ΠΈΡ† Π² Π½ΠΈΠ·ΠΊΠΎΡ€Π°Π½Π³ΠΎΠ²Ρ‹Π΅ структуры, Ρ‡Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡ΠΈΠ²Π°Ρ‚ΡŒ Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Π˜ΡΡ…ΠΎΠ΄Π½Ρ‹ΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Muon примСняСт ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅Π΅ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ обновлСния:

Image_01
Muon

ΠžΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΡ Muon

ΠŸΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌΠΎΡΡ‚ΠΈ Π² исходной вСрсии

  • Π˜Π·Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎ Muon дСмонстрировал Ρ…ΠΎΡ€ΠΎΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° ΠΌΠ°Π»Ρ‹Ρ… модСлях, Π½ΠΎ Π΅Π³ΠΎ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π½Π° ΠΊΡ€ΡƒΠΏΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ (с ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π°ΠΌΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²) ΠΎΡΡ‚Π°Π²Π°Π»Π°ΡΡŒ ΠΏΠΎΠ΄ вопросом.

ΠΠ΅ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π»ΠΎΠ³ΠΈΡ‚ΠΎΠ² внимания Π² MoE-модСлях

  • Muon, оптимизируя ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΏΡ€ΠΎΠ΅ΠΊΡ†ΠΈΠΉ Query ΠΈ Key, ΠΌΠΎΠ³ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ вСса с аномально большими значСниями, особСнно Π½Π° ΠΏΠΎΠ·Π΄Π½ΠΈΡ… этапах обучСния. Π­Ρ‚ΠΎ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΠ»ΠΎ ΠΊ Π²Π·Ρ€Ρ‹Π²Π½Ρ‹ΠΌ Π»ΠΎΠ³ΠΈΡ‚Π°ΠΌ внимания (Π΄ΠΎ 10³–10⁡), Ρ‡Ρ‚ΠΎ Π»ΠΎΠΌΠ°Π»ΠΎ softmax ΠΈ Π²Ρ‹Π·Ρ‹Π²Π°Π»ΠΎ Π΄ΠΈΠ²Π΅Ρ€Π³Π΅Π½Ρ†ΠΈΡŽ loss.

  • Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ AdamW, Π³Π΄Π΅ learning rate ΠΈ ΠΌΠΎΠΌΠ΅Π½Ρ‚Ρ‹ косвСнно ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡ΠΈΠ²Π°ΡŽΡ‚ шаг обновлСния, Muon (особСнно Π² сочСтании с Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ°ΠΌΠΈ Π²Ρ€ΠΎΠ΄Π΅ weight decay) ΠΈΠ½ΠΎΠ³Π΄Π° слишком агрСссивно ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π» вСса.

ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Β MuonClip

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΡΡ‚ΠΎΠ»ΡŒ большой MoE-ΠΌΠΎΠ΄Π΅Π»ΠΈ сопряТСно с ΡΠ΅Ρ€ΡŒΡ‘Π·Π½Ρ‹ΠΌΠΈ трудностями – ΠΏΡ€Π΅ΠΆΠ΄Π΅ всСго,Β Π½Π΅ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒ обучСния, ΠΏΡ€ΠΎΡΠ²Π»ΡΡŽΡ‰Π°ΡΡΡ Π²ΠΎ Π²Π·Ρ€Ρ‹Π²Π°ΡŽΡ‰ΠΈΡ…ΡΡ Π»ΠΎΠ³ΠΈΡ‚Π°Ρ… внимания. Π‘Ρ‚Π°Π½Π΄Π°Ρ€Ρ‚Π½ΠΎ для LLM примСняСтся AdamW, Π½ΠΎ ΠΊΠΎΠΌΠ°Π½Π΄Π°Β Moonshot AIΒ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π»Π° Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΠΊΠ΅Π½-эффСктивный ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ β€”Β Muon, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΠΎΠΊΠ°Π·Π°Π» прСвосходство Π½Π°Π΄ AdamW ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Однако ΠΏΡ€ΠΈ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π² ΠΌΠΎΠ΄Π΅Π»ΠΈΒ Kimi K2, построСнной ΠΏΠΎ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅, схоТСй с DeepSeek-V3) Π²ΠΎΠ·Π½ΠΈΠΊΠ»Π° ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° Π½Π΅ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ β€” Π»ΠΎΠ³ΠΈΡ‚Ρ‹ внимания ΡΡ‚Π°Π½ΠΎΠ²ΠΈΠ»ΠΈΡΡŒ Ρ‡Ρ€Π΅Π·ΠΌΠ΅Ρ€Π½ΠΎ высокими, особСнно Π½Π° ΠΏΠΎΠ·Π΄Π½ΠΈΡ… этапах обучСния. Π­Ρ‚ΠΎ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΠ»ΠΎ ΠΊ "Π΄ΠΈΠ²Π΅Ρ€Π³Π΅Π½Ρ†ΠΈΠΈ" β€” Ρ€Π΅Π·ΠΊΠΎΠΌΡƒ скачку Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ loss ΠΈ остановкС обучСния.

Π§Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ эту ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ, Π±Ρ‹Π»Π° ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½Π° модификация ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌΒ MuonClip, ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌ элСмСнтом ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ являСтся Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ°Β QK-clip. Π•Ρ‘ ΡΡƒΡ‚ΡŒ β€” в прямом ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ вСсов ΠΏΡ€ΠΎΠ΅ΠΊΡ†ΠΈΠΉ Query ΠΈ Key послС обновлСния ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠΌ. Π’Π΅ΠΌ самым Π»ΠΎΠ³ΠΈΡ‚Ρ‹ внимания ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Β«Π½Π° источникС» β€” Π΅Ρ‰Ρ‘ Π΄ΠΎ примСнСния softmax. Π­Ρ‚ΠΎ оказалось Π±ΠΎΠ»Π΅Π΅ устойчивым Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ΠΌ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π»ΠΎΠ³ΠΈΡ‚-ΠΊΠ»ΠΈΠΏΠΏΠΈΠ½Π³ΠΎΠΌ, нормализациями query/key ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ эвристиками.

loss_vs_tokens
loss_vs_tokens

Π€ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ, MuonClip Π²Π²ΠΎΠ΄ΠΈΡ‚ Π°Π΄Π°ΠΏΡ‚ΠΈΠ²Π½Ρ‹ΠΉ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉ ΠΌΠ½ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΒ Ξ·Β ΠΈ Π±Π°Π»Π°Π½ΡΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Β Ξ±, ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π°ΠΌ:

Image_02
MuonClip

Π³Π΄Π΅Β tΒ β€” Π·Π°Ρ€Π°Π½Π΅Π΅ Π·Π°Π΄Π°Π½Π½Ρ‹ΠΉ ΠΏΠΎΡ€ΠΎΠ³. Π­Ρ‚ΠΎ позволяСт Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π½ΠΈΠΊΠ°ΠΊΠΎΠΉ Π»ΠΎΠ³ΠΈΡ‚ Π½Π΅ прСвысит допустимого значСния, Π΄Π°ΠΆΠ΅ Π² случаС Π½Π°ΠΊΠΎΠΏΠ»Π΅Π½Π½Ρ‹Ρ… Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ². Вакая адаптация ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ Π²Π·Ρ€Ρ‹Π²Ρ‹ Π² softmax, сохраняя ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ энСргиСй внимания.

На ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅,Β Kimi K2Β Π±Ρ‹Π»Π° ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ ΠΏΡ€Π΅Π΄ΠΎΠ±ΡƒΡ‡Π΅Π½Π° Π½Π°Β 15.5 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² токСнов с использованиСм MuonClip β€”Β Π±Π΅Π· Π΅Π΄ΠΈΠ½ΠΎΠ³ΠΎ сбоя, всплСска loss ΠΈΠ»ΠΈ остановки обучСния. Π­Ρ‚ΠΎ стало Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ благодаря Ρ‚ΠΎΡ‡Π½ΠΎΠΌΡƒ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŽ Π·Π° Π»ΠΎΠ³ΠΈΡ‚Π°ΠΌΠΈ внимания ΠΈ Π°Π΄Π°ΠΏΡ‚ΠΈΠ²Π½ΠΎΠΌΡƒ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ вСсов. ΠžΡ‚ΠΌΠ΅Ρ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, вСроятнСС всСго, происходило Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅Β BF16Β ΠΈΠ»ΠΈΒ FP16 с динамичСским скСйлингом ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ»ΠΎ эффСктивно ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠ°ΠΌΡΡ‚ΡŒ GPU. На этапС инфСрСнса вСса Π±Ρ‹Π»ΠΈ ΠΏΠ΅Ρ€Π΅Π²Π΅Π΄Π΅Π½Ρ‹ Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Β FP8 с Π±Π»ΠΎΠΊΠΎΠ²Ρ‹ΠΌ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ, Π½ΠΎ сама Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠ° ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»Π°ΡΡŒ Π² высокой точности.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ,Β MuonClip прСдставляСт собой Π½Π΅ просто ΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΠΎΠΉ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€, Π°Β ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Π½ΠΎΠ΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌΠΎΡΡ‚ΠΈ LLM. Он ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ прСимущСства Ρ‚ΠΎΠΊΠ΅Π½-эффСктивности Muon с Ρ‚ΠΎΡ‡Π½ΠΎΠΉ стабилизациСй ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ° внимания β€” ΠΈ становится ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ², ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ²ΡˆΠΈΡ… ΠΎΠ±ΡƒΡ‡ΠΈΡ‚ΡŒ модСль Ρ‚Π°ΠΊΠΎΠ³ΠΎ ΠΌΠ°ΡΡˆΡ‚Π°Π±Π° Π±Π΅Π· сбоСв.

РаспрСдСлённоС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Π’Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² – Π·Π°ΠΏΡ€Π΅Π΄Π΅Π»ΡŒΠ½ΠΎ ΠΌΠ½ΠΎΠ³ΠΎ для памяти ΠΎΠ΄Π½ΠΎΠ³ΠΎ устройства, поэтому ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Kimi-K2 ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ распрСдСлённо Π½Π° большом количСствС GPU. Moonshot Π½Π΅ раскрываСт Ρ‚ΠΎΡ‡Π½ΠΎΠΉ ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΠΈ, Π½ΠΎ ΠΎΡ†Π΅Π½ΠΊΠΈ экспСртов ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ сотни Π²Ρ‹ΡΠΎΠΊΠΎΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΊΠ°Ρ€Ρ‚ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, NVIDIA A100/H100) ΠΈ Π·Π°Ρ‚Ρ€Π°Ρ‚Ρ‹ порядка дСсятков ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Π΄ΠΎΠ»Π»Π°Ρ€ΠΎΠ². Для эффСктивной ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ использовался стСк Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ Π½Π° Π±Π°Π·Π΅Β DeepSpeedΒ ΠΈ Ρ‚Π΅Ρ…Π½ΠΈΠΊΒ Zero Redundancy Optimizer (ZeRO). Π’ частности, ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΠ»Π°ΡΡŒ ΠΏΠΎ ΠΊΡ€Π°ΠΉΠ½Π΅ΠΉ ΠΌΠ΅Ρ€Π΅Β ZeRO Stage-1Β ΠΈΠ»ΠΈ Stage-2, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹ ΠΈ стСйты ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π° Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΡƒΠ·Π»Π°ΠΌΠΈ, ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Ρ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΊ памяти Π½Π° ΠΊΠ°ΠΆΠ΄ΡƒΡŽ ΠΊΠ°Ρ€Ρ‚Ρƒ. ВСроятно, модСль Ρ‚Π°ΠΊΠΆΠ΅ Ρ€Π°Π·Ρ€Π΅Π·Π°Π»Π°ΡΡŒ ΠΏΠΎ экспСртам ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ ΡƒΠ·Π»Π°ΠΌΠΈ (СстСствСнноС Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ для MoE – Ρ€Π°Π·Π½Ρ‹Π΅ экспСрты хранятся Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… дСвайсах, Π° Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ роутятся ΠΊ Π½ΠΈΠΌ). Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅Ρ‚ΡΡ ΠΏΠΎΡ‡Ρ‚ΠΈ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ – Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΈΠ΅ Π½ΠΎΠ²Ρ‹Ρ… GPU позволяСт Π²ΠΌΠ΅ΡΡ‚ΠΈΡ‚ΡŒ большС экспСртов. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΠ»ΠΈΡΡŒ стандартныС ΠΏΡ€ΠΈΡ‘ΠΌΡ‹ Π²Ρ€ΠΎΠ΄Π΅Β Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ Ρ‡Π΅ΠΊΠΏΠΎΡƒΡ‚ΠΈΠ½Π³Π°Β (checkpointing activations) – ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΡ‡Π½Ρ‹Π΅ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ Π½Π΅ ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‚ΡΡ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ, Π° ΠΏΠ΅Ρ€Π΅ΡΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΏΡ€ΠΈ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠΌ ΠΏΡ€ΠΎΡ…ΠΎΠ΄Π΅, Ρ‡Ρ‚ΠΎ сущСствСнно экономит ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ Π½Π° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡΡ… Ρ†Π΅Π½ΠΎΠΉ нСбольшого Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. ВсС эти ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Π½Ρ‹Π΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ вмСстС сдСлали Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ нСвСроятного Ρ€Π°Π·ΠΌΠ΅Ρ€Π°.

Fine-tuning ΠΈ RLHF:

ПослС окончания прСдобучСния, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ ΠΏΡ€ΠΎΠ²Π΅Π»ΠΈ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΡΡ‚Π°ΠΏΠ½ΡƒΡŽ донастройку ΠΌΠΎΠ΄Π΅Π»ΠΈ для придания Π΅ΠΉΒ agentic-возмоТностСй ΠΈ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΎΠ³ΠΎ интСрфСйса. Π‘Ρ‹Π»ΠΎ Π²Ρ‹ΠΏΡƒΡ‰Π΅Π½ΠΎ Π΄Π²Π΅ вСрсии:Β Kimi-K2-Base – базовая модСль послС прСдобучСния (ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Π° для исслСдоватСлСй, ΠΌΠΎΠΆΠ½ΠΎ ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎ Π΄ΠΎΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒ), ΠΈΒ Kimi-K2-Instruct – модСль, ΠΏΡ€ΠΎΡˆΠ΅Π΄ΡˆΠ°Ρ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉ пост-Ρ‚ΡŽΠ½ΠΈΠ½Π³, готовая для ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ использования Π² качСствС Ρ‡Π°Ρ‚-Π±ΠΎΡ‚Π° ΠΈΠ»ΠΈ Π°Π³Π΅Π½Ρ‚Π½ΠΎΠΉ систСмы.

Π’ пост-Ρ‚ΡŽΠ½ΠΈΠ½Π³Π΅ особоС Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΡƒΠ΄Π΅Π»ΡΠ»ΠΎΡΡŒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒΒ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ, Π° Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΡ‚Π²Π΅Ρ‡Π°Ρ‚ΡŒ тСкстом. Π­Ρ‚ΠΎΡ‚ этап ΠΌΠΎΠΆΠ½ΠΎ условно Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ΡŒ Π½Π°Β supervised fine-tuning Π½Π° синтСтичСских Π·Π°Π΄Π°Ρ‡Π°Ρ…Β ΠΈΒ ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»ΡΡŽΡ‰Π΅Π΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠΉ связью.

  • Π˜ΠΌΠΈΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ использования инструмСнтов:Β ΠΊΠΎΠΌΠ°Π½Π΄Π° Moonshot сгСнСрировала ΠΎΠ±ΡˆΠΈΡ€Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Π·Π°Π΄Π°Ρ‡, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰ΠΈΡ… взаимодСйствия с внСшними инструмСнтами (API, Π±Π°Π·Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ…, shell-ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹, Π²Π΅Π±-поиск ΠΈ Ρ‚.Π΄.), Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π½Π°ΡƒΡ‡ΠΈΡ‚ΡŒ модСль ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ дСйствий. ВмСсто Ρ€ΡƒΡ‡Π½ΠΎΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ‚ΠΊΠΈ Π±Ρ‹Π» ΠΏΡ€ΠΈΠΌΠ΅Π½Ρ‘Π½ ΠΌΠ΅Ρ‚ΠΎΠ΄Β Large-Scale Agentic Data Synthesis: с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π²ΡΠΏΠΎΠΌΠΎΠ³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ИИ-Π°Π³Π΅Π½Ρ‚ΠΎΠ² ΡΠΈΠΌΡƒΠ»ΠΈΡ€ΠΎΠ²Π°Π»ΠΈΡΡŒ тысячи сцСнариСв ΠΈΠ· сотСн Π΄ΠΎΠΌΠ΅Π½ΠΎΠ², Π³Π΄Π΅ Π°Π³Π΅Π½Ρ‚ (модСль) Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Π» ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ инструмСнтами для достиТСния Ρ†Π΅Π»ΠΈ. ВсС шаги (запросы ΠΊ инструмСнтам, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹, Ρ„ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ) Ρ„ΠΈΠΊΡΠΈΡ€ΠΎΠ²Π°Π»ΠΈΡΡŒ Π² Π²ΠΈΠ΄Π΅ псСвдодиалогов. Π—Π°Ρ‚Π΅ΠΌ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Π°Ρ модСль-ΡΡƒΠ΄ΡŒΡ (LLM-critic) ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π»Π° эти сгСнСрированныС эпизоды ΠΏΠΎ Π·Π°Π΄Π°Π½Π½Ρ‹ΠΌ Ρ€ΡƒΠ±Ρ€ΠΈΠΊΠ°ΠΌ качСства, отбирая Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π»ΡƒΡ‡ΡˆΠΈΠ΅, Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΡƒΡΠΏΠ΅ΡˆΠ½Ρ‹Π΅ ΠΏΠΎΠΏΡ‹Ρ‚ΠΊΠΈ. ΠžΡ‚Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ высококачСствСнныС ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ дСйствий Π±Ρ‹Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½Ρ‹ для обучСния с учитСлСм – Kimi-K2 Π΄ΠΎΠΎΠ±ΡƒΡ‡Π°Π»Π°ΡΡŒ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΡΡ‚ΡŒ Ρ‚Π°ΠΊΠΈΠ΅ ΠΌΠ½ΠΎΠ³ΠΎΡˆΠ°Π³ΠΎΠ²Ρ‹Π΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ, фактичСски впитывая ΡˆΠ°Π±Π»ΠΎΠ½Ρ‹, ΠΊΠ°ΠΊ ΠΏΠ»Π°Π½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΈ Π²Ρ‹Π·Ρ‹Π²Π°Ρ‚ΡŒ инструмСнты. Π­Ρ‚ΠΎΡ‚ процСсс Π·Π°Π»ΠΎΠΆΠΈΠ» Ρ„ΡƒΠ½Π΄Π°ΠΌΠ΅Π½Ρ‚ Β«Π°Π³Π΅Π½Ρ‚Π½ΠΎΠ³ΠΎ ΠΌΡ‹ΡˆΠ»Π΅Π½ΠΈΡΒ» ΡƒΠΆΠ΅ Π² вСса Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

workflow-agent
workflow-agent
  • RL с самооцСнкой (Π² Π΄ΡƒΡ…Π΅ RLHF):Β ΠΏΠΎΠΌΠΈΠΌΠΎ ΠΈΠΌΠΈΡ‚Π°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ обучСния, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ Π²Π½Π΅Π΄Ρ€ΠΈΠ»ΠΈ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΒ Reinforcement Learning для дальнСйшСго ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ Π½Π°Π²Ρ‹ΠΊΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ Π·Π°Π΄Π°Ρ‡ΠΈ, особСнно Ρ‚Π΅, Π³Π΄Π΅ Π½Π΅Ρ‚ ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½ΠΎΠ³ΠΎ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠ³ΠΎ ΠΎΡ‚Π²Π΅Ρ‚Π°. Главная ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° классичСского RLHF (обучСния с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ ΠΎΡ‚ ΠΎΡ‚ΠΊΠ»ΠΈΠΊΠ° Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ°) – ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½ΠΎΡΡ‚ΡŒ ΠΈ ΡƒΠ·ΠΎΡΡ‚ΡŒ сигналов вознаграТдСния для творчСских ΠΈΠ»ΠΈ аналитичСских Π·Π°Π΄Π°Ρ‡. Π’ Kimi-K2 подошли творчСски: модСль ΠΎΠ±ΡƒΡ‡Π°Π»Π°ΡΡŒΒ ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ свои ΠΎΡ‚Π²Π΅Ρ‚Ρ‹Β ΠΏΠΎ Π·Π°Π΄Π°Π½Π½Ρ‹ΠΌ критСриям. Π Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π° систСма самокритики (self-critique): модСль Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΎΡ‚Π²Π΅Ρ‚ ΠΈ ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½ΠΎ (ΠΈΠ»ΠΈ ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ шагом) Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΎΡ†Π΅Π½ΠΊΡƒ этому ΠΎΡ‚Π²Π΅Ρ‚Ρƒ Π½Π° основС Π·Π°Ρ€Π°Π½Π΅Π΅ Π·Π°Π΄Π°Π½Π½Ρ‹Ρ… β€œΡ€ΡƒΠ±Ρ€ΠΈΠΊβ€ качСства. ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρ‚Π°ΠΊΠΎΠΉ ΠΊΡ€ΠΈΡ‚ΠΈΠΊ сам ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π½Π΅ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½Ρ‹ΠΌ, Π΅Π³ΠΎ рСгулярно ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π»ΠΈ Π½Π° заданиях, Π³Π΄Π΅ успСх Π»Π΅Π³ΠΊΠΎ провСряСтся (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Π΅ΠΌ. Π·Π°Π΄Π°Ρ‡ ΠΈΠ»ΠΈ ΠΊΠΎΠ΄ΠΎΠ²Ρ‹Ρ… тСстов) – эти вСрифицируСмыС Π·Π°Π΄Π°Ρ‡ΠΈΒ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π»ΠΈΡΡŒ для обучСния ΠΊΡ€ΠΈΡ‚ΠΈΠΊΠ°Β Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½ΠΎΠΌΡƒ ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ качСства. Π—Π°Ρ‚Π΅ΠΌ этот ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½Π½Ρ‹ΠΉ ΠΊΡ€ΠΈΡ‚ΠΈΠΊ примСнялся ΠΊ Π½Π΅Π²Π΅Ρ€ΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΠ΅ΠΌΡ‹ΠΌ заданиям (написаниС эссС, Π°Π½Π°Π»ΠΈΠ·) ΠΈ Π΄Π°Π²Π°Π» сигнал Π½Π°Π³Ρ€Π°Π΄Ρ‹/ΡˆΡ‚Ρ€Π°Ρ„Π° основной ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, шло ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ Π±Π΅Π· нСпосрСдствСнного участия Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ°: модСль ΡƒΡ‡ΠΈΠ»Π°ΡΡŒ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Ρ‚ΡŒ свои дСйствия, ΠΎΠΏΠΈΡ€Π°ΡΡΡŒ Π½Π° Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΡŽΡŽ Β«ΡΡƒΠ΄Π΅ΠΉΡΠΊΡƒΡŽ систСму», ΠΊΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²Π°Π½Π½ΡƒΡŽ Π½Π° Ρ€Π΅ΡˆΠ°Π΅ΠΌΡ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ…. Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ родствСнСн RLHF, Π½ΠΎ замСняСт чСловСчСский фидбэк Π½Π° ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌΡ‹ΠΉ AI-фидбэк. Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅Β Kimi-K2-InstructΒ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»Π° Β«Ρ€Π΅Ρ„Π»Π΅ΠΊΡ‚ΠΎΡ€Π½Ρ‹Π΅Β» Π½Π°Π²Ρ‹ΠΊΠΈ: ΠΎΠ½Π° сразу Π²Ρ‹Π΄Π°Ρ‘Ρ‚ дСйствиС ΠΈΠ»ΠΈ ΠΎΡ‚Π²Π΅Ρ‚, Π±Π»ΠΈΠ·ΠΊΠΈΠΉ ΠΊ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠΌΡƒ, Π±Π΅Π· нСобходимости Π² Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… Ρ€Π°Π·Π΄ΡƒΠΌΡŒΡΡ… (Ρ‚.Π½.Β reflex-grade modelΒ Π±Π΅Π· Π΄Π»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ chain-of-thought).

Π˜Ρ‚ΠΎΠ³ΠΎΠΌ Ρ„ΠΈΠ½Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ обучСния стала модСль, ΡΠΏΠΎΡΠΎΠ±Π½Π°ΡΒ ΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚ΡŒ инструкциям, ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Ρ‚ΡŒ Π΄ΠΈΠ°Π»ΠΎΠ³ ΠΈΒ Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½ΠΎ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ слоТныС ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ дСйствий. ΠžΡ‚ΠΌΠ΅Ρ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎ Π½Π° Ρ‚Π΅ΠΊΡƒΡ‰ΠΈΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ Kimi-K2-Instruct Π½Π΅ являСтся ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΠΉ – Π² ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΉ вСрсии (Kimi k1.5) ΠΎΠ½Π° Π½Π΅ ΡƒΠΌΠ΅Π΅Ρ‚ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ ΠΈ Π½Π΅ ΠΈΠΌΠ΅Π΅Ρ‚ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ Β«Ρ€Π΅ΠΆΠΈΠΌΠ° Ρ€Π°Π·Π΄ΡƒΠΌΠΈΠΉΒ». Команда ΡΠΊΠΎΠ½Ρ†Π΅Π½Ρ‚Ρ€ΠΈΡ€ΠΎΠ²Π°Π»Π°ΡΡŒ Π½Π° тСкстовых ΠΈ Π°Π³Π΅Π½Ρ‚Π½Ρ‹Ρ… возмоТностях, планируя Π΄ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΡƒ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Π±ΠΎΠ»Π΅Π΅ ΠΏΡ€ΠΎΠ΄Π²ΠΈΠ½ΡƒΡ‚Ρ‹Π΅ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹ рассуТдСния (Β«Π΄Π»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ Ρ€Π°Π·ΠΌΡ‹ΡˆΠ»Π΅Π½ΠΈΠ΅Β») Π² Π±ΡƒΠ΄ΡƒΡ‰ΠΈΡ… вСрсиях.

Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π΄Π΅Ρ‚Π°Π»ΠΈ ΠΈ сравнСниС с ΠΏΡ€Π΅Π΄ΡˆΠ΅ΡΡ‚Π²Π΅Π½Π½ΠΈΠΊΠ°ΠΌΠΈ

Π­Π²ΠΎΠ»ΡŽΡ†ΠΈΡ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Kimi k1.5

Новая модСль Kimi-K2 Π·Π½Π°ΠΌΠ΅Π½ΡƒΠ΅Ρ‚ сущСствСнный шаг Π²ΠΏΠ΅Ρ€Ρ‘Π΄ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Moonshot AI. ΠŸΡ€Π΅Π΄ΡˆΠ΅ΡΡ‚Π²Π΅Π½Π½ΠΈΠΊ (Kimi k1.5) Π±Ρ‹Π» Π²Ρ‹ΠΏΡƒΡ‰Π΅Π½ Ρ€Π°Π½Π΅Π΅ Π² 2025 Π³ΠΎΠ΄Ρƒ ΠΈ прСдставлял собой ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹ΠΉ LLM с ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΎΠΉ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½Π½Ρ‹ΠΌ контСкстом 128k. Kimi k1.5 Ρ‚Π°ΠΊΠΆΠ΅ использовала RL-ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ Π² ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΈ ΠΈΠΌΠ΅Π»Π° Π²Π½ΡƒΡˆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€, ΠΎΠ΄Π½Π°ΠΊΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΡƒΡΡ‚ΡƒΠΏΠ°ΡŽΡ‰ΠΈΠΉ Kimi-K2: ΠΎΠΊΠΎΠ»ΠΎΒ 389 ΠΌΠ»Ρ€Π΄ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² (52 ΠΌΠ»Ρ€Π΄ Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ…)Β ΠΏΡ€ΠΈ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ MoE, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Π±Ρ‹Π»Π° ΠΏΠΎΡ‡Ρ‚ΠΈ Π²Ρ‚Ρ€ΠΎΠ΅ мСньшС Π½Ρ‹Π½Π΅ΡˆΠ½Π΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Kimi-K2 Ρ€Π°ΡΡˆΠΈΡ€ΠΈΠ»Π° ΠΌΠ°ΡΡˆΡ‚Π°Π±Ρ‹: 1 Ρ‚Ρ€Π»Π½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² (+157% ΠΊ K1.5) ΠΈ Π²Π½Π΅Π΄Ρ€ΠΈΠ»Π° Π½ΠΎΠ²Ρ‹Π΅ тСхнологичСскиС Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ – Π² частности, ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ MLA для внимания, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Kimi k1.5 Π² своих длинноконтСкстных способностях ΠΎΠΏΠΈΡ€Π°Π»Π°ΡΡŒ Π½Π° Π±ΠΎΠ»Π΅Π΅ Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ (ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ΅ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅). ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, K1.5 Π±Ρ‹Π»Π° ΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π° Π½Π° ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΈ Π΄ΠΈΠ°Π»ΠΎΠ³, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ K2 сдСлала ΡƒΠΏΠΎΡ€ Π½Π°Β agentic-возмоТности (Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½ΠΎΠ΅ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ Π·Π°Π΄Π°Ρ‡). Kimi-K2 Π² Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ вСрсии Π½Π΅ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈΠ»ΠΈ Π°ΡƒΠ΄ΠΈΠΎ (ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹Π΅ аспСкты ΠΏΠ»Π°Π½ΠΈΡ€ΡƒΡŽΡ‚ΡΡ ΠΏΠΎΠ·Π΄Π½Π΅Π΅), Π½ΠΎ Π·Π°ΠΌΠ΅Ρ‚Π½ΠΎ прСвосходит K1.5 по тСкстовым и кодовым задачам, Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΠΎ способности ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ инструмСнтами. Π•Ρ‰Π΅ ΠΎΠ΄Π½ΠΎ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ β€“Β ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΡΡ‚ΡŒ: Kimi-K2 Π²Ρ‹ΠΏΡƒΡ‰Π΅Π½Π° с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ ΠΈ вСсами (Modified MIT License), Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Kimi k1.5 Π±Ρ‹Π»Π° скорСС свободно доступна Ρ‡Π΅Ρ€Π΅Π· API/интСрфСйс, Π½ΠΎ Π±Π΅Π· ΠΏΠΎΠ»Π½ΠΎΡ†Π΅Π½Π½ΠΎΠΉ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Kimi-K2 прСдставляСт собой Π±ΠΎΠ»Π΅Π΅ ΠΌΠ°ΡΡˆΡ‚Π°Π±Π½ΡƒΡŽ, ΡƒΠ·ΠΊΠΎΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½ΡƒΡŽ Π½Π° агСнтности ΡΠ²ΠΎΠ»ΡŽΡ†ΠΈΡŽ сСмСйства Kimi.

ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π° Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ°Ρ…

Figure_02
Bench

Kimi-K2 Π½Π° ΠΌΠΎΠΌΠ΅Π½Ρ‚ выпуска дСмонстрируСт state-of-the-artΒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ срСди ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π²ΠΏΠ»ΠΎΡ‚Π½ΡƒΡŽ подбираСтся ΠΊ Π·Π°ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ Π»ΠΈΠ΄Π΅Ρ€Π°ΠΌ. На акадСмичСском тСстС Π·Π½Π°Π½ΠΈΠΉ ΠΈ ΠΌΡ‹ΡˆΠ»Π΅Π½ΠΈΡΒ MMLUΒ (57 ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚ΠΎΠ²) модСль Π½Π°Π±ΠΈΡ€Π°Π΅Ρ‚ ΠΎΠΊΠΎΠ»ΠΎΒ 87,8% точности, Ρ‡Ρ‚ΠΎ ΠΏΡ€Π΅Π²Ρ‹ΡˆΠ°Π΅Ρ‚ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ всСх ΠΏΡ€Π΅Π΄ΡˆΠ΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… open-source LLM (для сравнСния, OpenAI GPT-4 оцСнивался ~86.4% Π½Π° MMLU). На конкурсС C-EvalΒ (китайский Π°Π½Π°Π»ΠΎΠ³ MMLU) Kimi-K2 ΠΏΠΎΠΊΠ°Π·Π°Π»Π° ~92,5%, сущСствСнно ΠΎΠΏΠ΅Ρ€Π΅Π΄ΠΈΠ² ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° китайском языкС – ΠΏΠΎΠ΄Ρ‚Π²Π΅Ρ€ΠΆΠ΄Π΅Π½ΠΈΠ΅ Π΅Ρ‘ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ понимания китайских Π΄Π°Π½Π½Ρ‹Ρ…. Π’ слоТных матСматичСских Π·Π°Π΄Π°Ρ‡Π°Ρ… (MATH комплСксныС Π·Π°Π΄Π°Ρ‡ΠΈ школьной ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹) достигнуто 70,2%Β ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Ρ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ – это Π·Π°ΠΌΠ΅Ρ‚Π½Ρ‹ΠΉ скачок ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΎΡˆΠ»ΠΎΠ³ΠΎ поколСния (для сравнСния, GPT-4 – ΠΎΠΊΠΎΠ»ΠΎ 85%, Llama-2 70B – ~50%). На арифмСтичСских Π·Π°Π΄Π°Ρ‡Π°Ρ… Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎΠΉ ΡˆΠΊΠΎΠ»Ρ‹ (GSM8K) модСль Π²Π΅Ρ€Π½ΠΎ Ρ€Π΅ΡˆΠ°Π΅Ρ‚Β 92,1%Β Π·Π°Π΄Π°Ρ‡, практичСски устранив Ρ€Π°Π½Π΅Π΅ Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½Ρ‹Π΅ ошибки Π² ΠΌΠ½ΠΎΠ³ΠΎΡˆΠ°Π³ΠΎΠ²Ρ‹Ρ… вычислСниях.

ОсобСнно Π²ΠΏΠ΅Ρ‡Π°Ρ‚Π»ΡΡŽΡ‚ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ Π² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ. Π’ тСстах Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΊΠΎΠ΄Π° Kimi-K2 устанавливаСт Π½ΠΎΠ²Ρ‹Π΅ Ρ€Π΅ΠΊΠΎΡ€Π΄Ρ‹ срСди ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. НапримСр,Β LiveCodeBench v6Β (рСалистичный Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊ ΠΏΠΎ ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚Π½ΠΎΠΌΡƒ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ) – базовая модСль Kimi-K2-Base достигаСт ~26,3% точности pass@1, Π° Ρ„ΠΈΠ½Π°Π»ΡŒΠ½Π°Ρ инструкционная вСрсия Kimi-K2-Instruct – 53,7%Β pass@1, опСрСТая даТС GPT-4.1 (ΠΎΠΊΠΎΠ»ΠΎ 44.7%) Π½Π° этих Π·Π°Π΄Π°Ρ‡Π°Ρ…. Π’ ΠΌΡƒΠ»ΡŒΡ‚ΠΈ-язычном ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ (MultiPL-EΒ Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊ) модСль приблиТаСтся ΠΊ Π²Π΅Ρ€Ρ…Π½ΠΈΠΌ строчкам с ~85-86% точности, Π° Π½Π° Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½Π΅ΠΌ тСстС SWE-bench (Software Engineering)Β ΠΏΠΎΠΊΠ°Π·Π°Π»Π°Β 65,8%Β ΡƒΡΠΏΠ΅ΡˆΠ½Ρ‹Ρ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, Ρ‡Ρ‚ΠΎ сравнимо с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ ΠΏΡ€ΠΎΠΏΡ€ΠΈΠ΅Ρ‚Π°Ρ€Π½Ρ‹ΠΌΠΈ модСлями Anthropic ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π»ΡƒΡ‡ΡˆΠ΅ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π° open-source ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

Π’Π°ΠΊΠΆΠ΅ Kimi-K2 Π»ΠΈΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ Π½Π° спСциализированных Π°Π³Π΅Π½Ρ‚Π½Ρ‹Ρ… Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ°Ρ…: Ρ‚Π°ΠΊ, Π½Π° Π½Π°Π±ΠΎΡ€Π°Ρ…Β TauΒ ΠΈΒ AceBenchΒ (ΠΎΡ†Π΅Π½ΠΊΠ° умСния ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ инструмСнты) ΠΎΠ½Π° заняла ΠΏΠ΅Ρ€Π²Ρ‹Π΅ мСста срСди ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. НапримСр, Π² сцСнариях Tau (поиск Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π² Π΄ΠΎΠΌΠ΅Π½Π°Ρ… Ρ€ΠΈΡ‚Π΅ΠΉΠ»Π°, Π°Π²ΠΈΠ°Π±ΠΈΠ»Π΅Ρ‚ΠΎΠ², Ρ‚Π΅Π»Π΅ΠΊΠΎΠΌ ΠΈ ΠΏΡ€. с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ инструмСнтов) Kimi-K2-Instruct ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 70-75% успСха, ΠΏΡ€ΠΈΠ±Π»ΠΈΠΆΠ°ΡΡΡŒ ΠΊ уровням Claude 2 ΠΈ прСвосходя Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Π΅ Π°Π½Π°Π»ΠΎΠ³ΠΈ.

Π’ совокупности эти Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΡΠ²ΠΈΠ΄Π΅Ρ‚Π΅Π»ΡŒΡΡ‚Π²ΡƒΡŽΡ‚, Ρ‡Ρ‚ΠΎΒ Kimi-K2 установила Π½ΠΎΠ²Ρ‹ΠΉ ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ качСства для ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. По ΠΌΠ½ΠΎΠ³ΠΈΠΌ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°ΠΌ она догоняСт, Π° ΠΏΠΎΡ€ΠΎΠΉ ΠΈ ΠΏΡ€Π΅Π²ΠΎΡΡ…ΠΎΠ΄ΠΈΡ‚Β ΠΊΡ€ΡƒΠΏΠ½Π΅ΠΉΡˆΠΈΠ΅ Π·Π°ΠΊΡ€Ρ‹Ρ‚Ρ‹Π΅ систСмы. НапримСр, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ ΠΎΡ‚ΠΌΠ΅Ρ‡Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ Kimi-K2-Instruct ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΡ‚ вСрсии Claude 4 (Anthropic) ΠΈ Π΄Π°ΠΆΠ΅ ΠΎΠ±Π½ΠΎΠ²Π»Ρ‘Π½Π½Ρ‹ΠΉ GPT-4.1 Π½Π° рядС ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… тСстов. VentureBeat Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΠΎΠ΄Ρ‡Ρ‘Ρ€ΠΊΠΈΠ²Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Kimi-K2 ΠΏΡ€Π΅Π²Π·ΠΎΡˆΠ»Π° GPT-4 Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Β«Π±ΠΎΠ»Π΅Π²Ρ‹Ρ… Ρ‚ΠΎΡ‡ΠΊΠ°Ρ…Β» Π²Ρ€ΠΎΠ΄Π΅ матСматичСских Π΄ΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΡΡ‚Π² ΠΈ слоТного ΠΊΠΎΠ΄Π°.

ΠšΠΎΠ½Π΅Ρ‡Π½ΠΎ, модСль Π½Π΅ идСальна – Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ Kimi-K2 всё Π΅Ρ‰Ρ‘ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΡˆΠΈΠ±Π°Ρ‚ΡŒΡΡ Π² ΠΎΡ‡Π΅Π½ΡŒ Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… Ρ†Π΅ΠΏΠΎΡ‡ΠΊΠ°Ρ… рассуТдСний, ΠΌΠΎΠΆΠ΅Ρ‚ Π΄Π°Π²Π°Ρ‚ΡŒ ΠΈΠ·Π±Ρ‹Ρ‚ΠΎΡ‡Π½ΠΎ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π½Π° простыС вопросы, ΠΈ ΠΏΠΎΠΊΠ°Β Π½Π΅Β ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ‚ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹ΠΌΠΈ способностями (Π½Π΅ Β«Π²ΠΈΠ΄ΠΈΡ‚Β» изобраТСния). Однако эти нСдостатки ΠΏΡ€ΠΈΠ·Π½Π°Π½Ρ‹ ΠΈ Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎ ΠΏΡ€ΠΎΡ€Π°Π±Π°Ρ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ (планируСтся ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ Β«Π΄ΠΎΠ»Π³ΠΎΠ³ΠΎ ΠΌΡ‹ΡˆΠ»Π΅Π½ΠΈΡΒ» ΠΈ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΈΠ΅ зрСния Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… вСрсиях).

Π’Ρ‹Π²ΠΎΠ΄

Kimi-K2 прСдставляСт собой Π²Ρ‹Π΄Π°ΡŽΡ‰ΡƒΡŽΡΡ Π² тСхничСском ΠΏΠ»Π°Π½Π΅ LLM: инновационная Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° MoE с Ρ‚ΠΎΠΏ-8 экспСртизой ΠΈ QK-ΠΊΠ»ΠΈΠΏ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ»ΠΈ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒΒ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΡƒΡŽΒ ΠΌΠΎΠ΄Π΅Π»ΡŒ с 1 Ρ‚Ρ€Π»Π½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΎΠ±ΡƒΡ‡Π΅Π½Π½ΡƒΡŽ Π½Π° бСспрСцСдСнтном ΠΎΠ±ΡŠΡ‘ΠΌΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… Π±Π΅Π· сбоСв. ΠŸΡ€ΠΎΡ†Π΅ΡΡ обучСния Π²ΠΊΠ»ΡŽΡ‡Π°Π» ΠΏΠ΅Ρ€Π΅Π΄ΠΎΠ²Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ устойчивой ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ (MuonClip, BF16), распрСдСлСния Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ (ZeRO) ΠΈ ΠΈΠΌΠΈΡ‚Π°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ/ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»ΡΡŽΡ‰Π΅Π³ΠΎ обучСния для формирования Π°Π³Π΅Π½Ρ‚Π½Ρ‹Ρ… Π½Π°Π²Ρ‹ΠΊΠΎΠ². ΠŸΠΎΠ»ΡƒΡ‡ΠΈΠ²ΡˆΠ°ΡΡΡ модСль Π·Π°Π΄Π°Ρ‘Ρ‚ Π½ΠΎΠ²Ρ‹ΠΉ стандарт качСства срСди open-source AI, особСнно блистая Π² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ, ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅ ΠΈ Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½ΠΎΠΌ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠΈ Π·Π°Π΄Π°Ρ‡. Kimi-K2-Base прСдоставляСт исслСдоватСлям ΠΌΠΎΡ‰Π½ΡƒΡŽ Π±Π°Π·Ρƒ для собствСнных экспСримСнтов ΠΈ дообучСния, Π° Kimi-K2-Instruct ΡƒΠΆΠ΅ сСйчас доступна для прямого использования – Π΅Ρ‘ ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ локально ΠΈΠ»ΠΈ Ρ‡Π΅Ρ€Π΅Π· API Π±Π΅Π· ΠΊΠ°ΠΊΠΈΡ…-Π»ΠΈΠ±ΠΎ ΠΏΠ»Π°Ρ‚Π½Ρ‹Ρ… подписок. МодСль Kimi-K2 дСмонстрируСт, Ρ‡Ρ‚ΠΎ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Π΅ ΠΈΠ½ΠΈΡ†ΠΈΠ°Ρ‚ΠΈΠ²Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с Π»ΠΈΠ΄Π΅Ρ€Π°ΠΌΠΈ индустрии, ΠΈ ΠΎΡ‚ΠΊΡ€Ρ‹Π²Π°Π΅Ρ‚ ΠΏΡƒΡ‚ΡŒ ΠΊ созданию Π΅Ρ‰Ρ‘ Π±ΠΎΠ»Π΅Π΅ ΠΏΡ€ΠΎΠ΄Π²ΠΈΠ½ΡƒΡ‚Ρ‹Ρ… ΠΈ доступных ИИ-систСм Π² блиТайшСм Π±ΡƒΠ΄ΡƒΡ‰Π΅ΠΌ.

Tags:
Hubs:
+8
Comments17

Articles