Как стать автором
Обновить

Llama 4 плоха во всём

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров6K
Автор оригинала: Zvi Mowshowitz

Выпущенные 5 апреля Llama Scout (17 миллиардов активных параметров, 16 экспертов, 109 миллиардов параметров суммарно) и Llama Maverick (17 миллиардов активных параметров, 128 экспертов, 400 миллиардов параметров суммарно) выглядят крайне разочаровывающе. Они разочаровывают настолько, что пользователи даже предполагают причиной неправильную конфигурацию; они задаются вопросами и спорят о том, насколько сильно манипулировали бенчмарками.

Это был самая негативная реакция на выпуск модели, совершенно противоположная реакции на Gemini 2.5 Pro. Я уже видел столь же глубоко разочаровывающие и запутывающие релизы, но они не были американскими и выпускались лабораториями, бенчмарки и заявления которых, как мы уже поняли, не стоит брать в расчёт при оценке возможностей моделей.

После этого релиза я помещаю Meta* в эту категорию ИИ-лабораторий, заявлениям которых не следует доверять, которые не соответствуют нормам отрасли и которые точно не находятся на переднем рубеже исследований. Пока не доказано обратное, я исключу её из категории, в которой находятся OpenAI, Anthropic, Google, xAI и DeepSeek.

Image

Llama снова это делает

Meta* выпустила первые две модели Llama 4 в прошлую субботу, и в коде есть изменение, показывающее, что изначально выпуск планировался на понедельник, но потом был сдвинут. Обычно субботний выпуск — это настолько плохая стратегия, что её просто никто не использует. Зак сказал, что её «выпустили, когда она была готова», но это не объяснение.

Люди задаются вопросами, почему компания сделала исключение и всё равно выпустила модель. У меня есть две гипотезы по этому поводу (примечание: у меня нет никакой приватной информации).

  1. Модель выпустили раньше, потому что тарифы потенциально могли вызвать на фондовом рынке «чёрный понедельник», и Meta* ускорилась, чтобы защитить себя, а ещё чтобы новость о выпуске не была погребена под шквалом других. В текущих обстоятельствах это кажется вполне разумным.

  2. Компания выпустила модель в субботу, чтобы выпуск прошёл незамеченным, ведь в модели нет ничего хорошего.

Эти две причины могут казаться противоречащими друг другу, но я не был бы так уверен. Предположим теоретически, что Llama-4 ужасна.

  1. Инвесторы не ощутят разницы, особенно к понедельнику.

  2. Те, кто ощутит разницу, с меньшей вероятностью будет о ней говорить.

Кто знает. Это всё догадки.

Что я знаю, так это то, что выпущенные пока Llama 4 кажутся плохими.

Llama 4 Scout и Maverick можно скачать с Hugging Face или с llama.com. Можно попробовать их в вебе или в продуктах Meta*.

Лицензия Llama даёт преимущество злоумышленникам

Компания опубликовала довольно неприятную лицензию Llama, запрещающую крупным компаниям пользоваться моделями и требующую явным образом указывать использование Llama, в том числе помещать «Llama» в заголовок и придерживаться «приемлемой политики использования».

Подобные ограничения, накладываемые на модели с открытыми весами, дают преимущества иностранным компаниям и правительствам, особенно КНР, которые могут и будут просто игнорировать эти правила, получая фору перед американскими компаниями.

Разумеется, у европейских компаний проблем будет ещё больше, им в буквальном смысле вообще не выдают лицензию.

Лех Мазур: Они крупные, поэтому энтузиастам будет сложно запускать их локально. Лицензия по-прежнему довольно строгая. Я понимаю, почему некоторые отказываются считать это опенсорсом.

Это не здорово. Или полностью открывайтесь, или полностью закрывайтесь.

Возможно, это часть сложившегося паттерна. Мы ещё недавно читали историю Аллана Смита о том, что Сара-Винн-Уильямс, бывшая сотрудница Facebook**, будет выступать в Конгрессе свидетелем того, что руководство Meta* подрывало национальную безопасность США, передавая должностным лицам Китая информацию о новых технологиях, в том числе и об искусственном интеллекте. Не знаю, правда ли это, но то, что «Meta* сотрудничала с Китаем по обычным бизнес-причинам», может стать объяснением многих решений, принятых ею в сфере ИИ.

Если бы эти модели были хорошими, то ситуация потенциально могла стать более серьёзной.

Llama делает это по-своему

Что касается использованных методик, то я воспринимаю пост-объявление компании как «мы слышали, что вам нравятся LLM с mixture-of-experts и увеличенным масштабом, поэтому мы отмасштабировали MoE поверх ваших отмасштабированных». Это относится и к размеру параметров, и к объёму данных.

Я бы считал прямое заявление Meta* о том, что это «новейший набор моделей, обеспечивающий беспрецедентную скорость и эффективность» ложным с почти полной вероятностью, учитывая приведённую ниже цитату. Моё доверие к заявлениям Meta* и так было невысоким, но теперь упало ещё ниже.

Meta*: Llama 4 Maverick с 17 миллиардами активных параметров и 128 экспертами — это лучшая мультимодальная модель в своём классе, побеждающая GPT-4o и Gemini 2.0 Flash в широком спектре бенчмарков и достигающая сравнимых с новым DeepSeek v3 результатов в рассуждениях и кодинге. При этом она имеет вдвое с лишним раз меньше параметров.

Сильное заявление, но отзывы не подтверждают его.

Компания предлагает две новые возможности: поддержку 200 языков и длинное окно контекста (в теории). Я говорю «в теории», потому что легко обеспечить длинный контекст сам по себе, но сложно сделать так, чтобы этот длинный контекст давал что-то полезное и сохранял при этом точность. Иголка в стоге сена в данном случае — плохая мера практического применения. Если обратиться к приватному бенчмарку Fiction.live, который пытается использовать этот длинный контекст, то можно увидеть, что модели обеспечивают худшие показатели за всю историю даже при 60k.

Image
Бенчмарк длинного контекста дополнен Llama 4

Meta* предлагает свои бенчмарки, которые, по мнению многих, были подобраны специально, а также специально подбирает конкурентов для сравнения.

Любой, кто следит за прогрессом LLM, может понять, что выбор тут сделан немного подозрительный.

Artificial Analysis подтверждает оценки, но только для бенчмарков, выбранных Meta*.

Модели Llama — это огромные модели mixture of experts (MoE), похожие на DeepSeek v3 и r1 (предположительно, из-за копирования). Scout имеет 17 миллиардов активных параметров, 16 экспертов, 109 миллиардов параметров суммарно. Maverick имеет 17 миллиардов активных параметров, 128 экспертов, 400 миллиардов параметров суммарно. Невыпущенная Behemoth огромна — 288 миллиардов активных параметров, 16 экспертов и 2 триллионов параметров суммарно.

Это означает, что они оптимизированы для быстрой работы на H100, их вообще нельзя запускать на 4090 или другом схожем «железе» потребительского уровня, из-за чего теряется одно из важных преимуществ открытых моделей. Предполагаю, что можно запустить Scout и Maverick (quantized) на моём Mac Studio, и, возможно, я так сделаю, но это очень мощное оборудование.

Джефф Дин: Да, но вы ведь можете запустить её на 4 или 8 картах?

Джереми Ховард: Да, могу, как можете и вы. Но меня в первую очередь интересует то, что широко доступно в нашем сообществе, где машина даже с одним 4090 — очень серьёзное вложение. Помните, что 3090-е были последними потребительскими картами с nvlink, поэтому 4090 и 5090 не очень хороши в конфигурации с несколькими GPU.

Джефф Дин: Кстати, именно поэтому мы сделали опенсорсные модели Gemma 3 такими, чтобы разработчики могли легко запускать их на единственном GPU или TPU. А если у вас есть только один или два GPU, и вы хотите выполнять модель с максимальной скоростью, то существует алгоритм RL, позволяющий разобраться, как использовать эти GPU плюс CPU, чтобы скорость была самой быстрой на любом вашем оборудовании

Luke Metro: Apple Silicon, использующий большой объём единой памяти для крупных моделей ИИ на устройствах пользователей, стал бы аппаратным прорывом десятилетия, если Apple Intelligence сможет с этим справиться.

Llama сражается на Arena

Самый сильный аргумент в пользу Llama 4 — ранг 1417 на Arena. Это обеспечивает ей второе место, что действительно впечатляет, если отражает показатели в целом.

Увы, как мы уже знаем, Arena используют в качестве цели для оптимизации. Сделано ли было так в этом случае? Мы не знаем.

Другие признаки, например, выпущенные компанией выборочные бенчмарки, намекают о применении такой стратегии, и Meta* вряд ли единственная занимается подобным. Янус задаётся вопросом: как, кроме закона Гудхарта, объяснить рост рейтингов Arena новых моделей, и я думаю, что во многом он связан с этим. [Прим. пер.: закон Гудхарта: «Когда мера становится целью, она перестает быть хорошей мерой».]

На что оптимизируется Arena? На то, что произвольный пользователь Интернета предпочтёт ваш ответ ответу другой модели.

Почему люди предпочитают один ответ другому? Arena выпустила ответы для проверки, так что теперь мы можем посмотреть на них.

Морган: Возможно, я говорю это слишком поздно, но сейчас наиболее очевидно, что голосующие на lmsys предпочитают льстивую болтовню.

Wh: Эти примеры чрезвычайно снижают полезность Chatbot arena в качестве серьёзного бенчмарка. Посмотрите на все примеры, в которых выиграл Maverick: это сплошные ИИ-помои. Если вы пытаетесь «взломать» lmsys по закону Гудхарта, то при оптимизации вы будете получать чушь. Будьте серьёзнее. Это очевиднейшее свидетельство того, что эти рейтинги не стоит воспринимать серьёзно.

Этот пример сверхболтливый и фактически неточный, однако пользователь всё равно проголосовал за Llama 4. В остальных ситуация не лучше. Они всегда начинаются того, что активно говорят пользователю, насколько он умён.

TDM: Не могу найти ни одного ответа менее чем в сто строк, и от них всех меня тошнит.

AKR: Llama 4 Maverick Experimental против Claude 3.7 Sonnet

Промпт: Создай веб-страницу, которая показывает текущий месяц как таблицу, не имеющую границ, с кнопкой для перехода к предыдущему и следующему месяцу. Также она должна иметь возможность отображения полосы, которая может двигаться вдоль дней, показывая серию ежедневного выполнения задач. 3.7 Sonnet легко выиграл благодаря кнопке «Add Streak for Current Week», которая, разумеется, и требовалась в промпте. UI у него тоже получился лучше, на мой взгляд.

Но в LMArena Experimental Battles UI пользователь выбрал как лучшую модель Llama 4 Mav Exp. Это доказывает, что никогда не следует верить этим бенчмаркам, если не попробуете их самостоятельно.

Hasan Can: когда я говорил 28 марта, что [хорошо известная ИИ-компания очевидно манипулирует Arena при помощи «водяных знаков»], никто не предложил поддержки. Теперь настало время забить последний гвоздь в крышку lmarena.

Ответы Maverick, за которые голосовали пользователи, кажутся абсурдно неприятными и плохими. Сначала я написал «от них меня тошнит», стёр, но теперь вижу, что TDM говорит то же самое. Это полностью противоположно тому, что мне нужно.

И это действительно потенциально объясняет низкие рейтинги Claude Sonnet 3.7 на Arena. Что, если пользователи действительно предпочитают подхалимаж и болтовню? Для чего-то ведь она существует.

Очевидно, что Llama-4 стала жертвой закона Гудхарта, или непосредственно из-за рейтингов Arena, или из-за похожего процесса ранжирования, который использовался для fine tuning.

Мы знаем, что эта версия Maverick на Arena не совпадает с выпущенной, так что, похоже, она намеренно сделана «помойной».

Вопрос в том, только ли это произошло? Может, они и специально смошенничали с рейтингом Arena? I Я открыл Manifold market; к сожалению, мы никогда не узнаем наверняка, но здесь уж что-то лучше, чем ничего. Приветствуются предложения более качественных способов решения. Когда я говорю «смошенничали», то имею в виду не просто «версию, оптимизированную для получения хороших результатов на Arena», а явный обман.

Обманула ли Llama с другими бенчмарками

Действительно ли они нагло завышают показатели?

Питер Уайлдфорд: Согласно The Information, задержки были вызваны низкими показателями модели на технических бенчмарках. На мой взгляд, по-прежнему кажется, что Meta* довольно селективно подошла к выбору используемых (и неиспользуемых) в сравнениях метрик, и это намекает на то, что модель может быть не так уж хороша.

Сатья Бенсон: Обвинения в жульничестве с бенчмарками — интересная история. Мне бы хотелось лучше разобраться, в какой степени это произошло и насколько сильно жульничество по сравнению с другими моделями.

First Worldist: Насколько я понимаю, они тестировали «экспериментальные» модели без раскрытия того, что эти модели обучались специально под бенчмарки. Существует по крайней мере одно заявление, что ситуация была улучшена частично и при помощи обмана, но, очевидно, учитывая источник, стоит относиться к этому с большим скепсисом.

Я тоже не думаю, что Meta* зашла бы настолько далеко, и сомневаюсь, что это случилось, по тем же причинам, что и Питер. И сомневаюсь в том, что им бы пришлось зайти так далеко. На самом деле, при обучении с использованием 22 с лишним триллионов токенов нужно предпринимать отдельные усилия, чтобы де факто не обучаться на бенчмарках.

Поэтому хоть я и цитирую пост на будущее, предполагаю, что это обвинение, скорее всего, ошибочно.

Питер Уальдфор: Я не верю в теории заговора и обучение на тестовом датасете, но считаю, что компания очень селективно подошла к выбору метрик, чтобы представить ситуацию в лучшем свете.

То, что Chatbot Arena — это не тот бот, который получал оценки по математике, тоже говорит само за себя.

Лео: На это в мире ML существует достаточно серьёзный запрет, и маловероятно, что исследователи Meta* испортят свою репутацию, рискуя так. Чтобы меня убедить в обратном, требуются надёжные доказательства.

Питер Уайлдфорд: Согласен. Предварительно обвинение выглядит маловероятным, а доказательств недостаточно.

Rrryougi (я сомневаюсь, что представленные здесь утверждения истинны, но они кажутся слишком важными, чтобы не добавить в протокол): оригинальный пост написан на китайском. Воспринимайте изложенное ниже с долей скепсиса.

Содержание: Несмотря на многочисленные попытки обучения, показатели внутренней модели всё равно оказываются неудовлетворительными в передовых опенсорсных бенчмарках, существенно отставая. Руководство компании рекомендовало выполнить включение в процесс постобучения тестовых датасетов из различных с целью достижения различных метрик и создания «презентабельного» результата. В случае недостижения этой цели к дедлайну в конце апреля приведёт к серьёзным последствиям. После вчерашнего релиза Llama 4 многие пользователи X и Reddit уже сообщили о чрезвычайно плохих результатах тестов в реальных условиях.

Я занимаюсь наукой, поэтому нахожу такой подход совершенно неприемлемым. Поэтому я подписал заявление об увольнении и потребовал, чтобы моё имя исключили из технического отчёта по Llama 4.

Примечательно, что вице-президент отдела ИИ Meta* тоже уволился по схожей причине

.Ortegaalfredo: «Глава отдела исследований Meta* объявил о своём уходе — опубликовано 1 апреля 2025 года». По крайней мере, это правда. Дела.

Однако есть и такое:

Hasan Can: Показанная ниже информация может потенциально служить первым надёжным доказательством того, что Llama 4 действительно обучали на бенчмарках.

Kaixuan Huang: Протестировал Llama4-Scout на нашем бенчмарке MATH-Perturb. Возник удивительный разрыв в 18% между Original и MATH-P-Simple — уникальная ситуация среди двадцати с лишним моделей, вышедших после 2024 года.

Image

Выглядит это не очень хорошо. Вот более удобная таблица:

Image

Это действительно выглядит, как мухлёж. Но это опять-таки не доказательство, что они намеренно выполняли обучение на тестовом датасете. Если у вас 22 с лишним триллиона токенов, и вы закинули в модель весь Интернет, то обязательно возникнет загрязнение. Чтобы это произошло, достаточно просто не очень внимательно следить, чтобы модель не обучалась на бенчмарках.

Раньше я бы засомневался, что Meta* позволила бы этому случиться. Теперь сомнений у меня меньше.

Это был бы не первый раз, когда Meta* нарушает похожие нормы.

Холли Элмор: Мне не хотелось бы влезать не в своё дело, но это вполне в духе Meta*. Компания намеренно украла libgen и скачала его через Tor, потому что знала, что это будет выглядеть плохо. Неписанные правила мира ML — это, к сожалению, не то доказательство, на которое я надеялась.

Эти источники кажутся довольно незаконными. Но Meta* это не волнует. Что вы будете делать с этим?

На дворе 2025 год. Теперь обычно заявление «[Нечто] будет нарушением правил» больше не кажется таким уж веским аргументом против того, чтобы сделать [нечто]. Вопрос сегодня стоит иначе: если я делаю [нечто], то да, это против правил, но даже если вы узнаете, что я так поступил, то что вы сможете сделать с этим?

То же самое вдвойне относится и к «недостаточные усилия по предотвращению этого [нечто] будут нарушением правил».

Llama очень плохо проявляет себя в независимых бенчмарках

Ниже представлено всё, что я достойным звания бенчмарка. В некоторых бенчмарках Maverick проявила себя средне, в других — ниже среднего.

Не знаю, считается ли ARC-AGI «независимыми бенчмарками», но Maverick набрал в ARC-AGI-1 4,38%, а Scout — 0,5%; обе получили в ARC-AGI-2 0,00%.

В Livebench Llama 4 Maverick показала себя относительно неплохо, получив результат 54,38, дыша в спину DeepSeek R1 Distill, Llama 70B и Gemini 2.0 Flash.

Лех Мазур тоже провёл бенчмарки.

Extended Word Connections (то есть, де факто, бенчмарк качества рассуждений):

По галлюцинациям модель получает оценку 22,6, что очень нехорошо:

По творческому письму Llama Maverick с грохотом проваливается (Llama — это три крайних левых столбца).

В игре Elimination ситуация тоже не блестящая.

Image

Она также не очень хорошо проявляет себя в тематической генерации и в Step-Game Battles, где с треском проигрывает даже Llama 3.3 70B, как и практически везде.

В BigCodeBench она проявила себя не очень хорошо, хоть Llama-4-Maverick и ненамного обогнала Gemma-3-27B.

Image

Маркус Циммерман сообщает о результатах DevQualityEval v1.0, которые «выглядят не очень хорошо»; Llama ниже половины очень длинного графика, состоящего только из открытых моделей.

Харвард Иль провёл тесты WeirdML: Maverick посередине, проявив себя достаточно неплохо по сравнению с другими бенчмарками.

В общем случае, при использовании вашего собственного бенчмарка модель выглядит посредственно:

George: Самые хвалебные обоснованные отзывы публиковал shrek, eg. Самые критичные (как мне кажется) поступают от кураторов малоизвестных бенчмарков, в которых новые модели имеют не очень хорошие показатели. На сайте EQBench есть парочка бенчмарков (Llama в них провалилась), bigcodebench поставил Maverick сильно ниже DeepSeek v2 (да, это не опечатка). В бенчмарке Aider Polyglot результаты столь же бледные. Я намеренно исключил мнения на основании оптимизированной версии, отправленной lmsys. Сотрудники Meta* заявляют, что причиной некоторых плохих результатов стали проблемы с реализацией, но как минимум в случае одного бенчмарка (long context fiction) его владельцы попробовали три разные реализации, каждый раз получая близкие друг к другу неудовлетворительные оценки.

Aider polyglot:

Image
Image

Положительная оценка xjdr очевидно дана в контексте только открытых моделей; по сути, там говорится, что Maverick — это специализированная модель и что она особенно хороша в агентской работе и в вызове инструментов. С этой целью она справляется хорошо:

xjdr: Мои подробные личные бенчмарки, которые я провёл за ночь.

Scout лучше всего справляется с суммаризацией текста и вызовом функций. Именно этого мы хотим от дешёвой модели с длинным контекстом. Она будет рабочей лошадкой в процессе кодинга и областях применения RAG. Запоминание при контекстном singleshot-обучении очень-очень хорошее.

Maverick была создана, чтобы заменить разработчиков и для выполнения агентских работ/вызова инструментов. Она целостно выполняет инструкции, контекстное обучение в очень долгом контексте и параллельные вызовы множественных инструментов. Эта модель и её возможность — РОВНО то, что нужно мне для кодинга. Она не креативна, но для этого у меня есть V3 и R1. Мультимодальность очень хороша в OCR, а по графикам и диаграммам превосходит в моих типичных тестах и 4o, и Qwen 2.5 VL 72. Единственное, что я не протестировал — это пользование компьютером, но сомневаюсь, что она победит Sonnet или Qwen, которые обучались для этого специально. Вывод довольно слабый (отсюда и постоянные сравнения с 4o), с низкой степенью персональности, что абсолютно приемлемо. Это профессиональный инструмент, созданный для профессиональной работы (тестирование его на отыгрывании ролей или тому подобном приведёт к ужасным результатам). Не уверен, что можно требовать большего от модели, сделавшей упор на агентскую работу.

V3-0324 недостаточно согласованно справляется с выводом вызова инструментов, поэтому неприменима для этого, но когда справляется, то всегда оказывается лучшей. Однако она превосходно справляется с творческими заданиями, решением задач и многоходовыми взаимодействиями. Она по-прежнему остаётся моей рабочей лошадкой для задач, не связанных с вызовом функций. Впрочем, ограничение контекста в 131 тысяч токенов сегодня кажется слишком строгим. Я продолжу тестировать V3 с более длинным контекстом, потому что почти уверен, что смогу добиться от неё большего (в идеале 200-300 тысяч), но мне кажется, что здесь проявит свои слабые стороны MLA. FIM и completion здесь тоже стали огромными преимуществами V3, благодаря им она выходит в собственную отдельную лигу.

R1 остаётся самой умной и творческой моделью при использовании single shot, single turn и при правильном промптинге. Это гений-аутист, неспособный выдерживать зрительный контакт, но если правильно описать задачу, то она будет решена с невероятно высокой степенью confidence. Вызов функций (по сути, всех фич V3) работает, как ожидается, но форматирование <мыслей> готово наполовину, и ещё вдвое меньше, когда применяешь модель для использования инструментов. Однако при правильном парсинге и сэмплировании это поистине примечательная модель.

Все эти модели сильно выигрывают от правильного сэмплирования, от тщательно подобранных matmul и accumulation. Они гораздо лучше и умнее, чем модели, доступные на lmsys или openrouter. Сейчас я сильно мучаю Behemoth и R2, и мне не терпится встроить их в мой повседневный процесс работы. Меня как никогда радует состояние опенсорсных моделей; после выпуска R1 при правильном использовании они впервые становятся жизнеспособной альтернативой для передовых моделей. С радостью отвечу на конкретные вопросы, но, вероятно, это последний мой пост по этой теме. Нужно возвращаться к работе...

Думаю, это возможно. Возможно, Llama имеет свою нишу и будет хороша в этой нише, когда люди адаптируются к ней и качественно её дооснастят. Но Meta* определённо презентует Maverick и будущую Behemoth иначе.

Странно было бы называть это «бенчмарком», но стоит отметить, что Llama 4 Scout и Maverick в новом тесте не демонстрировали имитации alignment.

Ещё одним своего рода бенчмарком может быть работа «красной командой», проведённая Virtue AI. Увы, их тесты, похоже, проверяли только стандартные угрозы. Они обнаружили, что Llama 4 существенно хуже соответствует законодательным нормам по ИИ, чем Claude 3.7 и GPT-4.5, она «отстаёт от конкурентов», а оценки указывают на «существенные слабости» против стандартных угроз, несмотря на то, что Virtue AI назвали «дилеммой осторожности Maverick» и ложные отказы в выполнении задач.

Всё это сильно отличается от вопросов о незапланированном применении, злонамеренном fine-tuning или других источниках потенциально катастрофического риска от модели с открытыми весами. Компания как всегда защищается тем, что «лицензия гласит, что вы не можете делать этого». Можно лишь предполагать, что основная защита заключается в том, что этим моделям недостаёт возможностей, чтобы вызывать новые проблемы, по крайней мере, пока не выпущена Behemoth.

Llama не нравится пользователям

А вот, что говорят люди из других областей.

Яир Халберштадт: Обзоры на Reddit абсолютно разгромные, результаты настолько плохи, что авторы предполагают, что модель сконфигурирована ошибочно.

Я нашёл подтверждение заявлению Яира в других надёжных источниках.

Murat: Только что попробовал llama 4 scout в groq cloud. 512 токенов/с — это отлично, однако, как и все другие оптимизированные под тесты модели (наподобие Claude 3.7, o3-mini и так далее), она не полностью следует инструкциям. Я не могу использовать её как готовую замену для моих процессов работы с промптами. Попробовал llama maverick. Та же история. Не впечатлило. Grok не хватает API, поэтому я по-прежнему буду в качестве основной пользоваться Sonnet 3.5.

Medo 42: По моему личному бенчмарку (задаче кодинга, которую я даю каждой новой модели) она проявила себя плохо. Пока делит последнее место с Gemini 2.0 Pro 02-07. Приблизительный отзыв: «Код возвращал массив объектов в нужном виде, и в одном из полей объектов чаще всего было правильное значение»

Scaling01: Llama-4-Болтун наносит ответный удар. Я даже не могу выполнить бенчмарк с игрой в крестики-нолики, потому что Llama-4-400B не затыкается и постоянно отвечает одним числом. Llama-4-109B по какой-то причине справляется.

Кто был самым громким болельщиком Llama, не работающим в Meta*?

Царь ИИ и крипты Дэвид Сакс: Поздравляю команду @AIatMeta с выпуском её новых моделей Llama 4 с открытыми весами.

Чтобы США побеждали в гонке ИИ, нам нужно побеждать и в опенсорсе. Благодаря Llama 4 мы снова вырвались вперёд.

Питер Уайлдфорд: Google настолько плоха в маркетинге, что @davidsacks47 не похвалил Gemma 3.

Отсутствие упоминания Gemma 3 кажется частью маркетинговых проблем. Google считается закрытой лабораторией, а Meta* — открытой. Но в целом да, маркетинг Google чудовищен. Однако заявление о том, что Gemma 3 позволила нам вырваться вперёд, было бы гораздо более обоснованным, чем в случае Llama 4.

В токенизатор Llama страшно заглядывать.

Kalomaze: Если кто-то в вашей команде скажет: «да, нам нужны 10 специальных токенов для рассуждений, 10 для зрения, ещё 10 для генерации изображений, 10 агентских токенов и 10...», то вам следует немедленно влепить ему пощёчину. А если так не сделать, то вы получите вот это.

Minh Nhat Nguyen: Не заходите в llama tokenizer точка json. Худшая ошибка в моей жизни. Честно говоря, я считаю, что зарезервированные токены llama удобны для экспериментов с ablation, но они сильно перегнули с этим палку.

Image
Image

Джим Фен говорит, что Llama-4 не разочаровывает, но его ответ, похоже, полностью основан на заявлениях и отчётах Meta*, а не на независимой оценке показателей.

Все отчёты об обратной связи утверждают, что люди разочарованы.

Мена Флейшман: Я не видел никаких особо комплиментарных отзывов. Они отложили выпуск Behemoth, который бы стал реальной демонстрацией чего-то сверхсовременного, а вторая после Behemoth по мощности Maverick по их собственной статистике чаще всего терпит поражение от Deepseek, которую и так обогнали на релизе.

Очень слабая демонстрация.

Андрий Бурков: Если разочаровавший сегодняшний релиз Llama 4 и говорит нам о чём-то, так это о том, что даже 30 триллиона токенов обучения и 2 триллиона параметров не делают нерассуждающую модель лучше, чем рассуждающие модели меньшего размера. Эпоха увеличения масштабов моделей и данных закончилась.

Александер Дориа, аналогично, не видит особого смысла давать 40 триллионов токенов Llama-4 Scout и 22 триллионов Llama-4 Maverick.

Я не думаю, время масштабирования моделей и данных завершилось. Это просто значит, что если ты не знаешь, как реализовывать модели правильно, тебя не спасёт один лишь размер, а при правильной реализации он, вероятно, даст меньший выигрыш.

Llama: интересна ли она

Самый важный вывод заключается в том, что нам следует понизить ожидания от Meta* в сфере AI, а также ожидания того, насколько можно доверять Meta*.

Обладая огромным превосходством в ресурсах, Meta* сейчас, похоже, пытается копировать DeepSeek, и не очень с этим справляется. И Meta* в неизвестной нам степени предпринимает намеренные попытки сделать так, чтобы её модели выглядели лучше в бенчмарках, нарушая при этом нормы отрасли.

Сложно закрывать глаза на одну из самых сильных технологических компаний с кучей вычислительных ресурсов и почти бесконечным капиталом. Она может переломить ситуацию. Но ей определённо стоит стараться менять эту ситуацию, и делать это быстро, чтобы оставаться конкурентной.

На текущий момент американским чемпионом в открытых моделях оказалась не Meta*, а Google с Gemma 3, а вскоре им может стать и OpenAI, которая планирует скоро выпустить открытую модель рассуждений.

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:* — признана экстремистской организацией, её деятельность в России запрещена;** — запрещены в России.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
+16
Комментарии6

Публикации

Работа

Data Scientist
46 вакансий

Ближайшие события