olegchir 8 апр в 06:14

Бенчмарки Llama-4, предположительно — скам на самом высоком уровне

3 мин

9.9K

Блог компании AnarchicМашинное обучение*Программирование*Искусственный интеллект

Комментарии 13

Закреплённые комментарии

Rybolos 8 апр в 08:51

Даже не хочется ничего писать в опровержение этой глупости, но надо себя перебороть.

Ты собрал несколько новостей из интернета в одну статью и объединил, как тебе хочется.

Випи (Joelle) ушла из Fair, fair никакого отношения не имеет к llama 4, это можно было нагуглить, прежде чем писать, что якобы ушел продакт модели.

История с китайским форумом — это фейк.

Моя команда делала 10 млн контекста. Как писали в релизном посте, это делается за счёт файнтюнинга, а на претрейне контекст был 256 тыс токенов. На таблице сверху по названию моделей видно, что мерили претрейн чекпоинты, а не инстракт с 10млн.

И исправь, пожалуйста, название модели в заголовке, там опечатка.

misha1350 8 апр в 07:26

Генна'ий Гуглович полностью исправился в лучшую сторону. Похоронил LLaMa 4, похоронил LLaMa 3.2 (Gemma 3 1B ощутимо лучше LLaMa 3.2 1B, и это всё что надо знать), и наличие бесплатного API хоронит и многих провайдеров бесплатных облак. Теперь хотя-бы у студентов больше нет оправданий не писать дипломные работы по делу, не так как было ещё год назад.

Но я всё равно не буду платить ему за платный API.

НЛО прилетело и опубликовало эту надпись здесь

weerf 8 апр в 11:16

Сам заметил по DeepSeek R1.

Дешевые провайдеры openrouter отвечают так, будто им самый дешёвый attention включили. Мысль повествования прерывистая. Контекст быстро теряют, начинают по другой теме говорить, явно из весов, а не вопроса.

Поэтому всегда, когда выбираю deepseek r1, включаю провайдеров Together, Fireworks. У них речь чище, меньше иероглифов, ответ в пределах 4к токенов меня устраивает. У других - нет.

Я в курсе, что openrouter жестко относится к любителям квантования. И в общий поток клиентов таких провайдеров не пускает. Но что касается других параметров сети, кроме квантования - тут у меня вопросы.

Rybolos 8 апр в 08:51

Даже не хочется ничего писать в опровержение этой глупости, но надо себя перебороть.

Ты собрал несколько новостей из интернета в одну статью и объединил, как тебе хочется.

История с китайским форумом — это фейк.

И исправь, пожалуйста, название модели в заголовке, там опечатка.

olegchir 8 апр в 10:32

Конечно же я собрал несколько новостей из интернета. Других способов получать новости нет, как бы. Читаю китайские форумы, достаю из них инфу.

Аггрегирую инфу, рассказываю на Хабре, чего говорят люди в интернете.

Вся новость строится на новости с китайского форума и недовольства пользователей тем, как работает llama-4.

Из предположения, что новость может быть фейком, написал в заголовок слово предположительно.

olegchir 8 апр в 10:33

Постой, твоя команда делала модель Scout?

Rybolos 8 апр в 12:40

Да.

olegchir 8 апр в 14:08

Можешь тогда пояснить, откуда такой хейт? На Твиттере это тренд - ругать свежую Ламу. Арене даже пришлось выложить 2 тыщи батллов с участием Маверика.

Rybolos 8 апр в 16:42

Ну, наверное к мете можно в целом придумать много претензий

И к корпоративному опенсорсу в том числе

И когда что-то непрозрачно, то сразу велик соблазн подумать самое плохое (наверное, обучались на тесте)

В целом придется просто ещё какое-то время выкладывать все логи, опять же, контаминацию бенчей легко проверить независимо - коммьюнити может это сделать.

Надо более качественно готовить релизы (по возможности:) )

olegchir 8 апр в 14:15

Я закрепил комментарий. Пусть это работает как твиттеровские community notes :)

Badsanta83 8 апр в 09:05

С perplexity у меня дружба давно, но часто она прерывается из за дичи, которую он творит. Из плюсов что не нужны никакие впн. Но из минусов - это абсолютно непонятный контекст. На длинных диалогах он то отлично помнит прошлые запросы, то забывает предыдущий. Может дать отличное заключение по ошибке, может слиться. Может стоять на своем и отстаивать свое мнение, не прогибаясь под твое - не то что остальные. Типа - Ах ну да, я совсем забыл что у коня может быть и 5 копыт, давайте все переделаем исходя из этого..
Но забил на поиск. Раньше - поищи похожие проекты на гитхабе и на тебе десяток годных ссылок. Сейчас - ты можешь и сам поискать.
для меня это самый непредсказуемый ИИ. результат от - ах ты мой красавчик, до - ну ты и жлоб.

EvgeniyRasyuk 9 апр в 10:08

Желание хайпануть превысило границы разума

olegchir 10 апр в 15:43

Возможно, Цукерберг реально ящерик из глубин космоса. Сложно упрекнуть его в отсутствии простой человеческой эмпатии — у ящериц ее нет!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий