Ну, наверное к мете можно в целом придумать много претензий
И к корпоративному опенсорсу в том числе
И когда что-то непрозрачно, то сразу велик соблазн подумать самое плохое (наверное, обучались на тесте)
В целом придется просто ещё какое-то время выкладывать все логи, опять же, контаминацию бенчей легко проверить независимо - коммьюнити может это сделать.
Надо более качественно готовить релизы (по возможности:) )
Даже не хочется ничего писать в опровержение этой глупости, но надо себя перебороть.
Ты собрал несколько новостей из интернета в одну статью и объединил, как тебе хочется.
Випи (Joelle) ушла из Fair, fair никакого отношения не имеет к llama 4, это можно было нагуглить, прежде чем писать, что якобы ушел продакт модели.
История с китайским форумом — это фейк.
Моя команда делала 10 млн контекста. Как писали в релизном посте, это делается за счёт файнтюнинга, а на претрейне контекст был 256 тыс токенов. На таблице сверху по названию моделей видно, что мерили претрейн чекпоинты, а не инстракт с 10млн.
И исправь, пожалуйста, название модели в заголовке, там опечатка.
Дедубликацию мы применили, чтобы дополнительно очистить выборку для каждого автора. Затем искусственно добавили в неё больше Пепперштейна, чтобы сётка во время обучения увидела его больше раз, чем всего остального.
Ну, наверное к мете можно в целом придумать много претензий
И к корпоративному опенсорсу в том числе
И когда что-то непрозрачно, то сразу велик соблазн подумать самое плохое (наверное, обучались на тесте)
В целом придется просто ещё какое-то время выкладывать все логи, опять же, контаминацию бенчей легко проверить независимо - коммьюнити может это сделать.
Надо более качественно готовить релизы (по возможности:) )
Да.
Даже не хочется ничего писать в опровержение этой глупости, но надо себя перебороть.
Ты собрал несколько новостей из интернета в одну статью и объединил, как тебе хочется.
Випи (Joelle) ушла из Fair, fair никакого отношения не имеет к llama 4, это можно было нагуглить, прежде чем писать, что якобы ушел продакт модели.
История с китайским форумом — это фейк.
Моя команда делала 10 млн контекста. Как писали в релизном посте, это делается за счёт файнтюнинга, а на претрейне контекст был 256 тыс токенов. На таблице сверху по названию моделей видно, что мерили претрейн чекпоинты, а не инстракт с 10млн.
И исправь, пожалуйста, название модели в заголовке, там опечатка.
Политика партии в Сколтехе теперь требует написания таких статей? Или это самодеятельность?
Очень здорово!
А какой датасет используется для претрейна? Или хотя бы какой у него жанровый состав
Ну, по крайней мере люди, носители языка эти задачки решают очень хорошо - их вполне реально решить на 100%
Некоторые датасеты на machine reading и правда как будто из ЕГЭ взяты по формату.
Вот это подарок под новый год!!! Спасибо!
Спасибо!
Скажите, какие параметры выставить для оптимальной генерации? Какие рекомендуете?
А сделаете демку Huggingface? Или не влезет?
Ура, спасибо за работу!
А пробовали уже few-shot, zero-shot замерить на ней?
Хороший вопрос!
Дедубликацию мы применили, чтобы дополнительно очистить выборку для каждого автора. Затем искусственно добавили в неё больше Пепперштейна, чтобы сётка во время обучения увидела его больше раз, чем всего остального.
Вау! Впечатляющая работа! А будет в open source? И.. почему температура такая маленькая?
В целом, согласна по поводу нейронок, мы ещё не исследовали все, что они могут решать, даже в текущем сетапе.
Нейросеть в лице сбера получила свой гонорар, как по авторскому договору, только чуть переделанному))
AI-книга заменит программиста?))
А там есть и персонажи, и сюжет!
Это полноценные рассказы) В этом и фишка.
Конечно, это ещё не роман на 100 страниц, но на 5-10 страниц полноценный текст.
ПО, конечно, пока специализированное. Когда начнёт одна модель решать все задачи, и учиться новым - это уже по определению будет сильный ИИ.
Ожидания от моделей все время повышаются, но сама возможность решить такую новую задачу - имхо уже очень важный показатель.
Надо emojich'а прикрутить))
Попробуйте в колабе, действительно, там инференс занимает порядке 12 Gb
вроде все на месте