Обновить
58
0
Tatiana Shavrina@Rybolos

NLP, data scientist

Отправить сообщение

Ну, наверное к мете можно в целом придумать много претензий

И к корпоративному опенсорсу в том числе

И когда что-то непрозрачно, то сразу велик соблазн подумать самое плохое (наверное, обучались на тесте)

В целом придется просто ещё какое-то время выкладывать все логи, опять же, контаминацию бенчей легко проверить независимо - коммьюнити может это сделать.

Надо более качественно готовить релизы (по возможности:) )

Даже не хочется ничего писать в опровержение этой глупости, но надо себя перебороть.

Ты собрал несколько новостей из интернета в одну статью и объединил, как тебе хочется.

Випи (Joelle) ушла из Fair, fair никакого отношения не имеет к llama 4, это можно было нагуглить, прежде чем писать, что якобы ушел продакт модели.

История с китайским форумом — это фейк.

Моя команда делала 10 млн контекста. Как писали в релизном посте, это делается за счёт файнтюнинга, а на претрейне контекст был 256 тыс токенов. На таблице сверху по названию моделей видно, что мерили претрейн чекпоинты, а не инстракт с 10млн.

И исправь, пожалуйста, название модели в заголовке, там опечатка.

Политика партии в Сколтехе теперь требует написания таких статей? Или это самодеятельность?

Очень здорово!

А какой датасет используется для претрейна? Или хотя бы какой у него жанровый состав

Ну, по крайней мере люди, носители языка эти задачки решают очень хорошо - их вполне реально решить на 100%

Некоторые датасеты на machine reading и правда как будто из ЕГЭ взяты по формату.

Вот это подарок под новый год!!! Спасибо!

Скажите, какие параметры выставить для оптимальной генерации? Какие рекомендуете?

Ура, спасибо за работу!

А пробовали уже few-shot, zero-shot замерить на ней?

Хороший вопрос!

Дедубликацию мы применили, чтобы дополнительно очистить выборку для каждого автора. Затем искусственно добавили в неё больше Пепперштейна, чтобы сётка во время обучения увидела его больше раз, чем всего остального.

Вау! Впечатляющая работа! А будет в open source? И.. почему температура такая маленькая?

В целом, согласна по поводу нейронок, мы ещё не исследовали все, что они могут решать, даже в текущем сетапе.

Нейросеть в лице сбера получила свой гонорар, как по авторскому договору, только чуть переделанному))

А там есть и персонажи, и сюжет!

Это полноценные рассказы) В этом и фишка.

Конечно, это ещё не роман на 100 страниц, но на 5-10 страниц полноценный текст.

ПО, конечно, пока специализированное. Когда начнёт одна модель решать все задачи, и учиться новым - это уже по определению будет сильный ИИ.

Ожидания от моделей все время повышаются, но сама возможность решить такую новую задачу - имхо уже очень важный показатель.

Попробуйте в колабе, действительно, там инференс занимает порядке 12 Gb

вроде все на месте

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирована
Активность