Search
Write a publication
Pull to refresh
59
0
Tatiana Shavrina @Rybolos

NLP, data scientist

Send message

Ну, наверное к мете можно в целом придумать много претензий

И к корпоративному опенсорсу в том числе

И когда что-то непрозрачно, то сразу велик соблазн подумать самое плохое (наверное, обучались на тесте)

В целом придется просто ещё какое-то время выкладывать все логи, опять же, контаминацию бенчей легко проверить независимо - коммьюнити может это сделать.

Надо более качественно готовить релизы (по возможности:) )

Даже не хочется ничего писать в опровержение этой глупости, но надо себя перебороть.

Ты собрал несколько новостей из интернета в одну статью и объединил, как тебе хочется.

Випи (Joelle) ушла из Fair, fair никакого отношения не имеет к llama 4, это можно было нагуглить, прежде чем писать, что якобы ушел продакт модели.

История с китайским форумом — это фейк.

Моя команда делала 10 млн контекста. Как писали в релизном посте, это делается за счёт файнтюнинга, а на претрейне контекст был 256 тыс токенов. На таблице сверху по названию моделей видно, что мерили претрейн чекпоинты, а не инстракт с 10млн.

И исправь, пожалуйста, название модели в заголовке, там опечатка.

Политика партии в Сколтехе теперь требует написания таких статей? Или это самодеятельность?

Очень здорово!

А какой датасет используется для претрейна? Или хотя бы какой у него жанровый состав

Ну, по крайней мере люди, носители языка эти задачки решают очень хорошо - их вполне реально решить на 100%

Некоторые датасеты на machine reading и правда как будто из ЕГЭ взяты по формату.

Вот это подарок под новый год!!! Спасибо!

Скажите, какие параметры выставить для оптимальной генерации? Какие рекомендуете?

Хороший вопрос!

Дедубликацию мы применили, чтобы дополнительно очистить выборку для каждого автора. Затем искусственно добавили в неё больше Пепперштейна, чтобы сётка во время обучения увидела его больше раз, чем всего остального.

Вау! Впечатляющая работа! А будет в open source? И.. почему температура такая маленькая?

В целом, согласна по поводу нейронок, мы ещё не исследовали все, что они могут решать, даже в текущем сетапе.

Нейросеть в лице сбера получила свой гонорар, как по авторскому договору, только чуть переделанному))

А там есть и персонажи, и сюжет!

Это полноценные рассказы) В этом и фишка.

Конечно, это ещё не роман на 100 страниц, но на 5-10 страниц полноценный текст.

ПО, конечно, пока специализированное. Когда начнёт одна модель решать все задачи, и учиться новым - это уже по определению будет сильный ИИ.

Ожидания от моделей все время повышаются, но сама возможность решить такую новую задачу - имхо уже очень важный показатель.

Попробуйте в колабе, действительно, там инференс занимает порядке 12 Gb

Information

Rating
Does not participate
Works in
Registered
Activity