Search
Write a publication
Pull to refresh
1
0
Send message

Про "Консистентность" особенно забавно при том что на картинках енот как минимум в трёх разных вариантах исполнения, даже не считая разной одежды. Вообще у нейросетей есть всего один но очень характерный стиль - "уныло усреднённый" и долго читать такое очень трудно. А если просить писать в другом стиле часто переигрывает.

Я не опровергал исследование, для 2-8B оно остается верным, только они делают вывод о всех LLM по модели 2B

Ну, те gemma 2 27b (которая кстати судя по графику ломалась сильнее чем gemma 2 2b) прошла мимо вас и вы до сих пор думаете что там только 2-8B модели и один случайно затесавшийся o1-preview? GPT-4o (обычный, не мини, мини там в другой строке) кстати там тоже есть, с деградацией на 32%. Видимо он тоже 8В размером.

Где? Llama 3.1 405b отвечает "Пять из них были немного меньше среднего размера, но это не меняет общее количество киви."

Проверил ещё раз, да был не прав, Llama 3.1 405b отвечает верно, это у меня опечатка в вопросе была - одна строка текста слетела. Что забавно, с этой опечаткой разные модели всё равно отвечали по разному, что в любом случае подтверждает исследование - внесение шума ломает логику моделей.

Поэтому я и сказал, что в статье не было настоящих SOTA (state-of-the-art) моделей, хотя они явно пишут, что взяли state-of-the-art модели, видимо не до конца понимая, что это такое.

А ... может это ВЫ не до конца понимаете что это такое? Я склоняюсь ко второму варианту, с учётом что (тм) на SOTA (state-of-the-art) у вас явно нет, да и при чтении статьи вы половину информации пропустили.

И кстати, про SOTA, тут люди клевещут что Лама 3 8Б лучше, чем Лама 2 70Б во всех сравнениях. Вы говорите, размер главное, да?

Если знать, что они стажеры, то всё становится куда проще.

При всём уважении, опровергать исследование (кривое-косое но всё же исследование) единичным примером это даже не стажёрский уровень а гораздо ниже. Ну вот я задал вопрос про киви  Llama 3.1 405B и она ошиблась ровно так как и описано в статье. Что это значит? Да ничего, для более-менее адекватного вывода нужно задать десятки вопросов. А рассуждения дилетантов на хабре так и останутся рассуждениями дилетантов.

Это не мешает авторам статьи делать утверждение о том, что LLM никогда не смогут рассуждать.

При всём уважении, в переводе сказано (даже отдельно процитировано) а - у существующих LLM есть критические проблемы в рассуждениях, б - требуются дополнительные исследования для того чтобы создать модели лишённые этих недостатков. Как вы из этого сделали вывод что в исследовании говорится "LLM никогда не смогут рассуждать" - загадка.

Я сделал вывод ровно о том, что изображено на графике - у моделей, имеющих больше информации о мире, ошибок меньше.

Смотрю на график. Вижу, например, что у gemma2-2b-it качество падает на 31.8 а у gemma2-9b-it уже на 63. А между ними gemma2-27b-it. Вы утверждаете что у gemma2-2b-it больше информации о мире чем у gemma2-9b-it?

И все десятки приложений на питоне и у всех десятков приложений разные версии библиотек и разные окружения, и ни один образ нельзя создать на основе другого? И на этом гипотетическом сервере ещё не реализовали ни один альтернативный метод оптимизации, всё тупо через pip из интернета качается? Тогда да, будет полезно, особенно если ошибка в работе с новым инструментом с которой придётся несколько часов разбираться не аннулирует выигрыш из-за ускорения за несколько месяцев.

Спасибо за гипотезу, про изменение качества студентов я не подумал. Но есть ещё несколько вариантов которые следовало бы рассмотреть. Первый - общее увеличение количества выпускников курсов (не только практикума) и как следствие обрушение "рынка джунов". Второй - проблемы с масштабированием. Насколько я знаю в начале группы на анализе были меньше ста человек, постепенно количество дошло до трёхсот. В пик "цифровых профессий" ещё проблемы со сроками проверки были, вроде бы до недели доходило.

Если уточните на счёт исследований будет отлично. Надеюсь NDA не помешает, в любом случае буду ждать ответа)

Неплохое исследование, но хочется поделиться забавным наблюдением. Пресловутые "69%" из обещаний на странице курса. В начале там были гораздо более позитивные цифры, но со временем процент нашедших работу упал настолько что даже пришлось увеличивать интервал чтобы в выборку попала часть выпускников из "хороших времён". После чего уже два года новые данные не выкладываются, что наводит на подозрение что процент уже меньше половины. Так что рассматривая статистику касающуюся того кто из выпускников как быстро находит работу нужно помнить что это только те кто работу в итоге нашли.

Information

Rating
Does not participate
Registered
Activity