>А, так вы решили удариться в демагогию? Т.е. исправление явной ошибки для вас демагогию? Тю, а я то думал тут человек хочет дискуссию провести.
>ответы вам они выдают именно на "лингвистическом языке", а не набором семантических токенов Идите читайте мануалы, то что люди не имеют в токеночитательство ещё не значит что модели "языковые". Кстати в вашем случае их следовало бы назвать "словесные", но таковыми они тоже не являются.
>Для этого вам нужны доступы к внутрянке - но кто вам их даст? Пока что запретить мне может только минцифры, а так берете и качаете, вся внутрянка в файлах.
> Модели-то всё-таки языковые А, так вы ударились в софистику и не сделали поправку на потери пре переводе? Модели, конечно, языковые, но это исключительно в силу того что языки (language) являются удобными носителями информации, которую легко оцифровать, крутануть в вектора а потом матрицы этих векторов вращать в латентных гиперпространствах. Так то это большие информационные модели, но от авторов досталось LLM c language. Никакого отношения к философии это не имеет, и проверять на философских эссе нет никакого интереса, потому что для начала вам нужно проанализировать информационную плотность данных эссе, а после валидировать ту же информационную плотность и направленность от LLM. А вы даже со словом языковая заблудились. Так что может все-таки будем инструменты согласно задачам выбирать? А на устном счете их сравнивают ради хайпожорских статей, работа у людей такая. >В этом проблема. Нет. >Но они как бы не под это дело заточены! Нет, именно под это. > Для фактологии - Grock постоянно в сети роется Во первых, Grok, во вторых, claude роется в сети намного лучше, в третьих, умел бы грок писать код так же хорошо как и клод - он бы писал код, просто через пол года стараний Маск не может научить свою модель кодить так же хорошо По итогу там всю компанию пересобрали заново и кучу людей поувольняли. Потому что кодинг. >И все это будет актуально до первого же апдейта, причём ещё и скрытого Как раз наоборот, любой скрытый апдейт станет явным если у вас есть хорошие тесты.
у гугла и правда очень сильные малые модели, связанно скорее всего это с тем что они малые модели обучают на схожем датасете, но с большими итерациями. Проблема гугла что вы не знаете что это за модель, и например в январе она отвечала прекрасно, весь февраль несла чушь и откровенно врала, в конце марта снова не плохо отвечает, правда не больше 5 сообщений подряд. вы не знаете что это за модель - у вас нет предварительного уровня доверия к модели - нет доверия к результату, считай каждый раз жмете кнопку мне повезет! Иногда везет, а иногда вас везут. Мне не нравятся модели гугла, каждый раз я очень просто свожу из в панический цикл эмоционального отрицалова, но тем не менее у моего лично ai-агента очередной UI нарисован именно через gemini 3.1 pro (high). Правда натянуть эту UI сам гемини не смог, буду на выходных через codex мучить.
>В контексте нейросетей - отнюдь нет не верно. контролируете seed c температурой, получаете 100% детерменированный ответ. Вот только LLM хороши как раз для обратного. >Весь инет завален скринами того Ну в интернете то чуши не скажут. Все вводные очевидны, иначе бы LLM не возможно было учить. >Что? Зачем? Для чего? Критикуешь - предлагай, знаком такой подход? Или вот прям надо нанейрослопить на 54 страницы >Почему языковые модели сравнивают на каких-то синтетических тестах < Короткий ответ - потому что больше не на чем. >всплывают посты вида "Шок!!! Нейросеть не смогла сложить 2 + 2 " Потому что цель таких статей - привлечь внимание недалеких читателей? Вы ещё спросите потому Карпатый каждый раз сосиску роняет. >Поделитесь тогда вашим опытом Так и делюсь. R1 уже год может пойти сомневаться в чем угодно, особенно если его вежливо попросить ставить под сомнение все. Из плюсов - при этом он может кардинально поменять текущее направление решения проблемы (в т.ч. программисткой) и не впадать в галлюциногенную панику, как это делали многие другие модели. Плата за такой перформанс - очень длинный блок размышленний, да и в целом, на решение одной задачи дипсик тратил больше и времени и токенов чем sonnet 4.0. Но это удивляло год назад. Сейчас удивляет только отсутствие такого подхода, но это связывают с регулярной внезапной деградацией нейросеток. >Зачем? Мне хочется. Должен же хоть где-то в интернете быть объективный анализ текущих моделей. А то все жалуются что тесты не тесты, а тестировать никто не хочет.
Потому что синтетические тесты повторяемы. Но вы всегда можете пойти сделать сайт и начать тестировать все нейросети на свой вкус, а мы все прислушаемся к вашему мнению (или нет). То что вас дипсик только недавно удивил вот этим говорит больше о вас чем о дипсике, это особенности R1 модели которой уже больше года. А теперь сделайте повторяющейся тест на проверку и автокорректировку или признание неявной ошибки и прогоните на всех известных моделях. Как только начнете, получится такая же синтетика как и у остальных. Да и в целом, в любой оценке чего угодно до некоторой степени не важно что вы сравниваете, важно чтобы заведомо сильная модель выступала лучше заведомо слабых, для остального есть LM-арены
>Какая LLM прямо сейчас может гарантировать правильный результат вычисления произвольного арифметического выражения? Любая обученная под instruct. Уже больше года.
отвечу. Бизнесу выгодно меньше запросов, а не больше. Задача сводиться к тому чтобы обеспечить максимум вычислительных мощностей максимальному количеству пользователей, потому что они платят за подписку, а не за запросы. За запросы платят компании, и там совсем другие истории, но опять таки, бизнес тут конкурирует с другими, а не с пользователями. К этому добавляется тот факт что токены по подпискам субсидированы, смысл их увеличивать? Чтобы увеличивать нагрузку на свои же серваки? Чтобы увеличивать счета за электричество? Ну а почему claude регулярно деградирует - это есть множество теорий и информации, кто то их связывает с пиковой нагрузкой, кто то с неудачным рутингом. А дипсик от авторов есть только по API с ценой за 1M, но есть другие провайдеры которые предлагают доступ.
конкуренция это хорошо, в тоже время уже почти месяц codex дает двойные и регулярно обновляемые лимиты. Жаль что antigravity на фоне этого лимиты урезает.
именно поэтому deepseek выпустили модель по цене в 10 раз меньше которая при этом ещё и размышляет на порядок меньше, при тех же (или лучших) результатах. Это же вы системно пронаблюдали, да?
тут интереснее почему v3.1 а не v3.2, который на голову лучше в том числе в колонне, но такое ощущение что продается в жутких квантах через ollama. Я бы предположил что у вас давнее тестирование, но новый qwen то присутствует. А уж если сравните с новеньким 27b по своей методике для релевантности - это прям отдельное спасибо.
есть задачи и под миллион контекста, и под 10млн. Только llm от силы держат 200к, и то потом начинается такой цирк, что пожалуйста не надо. Если оно без dsa и engram, то весь этот контекст превращается в нейрослоп ещё до инференса, так ещё и с просадкой в скорости. Из понятного - держать типичный суточный диалог в памяти без /compact, что позволяет агенту работать как реальному обсерверу над пользователем, скидывая опыт в постоянную память для анализа по окончанию дня. Монолиты пилятся и без ляма, любые сложные(комплексные) ревью разбиваются и так, а для документации нужен engram
Это все очень печально, qwen 3.5 c hybrid attention реально сделал топовые модели. 9b и 27b прям впечатляют. И выглядит все так что эффективные менеджеры alibaba решили закрыть исследовательcкую лабу qwen и сделать супер ИИ бизнес qwen. Проблема в том что эффективно монетизировать можно только топовые модели с суперрезультатами, а это надо конкурировать с opus4.6/Gpt5.4. И без супердатацентров это вряд ли произойдет. С другой стороны менеджмент тоже можно понять, устали сжигать деньги в электричество ради лайков на reddit и ретвитов у маска.
если быстро решить - поставьте кастомный промпт "отвечай меньше чем за 100-200-300 слов" дело не в скорости, а в том что модель иногда слишком долго думает если у неё мало данных для ответа. Может сильно зависеть от внутренних настроек модели и как движок с ней работает, т.е. буквально модель от unsloth может этим страдать, а от qwen все будет хорошо.
>А, так вы решили удариться в демагогию?
Т.е. исправление явной ошибки для вас демагогию? Тю, а я то думал тут человек хочет дискуссию провести.
>ответы вам они выдают именно на "лингвистическом языке", а не набором семантических токенов
Идите читайте мануалы, то что люди не имеют в токеночитательство ещё не значит что модели "языковые". Кстати в вашем случае их следовало бы назвать "словесные", но таковыми они тоже не являются.
зачем продавать дешево то что можно продавать дорого? А так оно уже есть, ryzen ai 395 называется
>Для этого вам нужны доступы к внутрянке - но кто вам их даст?
Пока что запретить мне может только минцифры, а так берете и качаете, вся внутрянка в файлах.
> Модели-то всё-таки языковые
А, так вы ударились в софистику и не сделали поправку на потери пре переводе? Модели, конечно, языковые, но это исключительно в силу того что языки (language) являются удобными носителями информации, которую легко оцифровать, крутануть в вектора а потом матрицы этих векторов вращать в латентных гиперпространствах. Так то это большие информационные модели, но от авторов досталось LLM c language.
Никакого отношения к философии это не имеет, и проверять на философских эссе нет никакого интереса, потому что для начала вам нужно проанализировать информационную плотность данных эссе, а после валидировать ту же информационную плотность и направленность от LLM. А вы даже со словом языковая заблудились. Так что может все-таки будем инструменты согласно задачам выбирать? А на устном счете их сравнивают ради хайпожорских статей, работа у людей такая.
>В этом проблема.
Нет.
>Но они как бы не под это дело заточены!
Нет, именно под это.
> Для фактологии - Grock постоянно в сети роется
Во первых, Grok, во вторых, claude роется в сети намного лучше, в третьих, умел бы грок писать код так же хорошо как и клод - он бы писал код, просто через пол года стараний Маск не может научить свою модель кодить так же хорошо По итогу там всю компанию пересобрали заново и кучу людей поувольняли. Потому что кодинг.
>И все это будет актуально до первого же апдейта, причём ещё и скрытого
Как раз наоборот, любой скрытый апдейт станет явным если у вас есть хорошие тесты.
у гугла и правда очень сильные малые модели, связанно скорее всего это с тем что они малые модели обучают на схожем датасете, но с большими итерациями.
Проблема гугла что вы не знаете что это за модель, и например в январе она отвечала прекрасно, весь февраль несла чушь и откровенно врала, в конце марта снова не плохо отвечает, правда не больше 5 сообщений подряд.
вы не знаете что это за модель - у вас нет предварительного уровня доверия к модели - нет доверия к результату, считай каждый раз жмете кнопку мне повезет! Иногда везет, а иногда вас везут. Мне не нравятся модели гугла, каждый раз я очень просто свожу из в панический цикл эмоционального отрицалова, но тем не менее у моего лично ai-агента очередной UI нарисован именно через gemini 3.1 pro (high). Правда натянуть эту UI сам гемини не смог, буду на выходных через codex мучить.
>В контексте нейросетей - отнюдь нет
не верно. контролируете seed c температурой, получаете 100% детерменированный ответ. Вот только LLM хороши как раз для обратного.
>Весь инет завален скринами того
Ну в интернете то чуши не скажут. Все вводные очевидны, иначе бы LLM не возможно было учить.
>Что? Зачем? Для чего?
Критикуешь - предлагай, знаком такой подход? Или вот прям надо нанейрослопить на 54 страницы >Почему языковые модели сравнивают на каких-то синтетических тестах <
Короткий ответ - потому что больше не на чем.
>всплывают посты вида "Шок!!! Нейросеть не смогла сложить 2 + 2 "
Потому что цель таких статей - привлечь внимание недалеких читателей? Вы ещё спросите потому Карпатый каждый раз сосиску роняет.
>Поделитесь тогда вашим опытом
Так и делюсь. R1 уже год может пойти сомневаться в чем угодно, особенно если его вежливо попросить ставить под сомнение все. Из плюсов - при этом он может кардинально поменять текущее направление решения проблемы (в т.ч. программисткой) и не впадать в галлюциногенную панику, как это делали многие другие модели. Плата за такой перформанс - очень длинный блок размышленний, да и в целом, на решение одной задачи дипсик тратил больше и времени и токенов чем sonnet 4.0. Но это удивляло год назад.
Сейчас удивляет только отсутствие такого подхода, но это связывают с регулярной внезапной деградацией нейросеток.
>Зачем?
Мне хочется. Должен же хоть где-то в интернете быть объективный анализ текущих моделей. А то все жалуются что тесты не тесты, а тестировать никто не хочет.
Потому что синтетические тесты повторяемы.
Но вы всегда можете пойти сделать сайт и начать тестировать все нейросети на свой вкус, а мы все прислушаемся к вашему мнению (или нет).
То что вас дипсик только недавно удивил вот этим говорит больше о вас чем о дипсике, это особенности R1 модели которой уже больше года.
А теперь сделайте повторяющейся тест на проверку и автокорректировку или признание неявной ошибки и прогоните на всех известных моделях.
Как только начнете, получится такая же синтетика как и у остальных.
Да и в целом, в любой оценке чего угодно до некоторой степени не важно что вы сравниваете, важно чтобы заведомо сильная модель выступала лучше заведомо слабых, для остального есть LM-арены
>Какая LLM прямо сейчас может гарантировать правильный результат вычисления произвольного арифметического выражения?
Любая обученная под instruct. Уже больше года.
откуда у вас эта чушь в голове?
архитектура железа не развивается? инструменты в AI не внедрили? мы точно в одном мире живем?
GPT5 - вышла пол года назад, статья про GPT4.5 - пора.
а февралисты распространяли искру?
отвечу. Бизнесу выгодно меньше запросов, а не больше. Задача сводиться к тому чтобы обеспечить максимум вычислительных мощностей максимальному количеству пользователей, потому что они платят за подписку, а не за запросы. За запросы платят компании, и там совсем другие истории, но опять таки, бизнес тут конкурирует с другими, а не с пользователями. К этому добавляется тот факт что токены по подпискам субсидированы, смысл их увеличивать? Чтобы увеличивать нагрузку на свои же серваки? Чтобы увеличивать счета за электричество?
Ну а почему claude регулярно деградирует - это есть множество теорий и информации, кто то их связывает с пиковой нагрузкой, кто то с неудачным рутингом.
А дипсик от авторов есть только по API с ценой за 1M, но есть другие провайдеры которые предлагают доступ.
конкуренция это хорошо, в тоже время уже почти месяц codex дает двойные и регулярно обновляемые лимиты.
Жаль что antigravity на фоне этого лимиты урезает.
именно поэтому deepseek выпустили модель по цене в 10 раз меньше которая при этом ещё и размышляет на порядок меньше, при тех же (или лучших) результатах. Это же вы системно пронаблюдали, да?
тут интереснее почему v3.1 а не v3.2, который на голову лучше в том числе в колонне, но такое ощущение что продается в жутких квантах через ollama. Я бы предположил что у вас давнее тестирование, но новый qwen то присутствует. А уж если сравните с новеньким 27b по своей методике для релевантности - это прям отдельное спасибо.
есть задачи и под миллион контекста, и под 10млн. Только llm от силы держат 200к, и то потом начинается такой цирк, что пожалуйста не надо. Если оно без dsa и engram, то весь этот контекст превращается в нейрослоп ещё до инференса, так ещё и с просадкой в скорости. Из понятного - держать типичный суточный диалог в памяти без /compact, что позволяет агенту работать как реальному обсерверу над пользователем, скидывая опыт в постоянную память для анализа по окончанию дня. Монолиты пилятся и без ляма, любые сложные(комплексные) ревью разбиваются и так, а для документации нужен engram
так в этом и цель
А зачем вам новый язык? Какую задачу он будет решать?
Это все очень печально, qwen 3.5 c hybrid attention реально сделал топовые модели. 9b и 27b прям впечатляют.
И выглядит все так что эффективные менеджеры alibaba решили закрыть исследовательcкую лабу qwen и сделать супер ИИ бизнес qwen.
Проблема в том что эффективно монетизировать можно только топовые модели с суперрезультатами, а это надо конкурировать с opus4.6/Gpt5.4. И без супердатацентров это вряд ли произойдет.
С другой стороны менеджмент тоже можно понять, устали сжигать деньги в электричество ради лайков на reddit и ретвитов у маска.
а зачем ему десктоп? ИИ ему и фильм запустит, и фоточки, и в интернете все за него постмотрит.
если быстро решить - поставьте кастомный промпт "отвечай меньше чем за 100-200-300 слов" дело не в скорости, а в том что модель иногда слишком долго думает если у неё мало данных для ответа. Может сильно зависеть от внутренних настроек модели и как движок с ней работает, т.е. буквально модель от unsloth может этим страдать, а от qwen все будет хорошо.