Обновить
4
Константин@dkeiz

Пользователь

0,1
Рейтинг
Отправить сообщение

>А, так вы решили удариться в демагогию?
Т.е. исправление явной ошибки для вас демагогию? Тю, а я то думал тут человек хочет дискуссию провести.

>ответы вам они выдают именно на "лингвистическом языке", а не набором семантических токенов
Идите читайте мануалы, то что люди не имеют в токеночитательство ещё не значит что модели "языковые". Кстати в вашем случае их следовало бы назвать "словесные", но таковыми они тоже не являются.

зачем продавать дешево то что можно продавать дорого? А так оно уже есть, ryzen ai 395 называется

>Для этого вам нужны доступы к внутрянке - но кто вам их даст?
Пока что запретить мне может только минцифры, а так берете и качаете, вся внутрянка в файлах.

> Модели-то всё-таки языковые
А, так вы ударились в софистику и не сделали поправку на потери пре переводе? Модели, конечно, языковые, но это исключительно в силу того что языки (language) являются удобными носителями информации, которую легко оцифровать, крутануть в вектора а потом матрицы этих векторов вращать в латентных гиперпространствах. Так то это большие информационные модели, но от авторов досталось LLM c language.
Никакого отношения к философии это не имеет, и проверять на философских эссе нет никакого интереса, потому что для начала вам нужно проанализировать информационную плотность данных эссе, а после валидировать ту же информационную плотность и направленность от LLM. А вы даже со словом языковая заблудились. Так что может все-таки будем инструменты согласно задачам выбирать? А на устном счете их сравнивают ради хайпожорских статей, работа у людей такая.
>В этом проблема.
Нет.
>Но они как бы не под это дело заточены!
Нет, именно под это.
> Для фактологии - Grock постоянно в сети роется
Во первых, Grok, во вторых, claude роется в сети намного лучше, в третьих, умел бы грок писать код так же хорошо как и клод - он бы писал код, просто через пол года стараний Маск не может научить свою модель кодить так же хорошо По итогу там всю компанию пересобрали заново и кучу людей поувольняли. Потому что кодинг.
>И все это будет актуально до первого же апдейта, причём ещё и скрытого
Как раз наоборот, любой скрытый апдейт станет явным если у вас есть хорошие тесты.

у гугла и правда очень сильные малые модели, связанно скорее всего это с тем что они малые модели обучают на схожем датасете, но с большими итерациями.
Проблема гугла что вы не знаете что это за модель, и например в январе она отвечала прекрасно, весь февраль несла чушь и откровенно врала, в конце марта снова не плохо отвечает, правда не больше 5 сообщений подряд.
вы не знаете что это за модель - у вас нет предварительного уровня доверия к модели - нет доверия к результату, считай каждый раз жмете кнопку мне повезет! Иногда везет, а иногда вас везут. Мне не нравятся модели гугла, каждый раз я очень просто свожу из в панический цикл эмоционального отрицалова, но тем не менее у моего лично ai-агента очередной UI нарисован именно через gemini 3.1 pro (high). Правда натянуть эту UI сам гемини не смог, буду на выходных через codex мучить.

>В контексте нейросетей - отнюдь нет
не верно. контролируете seed c температурой, получаете 100% детерменированный ответ. Вот только LLM хороши как раз для обратного.
>Весь инет завален скринами того
Ну в интернете то чуши не скажут. Все вводные очевидны, иначе бы LLM не возможно было учить.
>Что? Зачем? Для чего?
Критикуешь - предлагай, знаком такой подход? Или вот прям надо нанейрослопить на 54 страницы >Почему языковые модели сравнивают на каких-то синтетических тестах <
Короткий ответ - потому что больше не на чем.
>всплывают посты вида "Шок!!! Нейросеть не смогла сложить 2 + 2 "
Потому что цель таких статей - привлечь внимание недалеких читателей? Вы ещё спросите потому Карпатый каждый раз сосиску роняет.
>Поделитесь тогда вашим опытом
Так и делюсь. R1 уже год может пойти сомневаться в чем угодно, особенно если его вежливо попросить ставить под сомнение все. Из плюсов - при этом он может кардинально поменять текущее направление решения проблемы (в т.ч. программисткой) и не впадать в галлюциногенную панику, как это делали многие другие модели. Плата за такой перформанс - очень длинный блок размышленний, да и в целом, на решение одной задачи дипсик тратил больше и времени и токенов чем sonnet 4.0. Но это удивляло год назад.
Сейчас удивляет только отсутствие такого подхода, но это связывают с регулярной внезапной деградацией нейросеток.
>Зачем?
Мне хочется. Должен же хоть где-то в интернете быть объективный анализ текущих моделей. А то все жалуются что тесты не тесты, а тестировать никто не хочет.

Потому что синтетические тесты повторяемы.
Но вы всегда можете пойти сделать сайт и начать тестировать все нейросети на свой вкус, а мы все прислушаемся к вашему мнению (или нет).
То что вас дипсик только недавно удивил вот этим говорит больше о вас чем о дипсике, это особенности R1 модели которой уже больше года.
А теперь сделайте повторяющейся тест на проверку и автокорректировку или признание неявной ошибки и прогоните на всех известных моделях.
Как только начнете, получится такая же синтетика как и у остальных.
Да и в целом, в любой оценке чего угодно до некоторой степени не важно что вы сравниваете, важно чтобы заведомо сильная модель выступала лучше заведомо слабых, для остального есть LM-арены

>Какая LLM прямо сейчас может гарантировать правильный результат вычисления произвольного арифметического выражения?
Любая обученная под instruct. Уже больше года.

откуда у вас эта чушь в голове?
архитектура железа не развивается? инструменты в AI не внедрили? мы точно в одном мире живем?

GPT5 - вышла пол года назад, статья про GPT4.5 - пора.

а февралисты распространяли искру?

отвечу. Бизнесу выгодно меньше запросов, а не больше. Задача сводиться к тому чтобы обеспечить максимум вычислительных мощностей максимальному количеству пользователей, потому что они платят за подписку, а не за запросы. За запросы платят компании, и там совсем другие истории, но опять таки, бизнес тут конкурирует с другими, а не с пользователями. К этому добавляется тот факт что токены по подпискам субсидированы, смысл их увеличивать? Чтобы увеличивать нагрузку на свои же серваки? Чтобы увеличивать счета за электричество?
Ну а почему claude регулярно деградирует - это есть множество теорий и информации, кто то их связывает с пиковой нагрузкой, кто то с неудачным рутингом.
А дипсик от авторов есть только по API с ценой за 1M, но есть другие провайдеры которые предлагают доступ.

конкуренция это хорошо, в тоже время уже почти месяц codex дает двойные и регулярно обновляемые лимиты.
Жаль что antigravity на фоне этого лимиты урезает.

именно поэтому deepseek выпустили модель по цене в 10 раз меньше которая при этом ещё и размышляет на порядок меньше, при тех же (или лучших) результатах. Это же вы системно пронаблюдали, да?

тут интереснее почему v3.1 а не v3.2, который на голову лучше в том числе в колонне, но такое ощущение что продается в жутких квантах через ollama. Я бы предположил что у вас давнее тестирование, но новый qwen то присутствует. А уж если сравните с новеньким 27b по своей методике для релевантности - это прям отдельное спасибо.

есть задачи и под миллион контекста, и под 10млн. Только llm от силы держат 200к, и то потом начинается такой цирк, что пожалуйста не надо. Если оно без dsa и engram, то весь этот контекст превращается в нейрослоп ещё до инференса, так ещё и с просадкой в скорости. Из понятного - держать типичный суточный диалог в памяти без /compact, что позволяет агенту работать как реальному обсерверу над пользователем, скидывая опыт в постоянную память для анализа по окончанию дня. Монолиты пилятся и без ляма, любые сложные(комплексные) ревью разбиваются и так, а для документации нужен engram

так в этом и цель

А зачем вам новый язык? Какую задачу он будет решать?

Это все очень печально, qwen 3.5 c hybrid attention реально сделал топовые модели. 9b и 27b прям впечатляют.
И выглядит все так что эффективные менеджеры alibaba решили закрыть исследовательcкую лабу qwen и сделать супер ИИ бизнес qwen.
Проблема в том что эффективно монетизировать можно только топовые модели с суперрезультатами, а это надо конкурировать с opus4.6/Gpt5.4. И без супердатацентров это вряд ли произойдет.
С другой стороны менеджмент тоже можно понять, устали сжигать деньги в электричество ради лайков на reddit и ретвитов у маска.

а зачем ему десктоп? ИИ ему и фильм запустит, и фоточки, и в интернете все за него постмотрит.

если быстро решить - поставьте кастомный промпт "отвечай меньше чем за 100-200-300 слов" дело не в скорости, а в том что модель иногда слишком долго думает если у неё мало данных для ответа. Может сильно зависеть от внутренних настроек модели и как движок с ней работает, т.е. буквально модель от unsloth может этим страдать, а от qwen все будет хорошо.

Информация

В рейтинге
3 478-й
Откуда
Чебоксары, Чувашия, Россия
Дата рождения
Зарегистрирован
Активность