Обновить
1
Александр@Altair2021

Пользователь

Отправить сообщение

Один вопрос: зачем? Чем обычные генераторы случайных чисел не устраивают?

Qwen тоже этим страдает, в том числе последние plus/max 3.7

У дипсика другая проблема -- он часто самопроизвольно сваливается в китайский при ответе, независимо от того, на русском или английском запрос. Заметил, что триггером почти всегда являются результаты поиска на китайском. Причём что 3.2 этим страдал, что v4 страдает

Это значит что джемини не способен сохранять текст в текстом формате, и любое где тебе надо делать сложную схему, оформление, таблицу он не выполнит

А это не выполнит ни одна из моделей без специальной обвязки. То, что опенаи эту обвязку реализовали, а у гугла она недоступна -- не говорит о том, что модель гугла хуже) просто говорит об уровне сервиса гугла (если это действительно Pro план)

Через опенроутер можно чётко задать провайдера. Иначе то, что "бенчмаркили" в статье, по сути, не имеет смысла. Просто поведение модели у разных провайдеров может отличаться из-за настроек хотя бы контекста и длины вывода. Тогда правильнее было бы сравнить поведение одной модели у разных провайдеров (и в разные промежутки времени).

Кроме того, автор статьи явно указывает "модель стоит на месте, несмотря на месяц после релиза", что не вяжется с опенроутером и провайдерами.

Качество — 87. Минус 2 балла к апрелю, в пределах рутинной флуктуации на пяти топиках. По-честному — модель стоит на месте. Несмотря на месяц после релиза. Несмотря на то, что DeepSeek явно работал с моделью — она стала заметно компактнее (avg 1695 слов против 2598 в апреле, минус 35%). Стиль чище, без длиннот, но это уже на уровне постредактуры — фундаментальное «качество мысли» не сдвинулось.

Мб пропустил, но бенчмарк был через api openrouter'а или через веб-интерфейс? Если через апи -- то почему модель и её генерации должны как-то меняться?

лендинг профессионального вида генерирует за 40 секунд,

Каких секунд?

xAI выпустила Grok Build 0.1 настолько тихо, что большинство сообщества это пропустило. Модель появилась на OpenRouter 20 мая и позиционируется как прямой

Как прямой что?

ИИ никогда не делает грамматических ошибок

В русском -- делает, хоть и редко. Уверен, если поискать -- и в английском будут.

А вообще, дожили -- отсутствие грамматических (да и не только) ошибок в тексте считается использованием LLM. Обесцениваете знания тех, кто хорошо учил язык.

а вообще, fallback наоборот может навредить, если нужен ответ от конкретной модели (например, opus-4.7). Кроме того, цена будет другой (если вместо opus-4.7 внезапно будет fallback, настроенный Вами, на условную gpt-5.5)

Вы немного не о том. Вопрос был про параллельный запрос к нескольким моделям и суммаризацию.

Возможно ли сделать супер LLM которая прогоняла бы запрос через несколько моделей, анализировала и выдавала уточненный результат?

Вы ответили про fallback, подразумевая (комментарий же об этом), что его можно использовать в упомянутом качестве -- параллельный запрос с суммаризацией. На что и был мой комментарий.

на опенроутере через fallback нельзя отправлять запросы к нескольким моделям параллельно

Fallback -- как я понимаю, это не то же самое, что запрос одновременно к нескольким моделям и суммаризация, а запрос с возможностью гарантированно получить ответ, если какая-то из моделей недоступна. Т.е. отвечает одна модель.

Это обычный агент. В openai agents sdk есть agents as tools. В качестве инструментов как раз могут быть запросы через другие модели

недать

Что за зверь такой?

Может временно недать доступ к конкретной free-модели.

модель стала короче и менее многословной

Они считают, что их модели многословные? Уже давно gpt-5.Х выдаёт кучу буллет-поинтов вместо нормального текстового ответа. И в креативном письме их модели почти невозможно использовать -- предложения короткие, почти всегда один абзац-- одно предложение.

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

error 404. Случайно выложили и решили удалить?

Давайте рассмотрим простейший пример запроса к нейросети с нечетко записанными требованиями (пример из проги):

"напиши мне код для рендеринга множества мандельброта".

Что тут модель сможет понять (что самая умная, что самая глупая)? Какой язык программирования использовать? Выберет от балды, скорее всего питон, как наиболее частый. А Вы, например, хотели с++ или js. Но не сказали. Далее, нужно ли сохранение в файл или отображение в gui? Какие цвета/палитра? и тп. Ну модель выберет что-то среднее, наиболее часто встречающееся в обучающем датасете.

При нечетком запросе ответ будет усредненный, а не такой, как Вы хотите.

А что, компиляторы уже поддерживают все фичи c++20, в т.ч. модули?

Информация

В рейтинге
5 271-й
Откуда
Россия
Зарегистрирован
Активность