Круто круто... Ещё интересный бенчмарк есть на AGI это например пройти игру подобную We were here. В крации - игра головоломка на двоих. У одного подсказки а другой по этим подсказкам делает задание.
Причем объяснения что надо делать нет часто вообще.
Чтож. Давайте вторую часть. "будет ли LLM писать код лучше, если заставить его матерится" ибо есть исследование что код с матами в комментариях качественнее чем код без них.
Не понимаю откуда автор взял про "деревянная". Я бы даже сказал наоборот, более "эмоциональная" по сравнению с 3.1 pro. Например вчера после того как модель написала около 1500 строк питона и html, она восхищалась проделанной работе. Работал в Antigravity, системный промпт не менял.
Сомнительно. Специально щас попросил создай инфографику-плакат сравнивающую концепции античной греческой философии с фундаментальными принципами квантовой механики. Итог - абсолютно нечитаемый текст. Да, его много, даже какую то формулу пыталась написать. Но до уровня GPT Image 2 или нано бананы ещё пару лет.
Пу-пу-пу. Как будто бы сравнивать модели нужно не только по тому что они могут сами сделать в интерфейсе "в один промпт" а по максимальной инфраструктуре вокруг неё. Текст - пишем руками или gemini, который очень не плохо пишет. Обвязка - Suno Studio, которая позволяет безшовно или почти безшовно редактировать куски песни, разбивать на стемы, делать дополнительные аудио дорожки и тд и тп. Так что Suno пока что все равно топ 1. А по поводу изменений между v5 и v5.5 - 5.5 лучше держит структуру и лучше попадает в секунды и BPM.
Расскажите плс тем кто генерирует нейрослоп для бизнес блогов, что весь современный мир кроме РФ уже как пол года перешёл на авторегрессивные модели с рассуждением которые и текст пишут отлично в любых объёмах, включая математические формулы, и иногда смотрят на результат своей генерации, и фрагментам но изменяют результат.
Бред какой то в промпта и в задачах. Объясните людям что месиво из тегов было полезно во времена SDXL.
Что проверяем: Работу с линиями, чертежами, штриховкой и понимание сложных структурных форм без скатывания в фотореалистичный рендер здания.
То что вы получили это никак не четреж. Максимум - технический рисунок. Причём очень фотореалистичный. Вывод - очередной нейрослоп.. Интересно, все блоги компаний занейрослоплены?
Как будто бы по чистым цифрам GPT 5.4 и Opus 4.6 даже лучше чем 4.7. Если выйдет GPT 5.5 который будет сильный прирост иметь то антрофик снова будет догоняющим по чистым цифрам и им придётся релизить вторую капибару с контекстом 1 млн токенов. Но опять же это по чистым цифрам, по реальным задачам пока что антрофик топ 1, Open Ai догоняет.
Гайд не то чтобы не о чем, но чуть попахивает нейронкой. Например нейронка советует назначать роль для LLM модели в промпте, хотя как уже разбирали эксперты, часто роль на даёт прироста, а иногда деградацию результата. Но поскольку промпт составлялся "не по канону" для написания статьи, то такие моменты упустили.
Я правильно понимаю что вы делаете какой то костыль с использованием жидких нейросетей?
Круто круто... Ещё интересный бенчмарк есть на AGI это например пройти игру подобную We were here. В крации - игра головоломка на двоих. У одного подсказки а другой по этим подсказкам делает задание.
Причем объяснения что надо делать нет часто вообще.
Чтож. Давайте вторую часть. "будет ли LLM писать код лучше, если заставить его матерится" ибо есть исследование что код с матами в комментариях качественнее чем код без них.
Не понимаю откуда автор взял про "деревянная". Я бы даже сказал наоборот, более "эмоциональная" по сравнению с 3.1 pro. Например вчера после того как модель написала около 1500 строк питона и html, она восхищалась проделанной работе. Работал в Antigravity, системный промпт не менял.
Сомнительно. Специально щас попросил создай инфографику-плакат сравнивающую концепции античной греческой философии с фундаментальными принципами квантовой механики. Итог - абсолютно нечитаемый текст. Да, его много, даже какую то формулу пыталась написать. Но до уровня GPT Image 2 или нано бананы ещё пару лет.
Пу-пу-пу. Как будто бы сравнивать модели нужно не только по тому что они могут сами сделать в интерфейсе "в один промпт" а по максимальной инфраструктуре вокруг неё. Текст - пишем руками или gemini, который очень не плохо пишет. Обвязка - Suno Studio, которая позволяет безшовно или почти безшовно редактировать куски песни, разбивать на стемы, делать дополнительные аудио дорожки и тд и тп. Так что Suno пока что все равно топ 1. А по поводу изменений между v5 и v5.5 - 5.5 лучше держит структуру и лучше попадает в секунды и BPM.
Расскажите плс тем кто генерирует нейрослоп для бизнес блогов, что весь современный мир кроме РФ уже как пол года перешёл на авторегрессивные модели с рассуждением которые и текст пишут отлично в любых объёмах, включая математические формулы, и иногда смотрят на результат своей генерации, и фрагментам но изменяют результат.
Бред какой то в промпта и в задачах. Объясните людям что месиво из тегов было полезно во времена SDXL.
То что вы получили это никак не четреж. Максимум - технический рисунок. Причём очень фотореалистичный. Вывод - очередной нейрослоп.. Интересно, все блоги компаний занейрослоплены?
Скажите ему чтобы он лечил биполярку
Интересно, сколько Яблочники заплатили ИИ компаниям чтоб я быстрее купил мак из за их прог которые на винду выходят на несколько месяцев позже.
Как будто бы по чистым цифрам GPT 5.4 и Opus 4.6 даже лучше чем 4.7. Если выйдет GPT 5.5 который будет сильный прирост иметь то антрофик снова будет догоняющим по чистым цифрам и им придётся релизить вторую капибару с контекстом 1 млн токенов. Но опять же это по чистым цифрам, по реальным задачам пока что антрофик топ 1, Open Ai догоняет.
Гайд не то чтобы не о чем, но чуть попахивает нейронкой. Например нейронка советует назначать роль для LLM модели в промпте, хотя как уже разбирали эксперты, часто роль на даёт прироста, а иногда деградацию результата. Но поскольку промпт составлялся "не по канону" для написания статьи, то такие моменты упустили.
Именно для этого и нужны рассуждающие модели!