Pull to refresh
2
0
Send message

"работает над новым крупным языковым моделем" - там пол ей сменили чтоль

"пусть и думает дольше" - тут скорее потому, что думает дольше. Gemini нельзя попросить подумать - ответ дает за 10 сек на любой сложности задаче - это откровенно мало - разница в elo есть, но не настолько большая, чтобы за 10 сек отвечать лучше, чем GPT 5.1 за 5 мин

А есть ли в Gemini аналог "подумать дольше"? Такое ощущение, что сложность задачи роли не играет - выплевывает ответ секунд за 10-20 на тех задачах, где GPT-5.1 Extended thinking пыхтит 7-10мин. Ладно бы еще результат был не хуже, а он хуже - какой смысл вообще выкатывать модель, если вы ее сами же и кастрируете - зато отзывы проплаченные "омг, ничего лучше в руках не держал" - как так то?

Так а что, простите, от этого всего перепадет в итоге простому нигеру, живущему в офисе? Ну кроме проблем со здоровьем и геморроя

Эксперты говорят, что мах не следит за пользователями, а люди ощущают, что следит - но они же не эксперты

Что-то пока непонятно как они к этому приведут - если были некие расходы на оплату трудодня условного нигера и в итоге получалась некая прибыль для бессердечного капиталистического эксплуататора, то после массового внедрения AI количество рабочих дней разве не будет влиять на прибыль? Т.е. условный нигер может работать 3 дня вместо 5-6 за те же деньги, а смысла его заставлять все также работать 5-6 не будет, т.к. прибыль больше не станет? Что-то как-то слабо верится..

Шот - это один вопрос-ответ. Чтобы финальную версию сделать решения иногда и 10-20 можно сделать.
Ну по задаче как тут в двух словах объяснить?) Надо было в целом оптимизировать легаси java код где крупные структуры аля 500мб надо сериализовать + сжать и разбив на куски хранить удаленно - потом обратно скачать, склеить, декомпрессировать, десериализовать и там был ад по перформансу. В итоге использовался стек Kryo + compressors(gzip, snappy, lz4) и Gemini 2.5 Pro пытался пропихнуть идею, что можно выкинуть низкоуровневые куски - типа не создавать стримы, а как-то kryo + compressor упростить - в итоге нельзя он признал. Еще "нашел" узкое горло на разрезке, но там тоже признал что его нет, неправильно понял контекст. Еще к конфигу kryo цеплялся по двум пунктам, что надо явно прописать все классы (объекты генерируемые) + криво с дефолтными сериализаторами чет напутал. Короч из 5 пунктов одно минорное улучшение только подсказал, а по 4-м обслся и отписал в выводе:
"Вывод
Ваш исходный код был гораздо лучше адаптирован к реальным условиям вашего проекта, чем моя первая "оптимизированная" версия."

Если на сложных задачах тестить, то o3 лучше Gemini 2.5 Pro, а GPT-5 Thinking по ощущениям не хуже o3. Проверяется легко - берешь нетривиальную задачу, делаешь решение за несколько шотов на какой-нить модели, потом скармливаешь его обоим на ревью - обе пишут, что надо исправить/улучшить - потом перекрестно скармливаешь опять обоим типа "а ты уверен, что надо так, а не вот так?". Gemini через несколько ходов обсуждения сдается, соглашаясь с аргументами o3 и отказываясь от своих - и так на всех задачах у меня

Ну что, математики с калькуляторами уже модель опустили - теперь ждем мнение шахматистов

А есть что получше для домашнего железа? Я раскатал 20b версию на своей 4060ti 8gb vram + 32gb ram - 13-14 токенов в секунду и вполне адекватно общается, даже на русском может. Там же заточка под кодинг и математику - если ее другими темами грузить то может и нужОн он вам этот аи

впечатляет, но отечественный вариант из мякиша в тюрьме всяко круче будет

Был пост в X, вроде сам Альтман писал, что не будет революции - с большего просто объединят модели и выиграет от этого среднестатистический юзер. Хардкорные юзеры скорее всего проиграют, т.к. станет меньше контроля

чтобы по яйкам вмазать, если струю в монитор направить

это ж гениально - делаешь примитивную обертку-прокси аля BotHub и собираешь деньги напрямую от всех российских буратин - а потом уже проблемы индейца - ушел твой запрос к реальной условной "o3" или в более дешевую, т.к. лимиты - или вообще в локально раскатанную deepseek)

Мм локально на смартфоны? Тут на комп с 8vram + 32ram хрен подберешь адекватную модель - довольно все убогие для таких ресурсов (хоть 16vram карту покупай) - а они на смартфон предлагают всадить) Еще и люди обсуждают с серьезными щами это - что мол выбор маленький) А в чем разница то между разными сортами гомна, если их хоть сотню на выбор дать?)

Ну я не знаю - сейчас прям приторно общается - хвалит тебя на каждом вопросе так, как будто ты Д. Трамп и сразу обещает ответить в настолько самом лучшем виде и обстоятельно, что противновато)

Пишут, что точность 90%. А кто заморочится и докажет - то это как раз эти 10%. Не новая техника для оправдания косяков - разве что можно было поставить каких 98% для еще большего впечатления, как на средствах от микробов - убивает 99.9% бактерий

Неплохо ...для марта 2023-го) Можно было бы 4-е место и не прятать на скрине, которое GPT-3.5-turbo)

Ходят слухи, что даже про игроки могут максимум ощутить 120 - 144Гц - все что выше, то это уже мошенники, которые хотят тебе продать задорого то, что тебе не надо - например 480Гц

1

Information

Rating
5,150-th
Registered
Activity