@runaway_llm23 ноя в 08:12

Андрей Карпати собрал «совет ИИ»: GPT-5.1, Gemini 3 Pro, Claude и Grok спорят за лучший ответ

2 мин

17K

Искусственный интеллектМашинное обучение *

+16

Комментарии 24

@ValeriyPus 23 ноя в 08:35

Да, это уже сделали Blackrock и SakanaAI.

И, да, кроме обезьян из DeepMind (увы, они 3 года запускали нейросети, да. А Илья (якобы) - создатель AlexNet) в одном США с тысячу Иванов из Microsoft.

Планируете ли писать о них? (Что делают, как живут?)

@Dhwtj 23 ноя в 08:54

ответы GPT-5.1 он считает слишком многословными, в кто время как Gemini 3 Pro более собранна, а Claude — чрезмерно лаконичен

Решается индивидуальным для каждой llm промптом на сессию, подобранным для выравнивания таких особенностей.

Только надо ли?

совет почти всегда ставит GPT-5.1 на первое место как самую "глубокую и полезную" модель

Я тоже GPT 5.1 high использую.

Модель от Гугл часто уплывает, додумывает, меняет границы задачи, "улучшает" и просто врёт. Поддакивает без добавления своих мыслей. Несмотря на высокие рейтинги я не смог им пользоваться.

Клаудэ периодически впадает в деменцию.

Модель Маска просто болтун

@Petr_axeman 23 ноя в 12:02

Вот кстати есть ощущение что GPT и Gemini выбираются чисто субъективно. У меня лично опыт с GPT почти всегда: "Много сказано, а задача до сих пор не выполнена", а с Gemini в свою очередь: "Мало сказано, но задача выполнена".

Но это все не 100% и разные задачи разные LLM выполняют с разной степенью успешности. GPT например давно не проверял, но по крайней мере был лучшей моделью в решении задач администрирования, а Gemini очень неплохо собирает стек, озвучивает лучшие практики, и проектирует приложение.

С кодом и повседневными вопросами (Клода и грока я почти не трогал) я беру Gemini просто из-за удобства для меня.

А ещё я частенько пишу сюжеты, истории и прочие рассказы. Gemini очень неплохо держит фокус и не позволяет своим советам развалится друг об друга. GPT конкретно в этой области значительно слабее.

@shlmzl 23 ноя в 13:45

а с Gemini в свою очередь: "Мало сказано, но задача выполнена".

Наверное потому что это их основной бизнес последнюю четверть века - понять вопрос, чтобы поиск был релевантным.

@V-LA 23 ноя в 20:34

А Claude не пробовали в написании историй? Мне Sonnet показался хорошо разбирающимся в драматургии и держащим линии героев, особенности локаций и тд.

GPT согласен, вроде как слабее, но при этом - умеющим шутить.

@Zalechi 24 ноя в 11:22

В каких задачах используйте ИИ?

@Dhwtj 25 ноя в 05:27

Системы документооборота для Минтруда

Проектирование больше чем кодирование

@Zalechi 25 ноя в 06:52

Я тоже не пишу код. Просто было интересно, спросить.

Доброго дня.

@rm-hbr 23 ноя в 09:48

Забавно что я выпустил неделю назад аналогичное приложение compary.chat

@rm-hbr 23 ноя в 10:21

Публично делюсь его развитием у себя в канале https://t.me/founder_build

@Zoolander 23 ноя в 12:52

Результаты тестов есть?

Как и у Карпаты - вопрос в целесообразности.

@Zalechi 24 ноя в 11:35

Напишите статью, что ли…

@rm-hbr 24 ноя в 15:39

А что именно интересует в статье? Просто обзор или какие-то юз кейсы?

В планах как раз был пункт чтобы написать статью на примере какого-нибудь рабочего кейса. Но на другой площадке и не скоро еще

@Zalechi 24 ноя в 16:27

Обзорную думал, но почитал ниже, понял, что многие делают себе такого рода тулзы.

так что даже и не знаю….

@i360u 23 ноя в 13:56

Довольно очевидная идея, я такое почти год назад делал, в качестве эксперимента.

@icanall1010 23 ноя в 16:57

грок хэви по сути так и работает, там совет моделей

@Consilium 24 ноя в 05:56

Давно сделано. И лучше.
https://github.com/eavookindroid/consilium-agent-tui

@ChiefEditor 24 ноя в 09:44

Спасибо, сохранил.

@Rubilnik 24 ноя в 10:00

@Andriljo 24 ноя в 14:11

Есть такой учёный Мински, ну как есть. Был. Так вот его society of mind лёг в основу труда MIT, DeepMind и ещё в 2023 году они сделали такой совет в виде дебат клуба. Алгоритм и методология не новые, просто руки у Карпаты дошли до этого пет проекта. Статья вот:

https://arxiv.org/pdf/2305.17066.pdf

@shlmzl 24 ноя в 16:43

Гуглы еще в 60-е плотно работали с Мински по ИИ тематике, до того еще как эти два пацана, их основатели, родились.

@Andriljo 24 ноя в 22:27

Шутник, в 60ые гугла не существовало.

@peterplv 24 ноя в 17:29

Сколько ж оно денег скушает за один консилиум?

@Badsanta83 24 ноя в 17:49

Делал я такое прикола ради. Ревью кода отправлял другой модели и вносил правки в соответствии с их комментариями. Потом просил другую модель оценить полученный код и вносил не правки.

Задача была сделать железобетонный бэктест на их основании их советов.

В конце концов вместо качественного кода получился лютый Франкенштейн, рухнувший при первом же тесте на реальной работе.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий