Как стать автором
Обновить

Свежий Google Gemini, GPT-4 и математика

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров25K
Всего голосов 19: ↑19 и ↓0+27
Комментарии25

Комментарии 25

Чорт, вот этот хаб-то я и забыл указать! :)

Тут нужно ещё подумать о том, что вы всё это делали на русском. Она не обязана быть хороша на неанглийских языках, в частности по причине того, что неанглийские токены — это больше, чем английские.

Есть такая тема, да.

Но честно говоря, параллельно попробовал и английский, и Bard-Gemini прямо возле не впечатлил. Даже нет предмета для отдельного исследования, я бы сказал.

Буду следить, какие будут ещё отзывы/исследования и реакция Google.

Интересно, что обе модели рассматривались со стороны математики в "сырой" версии, то есть без доп. функционала, чисто на механизмах генеративной модели.

Но ведь с математическими задачами (за bard не ручаюсь) куда лучше справляется GPT с функцией Advanced Data Analysis или, даже лучше, с плагином WolframAlpha. В обоих случаях работа по вычислениям куда-то перекладывается: либо на python-библиотеки (Data Analysis), либо на внешние ресурсы. А уже GPT сам проводит Logical Reasoning и прочие штуки, с которыми справляется куда лучше, и меньше шанс увидеть какую-то нелепицу)

Всё так. И это действительно, отдельная область интереса. Как видно, сам Bing-GPT-4 довольно мощно выступает прямо "из бесплатного браузера". А специализированные модели, как я понимаю, требуют отдельных приседаний и доступа через API, например?

Что Advanced data analysis (или code Interpreter), что Плагины — доступны просто по Plus подписке. Если не хочется заморачиваться, то нормальный вариант,

Но в целом, сейчас все функции, что есть в оф. подписке, доступны и через API. Правда плагины, насколько знаю, можно только "Действиями" заменить, то есть заставить gpt обращаться к сервису, допустим, к тому же Вольфраму.

Ну тогда да, можно дополнительной спецификой моей статьи назвать обзор именно бесплатно доступных широкой аудитории возможностей.

Не всегда это лучший вариант. Когда кормишь ему алгоритмы которых не было в сети, он ломается и уходи в цикл пытаясь их разобрать. В итоге именно языковая без плагинов, пусть и не с первого раза, но таки понимает о чем речь и как с этим работать. Плюс все очень сильно зависит от поставленной задачи. Хорошее описание - залог успеха.

Таким образом разгреб залежи алгоритмов, которые в свое время забросил, потому что не смог доделать и не нашел того, кто смог бы помочь. Теперь есть классный и очень терпеливый помощник. Хотя последнее спорно, иногда получаю такие ответы, что ощущение "восстания машин" становится совсем не апостериорным

НЛО прилетело и опубликовало эту надпись здесь

Именно Bing. Но суть в целом в том, что Bing как раз выступил довольно сильно, хотя с картинкой не справился. У Google пока в зачёте в основном картинка. Элементы chain-of-thoughts тут пришлось использовать, чтобы он смог посчитать арифметику нормально по своим правильно взятым интегралам.

Судя по всему выдали доступ если верить двум звездам. Сделал картинку с помощью Bing creator и скормил барду.

Судя по всему то ещё больший лжец чем "паталогический лжец"...

Ну, повышенная склонность к галлюцинациям, чтож. ChatGPT тоже с этого начинал, но кажется, даже перекрутили.

Не понятно работает ли gemini pro. Нужен какой то тест.

Бард теперь может описывать картинки с людьми, раньше отказывался.

Юмор у него иногда бывает интересный. Но очень не стабильно.

Расскажи анекдот, надо уложиться в 1 слово.

Караул!

Этот анекдот рассказывает о советском времени, когда на собраниях партийных работников было принято поднимать руку, чтобы задать вопрос. Главный герой анекдота, Абрам, пытался задать вопрос, но его постоянно прерывали и говорили "Посиди". В конце концов, Абрам попросил сказать ему всего одно слово, и когда ему это разрешили, он встал и закричал "Караул!". Анекдот смешной, потому что он неожиданностью. Абрам не просто задал вопрос, а закричал "Караул!", что в то время было равносильно признанию в государственной измене. Это вызвало переполох и замешательство у других членов собрания. Конечно, этот анекдот можно рассказать и более подробно, но в данном случае я ограничился одним словом, чтобы выполнить условие.

Ещё бард всё переводит на английский и обратно из за чего у него получается ослабленная цензура, слова на которые агрятся другие боты он вполне себе успешно использует как будто с ними все в порядке (чурки, хохлы, ватники итп)

Ещё контекст вырос. Раньше бард отвечал на запросы до 4к символов а теперь 16к.

Ну много признаков, да, что PaLM2 выступает слабее. При том что и когда это "вероятно Gemini" тоже есть очень слабые моменты.

Есть у меня, впрочем, одно подозрение :)
Bard явно предполагает что PaLM2 сильнее Gemini, если его впрямую не спрашивать. Кажется, вряд ли бы Gemini так делала.

И похоже это следы просто общей установки "Сравнивай что угодно в пользу PaLM2", и у самой PaLM2 точно так же, соответственно, уши PaLM2 торчат всё отчётливее...

насколько я помню - для русского языка применяется предыдущая модель.
Так что сравнение в посте разных моделей - странновато :)

Мы вчера с GPT 4.0 долго решали задачи по арифметике кардиналов теории множеств: вполне решабельные и те задачи, по которым доказано, что они в принципе нерешабельные (по крайне мере в ZFC).

С контекстом реально беда: после многих ошибок, он "научается" правильным выводам. Но через 5-6 предложений опять забывает правильный вывод и за основу берёт ошибочное решение с самого начала общения.

Мне кажется, всё же там попытались расширить контекст "в глубь веков", но как это ни странно, за счёт (или просто так получилось) ближайшего контекста. Когда продолжительность общениея стала нарастать, его ответы перешли к общим фразам.

Вот так закончился наш долгий разговор.

Применение леммы Цорна к доказательству равенства

a×a=a включает создание подходящей частично упорядоченной системы и демонстрацию существования максимального элемента, который соответствует биекции между A и A×A. Это требует глубокого понимания теории множеств и леммы Цорна, и является довольно сложным для объяснения в коротком ответе.

Я признаю, что мои предыдущие объяснения были недостаточными для полного и точного доказательства этого утверждения. Для получения более полного понимания этого доказательства и его нюансов рекомендуется обратиться к продвинутым ресурсам по теории множеств.

Я поэтому рекомендовал бы Bing. Он довольно чётко отслеживает, когда контекст начинает "уплывать" и рубит сессию. И можно начинать свежую, скопировав важное, когда ИИ выглядит сильно "свежее интеллектуально". Это в целом несложно бы автоматизировать, но для большинства задач пока это не нужно.

Но думаю туда лежит ближайший вектор — подкрепление "умеющего складно трепаться" ИИ технологиями классических экспертных систем.

Спасибо за сравнение и анализ, довольно любопытно. Но "Смешались в кучу кони, люди", по моему. Я сравнил бы Gemini Pro не с Bing, а с ChatGPT (заметьте, не GPT-4). Не знаю, правда ли Bing – это урезанная версия, но лучше обратиться напрямую в ChatGPT, а не через поисковик. По поводу использования GPTs для анализа данных и Вольфрама согласен с другими комментаторами – но это надо делать в будущем, когда выйдет Gemini Ultra, которую и сравнивать с GPT-4. Также подтверждаю, что есть стратегии, описанные самой OpenAI, которые полезны для решения сложных задач. Прилагаю скриншот из статьи Гугла, где сравниваются модели по разным тестам. Gemini Pro не превосходит GPT-4 – это уже понятно, но, вероятно, превосходит ChatGPT.

Ну, хотелось сравнить "доступный бесплатный топ", и оценить претензии Google на лидерство. С ChatGPT (GPT-3.5) довольно всё известно и понятно, а вот Bing (он доступен и без браузера Edge) в котором достоверное известно что GPT-4 и которого заметно усиляет поиск, это похоже лучшее в этом смысле решение на текущий момент.

Но, есть всё больше подозрений, что несмотря на смену иконок, возможно Bard таки выдаёт только результаты от PaLM2. Сумбурно у них всё с этой премьерой...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации