ksotar8 дек 2023 в 05:04

Свежий Google Gemini, GPT-4 и математика

Средний

10 мин

1.1K

Семантические сети * Математика * Машинное обучение * Искусственный интеллектNatural Language Processing *

Обзор

+24

Комментарии 25

Barnaby 8 дек 2023 в 05:22

Улыбнуло :)

ksotar 8 дек 2023 в 05:25

Чорт, вот этот хаб-то я и забыл указать! :)

neobuh 8 дек 2023 в 09:38

удалено

excoder 8 дек 2023 в 11:19

Тут нужно ещё подумать о том, что вы всё это делали на русском. Она не обязана быть хороша на неанглийских языках, в частности по причине того, что неанглийские токены — это больше, чем английские.

ksotar 8 дек 2023 в 11:21

Есть такая тема, да.

Но честно говоря, параллельно попробовал и английский, и Bard-Gemini прямо возле не впечатлил. Даже нет предмета для отдельного исследования, я бы сказал.

Буду следить, какие будут ещё отзывы/исследования и реакция Google.

Yes0 8 дек 2023 в 11:22

Интересно, что обе модели рассматривались со стороны математики в "сырой" версии, то есть без доп. функционала, чисто на механизмах генеративной модели.

Но ведь с математическими задачами (за bard не ручаюсь) куда лучше справляется GPT с функцией Advanced Data Analysis или, даже лучше, с плагином WolframAlpha. В обоих случаях работа по вычислениям куда-то перекладывается: либо на python-библиотеки (Data Analysis), либо на внешние ресурсы. А уже GPT сам проводит Logical Reasoning и прочие штуки, с которыми справляется куда лучше, и меньше шанс увидеть какую-то нелепицу)

ksotar 8 дек 2023 в 11:25

Всё так. И это действительно, отдельная область интереса. Как видно, сам Bing-GPT-4 довольно мощно выступает прямо "из бесплатного браузера". А специализированные модели, как я понимаю, требуют отдельных приседаний и доступа через API, например?

Yes0 8 дек 2023 в 12:18

Что Advanced data analysis (или code Interpreter), что Плагины — доступны просто по Plus подписке. Если не хочется заморачиваться, то нормальный вариант,

Но в целом, сейчас все функции, что есть в оф. подписке, доступны и через API. Правда плагины, насколько знаю, можно только "Действиями" заменить, то есть заставить gpt обращаться к сервису, допустим, к тому же Вольфраму.

ksotar 8 дек 2023 в 13:16

Ну тогда да, можно дополнительной спецификой моей статьи назвать обзор именно бесплатно доступных широкой аудитории возможностей.

tantie 10 дек 2023 в 18:56

Не всегда это лучший вариант. Когда кормишь ему алгоритмы которых не было в сети, он ломается и уходи в цикл пытаясь их разобрать. В итоге именно языковая без плагинов, пусть и не с первого раза, но таки понимает о чем речь и как с этим работать. Плюс все очень сильно зависит от поставленной задачи. Хорошее описание - залог успеха.

Таким образом разгреб залежи алгоритмов, которые в свое время забросил, потому что не смог доделать и не нашел того, кто смог бы помочь. Теперь есть классный и очень терпеливый помощник. Хотя последнее спорно, иногда получаю такие ответы, что ощущение "восстания машин" становится совсем не апостериорным

НЛО прилетело и опубликовало эту надпись здесь

ksotar 8 дек 2023 в 19:32

Именно Bing. Но суть в целом в том, что Bing как раз выступил довольно сильно, хотя с картинкой не справился. У Google пока в зачёте в основном картинка. Элементы chain-of-thoughts тут пришлось использовать, чтобы он смог посчитать арифметику нормально по своим правильно взятым интегралам.

НЛО прилетело и опубликовало эту надпись здесь

ksotar 8 дек 2023 в 19:35

Ну, повышенная склонность к галлюцинациям, чтож. ChatGPT тоже с этого начинал, но кажется, даже перекрутили.

НЛО прилетело и опубликовало эту надпись здесь

ksotar 9 дек 2023 в 18:03

Ну много признаков, да, что PaLM2 выступает слабее. При том что и когда это "вероятно Gemini" тоже есть очень слабые моменты.

ksotar 9 дек 2023 в 19:17

Есть у меня, впрочем, одно подозрение :)
Bard явно предполагает что PaLM2 сильнее Gemini, если его впрямую не спрашивать. Кажется, вряд ли бы Gemini так делала.

ksotar 9 дек 2023 в 19:25

И похоже это следы просто общей установки "Сравнивай что угодно в пользу PaLM2", и у самой PaLM2 точно так же, соответственно, уши PaLM2 торчат всё отчётливее...

DBalashov 10 дек 2023 в 16:20

насколько я помню - для русского языка применяется предыдущая модель.
Так что сравнение в посте разных моделей - странновато :)

vsarmaev 9 дек 2023 в 18:04

Мы вчера с GPT 4.0 долго решали задачи по арифметике кардиналов теории множеств: вполне решабельные и те задачи, по которым доказано, что они в принципе нерешабельные (по крайне мере в ZFC).

С контекстом реально беда: после многих ошибок, он "научается" правильным выводам. Но через 5-6 предложений опять забывает правильный вывод и за основу берёт ошибочное решение с самого начала общения.

Мне кажется, всё же там попытались расширить контекст "в глубь веков", но как это ни странно, за счёт (или просто так получилось) ближайшего контекста. Когда продолжительность общениея стала нарастать, его ответы перешли к общим фразам.

Вот так закончился наш долгий разговор.

Применение леммы Цорна к доказательству равенства
a×a=a включает создание подходящей частично упорядоченной системы и демонстрацию существования максимального элемента, который соответствует биекции между A и A×A. Это требует глубокого понимания теории множеств и леммы Цорна, и является довольно сложным для объяснения в коротком ответе.
Я признаю, что мои предыдущие объяснения были недостаточными для полного и точного доказательства этого утверждения. Для получения более полного понимания этого доказательства и его нюансов рекомендуется обратиться к продвинутым ресурсам по теории множеств.

ksotar 9 дек 2023 в 18:09

Я поэтому рекомендовал бы Bing. Он довольно чётко отслеживает, когда контекст начинает "уплывать" и рубит сессию. И можно начинать свежую, скопировав важное, когда ИИ выглядит сильно "свежее интеллектуально". Это в целом несложно бы автоматизировать, но для большинства задач пока это не нужно.

Но думаю туда лежит ближайший вектор — подкрепление "умеющего складно трепаться" ИИ технологиями классических экспертных систем.

fortunam 10 дек 2023 в 08:35

Спасибо за сравнение и анализ, довольно любопытно. Но "Смешались в кучу кони, люди", по моему. Я сравнил бы Gemini Pro не с Bing, а с ChatGPT (заметьте, не GPT-4). Не знаю, правда ли Bing – это урезанная версия, но лучше обратиться напрямую в ChatGPT, а не через поисковик. По поводу использования GPTs для анализа данных и Вольфрама согласен с другими комментаторами – но это надо делать в будущем, когда выйдет Gemini Ultra, которую и сравнивать с GPT-4. Также подтверждаю, что есть стратегии, описанные самой OpenAI, которые полезны для решения сложных задач. Прилагаю скриншот из статьи Гугла, где сравниваются модели по разным тестам. Gemini Pro не превосходит GPT-4 – это уже понятно, но, вероятно, превосходит ChatGPT.

ksotar 10 дек 2023 в 15:45

Ну, хотелось сравнить "доступный бесплатный топ", и оценить претензии Google на лидерство. С ChatGPT (GPT-3.5) довольно всё известно и понятно, а вот Bing (он доступен и без браузера Edge) в котором достоверное известно что GPT-4 и которого заметно усиляет поиск, это похоже лучшее в этом смысле решение на текущий момент.

Но, есть всё больше подозрений, что несмотря на смену иконок, возможно Bard таки выдаёт только результаты от PaLM2. Сумбурно у них всё с этой премьерой...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий