Как стать автором
Обновить
310.96
Online patent
Ваш личный патентный офис

ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса

Время на прочтение3 мин
Количество просмотров8K

Техноблоггер Арджун Ша сравнил недавно вышедшую модель ChatGPT 4o с Gemini 1.5 Pro. от Google. И пришёл к выводу, что последняя гораздо слабее первой.

Мы перевели его текст, добавив ответы на некоторые вопросы отечественных YandexGPT и GigaChat от Сбера

1. Классическая задачка на сообразительность с подвохом. 

4o подвох заметила, Gemini и российские модели занялись ненужными математическими вычислениями.

15 полотенец высыхают на солнце за час. За какое время высохнут 20 полотенец?

4o: «Высыхание 20 полотенец тоже займёт час, подразумевая, что они как следует расправлены, солнечного света достаточно, условия сушки сохраняются постоянными.

Время высыхания обычно сильнее зависит от условий окружающей среды (солнечный свет, приток воздуха), чем от количества полотенец, пока каждое полотенце в достаточной степени подвергается влиянию этих условий».

Gemini стала высчитывать, сколько времени сохнет одно полотенце, и экстраполировать на 20.

YandexGPT стала считать, сколько полотенец высыхает за час, и высчитывать время для заданного количества. 

GigaChat просто посчитал пропорцией.  

2. Загадка про волшебный лифт

В высоком здании есть волшебный лифт. Если он останавливается на чётном этаже, лифт оказывается на первом этаже.

Начиная с первого этажа, я поднимаюсь на волшебном лифте на 3 этажа вверх. Выйдя из лифта, я снова поднимаюсь на 3 этажа по лестнице.

На каком этаже я в конечном итоге окажусь?

4o и Gemini справились, ответив, что на четвёртом. Можно считать, что GigaChat справился тоже:

Яндекс ушёл от ответа, придравшись к словосочетанию «в конечном итоге»:

3. «Найди яблоки»

Корзина без дна стоит в коробке, которая стоит на земле. Я кладу в корзину три яблока и ставлю ее на стол. Где яблоки?

4o с задачей справилась, определив, что раз корзина без дна, яблоки останутся в коробке, которая стоит на земле. Gemini не заметила коробку:

«Яблоки лежат на земле. Поскольку у корзины нет дна, они выпали, когда их туда положили».

(строго говоря, выпали яблоки только тогда, когда подняли корзину).

Сберовский GigaChat опять пошёл особым путём. Определить правильность ответа невозможно:


Яндекс вообще ничего не понял. 

4. Классическая задачка на сообразительность с двойным подвохом. 

Что тяжелее, килограмм перьев или фунт стали?

Gemini, снова не вдаваясь в детали, распознала формулировку известного мема про килограмм пуха и килограмм гвоздей и заявила, что сравниваемое весит одинаково. А потом и вовсе запуталась, заявив, что фунт стали весит больше килограмма перьев, и объяснив это тем, что фунт МЕНЬШЕ килограмма

4o увидела, что взяты разные единицы измерения веса, и указала на то, что килограмм чего угодно весит больше, чем фунт чего угодно, потому что в килограмме 2,2 фунта. 

GigaChat уверенно заявил, что «килограмм перьев и фунт стали весят одинаково». Яндекс:

Распространённые в интернете задачки на сообразительность, в которых изменены условия, действительно являются проблемой для нейросетей: они распознают их как паттерны и выдают стандартное решение, которое оказывается неправильным. 

GigaChat на эту провокацию не попадается, а вот Яндекс, судя по всему, просто ищет задачу в интернет нечётким поиском, а не решает её сам. 

5. Следование пользовательской инструкции 

Модели попросили составить 10 предложений, которые бы заканчивались словом «манго». 

Gemini составила 10 предложений, из которых нужным словом кончались шесть. 4o сделала, что попросили. До её выхода с точным следованием пользовательским инструкциям справлялась только Llama 3 от запрещённой в России Meta.

У GigaChat на «манго» закончились 7 предложений из 10.  У Яндекса – одно. 

6. Вопрос на понимание изображения на картинке

Модели попросили посчитать красные и фиолетовые точки на картинке, сколько точек внутри зелёной фигуры, сколько раз одна линия пересекает другую. Модели справились на удивление плохо, ChatGPT 4o удалось правильно ответить на 1 вопрос из 4, а Gemini ошиблась во всех. 

7. Распознавание символов

Моделям показали таблицы со списками технических характеристик двух смартфонов на картинках и спросили, какой из них стоит купить. Названия телефонов не указывались (это были Pixel 8a and Pixel 8).

4o распознала текст на картинке, сравнила телефоны по характеристикам и посоветовала второй (Pixel 8). Будучи спрошена, она назвала и модель телефона. Gemini текст на картинках не распознала. 

8. Создание игры

Моделям показали скриншот игры Atari Breakout и попросили написать код. Код они обе написали, но у ChatGPT 4o игра запустилась, а у Gemini нет – окно просто закрывалось каждый раз при попытке запуска.

Полезное от Онлайн Патент:

  1. Как получить господдержку для IT-компании?

  2. Какие выгоды можно получит от регистрации программы для ЭВМ?

  3. Как защитить базу данных клиентов?

  4. Не только айтишники: какие компании могут внести свои программы в Реестр отечественного ПО?  

  5. Руководство по товарным знакам в 2024 году.

Больше контента о сфере интеллектуальной собственности в нашем Telegram-канале

Теги:
Хабы:
Всего голосов 13: ↑11 и ↓2+11
Комментарии11

Полезные ссылки

«Замкнутый, как колобок, Тонет»: как в Томске заработал собственный интернет

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров29K
Всего голосов 35: ↑34 и ↓1+41
Комментарии47

Как Руанда построила эффективную экономику на руинах геноцида

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров9.8K
Всего голосов 62: ↑57 и ↓5+69
Комментарии29

«Киотский ар-деко» от загадочного Кобаяси Каити и эволюция японской гравюры

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4K
Всего голосов 28: ↑26 и ↓2+33
Комментарии7

Как человечество будет воевать с ИИ (если верить писателям-фантастам)

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров8.9K
Всего голосов 17: ↑16 и ↓1+21
Комментарии22

Теория мертвого интернета: как конспирологи с 4chan предсказали власть ботов в киберпространстве

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров12K
Всего голосов 20: ↑16 и ↓4+17
Комментарии15

Информация

Сайт
onlinepatent.ru
Дата регистрации
Численность
51–100 человек
Местоположение
Россия
Представитель
Oksana_Nedvigina