Техноблоггер Арджун Ша сравнил недавно вышедшую модель ChatGPT 4o с Gemini 1.5 Pro. от Google. И пришёл к выводу, что последняя гораздо слабее первой.
Мы перевели его текст, добавив ответы на некоторые вопросы отечественных YandexGPT и GigaChat от Сбера
1. Классическая задачка на сообразительность с подвохом.
4o подвох заметила, Gemini и российские модели занялись ненужными математическими вычислениями.
15 полотенец высыхают на солнце за час. За какое время высохнут 20 полотенец?
4o: «Высыхание 20 полотенец тоже займёт час, подразумевая, что они как следует расправлены, солнечного света достаточно, условия сушки сохраняются постоянными.
Время высыхания обычно сильнее зависит от условий окружающей среды (солнечный свет, приток воздуха), чем от количества полотенец, пока каждое полотенце в достаточной степени подвергается влиянию этих условий».
Gemini стала высчитывать, сколько времени сохнет одно полотенце, и экстраполировать на 20.
YandexGPT стала считать, сколько полотенец высыхает за час, и высчитывать время для заданного количества.
GigaChat просто посчитал пропорцией.
2. Загадка про волшебный лифт
В высоком здании есть волшебный лифт. Если он останавливается на чётном этаже, лифт оказывается на первом этаже.
Начиная с первого этажа, я поднимаюсь на волшебном лифте на 3 этажа вверх. Выйдя из лифта, я снова поднимаюсь на 3 этажа по лестнице.
На каком этаже я в конечном итоге окажусь?
4o и Gemini справились, ответив, что на четвёртом. Можно считать, что GigaChat справился тоже:
Яндекс ушёл от ответа, придравшись к словосочетанию «в конечном итоге»:
3. «Найди яблоки»
Корзина без дна стоит в коробке, которая стоит на земле. Я кладу в корзину три яблока и ставлю ее на стол. Где яблоки?
4o с задачей справилась, определив, что раз корзина без дна, яблоки останутся в коробке, которая стоит на земле. Gemini не заметила коробку:
«Яблоки лежат на земле. Поскольку у корзины нет дна, они выпали, когда их туда положили».
(строго говоря, выпали яблоки только тогда, когда подняли корзину).
Сберовский GigaChat опять пошёл особым путём. Определить правильность ответа невозможно:
Яндекс вообще ничего не понял.
4. Классическая задачка на сообразительность с двойным подвохом.
Что тяжелее, килограмм перьев или фунт стали?
Gemini, снова не вдаваясь в детали, распознала формулировку известного мема про килограмм пуха и килограмм гвоздей и заявила, что сравниваемое весит одинаково. А потом и вовсе запуталась, заявив, что фунт стали весит больше килограмма перьев, и объяснив это тем, что фунт МЕНЬШЕ килограмма
4o увидела, что взяты разные единицы измерения веса, и указала на то, что килограмм чего угодно весит больше, чем фунт чего угодно, потому что в килограмме 2,2 фунта.
GigaChat уверенно заявил, что «килограмм перьев и фунт стали весят одинаково». Яндекс:
Распространённые в интернете задачки на сообразительность, в которых изменены условия, действительно являются проблемой для нейросетей: они распознают их как паттерны и выдают стандартное решение, которое оказывается неправильным.
GigaChat на эту провокацию не попадается, а вот Яндекс, судя по всему, просто ищет задачу в интернет нечётким поиском, а не решает её сам.
5. Следование пользовательской инструкции
Модели попросили составить 10 предложений, которые бы заканчивались словом «манго».
Gemini составила 10 предложений, из которых нужным словом кончались шесть. 4o сделала, что попросили. До её выхода с точным следованием пользовательским инструкциям справлялась только Llama 3 от запрещённой в России Meta.
У GigaChat на «манго» закончились 7 предложений из 10. У Яндекса – одно.
6. Вопрос на понимание изображения на картинке
Модели попросили посчитать красные и фиолетовые точки на картинке, сколько точек внутри зелёной фигуры, сколько раз одна линия пересекает другую. Модели справились на удивление плохо, ChatGPT 4o удалось правильно ответить на 1 вопрос из 4, а Gemini ошиблась во всех.
7. Распознавание символов
Моделям показали таблицы со списками технических характеристик двух смартфонов на картинках и спросили, какой из них стоит купить. Названия телефонов не указывались (это были Pixel 8a and Pixel 8).
4o распознала текст на картинке, сравнила телефоны по характеристикам и посоветовала второй (Pixel 8). Будучи спрошена, она назвала и модель телефона. Gemini текст на картинках не распознала.
8. Создание игры
Моделям показали скриншот игры Atari Breakout и попросили написать код. Код они обе написали, но у ChatGPT 4o игра запустилась, а у Gemini нет – окно просто закрывалось каждый раз при попытке запуска.
Полезное от Онлайн Патент:
Какие выгоды можно получит от регистрации программы для ЭВМ?
Не только айтишники: какие компании могут внести свои программы в Реестр отечественного ПО?
Больше контента о сфере интеллектуальной собственности в нашем Telegram-канале