Pull to refresh

Comments 14

Интересно было бы конечно сравнить Bard и GPT-4 по каким-то тестам, но если сравнивать просто по количеству параметров, такая метрика конечно весьма условна, т.к. архитектруры различных нейросетей отличаются, то выходит, что Bard значительно уступает GPT-4 по числу параметров:

Gpt-4 1,75 трлн
Google Bard 540 млрд
Gpt3.5 170 млрд
YaGPT 100 млрд
Llama-v2 (Meta) - 70 млрд
GigaChat (Sber) 18 млрд

PS Подтверждаю слова автора, что предидущая модель gpt-0314 работает очень хорошо. Вероятно модель 0613 пытались сделать более "вокнутой", чтобы лучше соответсвовать этическим нормам, в итоге она из-за этого и отупела.

Нужно помнить, что количество параметров значит не больше, чем частота процессорных ядер в отрыве от всего остального. А ещё мы достоверно не знаем, сколько у GPT-4 параметров, причем даже если верить слухам - у Bard все равно больше параметров (8 моделей по 220B ≠ 1 на 540), не смотря на то, что она по метрикам хуже.

Или же gpt4 стала настолько умной, что поняла, что ее бояться и стала притворяться глупенькой)

Скорее всего OpenAI стал урезать модели для экономии ресурсов.

Расскажу свою кейс. Спрашивал про связку Транзакции базы данных + Типы реплик, как они друг на друга влияют и т.д. И 3.5 отлично отвечал. 4й путался, после только 5-6 наводящих длинных ему сообщений с вопросами он отвечал, а потом опять путался.

Почему-то нигде не упоминается, что промптинг моделей изменился т.к. добавили возможность плагинов.
В версиях от 13 июня был произведён fine-tunning, чтобы получить возможность передавать в запросе список доступных функций (через JSON Schema), а ассистент теперь может отвечать не текстом, а запросом.
Возможно, такие изменения имели эффект т.к. изначально данные были в другом формате.

Парсинг законов через OpenAI API.

Эмпирически: gpt-4-0613 лучше gpt-4-0314.

Кстати, когда в API запросе задаешь модель 'gpt-4', в ответе автоматом подменяется на 'gpt-4-0613'.

языковая модель GPT-4 за последние несколько месяцев стала хуже справляться с задачами генерации кода

Есть еще непопулярный вариант — создатели поняли, что этого делать не нужно и что в результате хуже станет всем.

Маловероятно, что создатели примкнули к неолуддитам.

Судя по примеру, модель добавила к ответу символы форматирования.

Даже редактор Хабра считает текст кодом, если он содержит такие символы.

Модели просто показывали кучу подобных примеров.

Есть мнение что авторы не корректно проводят исследования и интерпретируют результаты.

Модель не умеет считать, она просто стала отвечать нет, чаще чем отвечала да.

Модель выдаёт полностью корректный питонячий код, просто теперь с форматированием.

Надо смотреть API, вполне возможно что это вообще в сыром виде возвращается не зависимо от ответа модели, как раз ради форматирования. А то что у них не получилось запустить код из-за Markdown форматирования характеризует авторов и исследование.

Модель сломалась в тот момент когда начали раскатывать последнее обновление в котором пользователь может задавать для неё не сбрасываемый контекст. Типа один раз сказал что надо писать на python, она всегда будет писать на python без уточнений. Но обнову на всех так и не выкатили. Перемудрили.

Sign up to leave a comment.

Articles