Pull to refresh

LLM Leaderboard за февраль 2024

Level of difficultyEasy
Reading time2 min
Views4.3K

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе.

Из чего состоит бенчмарк?

  • docs - работа с большими документами и базами знаний

  • crm - для работы с каталогами продуктов и маркетплейсами

  • integrate - интеграция со сторонними апишками, сервисами и плагинами

  • marketing - способность работать как ассистент маркетолога - brainstorming, idea refinement, text generation

  • reason - насколько хорошо с логикой в рамках предоставленного контекста

  • code - работа с кодом

  • final - общий рейтинг модели

Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский. В бенчмарке представлены не все модели(нет моделей 70B).

Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers. Если использовать TGI/vLLM, то цена локальных моделей изменится в меньшую сторону.

Автор бенчмарка Rinat Abdullin
Автор бенчмарка Rinat Abdullin

Что изменилось за февраль?

  1. ChatGPT-v4 хорошеет. GPT-4 Turbo 0125-preview (v4) не только обучена на самых свежих данных (Декабрь 2023), но и обогнала предыдущие две версии и заняла второе место. При этом она стоит в разы дешевле топовой модели.

  2. Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко. Разницы между двумя поколениями моделей помладше особо тоже нет. Младшие модели страдали хронической болтливостью, игнорированием few-shots промптов и невнимательность к инструкциям.

Итог


Лучшая модель остается по прежнему - GPT-4 ?
Лучшая модель, которую можно запустить самим - Mistral 7B OpenChat ?


GPT-4 Turbo 0125-preview приближается к своему старшему брату и может использоваться в большинстве кейсов место него, таким образом сэкономив Ваши деньги.


Для конкретно вашей задачи лучше всего подбирайте модели сами. Все зависит от того какими ресурсами вы владеете и какой язык используете!

Tags:
Hubs:
Total votes 7: ↑7 and ↓0+7
Comments2

Articles