Как стать автором
Обновить

LLM Leaderboard за февраль 2024

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4.4K

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе.

Из чего состоит бенчмарк?

  • docs - работа с большими документами и базами знаний

  • crm - для работы с каталогами продуктов и маркетплейсами

  • integrate - интеграция со сторонними апишками, сервисами и плагинами

  • marketing - способность работать как ассистент маркетолога - brainstorming, idea refinement, text generation

  • reason - насколько хорошо с логикой в рамках предоставленного контекста

  • code - работа с кодом

  • final - общий рейтинг модели

Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский. В бенчмарке представлены не все модели(нет моделей 70B).

Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers. Если использовать TGI/vLLM, то цена локальных моделей изменится в меньшую сторону.

Автор бенчмарка Rinat Abdullin
Автор бенчмарка Rinat Abdullin

Что изменилось за февраль?

  1. ChatGPT-v4 хорошеет. GPT-4 Turbo 0125-preview (v4) не только обучена на самых свежих данных (Декабрь 2023), но и обогнала предыдущие две версии и заняла второе место. При этом она стоит в разы дешевле топовой модели.

  2. Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко. Разницы между двумя поколениями моделей помладше особо тоже нет. Младшие модели страдали хронической болтливостью, игнорированием few-shots промптов и невнимательность к инструкциям.

Итог


Лучшая модель остается по прежнему - GPT-4 ?
Лучшая модель, которую можно запустить самим - Mistral 7B OpenChat ?


GPT-4 Turbo 0125-preview приближается к своему старшему брату и может использоваться в большинстве кейсов место него, таким образом сэкономив Ваши деньги.


Для конкретно вашей задачи лучше всего подбирайте модели сами. Все зависит от того какими ресурсами вы владеете и какой язык используете!

Теги:
Хабы:
Всего голосов 7: ↑7 и ↓0+7
Комментарии2

Публикации

Истории

Работа

Data Scientist
79 вакансий

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань