Сравнение производительности языковых моделей для HR-задач / Habr

Цели исследования и задачи

Мы занимаемся созданием HRTech-сервисов для оценки и развития компетенций специалистов. В наших сервисах применяются LLM и в качестве базового варианта мы использовали разные модели ChatGPT.

Основные задачи LLM включают:

Сортировку и оценку резюме
Оценку и формирование навыков кандидатов
Ведение диалогов с кандидатами
Оценку соответствия требованиям вакансий

Траектория развития наших продуктов предполагает перевод их опен-сорс либо на российские LLM, поэтому мы регулярно проводим оценку этих моделей с точки зрения их применимости к нашим задачам. В этой статье поделюсь полученным результатами сравнения некоторых моделей.

Методика тестирования

Тестирование проводилось на 20 вопросах, отражающих реальные HR-сценарии, например:

Формирование списка навыков с описанием для вакансии аналитика
Разработка комплексной рабочей ситуации для проведения кейс-интервью
Генерация вопросы для собеседования
Оценка резюме по заданному набору критериев и т.д.

Фиксировалось время ответа и оценивалось качество по критериям релевантности, полноты и корректности. Тесты выполнялись на сервере с видеокартами 1650 и 3050, а также на процессоре Ryzen 5 5600, что соответствует условиям промышленной эксплуатации.

Основные критерии выбора — качество ответов и быстродействие.

Качество оценивалось экспертно — эксперты независимо оценивали правильность ответа моделей по каждому вопросу, выставляли баллы, затем эти баллы усреднялись и суммировались. Возможный максимум по нашему внутреннему бенчмарку — 40 баллов (сейчас близкий к нему результат выдает ChatGPT)

Быстродействие оценивалось как среднее время ответа (в секундах).

Результаты сравнения

Всего в сравнении принимало участие свыше 40 моделей, самые лучшие результаты показали следующие:

Модель	Время (с)	Качество
Qwen 2.5 7b q3	37.84	28
Llama 3.2 3b q8	24.44	30
Llama 3.2 3b q4	21.63	32
Qwen 2.5 3b q8	50.20	25
Qwen 2.5 3b q4	47.41	27
Gemma2 9b q8	63.54	22
Gemma2 9b q5	51.54	24
Qwen 2 0.5b	11.75	18
Llama 3.2 1b q8	10.47	20
Яндекс	12.75	14.3

Какие выводы мы сделали

ChatGPT пока остается лидером в универсальных задачах, но для нишевых решений оправданно применение альтернатив.

Для большинства прикладных HR‑задач вполне удовлетворительно работают open‑source модели среднего размера (например, Llama 3.2 3b q4/q8, Qwen 2.5 7b q3) — они демонстрируют оптимальный баланс качества и времени отклика.

Квантование эффективно снижает время отклика без значительной потери качества. Модели с более низким уровнем квантования (q3, q4) работают быстрее, сохраняя приемлемое качество.