Цели исследования и задачи
Мы занимаемся созданием HRTech-сервисов для оценки и развития компетенций специалистов. В наших сервисах применяются LLM и в качестве базового варианта мы использовали разные модели ChatGPT.
Основные задачи LLM включают:
Сортировку и оценку резюме
Оценку и формирование навыков кандидатов
Ведение диалогов с кандидатами
Оценку соответствия требованиям вакансий
Траектория развития наших продуктов предполагает перевод их опен-сорс либо на российские LLM, поэтому мы регулярно проводим оценку этих моделей с точки зрения их применимости к нашим задачам. В этой статье поделюсь полученным результатами сравнения некоторых моделей.
Методика тестирования
Тестирование проводилось на 20 вопросах, отражающих реальные HR-сценарии, например:
Формирование списка навыков с описанием для вакансии аналитика
Разработка комплексной рабочей ситуации для проведения кейс-интервью
Генерация вопросы для собеседования
Оценка резюме по заданному набору критериев и т.д.
Фиксировалось время ответа и оценивалось качество по критериям релевантности, полноты и корректности. Тесты выполнялись на сервере с видеокартами 1650 и 3050, а также на процессоре Ryzen 5 5600, что соответствует условиям промышленной эксплуатации.
Основные критерии выбора — качество ответов и быстродействие.
Качество оценивалось экспертно — эксперты независимо оценивали правильность ответа моделей по каждому вопросу, выставляли баллы, затем эти баллы усреднялись и суммировались. Возможный максимум по нашему внутреннему бенчмарку — 40 баллов (сейчас близкий к нему результат выдает ChatGPT)
Быстродействие оценивалось как среднее время ответа (в секундах).
Результаты сравнения
Всего в сравнении принимало участие свыше 40 моделей, самые лучшие результаты показали следующие:
Модель | Время (с) | Качество |
Qwen 2.5 7b q3 | 37.84 | 28 |
Llama 3.2 3b q8 | 24.44 | 30 |
Llama 3.2 3b q4 | 21.63 | 32 |
Qwen 2.5 3b q8 | 50.20 | 25 |
Qwen 2.5 3b q4 | 47.41 | 27 |
Gemma2 9b q8 | 63.54 | 22 |
Gemma2 9b q5 | 51.54 | 24 |
Qwen 2 0.5b | 11.75 | 18 |
Llama 3.2 1b q8 | 10.47 | 20 |
Яндекс | 12.75 | 14.3 |
Какие выводы мы сделали
ChatGPT пока остается лидером в универсальных задачах, но для нишевых решений оправданно применение альтернатив.
Для большинства прикладных HR‑задач вполне удовлетворительно работают open‑source модели среднего размера (например, Llama 3.2 3b q4/q8, Qwen 2.5 7b q3) — они демонстрируют оптимальный баланс качества и времени отклика.
Квантование эффективно снижает время отклика без значительной потери качества. Модели с более низким уровнем квантования (q3, q4) работают быстрее, сохраняя приемлемое качество.