KonstantinKosvintsev Aug 13 at 12:09

Сравнение производительности языковых моделей для HR-задач

Easy

2 min

571

Artificial IntelligenceOpen source * Personnel Management * Machine learning *

Review

Comments 7

onets Aug 13 at 12:13

Аффтар пеши исчо, тема ~~сисек~~ использования llm в hr не раскрыта - статья короткая.

KonstantinKosvintsev Aug 13 at 12:48

ок, сделаю отдельную обзорную статью. И наверное отдельно - как ИИ используют кандидаты, столько кейсов уже есть интересных...

CloudlyNosound Aug 13 at 12:16

Странно, что для HR важна производительность LLM по времени. Откуда возьмётся тот нескончаемый поток резюме, при котором это надо, ссылочкой не поделитесь?

KonstantinKosvintsev Aug 13 at 12:51

Есть немало вакансий с большим количеством откликов. Джуны (а сейчас уже и мидлы), маркетологи, менеджеры и т.д.
У всех джоб-платформ есть апи, по которому они в ATS системы отдают резюме, отобранные по критериям.

vvk214 Aug 13 at 18:37

Не хватает gemma3 (https://ollama.com/library/gemma3), она уже как 3 месяца назад вышла.

KonstantinKosvintsev Aug 13 at 18:37

спасибо, учтем в следующих бенчмарках

Altair2021 Sep 1 at 04:20

Быстродействие оценивалось как среднее время ответа (в секундах).

Что за секунды? На каком оборудовании (3050/1650/ryzen -- у них у всех разная скорость, в таблице это не отражено)? У одной модели, скажем, на 4090 скорость будет 100 токенов/сек, а на H100 150 токенов/сек. На 4070 -- 50 токенов/сек (все цифры примерные). Т.е. для Llama 3.2 3b q8 за 20 секунд в одном случае будет сгенерировано 2000 токенов, в другом 3000, в третьем 1000. Касаемо 1650/3050: если верить technicalcity, 3050 примерно в раза два быстрее 1650.

Далее, это время от запроса пользователя до вывода на его экран? Так это зависит от размера самой модели, размера контекста, количества токенов, заложенных на "думание", модели gpu (как указано выше), скорости интернета.

Так что за секунды тут приведены? И не удобнее ли результат приводить в токенах? Типа, модель такая-то, в ответе в среднем генерировала N токенов со скоростью M токенов\сек, качество ответов такое-то