Комментарии 7
Аффтар пеши исчо, тема сисек использования llm в hr не раскрыта - статья короткая.
Странно, что для HR важна производительность LLM по времени. Откуда возьмётся тот нескончаемый поток резюме, при котором это надо, ссылочкой не поделитесь?
Не хватает gemma3 (https://ollama.com/library/gemma3), она уже как 3 месяца назад вышла.
Быстродействие оценивалось как среднее время ответа (в секундах).
Что за секунды? На каком оборудовании (3050/1650/ryzen -- у них у всех разная скорость, в таблице это не отражено)? У одной модели, скажем, на 4090 скорость будет 100 токенов/сек, а на H100 150 токенов/сек. На 4070 -- 50 токенов/сек (все цифры примерные). Т.е. для Llama 3.2 3b q8 за 20 секунд в одном случае будет сгенерировано 2000 токенов, в другом 3000, в третьем 1000. Касаемо 1650/3050: если верить technicalcity, 3050 примерно в раза два быстрее 1650.
Далее, это время от запроса пользователя до вывода на его экран? Так это зависит от размера самой модели, размера контекста, количества токенов, заложенных на "думание", модели gpu (как указано выше), скорости интернета.
Так что за секунды тут приведены? И не удобнее ли результат приводить в токенах? Типа, модель такая-то, в ответе в среднем генерировала N токенов со скоростью M токенов\сек, качество ответов такое-то
Сравнение производительности языковых моделей для HR-задач