All streams
Search
Write a publication
Pull to refresh

Comments 7

Аффтар пеши исчо, тема сисек использования llm в hr не раскрыта - статья короткая.

ок, сделаю отдельную обзорную статью. И наверное отдельно - как ИИ используют кандидаты, столько кейсов уже есть интересных...

Странно, что для HR важна производительность LLM по времени. Откуда возьмётся тот нескончаемый поток резюме, при котором это надо, ссылочкой не поделитесь?

  1. Есть немало вакансий с большим количеством откликов. Джуны (а сейчас уже и мидлы), маркетологи, менеджеры и т.д.

  2. У всех джоб-платформ есть апи, по которому они в ATS системы отдают резюме, отобранные по критериям.

Быстродействие оценивалось как среднее время ответа (в секундах).

Что за секунды? На каком оборудовании (3050/1650/ryzen -- у них у всех разная скорость, в таблице это не отражено)? У одной модели, скажем, на 4090 скорость будет 100 токенов/сек, а на H100 150 токенов/сек. На 4070 -- 50 токенов/сек (все цифры примерные). Т.е. для Llama 3.2 3b q8 за 20 секунд в одном случае будет сгенерировано 2000 токенов, в другом 3000, в третьем 1000. Касаемо 1650/3050: если верить technicalcity, 3050 примерно в раза два быстрее 1650.

Далее, это время от запроса пользователя до вывода на его экран? Так это зависит от размера самой модели, размера контекста, количества токенов, заложенных на "думание", модели gpu (как указано выше), скорости интернета.

Так что за секунды тут приведены? И не удобнее ли результат приводить в токенах? Типа, модель такая-то, в ответе в среднем генерировала N токенов со скоростью M токенов\сек, качество ответов такое-то

Sign up to leave a comment.

Articles