Comments 9
Что не сходится с вашей репой
В докерфайле так
> RUN apt-get install -y python3.12 python3-setuptools python3-pip python3.12-venv
а в статье питон3.10 =) Тоже самое и код пайдантика намекает на 1 версию (всякие parse_obj), а в репе в requirements.txt уже вторая версия pydantic.
Linux, Python, Git и PostgreSQL
Помню времена, когда в топе был PHP.
Но это не означало, что нужны были специалисты по PHP, это означало "я слышал что веб сайты делаются на PHP, Mysql и какой-то лампе, мне нужно вебсайт для лапшичной и поэтому я пишу в вакансии умное профессиональное слово PHP"
Теперь "ИИ" делаются на Python. Если кому нужен ИИ для лапшичной - ну вы поняли...
ХХ помойкой стало в последнее время. Очень много фейковых вакансий, много всякого мусора и откровенного фуфла
А где же embedder'ы? Редкий такой птиц...
Если вам интересно, как эффективно собрать и обработать сотни тысяч записей
Извините, я не очень хорошо понял.
Сотни тысяч? Вы хотели сказать "сотни миллиардов"?
Удивляюсь, потому что вопрос "эффективной обработки" сотен тысяч структурированных текстовых записей - это уровень dBase IV от 1988 года, а не того стека, который вы тут нагородили...
Обработка ~11 миллионов страниц вакансий для фильтрации 393 тысяч IT-вакансий заняла несколько суток непрерывной работы.
Правильно ли я понял смысл предложения: были выгружены все вакансии и лишь затем среди них отобраны относящиеся к ИТ?
это из-за ваших парсеров hh api закрыли?
То есть вы, уподобляясь минстату и прочим, анализируете данные фейковой помойки, которую можно использовать, разве что, как пример массовой дезинформации? Однако...
Возможно, меня заминусуют, но...
Как жаль, что Bac зовут не Елена =D
Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли