Комментарии 14
Все круто конечно, но у HH есть API. Я ещё год назад написал автоотзовик на HH, когда искал работу (так и не нашёл кстати) - он сам искал релевантную вакансию по моему резюме и отзывался. Ну а я потом смотрел отказы, от ещё более тупых ботов с той стороны. HH площадка ботов.
Зачем здесь LLM?
Внятного ответа на этот вопрос мы так и не получили.
Вместо того, чтобы пользоваться стандартным функционалом playwright - локаторы, вы на кой-то черт впихнули туда LLM….
Про остальное я вообще молчу.
Ага. Странный ход. Логично, что сайты, написанные белками-истеричками, намеренно говнят DOM (например, хз, как сейчас, но 5 лет назад инстаграм выводил текст кусочками по 1й-2м буквам в элементе), есть кейсы, когда интернет магазины специально цену от балды пишут в элементе, перекрытом другим, и так далее. И логично то, что единственный надёжный способ тут это OCR. В теории, если верстку пересобирают, условно, раз в сутки, то, возможно, самым производительным вариантом будет при помощи LLM писать высокопроизводительный парсер, давая DOM + результат OCR, чтобы LLM автоматически писал код, либо конфигурацию парсера, после каждого изменения на стороне НН.
Но вот каждый раз дергать LLM на каждом цикле выглядит и ненадежным (ибо, почему нейронка должна адекватно спарсить намеренно запутанный DOM?), и более затратным, чем OCR, которые сегодня реально быстрые и эффективные
Кстати насчет OCR. Можете что посоветовать, когда сайты с текстами тоже "шифруются" и напрямую текст не вытащить ни копипастой ни залезанием в http. Пробовал сделать скриндамп плагином хрома, это работает, но вот найти OCR которая дальше эту картинку распознает, с этим возникла проблема. Файнридеры отказались - кроме 9й, но там проблема с большими дампами - оно память выделить не может. gImageReader - тоже страдает от размеров дампа и распознает "не очень".
Картинку режьте на стандартные кусочки и все.
Из классики, гляньте на EasyOCR, paddlepaddle
Из интересного нового, microsoft omniparser. Хотя, слишком тяжеловесное решение
Ну, или, если задача не требует эффективности, любая state-of-the-art LLM неплохо OCRит (но, тут, понятно, стоимость будет неадекватной)
Если изучить как работают локаторы в playwright, то не нужны будут ни LLM, ни OCR))
Вместо тега "информационная безопасность" более подходящим будет тег "фрод".
вы сотрудник, акционер или бенефициар ХХ ?
если нет, нет и нет, то зачем ущемляетесь на пустом месте ?
upd: фрод это другое. например разместить вакансию "тайный покупатель", а вербовать дропов,
которые под предлогом проверки качества обслуживания будут получать пластик на свои документы и
отдавать его кому скажут. или - заполнить анкету от "работодателя" на стороннем ресурсе и отослать ее якобы через телеграм, но этот "телеграм" ваши креды украдет а аккаунт угонит.
А не проще ли сделать расширение для браузера, и пусть оно во вкладке отрабатывает?
А можно подробнее про кастомные сборки Chromium? Где их брать?

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)