motrni7 янв в 04:35

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)

4 мин

9.9K

Python * Информационная безопасность *

Recovery Mode

+13

Комментарии 14

НЛО прилетело и опубликовало эту надпись здесь

somech 7 янв в 06:19

API для соискателя прикрыли

nikulin_krd 7 янв в 06:48

Зачем здесь LLM?

Внятного ответа на этот вопрос мы так и не получили.

Вместо того, чтобы пользоваться стандартным функционалом playwright - локаторы, вы на кой-то черт впихнули туда LLM….

Про остальное я вообще молчу.

akakoychenko 7 янв в 07:14

Ага. Странный ход. Логично, что сайты, написанные белками-истеричками, намеренно говнят DOM (например, хз, как сейчас, но 5 лет назад инстаграм выводил текст кусочками по 1й-2м буквам в элементе), есть кейсы, когда интернет магазины специально цену от балды пишут в элементе, перекрытом другим, и так далее. И логично то, что единственный надёжный способ тут это OCR. В теории, если верстку пересобирают, условно, раз в сутки, то, возможно, самым производительным вариантом будет при помощи LLM писать высокопроизводительный парсер, давая DOM + результат OCR, чтобы LLM автоматически писал код, либо конфигурацию парсера, после каждого изменения на стороне НН.

Но вот каждый раз дергать LLM на каждом цикле выглядит и ненадежным (ибо, почему нейронка должна адекватно спарсить намеренно запутанный DOM?), и более затратным, чем OCR, которые сегодня реально быстрые и эффективные

Ilya_JOATMON 7 янв в 08:23

Кстати насчет OCR. Можете что посоветовать, когда сайты с текстами тоже "шифруются" и напрямую текст не вытащить ни копипастой ни залезанием в http. Пробовал сделать скриндамп плагином хрома, это работает, но вот найти OCR которая дальше эту картинку распознает, с этим возникла проблема. Файнридеры отказались - кроме 9й, но там проблема с большими дампами - оно память выделить не может. gImageReader - тоже страдает от размеров дампа и распознает "не очень".

Ravius 7 янв в 08:47

Картинку режьте на стандартные кусочки и все.

Ilya_JOATMON 7 янв в 08:55

Разрезание может и текст разрезать.

akakoychenko 7 янв в 08:53

Из классики, гляньте на EasyOCR, paddlepaddle

Из интересного нового, microsoft omniparser. Хотя, слишком тяжеловесное решение

Ну, или, если задача не требует эффективности, любая state-of-the-art LLM неплохо OCRит (но, тут, понятно, стоимость будет неадекватной)

nikulin_krd 7 янв в 10:32

Если изучить как работают локаторы в playwright, то не нужны будут ни LLM, ни OCR))

AlexeyK77 7 янв в 08:24

Вместо тега "информационная безопасность" более подходящим будет тег "фрод".

tarantula58910 7 янв в 09:37

вы сотрудник, акционер или бенефициар ХХ ?
если нет, нет и нет, то зачем ущемляетесь на пустом месте ?

upd: фрод это другое. например разместить вакансию "тайный покупатель", а вербовать дропов,
которые под предлогом проверки качества обслуживания будут получать пластик на свои документы и
отдавать его кому скажут. или - заполнить анкету от "работодателя" на стороннем ресурсе и отослать ее якобы через телеграм, но этот "телеграм" ваши креды украдет а аккаунт угонит.

AlexeyK77 7 янв в 13:09

не имею отношения к вышеупомянутым организациям, но замечу, что название статьи говорит само за себя "RPA против Anti-Fraud".

exelens 7 янв в 11:49

А не проще ли сделать расширение для браузера, и пусть оно во вкладке отрабатывает?

manwithbrain 8 янв в 02:22

А можно подробнее про кастомные сборки Chromium? Где их брать?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий