Как стать автором
Обновить

Комментарии 7

Marketing Specialist такой Marketing Specialist )) Высосать из одной строки решения два абзаца слов добавляющих мало смысла, а из двух абзацев — статью о важности системного подхода к анализу проблем… )))
На самом деле проблема намного глубже и не решается лишь подменой заголовков и user agent. Это легко проверить, достаточно попробовать пройти гугл авторизацию в headless режиме.
Не так давно я изучал этот вопрос и наткнулся на статью intoli.com/blog/not-possible-to-block-chrome-headless где показаны некоторые особенности браузера. Но я уверен, что даже этого будет недостаточно для прохождения гугл авторизации.

Может в коде браузера запрещено? В других пробовал?

Там сам гугл говорит об этом, а это значит, что он знает как детектировать значит смогут и другие.

Я сталкивался с этой проблемой. Частично её можно решить так. В начале нужно создать отдельный профиль для браузера, сменив родной юзерагент, а после успешной авторизации сохранить куки с помощью средств селениума. Затем в хедлес режиме прописать тот же юзер агент и на странице авторизации подгрузить куки. Так я обходил гугл авторизацию. А для того чтобы сайты просто не блокировали хэдлес достаточно сменить юзерагент, выставить приемлемое разрешение окна невидимого браузера и иметь какие-нибудь куки и кэш, т. е. просто посерфить немного и переходить на нужный сайт с поисковой системы, так как сайты так же анализирую реферрер.

Да, именно так я в основном и делаю, гугл я не использую, привел как пример. Но в тех местах, которые, скажем так я посещал с помощью этих браузеров умеют детектировать через время такие браузеры и блокировать аккаунты, которыми браузеры прикрывались. Но вообще это отдельная история

Статья определено заслуживает дискуссии. Можно было и короче, Но проблема интересная. Может не многие обратили внимание, но экземпляр браузера, откоыаемый selenium, отличается от обычного, это связано с особенностью работы вебдрайвера хромиум. При открытии GUI версии, мы видим сообщение о том что копия браузера использует автоматизацию (не помню точный текст), и суть заключается не только в том что сам браузер имеет особенную модификацию, но и в том как он работает на транспортном уровне. Моё решение было не простым но работало. Начать стоит с установки профиля браузера, путем определения пути для хранения текущей сессии браузера. Затем я установил несколько расширений антидетекта, один из них создаёт налету отпечаток браузера (куки, юзерагент, и что-то ещё), а второй блокирует "рекламу". Не буду рекламировать, но плагин популярный и умеет работать с заданными селекторами. И собственно вот такой подход позволил мне обойти блокировку. Безусловно от гугла это не спасёт, потому что мы используем браузер который буквально пропитан маркерами. А что если попробовать Лису? Официальная поддержка phantom JS остановлена, но возможно он тоже имел бы успех, так как лишен ободочки вообще. Имхо: лично я работаю через хромиум, и возможно нужно искать решение в его драйвере

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории