Обновить

Комментарии 13

Сделать разбор на обходы блокировок?

Я вот, допустим, с помощью двадцати строчек кода в собственном расширении для старой версии Хрома, смог реально обходить капчу и загрузить пару сотен тысяч страниц из различных онлайн-словарей. Хотя сам код расширения, я в каком-то из своих комментариев опубликовал, здесь, но, без особых подробностей. Не уверен, что этим кодом смог воспользоваться, даже тот, кто попросил меня о нем.

У вас какое будет аналогичное решение?

В следующей статье хочу углубиться на тему обходов защит и использование уже готовых библиотек.

А реальный пример использования парсинга, мы в какой, по счету, статье получим и получим ли вообще?

Например, в моей статье: «Запоминаем иностранные слова по видео-словарю, упорядоченного по грамматическим категориям и переводам» ( https://habr.com/ru/articles/1021912/ ) продемонстрирован результат загрузки озвученного французско-русского онлайн-словаря, извлечены данные из него и создан видео-словарь для изучения выбранной категории слов, упорядоченных по нашему усмотрению.

При этом код в статье не демонстрировался, хотя, доступен архив проекта по ссылке. Там и дан весь программный код (на Питоне), который можно сразу запустить и посмотреть результат. Ибо читать код в статье – это пустая трата времени, по большом счету. А вот о концепции и программной логике, обычно, говорят мало.

P.S. Впрочем, подобную претензию можно предъявить многим. На сайте опубликованы, к примеру, сотни статей про ИИ и иже с ним, но там описан, в основном, либо процесс, либо новости, либо освоение / изучение, либо какие-то общие рассуждения, в стиле: «А поговорить?».

Результаты, если и даны, то, в лучшем случае, это ссылки на свои веб-сервисы, где непонятно что и зачем делается.

Иначе говоря, разговоров про ИИ на рубль, а реального выхлопа – на копейку.

Я, вот, допустим, использовал бесплатный ИИ для разработки графической обёртки для консольного загрузчика «yt-dlp.exe», чтобы более удобно скачивать любимые видосики из «народного» видеохостинга. Без ИИ-ёв я бы этой программы не наваял. Результат и архив с кодом можно посмотреть в статье: «Минималистский графический интерфейс, на C++ / WTL, для консольного загрузчика» ( https://habr.com/ru/articles/955838/ ).

P.P.S. Ну, почему у народа такая тяга к рассуждениям «вообще»? Или я что-то не понимаю и сильно отстал от жизни? :) Зачем других учить тому, чему только вчера сам научился? Это же будут, как показывает опыт, очередные благоглупости.

Могу поделиться с вами своими решениями промышленного уровня.

https://github.com/NativeMindNet/crawler
Универсальный краулер (скраппер и парсер)
Описываете в конфиге селекторы, и шаблон url адресов страниц
Отработан на 4000+ округов США, в которых разные сайты (это именно 4000+ отдельных доменов, то есть источников. А не 4000 элементов на 1 сайте)

Если нужен обход блокировок - добавляете
https://github.com/NativeMindNet/cloudflare-bypass-service

Если нужно скачивание в промышленном масштабе - добавляете прокси бесплатные из tor
https://github.com/NativeMindNet/tor-socks-proxy-service

Если вдруг знаете более лечшие решения, поделитесь пожалуйста, чтобы я на изобретение велосипедов время не тратил )))

А как насчет обхода блокировки озона?)) в частности получения зеленой цены?

Мне помогал селениум, но к сожалению это долго. По зелёной цене в случае эмуляции проблем нет.

селениум тут действительно так себе вариант((

Очень любопытно. Подскажите пожалуйста про ваше мнение, в чем именно долго? Долго разрабатывать или долго по тяжелости ресурсов на итерацию?

Скорость обработки долгая

Под капотам есть два варианта на выбор: CURL и Selenium (Эмуляция браузера). Зеленую цену выдрать не проблема. Если вам нужна помощь - подскажите пожалуйста в чем затык и я помогу ))) Или вопрос в скачивании данных которые доступны только после авторизации?

если бы только это)) в лс написал

Вот дополнительно легаси решение по развертыванию мобильных проксей через USB модемы HUAWEI https://gitlab.com/libsPHP/nanoproxy
П.С. Решение 8 летней давности, сейсчас его можно красиво отрефакторить нейронками.

Для простых случаев для парсинга пользуюсь MS Power Automate. Там в визуальном интерфейсе получается быстрее чем в питоне. Впрочем сейчас с ИИ разница уже не столь заметная

Как же безграмотно написано

Статья ни о чем.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации