Search
Write a publication
Pull to refresh
17
3
Александр @Markus_automation

Занимаюсь парсингом, автоматизацией данных

Send message

Парсер на Python для сбора данных с сайта партнерки, которая продает аренду автомобилей по всему миру

Level of difficultyEasy
Reading time12 min
Views3.1K

Изначально, как оно всегда и бывает, была задача (не курица и не яйцо, а именно задача)! Задача вполне себе нетривиальная - подключиться к партнерской сети и начать продавать на сайте аренду автомобиле. Но у этой ниши есть одна особенность, в лоб, никто ничего не покупает, и нужна тонкая настройка с тонкой геопривязкой, вплоть до координат. Имеющиеся на рынке автопартнерки - либо сильно перемудренные, либо не имеют нормальной (читай простой) системы входа, а те которые упрощены - не имеют нормальной базы, ну или не хотят ее давать партнерам. Мне нужна была база городов и точек выдачи автомобилей и их координатная привязка.

Читать далее

Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

Level of difficultyEasy
Reading time17 min
Views7.7K

Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка угнаться за меняющейся версткой YouTube. Кто‑то пишет простые скрипты на requests, которые падают при первой же ошибке. И куда вас все эти действия приводят?

Снова ко мне — к официальному YouTube Data API v3.

Читать далее

Сравнение VPS-хостинга для 1C-Битрикс с нагрузочными тестами — выясняем какой Битрикс хостинг лучше

Level of difficultyMedium
Reading time13 min
Views1.1K

Выбор VPS для размещения сайта на 1С-Битрикс – задача не менее важная, чем разработка самого сайта.  Битрикс известен своей ресурсоёмкостью: без оптимального хостинга даже хорошо написанный сайт может «тормозить» и отпугивать посетителей. Высокая скорость загрузки напрямую влияет на конверсию и удовлетворенность пользователей – никто не станет ждать по 5–10 секунд открытия страницы интернет-магазина (если только вы не продаёте терпение оптом, и знаете кого-то лично в совете директоров Яндекса и Гугла, что можете себе позволить медленный ресурс). Поэтому правильный выбор VPS под Bitrix – залог быстрой работы сайта, особенно под нагрузкой. 

Более того, хоть я и не считаю себя гуру, но у меня был неудачный опыт и я понял на практике, что часть проблем можно решить, если у хостера компетентная поддержка, которая разбирается в деталях и знает тонкости системы. Проблемы могут вылезти порой в самых неожиданных местах. И я решил помимо нагрузочных тестов добавить сюда раздел про техподдержку.

Читать далее

Как использовать аналитические инструменты для повышения конверсии на веб-сайте

Level of difficultyEasy
Reading time25 min
Views967

Когда ваш сайт ежедневно заходят тысячи пользователей, но до целевого действия (покупки, регистрации, заявки) доходит лишь малая часть - довольно грустно, особенно если показатели отказов далеки от средних показателей по рынку. Но почему так происходит? 95% ответа на подобный вопрос можно найти в данных: аналитические инструменты помогают увидеть поведение посетителей под микроскопом, найти проблемные места и принять решения для роста конверсии. В эпоху data-driven подхода улучшение конверсии перестало быть угадыванием – это систематическая работа с метриками, событиями и записями действий пользователей. Давайте рассмотрим, как технические специалисты, маркетологи и продакт-менеджеры могут совместно использовать современные аналитические инструменты (и мы не будем ограничиваться одной лишь Google Analytics) и их функции – воронки, события, записи сессий, сегментацию, тепловые карты и тп – чтобы повысить конверсию сайта на практике.

Читать далее

Отпечаток браузера: принципы, реализация и способы противодействия

Level of difficultyEasy
Reading time9 min
Views3.6K

Современные веб-сайты могут собирать широкий спектр информации о пользователе. Например, после того как вы искали товар онлайн, связанная реклама может «преследовать» вас повсюду — и всё из-за того, что сайты учитывают такие параметры, как разрешение экрана, часовой пояс и даже набор смайликов. Причем даже режим инкогнито не гарантирует анонимности: имея за плечами хороший стек, можно написать скрипт, который может незаметно собрать отпечаток устройства, и если хотя бы одна из характеристик отпечатка уникальна, устройство можно идентифицировать без использования куки. 

В этой статье я хочу погрузиться чуть глубже в ту сферу, существование которой я старательно не замечал и игнорировал, на заре своей карьеры в этих ваших интернетах. Рассмотрим, что такое отпечаток браузера, как он формируется на практике, какие данные содержит и какими приёмами можно противодействовать его сбору.

Читать далее

Выбираем BI-системы: обзор архитектуры, технологий и выбора

Level of difficultyMedium
Reading time9 min
Views6.1K

Я часто пользуюсь в работе BI системами и всегда было интересно, что же там под капотом, насколько это сложная система. Спойлер - очень сложная! И я решил разобраться в вопросе и чуть более подробно. После подготовки этой статьи стало реальнее понятнее, откуда же все таки готовилось нападение, как работает тот же Power BI. Но вероятно, нужно будет перечитать некоторые моменты дважды. В тех местах, и понятиях, которые я сам не с первого раза понял, я добавлял дополнительное описание.

Читать далее

Рабочий чекер, попал ли ваш сайт под фильтр Гугл — бесплатно

Level of difficultyEasy
Reading time9 min
Views1.7K

Понадобилось мне проанализировать сайт на предмет попадания его под фильтр Гугла, причем с историческими данными.

Первым делом начал гуглить - чекер фильтров Гугла и вот это вот все. Естественно - в интернетах куча решений, но есть небольшое но... Они либо платные, либо условно-бесплатные, либо вообще непонятно как работают.

Ну что делать - надо реализовать собственное решение, что я и сделал.

Палю годноту, так как использование этого решения никак не повлияет на мою деятельность, а кому то может и полезно будет.

Суть решения достаточно проста есть код (он будет ниже), написанный на Python. Он реализует интерактивный дашборд для визуализации данных, полученных из Google Search Console, с использованием библиотеки Dash (на базе Plotly) для построения графиков.

Читать далее

Google и правило 130 дней: стратегия индексирования для уже проиндексированных страниц

Reading time6 min
Views2.7K

Алгоритмы ранжирования Google основываются на наборе внутренних параметров, которые вручную определяются его инженерами.

Другими словами, это фиксированные параметры, которые не изменяются динамически и применяются как абсолютные правила.

В этой статье мы рассмотрим одно из таких значений — ключевой элемент, который проливает свет на то, как ведущий поисковик мира управляет фундаментальным аспектом своей системы ранжирования: индексированием.

Читать далее

Top Web Parsers and API Services for Data scraping: A Comparison of Speed, Scalability, and Bypassing Protections

Level of difficultyEasy
Reading time22 min
Views1.4K

Automatic data scraping (parsing) has become an essential practice for developers, analysts, and automation specialists. It is used to extract massive amounts of information from websites—from competitors’ prices and reviews to social media content. To achieve this, numerous “scrapers” have been developed—libraries, frameworks, and cloud services that enable programmatic extraction of web data. Some solutions are designed for rapid parsing of static pages, others for bypassing complex JavaScript navigation, and yet others for retrieving data via APIs.

In this article, I will review the top scraping tools—both open source libraries and commercial SaaS/API services—and compare them according to key metrics: • Speed and scalability; • Ability to bypass anti-bot protections; • Proxy support and CAPTCHA recognition; • Quality of documentation; • Availability of APIs and other important features.

Read more

Топ парсеров и API-сервисов сбора данных: сравнение скорости, масштабируемости и обхода защит — парсеры на максималках

Level of difficultyEasy
Reading time23 min
Views14K

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. 

В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам.

Читать далее

What Are Resident Proxies and How Do They Work: A Detailed Guide for Beginners

Level of difficultyEasy
Reading time5 min
Views839

Often at work, I encounter services that provide offerings such as resident proxies. Yet, I have never delved deeply into the topic. I have always simply consumed the product “as is,” as some lazy authors like to say.

I have a general understanding of how this type of service works at a layman’s level, and I became interested in exploring the topic more deeply and attempting to share the conclusions I reached through a deeper understanding of what resident proxies are. Let’s see what comes out of it. No recommendations here—just the subjective, evaluative opinion of yet another “specialist.”

Proxy servers are intermediaries between your device and the internet, allowing you to hide your real IP address and alter the appearance of your connection. Think of it as a white camouflage coat in snowy weather, if we speak in very simplistic terms. Let’s start from that—options for camouflage. However, comparing with camouflage coats would be rather dull; instead, let’s recall animals and insects that use camouflage and try to draw a parallel. In fact, I’ve already done so.

Read more

Anti-detect Browsers — How They Work, Which Anti-detect Browser to Choose, Personal Experience, and a Bit of Code

Level of difficultyMedium
Reading time25 min
Views1.4K

Anti-detect browsers emerged as a response to the spread of browser fingerprinting technologies – the covert identification of users based on a combination of their device’s parameters and environment. Modern websites, besides using cookies, track IP addresses, geolocation, and dozens of browser characteristics (such as Canvas, WebGL, the list of fonts, User-Agent, etc.) to distinguish and link visitors. As a result, even when in incognito mode or after changing one’s IP, a user can be detected by their “digital fingerprint” – a unique set of properties of their browser.

In fact, when I first started my journey in these internet realms, my expertise in digital security was evolving—and continues to grow—and I eventually came to understand browser fingerprints. At first, I believed cookies—collected by those pesky search engines that tracked what I viewed—were to blame, then I learned about browser fingerprints and long denied that I needed to learn to work with and understand them. Really, just when you finally figure out proxies, learn how to change and preserve cookies, here comes a new twist. Moreover, it turns out that fingerprints are also sold, and the price is not exactly low. In short, money is made on everything! But that’s beside the point now!

An anti-detect browser is a modified browser (often based on Chromium or Firefox) that substitutes or masks these properties (fingerprints), preventing websites from unequivocally identifying the user and detecting multi-accounting.

Read more

Как работают Антидетект Браузеры, какой выбрать, мой опыт использования, немного кода — топ Антидетект Браузеров

Level of difficultyMedium
Reading time26 min
Views16K

Антидетект-браузеры появились как ответ на распространение технологий браузерного фингерпринтинга – скрытой идентификации пользователей по совокупности параметров их устройства и среды. Современные сайты помимо cookies отслеживают IP-адрес, геолокацию и десятки характеристик браузера (Canvas, WebGL, список шрифтов, User-Agent и др.), чтобы отличать и связывать посетителей​. В результате даже в режиме инкогнито или при смене IP пользователь может быть детектирован по «цифровому отпечатку» – уникальному набору свойств его браузера​.

На самом деле, когда я только начинал свой путь в этих ваших интернетах, моя подкованность в вопросах цифровой безопасности менялась и продолжает расти, вот я уже дошел до понимания отпечатков браузера. Сперва я считал что всему виной куки, которые собирают злобные поисковые системы, и как то там определяют что я там смотрел, потом я узнал про отпечатки браузера и долго отрицал тот факт, что нужно научится с ними работать и разбираться в них. Ну реально, вот ты только разобрался с прокси, понял как менять и сохранять куки и тут на тебе - новая вводная. Более того, оказывается отпечатки также продаются, и цена там не самая маленькая. Короче говоря, деньги делают на всем! Но сейчас не об этом!

Антидетект-браузер – это модифицированный браузер (часто на основе Chromium или Firefox​), который подменяет или маскирует эти свойства (фингерпринты), не позволяя сайтам однозначно узнать пользователя и обнаружить мультиаккаунтинг​. 

С использованием антидетекта, десяток разных аккаунтов выглядит как десять независимых пользователей с разными устройствами, хотя на самом деле работают с ними через один компьютер. Это открывает новые возможности в интернете – от безопасного серфинга до бизнес-задач с множеством учетных записей.

Читать далее

Рейтинг хостингов для сайта: Глубокий технический разбор хостинг провайдеров

Reading time17 min
Views8.3K

Читая всевозможные топы и рейтинги лучших хостингов, остается легкое послевкусие недосказанности, поверхностной оценки (есть ощущение, если бы не требования поисковиков к полноте контента, топы вообще бы включали в себя просто топ 10 хостингов, без лишнего текста). Я и подумал, а почему бы не сделать статью, чуть более вдумчивую, чем мне попадались до этого. Тем более, что выбор хостинг-провайдера – критически важный этап для любого веб-проекта. Так давайте погрузимся в вопрос глубже!

Читать далее

Что такое резидентные прокси и как они работают: подробное руководство для начинающих

Level of difficultyEasy
Reading time6 min
Views3.9K

Часто приходится сталкиваться по работе с сервисами, которые предоставляют такие услуги - как резидентные прокси. Но никогда не погружался глубоко в эту тему. Всегда просто потреблял продукт, как любят говорить некоторые ленивые авторы, “как есть”.

Я понимаю примерно, как работает этот вид услуги, на уровне обывателя, и мне стало интересно разобраться в теме глубже, и попытаться поделиться выводами, к которым я пришел в процессе более глубокого понимания, что такое резидентные прокси. Смотрим, что из этого получится. Никаких рекомендаций, просто оценочное субъективное суждение очередного “специалиста”. 

Прокси-сервера – это посредники между вашим устройством и интернетом, позволяющие скрыть реальный IP-адрес и изменить видимость вашего подключения. Этакий белый маскировочный халат в снежную погоду, если говорить совсем примитивным языком. Давайте от этого и оттолкнемся - варианты маскировки, но с маскхалатами сравнивать будет совсем скучно, давайте вспомним животных и насекомых. которые применяют маскировку и попробуем провести параллель. Вернее я уже ее провел.

Читать далее

How to bypass hCaptcha in Modern Times: Has Mavr Left and Been Replaced by a New One? Let's check «new» hcaptcha solver

Level of difficultyEasy
Reading time7 min
Views2.3K

If you are into automation and keep up with trends, you’ve probably noticed that, at some point, difficulties in hCaptcha bypass began to emerge. What kind of difficulties? Several major captcha recognition services, such as 2captcha, have removed any mention of how to bypass hCaptcha from their documentation, and the presence of thematic tweets on Twitter (along with official responses from the service) confirms my suspicion that something has happened… Let’s figure out what happened, why 2captcha no longer bypass hCaptcha, and what role solvecaptcha plays in creating new hCaptcha solver.

Read more

Решение hcaptcha в современных реалиях или Мавр ушел и его место занял новый? Разбираемся в деталях

Level of difficultyEasy
Reading time6 min
Views4.5K

Некоторые крупные игроки рынка распознавания капчи прекратили поддержку распознавания hcaptcha и как теперь быть простому обывателю? Как сказал классик на обложке - "Давайте думать, #&%, подсказывайте, че вы тут мозги..."

Давайте разберемся, как выйти из сложившейся ситуации!

Читать далее

Image Recognition – Why AI is Still Not the Perfect Assistant in This Task, and How image captcha solver Helped

Level of difficultyEasy
Reading time7 min
Views1.1K

Up to a certain point, I sincerely believed that in today’s world manual CAPTCHA recognition was gradually becoming an anachronism, especially when it came to such simple CAPTCHAs as image-based ones—where one merely needs to read text off a photograph and input it as plain text. But as it turns out, things aren’t quite so straightforward (no matter how it may sound).

Read more

Распознавание снимков — почему нейросеть не лучший выбор, и как мне помог сервис распознаваний капчи — личный опыт

Level of difficultyEasy
Reading time6 min
Views1.7K

До определенного момента я свято верил в то, что в современном мире ручное распознавание капчи постепенно становится анахронизмом, особенно, когда речь идет о таких простых капчах - как капча картинка (где необходимо просто распознать текст на фотографии и ввести его в текстовом формате). Но знаете, оказалось все не так однозначно (как бы это ни звучало). 

Читать далее

Как пройти капчу неважно где (в стиме или на обычном сайте) как Профи — разбираемся в сложностях автоматизации

Level of difficultyEasy
Reading time12 min
Views5.5K

Автоматизация может утомлять, особенно, если опыта в этом не так много, а задачи стоят «интересные» или «нестандартные» — читай сложные или невыполнимые. Не будем рассматривать все возможные варианты, почему задачу считается «интересной» или «нестандартной», а разберёмся с одной задачей, которая тормозит примерно 50% неопытных автоматизаторов — Как пройти капчу!

Читать далее
1

Information

Rating
693-rd
Registered
Activity

Specialization

Marketing Director, Prompt Engineer
Senior
From 300,000 ₽
WordPress
Web development