All streams
Search
Write a publication
Pull to refresh
5
16
Михаил Мариков @MarkovM

User

Send message

Парсинг сайтов с Selenium на Python

Reading time8 min
Views8.9K

Многие начинающие разработчики сталкиваются с задачей, где нужно получить данные с сайта, а открытого API у него нет или его использование по каким-либо причинам невыгодно.

Самый очевидный из вариантов — парсинг HTML, но здесь часто возникает проблема: часть данных подгружается через JavaScript. В такие моменты использование условного requests и BeautifulSoup бесполезно.

Здесь на помощь приходит Selenium — инструмент для автоматизации браузера. С его помощью можно открывать страницы, имитируя действия настоящего пользователя, выполнять JavaScript и забирать данные в правильном виде.

Читать далее

Парсинг цен и данных о товарах конкурентов на Wildberries

Reading time11 min
Views13K

Всем привет! Ранее я уже писал про парсинг Wildberries, но та статья была довольно узконаправленной и не затрагивала более широкие возможности анализа. Да и с тех пор многое изменилось — тема стала ещё актуальнее, а у читателей накопилось больше вопросов.

Поэтому в этой статье мы разберём тему заново, но уже с акцентом на практическую пользу.

Читать далее

Парсинг Телеграм каналов, групп и чатов с обработкой в LLM

Level of difficultyMedium
Reading time10 min
Views15K

Всем привет! Вероятно, у каждого бывало: открываешь Телеграм-чат, а там тысячи новых сообщений за день. И где-то внутри этой «солянки» важный ответ на твой вопрос или обсуждение нужной темы. Или вам нужно отслеживать определённые сообщения для бизнес-целей.

Можно, конечно, потратить кучу времени на ручной поиск, но намного интереснее научить юзербота самостоятельно парсить историю чата и составлять из неё удобную базу для поиска по смыслу.

Читать далее

Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

Reading time7 min
Views11K

Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать.

В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

Читать далее

Telegram Web App. Всё о Mini Apps

Level of difficultyMedium
Reading time11 min
Views7.8K

В прошлой статье я уже рассмотрел основные возможности Web App. Cегодня же подведём итоги, расскажем все особенности и нюансы работы с Web App в Telegram и соберём простенькое веб-приложение.

Читать далее

Свой ChatGPT на документах: делаем RAG с нуля

Level of difficultyMedium
Reading time6 min
Views19K

Всем привет! Наверняка у вас были ситуации, когда нужно быстро найти что-то в длинном документе-договоре, инструкции или отчёте. Сегодня я покажу, как сделать своего помощника, который будет отвечать на такие вопросы автоматически. Соберем RAG с нуля: загрузим документы, "нарежем" их на куски, проиндексируем в векторной базе данных Qdrant и подключим LLaMA.

Если вы увидели незнакомые слова — не пугайтесь, далее я расскажу об этом подробно.

Читать далее

Золотые сигналы SRE для самых маленьких. Или как сделать качественный мониторинг, если вы не Enterprise

Reading time3 min
Views6.5K

Проекты ломаются, иногда очень коварно. Крупные компании используют различные подходы, чтобы обеспечить наблюдаемость, покупают дорогие сервисы, нанимают SRE-инженеров. Но если проект небольшой, условный телеграм-бот, многие решения по мониторингу могут быть избыточными. Перед нами стала задача обеспечить для них Observability так, чтобы это было максимально просто, дешево(желательно бесплатно) и обеспечивало лучшие SRE-практики для наших пользователей. Так, чтобы обеспечить опыт наблюдаемости работы сервисов, близкий опыту крупной компании с SRE-отделом, только без сложности настройки и условно бесплатно.

Читать далее

Хостинг n8n. Где проще и надежнее запустить сервис

Reading time2 min
Views9.4K

n8n это система автоматизация бизнес-процессов с сотнями встроенных интеграций до сторонних сервисов.

Мы рассмотрим провайдеров, где n8n уже предустановлен, а также то, как его самостоятельно развернуть.

Читать далее

Установка и настройка Flowise AI для создания RAG-агентов

Reading time6 min
Views4.8K

Всем привет!

Это очередная статья из цикла, где мы разбираем различные способы применения ИИ-агентов с RAG — методом оптимизации работы и вывода LLM агента благодаря добавлению в контекст базы знаний. Проще говоря, мы даём модели какой-то объём знаний, по которому она способна работать. Это может быть как документ, по которому будет вестись поиск релевантных данных, так и база данных.

Использование подхода может быть полезно в различных задачах. Такая модель сможет работать с актуальными для вас данными, даже если память самой LLM ограничивается на неактуальных данных какого-нибудь 2022 года.

Сегодня будет рассматриваться очередной веб-интерфейс для взаимодействия с ИИ. И это будет FlowiseAI. Я постараюсь наглядно показать установку и работу с ним так, чтобы смог разобраться даже новичок.

Читать далее

n8n. Создаём AI Telegram agent с установкой и настройкой

Reading time6 min
Views50K

Всем привет!

В этой статье будет рассматриваться n8n — open source платформа для автоматизации рабочих процессов, которая поддерживает более 400 интеграций, в том числе LMM, векторные базы данных и все, что нужно, чтобы создать ИИ-агентов и RAG-приложений.

Итак, сегодня мы развернем n8n c RAG-агентом и покажем, как им пользоваться на простых примерах, среди которых будет telegram чат-бот для работы с БД PostgreSQL.

Читать далее

Telegram Mini App. Как создать Web App с нуля

Level of difficultyHard
Reading time13 min
Views179K

Mini Apps (или же WebApps) - это относительно новый и удобный способ добавления веб приложения прямо в интерфейсе приложения Telegram. Используя JavaScript, становится возможным создавать бесконечное множество интерфейсов, которые смогут заменить полноценный веб-сайт.

Особенность MiniApps заключается в том, что они поддерживают авторизацию, платежи одной кнопкой и возможность работать с данными пользователя, открывшего мини-приложение.

И сегодня мы попробуем создать miniapp приложение, взаимодействующее с данными пользователя.

Приступим

Читать далее

Бот-парсер маркетплейса на Python

Level of difficultyMedium
Reading time8 min
Views35K

Всем привет! В этой статье я решил показать один из методов парсинга на Python на примере маркетплейса Wildberries.

Суть подхода в том, что мы будем не разбирать запрошенную html страницу по ссылке, а использовать API сайта, который используется сервисом для получения и отображения всех товаров требуемой категории.

В проекте будут использоваться следующие библиотеки:

Читать далее

Деплой сайта в облако за 4 команды в IDE

Level of difficultyMedium
Reading time4 min
Views15K

Доброго времени суток! Думаю, у всех, кто начинал свой путь в сферу веб-разработки, было желание захостить свою работу. В этот раз мы попробуем максимально быстро задеплоить сайт-одностраничник.

Эта статья создана для новичков, которые смогут просто скопировать код и в “два клика” опубликовать сайт.

Читать далее

Managed Kubernetes. Полный список российских провайдеров

Level of difficultyEasy
Reading time2 min
Views3.5K

Если вы разрабатываете приложение с микросервисной архитектурой, вам может потребоваться развернуть его в кластере Kubernetes. Но Kubernetes сложная технология, и часто хорошим решением является использование managed-service for Kubernetes. В данной статье мы рассмотрим, кто предоставляет на Российском рынке услуги по управлению кластерами Kubernetes.

Читать далее

Application Hosting. Обзор бесплатных и доступных хостингов приложений

Level of difficultyEasy
Reading time3 min
Views4.3K

Можно выделить следующие виды хостингов и облаков для развертывания приложений:

- VPS

- Serverless

- GitOps движки приложений

В этой статье мы не будем рассматривать VPS-хостинги, так как на эту тему уже есть множество подробных материалов и есть специализированные инструменты CI/СD.

Рассмотрим движки приложений и serverless.

Читать далее

Information

Rating
451-st
Location
Россия
Registered
Activity