bogzak 21 мар в 10:15

Парсинг с помощью LLM: зачем, как и сколько стоит?

Средний

13 мин

17K

Проектирование API*Python*

Из песочницы

+17

Комментарии 25

d-sh 21 мар в 11:10

Другие модели попробуй. Gemini flash lite стоит в 33 раза дешевле gpt 4o, кроме текста может еще и скриншоты сайтов разглядывать.

bogzak 21 мар в 11:26

Спасибо. На самом деле в статье я привел старые данные по ценам. Сейчас стоимость gpt-4o в 2 раза меньше. Нужно будет поправить. Целью было показать возможности такого метода.

vpedak 21 мар в 11:31

а чего вы structured output не используете? Он же для выделения данных и придуман.

bogzak 21 мар в 11:50

structured outputs, безусловно, более продвинутый, но требует подключения дополнительных библиотек, типа pydantic и написания дополнительного кода. Мне показалось, что это будет перегружать статью для тех, кто только осваивается в теме. Потом, structured outputs поддерживается не всеми моделями gpt, например для gpt-3.5 он не поддерживается. Спасибо за дополнение, возможно действительно стоит упомянуть про такой формат в статье.

Year 21 мар в 14:09

Наивный вопрос, который напросился по прочтении.

Если есть "классические" библиотеки парсинга, их функционала во многих случаях оказывается достаточно, но они ломаются при смене верстки, то не будет ли эффективнее использовать LLM для исправления кода сломавшегося парсера, чем для парсинга сайта непосредственно с помощью LLM?

bogzak 21 мар в 15:01

"Ломаются парсеры при смене кода верстки" - имеется ввиду, что они, пытаясь вытащить элемент которого уже нет (изменился) отдают некорректные данные. Сам код парсера никак не меняется при этом. Но я не уверен, что точно понял ваш вопрос. Можете пример привести?

Year 21 мар в 15:23

LLM умеет не только парсить сайты, но и генерировать код.

Можно ли попросить LLM сгенерировать скрипт-парсер под конкретный сайт?
Можно ли добиться от LLM, чтобы она подогнала скрипт-парсер под новую верстку сайта?

Ведь в таком случае мы условно разово пользуемся платными услугам LLM as a Service для генерации скрипта, а затем безлимитно парсим сайт, пока сгенерированный скрипт работает.

Насколько такой подход на данном этапе развития осуществим?

bogzak 21 мар в 16:28

Ну конечно, вы можете сгенерировать код парсера с помощью любой нейросети. Если у вас действительно есть такая проблема, как изменчивость верстки, то в данном случае вам нужно будет постоянно мониторить изменения верстки и обращаться за дебаггингом к модели.

muhachev 23 мар в 10:18

Ну так наверное будет целесообразно научить ллм мониторить работу сгенерированных скриптов и в случае обнаружения сбоя брать скрипт в ремонт и запускать обновленный скрипт. Так можно автоматизировать весь процесс и взять лучшее от обеих миров. В любом случае, каждый раз парсить однотипный контент через ллм экономически и технологически менее эффективно , чем запускать скрипт, сгенериррванный сеткой один раз в результате автоматического аеализа сируктуры текстового контента. А предложенное тут распознавание образов на скриншотах может быть приемлемо только для поистине уникального контента на каждой странице, но это сравнителтно редкое явление в сфере массового парсинга. Антиботы и капчи - основная боль, но нейронки публичные стесняются этим заниматься легально. 😂

muhachev 23 мар в 10:22

А если учесть, что один и тот же сайт могут парсить много инди парсингистов, то ллм сойдёт с ума от такой тупой рутины, если её заставлять читать каждую однотипную страничку. 😂

StrawberryPie 21 мар в 14:42

Я занимаюсь сейчас проектом парсинга документации из pdf, реализовал проект, который разбивает документ на скрины и отправляет в мультимодальную llm, на выходе идеальный документ в markdown с таблицами. Может стоит парсить не код, а скрины контента? Кстати стоимость небольшая, используя qwen 2.5vl-70b 90 страниц стоят примерно 0.3$, плюс есть функционал перевода документа налету.

bogzak 21 мар в 15:06

Это интересная идея. В этом случае нужно подключать какой-то инструмент, который будет эти скрины делать. Нужно тестировать, считать затраты и смотреть на точность распознавания.

xSVPx 21 мар в 15:24

Вы выбрали какой-то странноватый пример. Спарсите лучше что-нибудь скажем с etsy. Ну там где несколько мегабайт каждый документ и сотни ошибок в нём.

Ну и как правило проблема не в том, чтобы из html получить ключи. Проблема как этот html получить. В товарном количестве, не отдает обычно никто...

bogzak 21 мар в 16:34

Попробуйте, Reader api + url загрузить в любую модель в режиме чата и попросите вытащить интересующие вас элементы. С etsy пример товарной карточки: https://r.jina.ai/https://www.etsy.com/de-en/listing/1806680100/personalized-baby-basket-rope-cotton

xSVPx 21 мар в 17:22

Что по деньгам выходит на скажем миллион страниц?

bogzak 21 мар в 18:03

Почитайте на сайте jina.ai. Там вроде до 1 млн. они предлагают бесплатно.

ILaeeeee 21 мар в 16:23

При парсинге, по мне так, основная проблема сейчас - это обход защиты от скраббинга / капчи. Причем защиту совершенствуют. Парсер, который писался пару месяцев назад уже сейчас может не работать.

Тут какуй-нибудь нейросеть, которая будет ходить по сайту как пользователь в браузере с рендером всякого яваскрипта и тыкать капчи, если вылазят. А сайт бы просто в html сохраняло. Короче делала бы локальное отренденое html зеркало.

Потом html распарсить каким нибудь способом не проблема.

dron88 22 мар в 01:30

Посмотри в сторону сервиса Bright data, на Scraping Browser продукт. В целом очень крутой сервис и продукты замечательные.

Pitfil 22 мар в 20:35

Тут ещё Cloud flare анонсировал защиту от ботов ии для сайтов, которая при их распознавании начинает генерировать искусственный контент - интересно было бы посмотреть на такую битву ии-парсера и ии-защиты

alexdmy 21 мар в 20:36

Есть ещё apache tika кстати, отлично справляется со своей задачей, в комбинации с webdriver тоже вполне себе полёт нормальный. Парсинг html давно не проблема, я как-то нарыл около 50 открытых проектов в этой проблематике.. А вот обход всяких защит от роботов далеко не прост, на сколько знаю только puppeteer имеет встроенное платное решение для обхода капчей, и то далеко не всех мастей

lear 22 мар в 04:29

Если нет необходимости в актуальной версии сайта и достаточно кешированной из поисковиков, то можно сервисы по типу perplexity использовать.

У OpenAI API не скоро появится поиск (а может вообще не появится) из-за сотрудничества с bing.

Q3_Results 22 мар в 10:06

Ни в коем случае не делайте так, как предлагает автор. Аргументы "а что, если верстка поменяется, да причем сразу у всех сайтов, это ж править код надо!" некорректны по природе своей - во-первых да, код нужно поддерживать, это часть нормального жизненного цикла ПО, во-вторых код надо писать так, чтобы каждый участок кода выполнял ровно одну свою задачу и должен быть простой способ локализовать проблему (Логирование). Дальше - мало спарсить сайт, его нужно ещё положить в БД чаще всего, если изменится структура, то загрузка в БД сломается тоже. Код загрузки в БД тоже нейросеть будет на лету придумывать? Учтите, что нейросеть не работает детерминированно, вам может повезти с кодом на деве, он сработает, а на проде может появиться другой код, и вы замучаетесь на проде дебажить его.

Нейросеть - это способ ускорить разработку, в которой разработчик валидирует код от нейросети, включая прохождение тестовых кейсов, но никак не волшебная пилюля, особенно в задачах парсинга.

bogzak 22 мар в 11:44

Спасибо за развёрнутый комментарий! Ваши аргументы про необходимость поддержки кода и детерминированность работы справедливы. Но я бы хотел внести ясность в несколько моментов. Во-первых, подход, предложенный в статье, вовсе не означает отказ от традиционного парсинга. Скорее, это дополнение, которое облегчает задачи, где изменения верстки происходят часто или непредсказуемо, а написание и поддержка десятков селекторов и регулярных выражений становится затруднительной. Да, код нужно поддерживать и грамотно структурировать, но бывают сценарии, где скорость разработки и гибкость важнее строгой стабильности.

Во-вторых, вы правильно отметили, что данные должны не только извлекаться, но и корректно ложиться в БД. Именно здесь задачу решает structured outputs. Я сделал дополнение про этот формат в статье. Прошу вас ознакомится с ним. Используя такой подход, модель не просто возвращает текст, а выдает данные строго по заданной схеме, что автоматически проверяется и валидируется. Вы можете строго задать модель данных, совместимую с вашей БД.

В-третьих, уже существуют коммерческие ai парсеры, например, browse ai, octoparse, scrapegraphai, которые успешно решают задачи парсинга с помощью нейросетей и гибридных подходов, применяя LLM. Такие сервисы популярны среди маркетологов, аналитиков. Они снижают порог входа, потому что позволяют людям без глубокого опыта в разработке быстро решать задачи по извлечению данных с веб-ресурсов.

В-четвертых, подход с использованием LLM активно применяется не только для непосредственного парсинга, но и для подготовки качественных датасетов, которые затем используются для дообучения и файнтюнинга тех же самых языковых моделей.

leovi 23 мар в 13:01

Пока что, на мой взгляд, это очень дорого за такого рода задачу. 20 товаров за 2 рубля. Цены на товары меняются иногда по нескольку раз в день. Товаров скорее всего не 20 и наверно даже не 1000. В общем, при похожим к боевым условиям эти 2 рубля превращаются в несколько десятков тысяч в день. Плюс скорость обработки запросов у llm очень низкая (по сравнению с закодированным паркингом) - такого рода парсинг будет занимать часы, если вообще не дни.

Samuelino 23 мар в 13:01

А что так можно было что ли 😱

Я хотел так сделать, но почему то подумал что это будет дорого ахахаза

Вот мое предложение для удешевления процесса:

Мы отправляем хтмл ,и просим нейронку сделать парсер.
Парсим страницу, тем парсером что написала нейросеть.
Если мы хотим обновить данные по "спаршеному" сайту, мы берём страницу, делаем снова парсер, сохраняем , и далее парсим уже новым парсером.

Плюсы:

Меньше запросов к неронки
Дешевле

Минусы

Нейросеть может изменить парсер по своему усмотрению, но это относится ко всем вариантам. Но тут уж просто нужно прогнать несколько раз и уточнить запрос ещё точнее

Зарегистрируйтесь на Хабре, чтобы оставить комментарий