EgorKotkin Mar 5 2013 at 13:40

Плагин для извлечения данных с сайтов

2 min

30K

Website development*

+61

Comments 48

UFO landed and left these words here

Ualde Mar 5 2013 at 13:56

Спасибо, опробовал на десятке используемых мной ресурсов, результат впечатляет.

KeepYourMind Mar 5 2013 at 13:57

Рекорд, блять, чиллаут.

afi Mar 5 2013 at 14:16

Было бы здорово иметь возможность писать свои правила для парсинга конкретного сайта, как в плагине AutoPager (FireFox), например.

Napolsky Mar 5 2013 at 14:43

Вы прямо в точку :) Возможность задавать свои правила запланирована на самое ближайшее будущее. Можно будет «вручную» задать правило для прохода по страницам сайта (потому как автоматическое распознавание ссылок пагинации не всегда отрабатывает корректно) указав шаблон URL.

fanat1k Mar 6 2013 at 07:01

я пользуюсь плагином iMacros. Мощная штука.

alekciy Mar 5 2013 at 14:20

[2] file_put_contents(urlcache/e091fc13b3d02867c3ecc40a34bec5bf): failed to open stream: No such file or directory in file /var/www/sites/parseit/gg/components/ParseItSourceManager.class.php at line 102

Осторожнее с выводом ошибок на клиент.

file_put_contents без задания контекстов не очень хорошо использовать. Тайматов нет, может «залипнуть». Это замечания возникшие с ходу с точки зрения бэкэнд разработчика. Но вообще очень круто.

Не знал, что можно загрузить JS через закладки )

UFO landed and left these words here

alekciy Mar 5 2013 at 14:32

Странно, что настройками безопасности эту возможность по дефолту не зарезали. Ведь как я вижу такой JS через XHR начинает тягать данные данные со стороннего, относительно загруженного адреса, ресурса. Получается, что если юзер поставить себе такую закладку, то его браузер может стать частью бота. Или я где-то ошибся или что-то по незнанию не учел?

UFO landed and left these words here

alekciy Mar 5 2013 at 14:37

Ну тут методы социальной инженерии творят чудеса )

Praeses Mar 5 2013 at 14:35

Странно немного работает. Попробовал на одном ресурсе-каталога, информацию вывело в попап, но при попытке перейти на вторую страницу результатов в попапе, распарсились какие-то левые данные, а при попытке отправить коммент и вообще в ифрейме перекинуло на сайт плагина.
Сыровато.

alekciy Mar 5 2013 at 14:36

Как я понимаю браузер через JS лезет на сервер через XHR, а тут уже тянет инфу с нужного сайта инфу сам? По сути — прокси. Нет ли опасений за сервер? Я конечно понимаю, что альфа и на этой стадии об этом думается не очень активно, но тем неменее есть ли соображение по защите своего сервера.

Napolsky Mar 5 2013 at 14:54

Вы затронули один из краеугольных вопросов :) C одной стороны, использование канала сервера для загрузки страниц создает лишнюю нагрузку, но зато позволяет пользователям парсить большие объемы данных — например, можно запустить загрузку 100 страниц, спокойно закрыть браузер, и потом в личном кабинете скачать результат парсинга. С другой стороны, загрузка через клиент, а не сервер тоже обладает рядом преимуществ — снимается нагрузка с сервера, автоматически решается проблема со страницами, требующими авторизации (не нужно синхронизировать куки между клиентом и сервером) или страницами, где хтмл формируется посредством JavaScript.

Пока используется комбинированное решение — если от парсера не требуется проход по страницам, то плагин передает на сервер html код текущей страницы, и серверу нет необходимости заново ее загружать. А в случае парсинга многих страниц, их загрузка происходит на стороне сервера.

В будущем планируем реализовать оба метода и дать конечному пользователю право выбора :)

entze Mar 5 2013 at 14:44

Для источника идей можно использовать отличный коммерческий продукт www.visualwebripper.com/

unwrecker Mar 5 2013 at 15:20

удалено

cramen Mar 5 2013 at 15:49

В safari не работает. В закладки не переносится.

Wallstreet Mar 5 2013 at 15:57

Экспорт не работает. Хром.

Napolsky Mar 5 2013 at 16:08

скажите, пожалуйста, url на котором не работает экспорт — будем фиксить ;)

madegg Mar 5 2013 at 17:20

Аналогично, при экспорте кидает на вашу главную страницу, на которой не могу зарегистрироваться/авторизоваться

binariti Mar 6 2013 at 07:16

Экспорт не работает если выбираю более одной страницы
Здесь
market.yandex.ru/guru.xml?CMD=-RR=0,0,0,0-PF=1801946~EQ~sel~1870751-VIS=70-CAT_ID=116338-EXC=1-PG=10&hid=90589
Да и еще на паре других случайных сайтов. Сообщает «Export failed :(»

Gangsta Mar 5 2013 at 15:57

Крутая тулза. Молодцы!

sphinks Mar 5 2013 at 18:16

Задумка хорошая, для примера пошел на амазон — кривенько отработал:( Попробуйте сами на списке результатов поиска. Работа плагина может осуществляться оффлайн или завязана на ваш сайт?

Napolsky Mar 5 2013 at 19:29

С амазоном пока не справляется, верстка слишком хитрая для плагина. Научим в будущем и ее обрабатывать. Работа плагина возможна только через наш сервер, но в этом и есть реализация некоторой «оффлайновости» — можете запустить задание для парсинга в личном кабинете, и не держать открытой вкладку с целевым сайтом, а скачать уже готовый файл экспорта когда вам будет удобно

BiBo Mar 5 2013 at 19:11

Вот ТУТ не захотел даже загрузиться.

Napolsky Mar 5 2013 at 19:24

frameset внутри frameset'a внутри frameset — да, к сожалению, такой вариант мы не предполагали :) Спасибо за интересный кейс, добавим в баглист

BiBo Mar 5 2013 at 19:37

Ещё?

Napolsky Mar 5 2013 at 19:48

Да, там та же самая проблема с framest'ами. Плагин не умеет работать внутри фреймов

Arceny Mar 5 2013 at 22:00

Область применения очень ограничена. Тысячи и десятки тысяч страниц (типичный проект) такой штукой вряд ли отработаешь.

fanat1k Mar 6 2013 at 06:58

Каким инструментом в видео можно вставлять такие подсказки, как в ролике?

imbeat Mar 6 2013 at 07:13

Было бы круто оформить в виде расширений для браузеров. Например, у меня в браузере (Chrome) нет панели закладок (отключена, считаю ее моветоном), и ради одной кнопки (пусть даже такой классной) не хочется ее включать, а вот панель с кнопками расширений находится справа от адресной строки и активно используется.

Henryh Mar 6 2013 at 08:51

:-0
Я только что вытащил около 7000 страниц полезного контента со своего сайта в три клика! Боюсь, конкуренты будут безмерно счастливы обладать таким плагином, теперь они смогут уволить весь штат гастарбайтеров…

petka_vaska Mar 6 2013 at 09:00

www.semtech.com.hk/script/Product/MANAGE/products_2_p_trs.asp

Не удалось найти структуры данных :(

Napolsky Mar 6 2013 at 09:16

спасибо за пример, очень интересно будет разобраться в причине, так как обычно именно таблицы парсер обрабатывает лучше всего.

petka_vaska Mar 6 2013 at 10:21

Часто работаю с китайскими ресурсами, там много приколов бывает :)

UFO landed and left these words here

webinside Mar 6 2013 at 16:10

Напишите сразу как против этого бороться.
У меня регулярно воруют контент вручную скриптами теперь вот еще способ.

ks_ks Mar 7 2013 at 07:58

Делайте все на флэше. =)

EgorKotkin Mar 7 2013 at 08:24

Пользователи спасибо не скажут.

v27 Mar 7 2013 at 09:11

Попробовал ваш плагин
В целом штука полезная

Но экпорт данных не удался
ок в этом окошке просто открывает главную страницу сайта и запускает видео

Как только не пробовал — экпорт данных для меня остался за кадром

ColorPrint Mar 9 2013 at 20:08

Вместо «Не хотите оставить комментарий для этого результата?» лучше использовать надпись «Хотите оставить комментарий для этого результата?». Отрицания лишний раз маркетологи обычно рекомендуют не использовать )
А по существу — плагин интересный…

alekciy Mar 24 2013 at 18:08

Стало любопытно, правильно ли я понимаю, что все базируется на частоте упоминания какого либо класса в определенных тега (к примеру, а)? Были ли попытки использовать для анализа нейронные сети?

Napolsky Mar 24 2013 at 18:54

Алгоритм определения элементов для парсинга гораздо сложнее, чем частота упоминания какого-либо класса. Алгоритм ищет похожие структуры, основываясь на большом количестве разнообразных параметров: тегах верстки, классах элементов, содержимом, местоположению в DOM дереве и многим другим. Каждому параметру присвоен некий «вес», и, в целом, принятие решения довольно похоже на нейронную сеть, но, пока, только однослойную :)

К более плотному использованию, нейронных сетей, скорее всего, придем чуть попозже. А пока больше нечеткой логики :)

svaroha Mar 27 2013 at 14:42

kiddi.com.ua как то странно парсит. Выделяет зеленным меню сайта, а сами товары одним красным блоком выделяет (при щелчке на красный блок все таки товары распарсивает (или распаршивает, как правильно писать надо??).
Еще один детский магазин shpuntik.com.ua меню не выделяет зеленым (хотя меню списком сделано), а товары выделяет красными блоками и парсит.

Napolsky Apr 8 2013 at 15:55

Выделение красным — нормально, даже хорошо. Сейчас правда вообще обновили плагин и цвета, как и весь дизайн, совершенно другой :)

petka_vaska Apr 5 2013 at 12:59

Вот еще ошибочное распознование
mic.mobicon.ru/product_info.php?cPath=242_243_745_749&products_id=2259

Napolsky Apr 8 2013 at 15:56

«Эффект лесенки», никак не можем его победить. Спасибо за хороший пример, исправим ;)

aypavlov Apr 14 2013 at 17:36

Вот уже бородатая подобная реализация но в особом контексте www.polyvore.com/cgi/clipper