niksite 21 окт 2008 в 15:15

FeedEx: расширяем фиды в один клик

1 мин

2.2K

Веб-разработка *

+19

Комментарии 49

sp3ctr00m 21 окт 2008 в 16:35

Молодец! :)

Joka 21 окт 2008 в 18:05

сбоит на движке dle — пробовал на сайте _fledur.org.ua/rss.xml
надо бы подправить имхо
а вообще хороший скрипт

Donat 21 окт 2008 в 18:46

Забей свой _fledur.org.ua/rss.xml в feeds.feedburner.com/ а уже его в feedex.net/. Но вот картинки не кажет…

НЛО прилетело и опубликовало эту надпись здесь

toxicmt 21 окт 2008 в 20:17

Где-то пол года назад делал что то подобное для своих саттелитов. Алгоритм использовался достаточно простой и вместе с тем эффективный. В двух словах:
1. Чистим документ от всего лишнего, комментарии, скрипты, атрибуты, вообщем все кроме абзацев, tr (либо td) и дивов.
2. Дальше разбиваем все это дело в массив используя разделитель либо див либо td (или tr). (В этом месте автоматизации добиться не удалось, поэтому для каждой ленты я указывал какая это верстка)
3. Подсчитывалось количество русских букв в каждом элементе. В каком элементе массива букв оказалось больше тот и победил )).
А дальше мы его прогоняем через tidy и вуаля, наш контент готов.

toxicmt 21 окт 2008 в 20:18

Хотя здесь возможно и другой алгоритм.

niksite 22 окт 2008 в 08:47

Определенно здесь другой ;o) Но первая его версия была похожа на описанный, да.

ACID_Jesus 22 окт 2008 в 09:30

Ну, вкратце озвучьте хоть на чём основывается — интересно ведь 8-)

niksite 27 окт 2008 в 12:34

На самом деле тут последовательно используются три не связанных друг с другом алгоритма. Два из которых довольно очевидны, а третий создан по мотивам похожего по назначению перлового модуля.

ACID_Jesus 27 окт 2008 в 13:09

Эм, а название модуля не подскажите, чтобы глянуть хоть для примера?

chegor 21 окт 2008 в 18:52

пошёл тестить

alkk 21 окт 2008 в 18:56

А почему бы не использовать стабильно работающий Yahoo Pipes?

1qwerty 21 окт 2008 в 19:51

Кривят эти трубы зачастую. Да и этот сервис тоже через раз работает :(

niksite 22 окт 2008 в 08:27

Они уже умеют восстанавливать полные ленты по обрезкам? А как?

alkk 22 окт 2008 в 12:43

Вот неплохой пример: www.daybarr.com/blog/2007/12/11/yahoo-pipes-tutorial-an-example-using-the-fetch-page-module-to-make-a-web-scraper

Там на примере обдирания форума в rss, с фидами еще проще.

niksite 22 окт 2008 в 13:32

Правильно ли я понял, что алгоритм действий таков: для каждого движка сайта надо создать свой алгоритм извлечения информации, свой Yahoo! Pipe, после чего для каждого нового сайта перебирать пайпы, пока не попадётся подходящий, либо создать новый.

Да, это будет стабильно, ибо предполагает ручную работу для каждого сайта. Но вы действительно полагаете, что это проще заявленных в посте даппера с 43feeds (тоже предполагающих ручную работу)? Не говоря уж про мой сервис с единственным полем ввода.

alkk 22 окт 2008 в 15:01

Любую такую систему надо подпиливать, чтоб получить хороший результат. Если устраивают фиды с косяками — то можно и тут всё сделать на автомате.

Я попоробовал, скормил вашей системе первый попавшийся блог (www.maxss.info/feeds/posts/default):
1) она завалилась на RSS-е, смогла обработать только Atom. RSS — с фидбурнера.
2) поломались картинки.
3) криво вырезаются теги. Пример — «Чайна Мьевилл „Вокзал потерянных снов“» вот тут: feedex.net/feed/www.maxss.info/feeds/posts/default

Вот пример для этого блога на яху пайпс: pipes.yahoo.com/pipes/pipe.info?_id=8ff752442f0d1b9991e2b6a8bb4f9dbe
Времени ушло — минут 10, максимум. Картинки есть, режется всё чисто. Что еще надо?

Мало того, sub pipe, который выкачивает записи, он подходит к практически любому вордпресс-бейзд блогу. Добавить новый блог — нажать clone, edit и указать новый url. Feed discovery кстати тоже работает.

niksite 22 окт 2008 в 15:31

> Любую такую систему надо подпиливать, чтоб получить хороший результат. Если устраивают фиды с
> косяками — то можно и тут всё сделать на автомате.

Так и я о том же. Нужна абсолютная точность — только ручная работа. Допустимы небольшие огрехи — можно доверить дело автомату.

> 1) она завалилась на RSS-е, смогла обработать только Atom. RSS — с фидбурнера.

По адресу www.maxss.info/feeds/posts/default?alt=rss мне отдали следующее:
[19:14 /home/nik]$ dog www.maxss.info/feeds/posts/default\?alt\=rss
HTTP/1.0 404 Not Found
…
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" «www.w3.org/TR/html4/strict.dtd»>
…

Это не очень похоже на валидный RSS.

> 2) поломались картинки.

Ага. Оформленные подобным образом картинки с точки зрения моего скрипта подозрительно напоминают элементы интерфейса.

> 3) криво вырезаются теги. Пример — «Чайна Мьевилл „Вокзал потерянных снов“» вот тут: feedex.net/feed/www.maxss.info/feeds/posts/default

Ага, так как не пользуюсь подкастами, то на оных свою систему до сих пор не тестировал.

> Времени ушло — минут 10, максимум. Картинки есть, режется всё чисто. Что еще надо?

Согласен, а в даппере каком это было бы не менее просто, но ещё и визуально.

> Мало того, sub pipe, который выкачивает записи, он подходит к практически любому вордпресс-бейзд
> блогу.

Это вряд ли. Я занимался анализом типичного HTML кода у разных движков. С WP используется несколько сильно различных по коду тем.

В принципе, вы меня навели на мысль о том, как можно улучшить качество извлечения данных. Спасибо.

alkk 22 окт 2008 в 17:42

По пункту 3 — там редирект.

C:\Photo\2008 — Greece>wget «www.maxss.info/feeds/posts/default?alt=rss»
--20:40:40-- www.maxss.info/feeds/posts/default?alt=rss
=> `default@alt=rss'
Resolving www.maxss.info... 66.249.91.121
Connecting to www.maxss.info|66.249.91.121|:80… connected.
HTTP request sent, awaiting response… 302 Moved Temporarily
Location: feeds.feedburner.com/maxss/rOBX [following]
--20:40:40-- feeds.feedburner.com/maxss/rOBX
=> `rOBX'
Resolving feeds.feedburner.com… 66.150.96.119
Connecting to feeds.feedburner.com|66.150.96.119|:80… connected.
HTTP request sent, awaiting response… 200 OK
…

niksite 22 окт 2008 в 15:46

> Что еще надо?

А ответ на вопрос почему я таки сам пользуюсь своим сервисом а не дапперами или яхами — всё тот же. Лениво писать (пусть и по 10 минут на каждый) экстракторы под каждый фид. Плюс обновлять оные в случае смены дизайна сайта-донора.
А главное — на тех фидах, которые нужны мне, мой сервис работает практически без замечаний ;o)

По части же точного (ручного) указания сервису, какой блок данных следует извлекать, у меня есть следующая идейка. Я набросал сайтик pagemon.net (в настоящее время работает только под Firefox и, полагаю, Opera), где подобный выбор осуществляется визуальным образом (а не поиском в html-коде уникальной последовательности символов). Думаю, со временем можно будет прикрутить тамошнюю блоко-выбиралку к feedex`у, благодаря чему появится (опциональная!) возможность легко и просто объяснить сервису где он не прав.

xsash 21 окт 2008 в 19:16

не совсем корректно определяет, футеры сайтов добавляет, порой целые колонки, а вообще респект, буду следить за развитием

niksite 22 окт 2008 в 13:34

Немного поправил алгоритм обработки свеже-добавленных фидов. Теперь должен определять футеры немного лучше.

MTonly 21 окт 2008 в 20:49

Интересно, что сказали бы по поводу названия сервиса в FedEx. ;-)

niksite 22 окт 2008 в 08:29

Мне тоже любопытно. Впрочем мой домен вполне неплохо замотивирован, да и является .net`ом (ибо сетевой сервис), а не .com (как их сайт).

НЛО прилетело и опубликовало эту надпись здесь

niksite 22 окт 2008 в 13:40

Движков и темизаций слишком много. Затачиваться специально на каждый мне показалось лениво. Поэтому покамест используется именно, что общий алгоритм. Который может извлекать как посты с блога на друпале, так и, скажем, комиксы с www.phdcomics.com ;o)

Cooluck 21 окт 2008 в 21:42

Сейчас использую Google Reader с greasemohkey-дополнением Preview — мне удобно.

А вот Ведомости (http://www.vedomosti.ru/) забрать не удалось. Пробовал также через Yahoo Pipes совместить хотя 3 ленты в одну —не вышло из-за нестандартной кодировки (win-1251 Яху понимать отказался)

niksite 22 окт 2008 в 08:30

Ага, я тоже пользовался preview до того, как сделал этот сервис.

aaa111 22 окт 2008 в 05:57

Спасибо.
Было бы очень хорошо, если бы для сложившихся сайтов (ЖЖ, например) скрипт знал местоположение потока, т. е. например smths.livejournal.com автоматом превращалось в smths.livejournal.com/data/rss

niksite 22 окт 2008 в 08:46

Можно сделать автодетект лент на сайтах. Я подумаю, может такую функциональность и добавлю.

НЛО прилетело и опубликовало эту надпись здесь

SergeyPonomarenko 8 фев 2009 в 12:29

Спасибо, вот только с картинками беда. Например вот здесь:
www.film.ru/export/articles.rss.asp

niksite 27 фев 2009 в 08:25

Я посмотрю, что можно с ними сделать.

darkk 27 фев 2009 в 04:41

Полезная игрушка. А вот у меня два вопроса:
1) в случае, если по ссылке контента нет — останется ли тизер в фиде?
2) можно исходники посмотреть?

niksite 27 фев 2009 в 08:27

> Полезная игрушка.

Я знаю. У меня около 10% всех фидов в гугл-ридере через этот сервис качаются.

> А вот у меня два вопроса:
> 1) в случае, если по ссылке контента нет — останется ли тизер в фиде?

Да, если контента по ссылке меньше некоторого количества символов, а в тизере больше — в фид включается именно тизер.

> 2) можно исходники посмотреть?

Нет :o)

darkk 27 фев 2009 в 08:41

2) из соображений «жадности» или для усложнения борьбы с сервисом тем, кто фиды полные отдавать не хочет? :-)

niksite 27 фев 2009 в 08:50

Ага (скажем, с lleo мы три итерации броня-снаряд уже прошли), плюс ещё несколько причин.

darkk 27 фев 2009 в 09:01

Гм… как минимум используя firefox+mozrepl можно сделать принципиально непобедимый снаряд с сумасшедшим оверхэдом, думаю, запуск такого снаряда можно будет сравнить с ядерной атакой :-D

niksite 27 фев 2009 в 09:21

> Гм… как минимум используя firefox+mozrepl можно сделать принципиально непобедимый снаряд с
> сумасшедшим оверхэдом, думаю, запуск такого снаряда можно будет сравнить с ядерной атакой :-D

Почти непобедимый, да. Но тяжелый и не очень удобный в обращении. Я успешно использовал подобный метод против сайтов, практикующих Javascript шифрование текстов. Думал даже сделать javascript-enabled-proxy (http-proxy, которая выдаёт страницы с уже отработавшими onLoad и им подобным javascript`ами), но поленился.

И против подобного, разумеется, тоже можно бункер построить. Как, впрочем, и разработать ещё более хитрый снаряд.

darkk 27 фев 2009 в 09:25

Я, если честно, очень плохо себе представляю, как без активного взаимодействия с пользователем построить бункер супротив такого снаряда. А просить вводить капчу для того, чтоб прочитать текст — форменный фашизм.

niksite 27 фев 2009 в 09:42

> Я, если честно, очень плохо себе представляю, как без активного взаимодействия с пользователем
> построить бункер супротив такого снаряда.

Ну, lleo, скажем, использует клоакинг супротив IP-адреса моего (и ещё многих) сервера. Это, конечно, легко обходится.
Можно придумать ещё много характеризующих признаков, по которых и баннить. Да, тогда легко могут пострадать невиновные люди (скажем, я теперь не могу использовать этот свой сервер в качестве прокси при просмотре дневника lleo, получилась забавная ситуация — я могу его читать в гугл-ридере, но не могу читать его на его же собственном сайте).

> А просить вводить капчу для того, чтоб прочитать текст — форменный фашизм.

Да, разумеется. Но это бы сработало на некоторое время.

darkk 27 фев 2009 в 09:02

P.S. английское соглашение о конфиденциальности на русскоязычном сайте — это, по-моему, ужасно.

niksite 27 фев 2009 в 09:23

Это не русскоязычный сайт. Он мультиязычный. Не будь вы русским, сайт бы разговаривал с вами на английском. Я посчитал, что никому кроме англоговорящих всяческие соглашения тосы и тому подобные бумажки в принципе не интересны.

GeeZeR 1 мар 2009 в 06:52

А нет ли у разработчика мысли, что было бы неплохо вести каталог обработанных лент?

niksite 1 мар 2009 в 07:14

А зачем?

GeeZeR 1 мар 2009 в 14:17

Я бы даже уточнил — успешно обработанных лент. С результатом, удовлетворившего пользователя.
Тех лент, в которых отсутствуют лишнее и ненужное, не относящееся к новости.
Таким образом, проще было бы забирать полные и качественные фиды.

niksite 1 мар 2009 в 15:20

Очень странный use case. Вы правда думаете, что пользователи, получив ленту будут ещё где-то отмечать степень своей удовлетворенности?

GeeZeR 1 мар 2009 в 15:31

Признаться, я бы отметил.
Я уже второй раз пользовался этим сервисом. И во второй раз, скопом переводя все свои подписки, выявил, что половину лучше оставить такими, как и раздает их «официальный» источник. Так, например, неоднозначно были обработаны rss Коммерсанта, Автокадабры, Главбуха… да и Хабрхабр, увы, не идеален. Допускаю, что в этом может быть и вина ридера (в основном я в последнее время читаю rss на коммуникаторе под WM).

niksite 1 мар 2009 в 15:59

> Признаться, я бы отметил.

тогда не лучше ли воспользоваться любым из упонянутых на сайте средств обратной связи и сообщить мне о каждой конкретной проблеме? Возможно, я как-нибудь в очередной раз перепишу алгоритм извлечения, учтя выявленные недостатки текущего.

По «списку удачных фидов» я всё ещё не понял. Вы бы свои подписки действительно бы стали искать в подобном списке, вместо того что бы просто ввести адрес в форму и посмотреть, что получится? А что стали бы делать с теми фидами, которые в списке не нашли (скажу по секрету, редкий фид у меня запрашивается более, чем одним пользователем)?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий