Вероятно он совсем не плох :)
Только вот я говорю как-раз не о подбивке rss (что в большинстве случаев являются лишь анонсами к полным текстам), а о полноценной агрегации полных текстов новостей вне зависимости от RSS, ATOM etc. Т.е. парсинг страниц и перегонка в единую базу данных с частичным сохранением разметки и изображений.
Я считаю, что главным достоинством стало бы удобство поиска нужного потока новостей.
То есть кроме облака тегов (которое на новичков в интернете производит устрашающее впечатление, а у постоянных пользователей скоро будет вызывать тошноту) следует придумать многомерную систему классификации по различным критериям (лучше если будет можно настраивать ее под конкретного пользователя).
Если нужны разработчики - я бы с удовольствием взялся помочь такому проекту.
Правильно. Понятно дело, что для обработки: рубрикации и иных процессов - нужен полный текст. Но если отображать пользователю не "реферат" а полностью всю новость, новостным сайтам - источникам это не понравится точно.
Однако зачем переходить на сайт источник, если новость полностью (еще допустим и с сюжетами и с прочими другими плюсами) уже есть у вас? Посмотрите на Яндекс.Новости, Новотеку, еще несколько популярных новостных сайтов, аккумулирующих новости. Как они работают? Мне кажется вы никогда не получите "добро" от всех желаемых источников, если станете новости отображать целиком и полностью.
Зачем переходить на сайт:
За комментариями, за интервью, за близкими по теме неновостными, а статейными материалами, за, собственно, статейными материалами вообще, за атмосферой.
За какой такой атмосферой? :) А комментариев на новостных сайтах очень мало, интервью может и не быть и т.п.
Вы хотите охватить большинство новостных источников или пользоваться только теми, кто со временем не попросит прекратить такое "сотрудничество"?
Какая реклама, если вы продаете их товар под видом своего но с пометкой, что это все таки их? Пользователи могут и не смотреть на эти адреса-источники. Прочитали новость и пошли дальше. Новостные источники не хотят работать на других. И не станут.
Есть достаточная информация в подвале "прокачиваемого" сайта, типа - "Полное или частичное копирование разрешено только с размещением ссылки на наш сайт". Я говорю лишь о сайтах, дающих такое право. С чего вы собственно взяли, что кто-то собирается что-то воровать?
Когда то тоже так думал. На самом деле они не дают такого права. Они пишут "Полное или частичное копирование разрешено только с размещением ссылки на наш сайт" совершенно не для тех, кто собирается роботом каждый день все новости сливать.
Комментарии мои не для того, чтобы ваши планы как то осквернить.
А для того, чтобы вы подумали, серьезно подумали над договоренностями и правами, прежде чем расходовать на данный проект ваше время силы и средства.
"Полное или частичное копирование разрешено только с размещением ссылки на наш сайт" - для старта достаточно. Потом, если вдруг кому-то что-то не понравится, можно будет договориться о парсинге тех рубрик, которые определит сам владелец сайта. Так-же думал о варианте размещения прямой рекламы сайтовлядельца в потоке трансляции его новостей.
А если 80% попросят совсем убрать либо оставить только пару строчек (не помню как это называется в сми)? Что вы будете делать?
Мне кажется это ненадежно. Это мое мнение, основанное на личном опыте. Решать то все равно вам.
С этим же просто. На всех новостных сайтах указывается каким образом могут быть использованы их материалы. Обычно достаточно указать источник. Хотя конечно от сайта зависит :)
Странно, не замечал. Либо просто существуют открытые ссылки, которые на самом деле предназначены для яндекса, новотеки и т.п. На самом деле их легко найти, например, с помощью Яндекс.Ленты.
А чего мы вдруг на ты?
Я хотел (и писал об этом) идей использования, а не слюней на тему хорошо это или плохо. И обиженного из себя не строю, а лишь констатирую "диагноз".
Парсится html. Готовая база есть, но пока очень скромная. Всего сейчас "слито" чуть более 200 новостей. Это связано с тем, что движок парсинга находится в режиме обкатки (т.е. и эти новости будут удалены перед RC-версией). Но к онцу марта планируем выйти на уровень - пара сотен новостей в сутки. Проверка обновлений будет проводиться с интервалом в ~2 часа (точнее пока не определились).
Нет, HTML - это не интересно.
RSS - это и меньшие нагрузки, и устойчивость к изменениям, и простота обработки.
Вот мощный парсер RSS с (полу?)автоматическим тэггингом и рейтингованием для подъёма/скрытия тех или иных новостей был бы интересен.
Вам будет очень много радости когда какой-нить новостной сайт, с которого вы берете контент сменит дизайн, верстку чуть-чуть поправит и весь ваш парсинг упадет.
Ну вобщем вкратце:
Строится единая система - с Яндекс.Новостей берем rss и смотрим, каких новостей у нас еще нет (и каких обработчиков нет).
У каждого обработчика предопределены параметры на входе и выходе.
Все обработчики лежат в одной папочке, и называются, например, по названию домена.
Если у нас обработчика определенного сайта нет - отправляем письмо самим себе, типа, нада сделать.
Если есть - обрабатываем новость - парсим с сайта.
Те новости, у которых обработчика нет - ждут пока он появится.
Вот вроде и все.
Я НЕ ГОВОРЮ О НЕЗАКОННОМ КОПИРОВАНИИ КОНТЕНТА. ВБЕЙТЕ ЭТО В СВОЮ ГОЛОВУ!
Однобокость, недальновидность, невнимательность и агрессия - вот главные свойства настоящего хабровца?
Большинство высказавшихся здесь ни на секунду не задумалось об одной простой вещи - "Не пеняй на зеркало, коль рожа крива."
Если вам весь мир кажется сплошным нарушением копирайтов, то вам пора лечиться, либо перестать гуньдеть для начала.
Сервис экспорта новостного контента