Comments 51
Давайте начнём дебаты!
А чем плох gregarius ? :)
Вероятно он совсем не плох :)
Только вот я говорю как-раз не о подбивке rss (что в большинстве случаев являются лишь анонсами к полным текстам), а о полноценной агрегации полных текстов новостей вне зависимости от RSS, ATOM etc. Т.е. парсинг страниц и перегонка в единую базу данных с частичным сохранением разметки и изображений.
Только вот я говорю как-раз не о подбивке rss (что в большинстве случаев являются лишь анонсами к полным текстам), а о полноценной агрегации полных текстов новостей вне зависимости от RSS, ATOM etc. Т.е. парсинг страниц и перегонка в единую базу данных с частичным сохранением разметки и изображений.
Сплоги рулят 8)
Я считаю, что главным достоинством стало бы удобство поиска нужного потока новостей.
То есть кроме облака тегов (которое на новичков в интернете производит устрашающее впечатление, а у постоянных пользователей скоро будет вызывать тошноту) следует придумать многомерную систему классификации по различным критериям (лучше если будет можно настраивать ее под конкретного пользователя).
Если нужны разработчики - я бы с удовольствием взялся помочь такому проекту.
Удачи!
Я считаю, что главным достоинством стало бы удобство поиска нужного потока новостей.
То есть кроме облака тегов (которое на новичков в интернете производит устрашающее впечатление, а у постоянных пользователей скоро будет вызывать тошноту) следует придумать многомерную систему классификации по различным критериям (лучше если будет можно настраивать ее под конкретного пользователя).
Если нужны разработчики - я бы с удовольствием взялся помочь такому проекту.
Удачи!
Как люблю, когда это называют "экспортом контента". Воровство контента это. Или у вас договоренность с news-сайтами есть?
Правильно. Понятно дело, что для обработки: рубрикации и иных процессов - нужен полный текст. Но если отображать пользователю не "реферат" а полностью всю новость, новостным сайтам - источникам это не понравится точно.
Понравится, когда индекс цитирования подрастёт и ссылки на твой сайт будут публиковаться в месте, куда ходят люди "с общими интересами".
Однако зачем переходить на сайт источник, если новость полностью (еще допустим и с сюжетами и с прочими другими плюсами) уже есть у вас? Посмотрите на Яндекс.Новости, Новотеку, еще несколько популярных новостных сайтов, аккумулирующих новости. Как они работают? Мне кажется вы никогда не получите "добро" от всех желаемых источников, если станете новости отображать целиком и полностью.
Зачем переходить на сайт:
За комментариями, за интервью, за близкими по теме неновостными, а статейными материалами, за, собственно, статейными материалами вообще, за атмосферой.
За комментариями, за интервью, за близкими по теме неновостными, а статейными материалами, за, собственно, статейными материалами вообще, за атмосферой.
Это всё-равно, что реклама в магазине конкурента. Только здесь "магазинов" много и, соотв. рекламы больше.
Какая реклама, если вы продаете их товар под видом своего но с пометкой, что это все таки их? Пользователи могут и не смотреть на эти адреса-источники. Прочитали новость и пошли дальше. Новостные источники не хотят работать на других. И не станут.
Есть достаточная информация в подвале "прокачиваемого" сайта, типа - "Полное или частичное копирование разрешено только с размещением ссылки на наш сайт". Я говорю лишь о сайтах, дающих такое право. С чего вы собственно взяли, что кто-то собирается что-то воровать?
Когда то тоже так думал. На самом деле они не дают такого права. Они пишут "Полное или частичное копирование разрешено только с размещением ссылки на наш сайт" совершенно не для тех, кто собирается роботом каждый день все новости сливать.
Комментарии мои не для того, чтобы ваши планы как то осквернить.
А для того, чтобы вы подумали, серьезно подумали над договоренностями и правами, прежде чем расходовать на данный проект ваше время силы и средства.
Комментарии мои не для того, чтобы ваши планы как то осквернить.
А для того, чтобы вы подумали, серьезно подумали над договоренностями и правами, прежде чем расходовать на данный проект ваше время силы и средства.
"Полное или частичное копирование разрешено только с размещением ссылки на наш сайт" - для старта достаточно. Потом, если вдруг кому-то что-то не понравится, можно будет договориться о парсинге тех рубрик, которые определит сам владелец сайта. Так-же думал о варианте размещения прямой рекламы сайтовлядельца в потоке трансляции его новостей.
С этим же просто. На всех новостных сайтах указывается каким образом могут быть использованы их материалы. Обычно достаточно указать источник. Хотя конечно от сайта зависит :)
Они могут завтра убрать или переписать по другому.
по этому я и спросил чем их не устраивает rss :) Большая часть нормальных ресурсов генерирует rss целиком с текстом.
Странно, не замечал. Либо просто существуют открытые ссылки, которые на самом деле предназначены для яндекса, новотеки и т.п. На самом деле их легко найти, например, с помощью Яндекс.Ленты.
Не думаю, что те люди, которые не хотят дублирования своего контента с помощью парсинга, захотят того-же средствами выкачивания rss.
Надеялся увидеть комментарии людей, мыслящих менее стереотипно. Извините.
Воровать - грешно.
Где можно посмотреть на рабочий пример?
Можете мне в аську 2883434 стукнуть?
Можете мне в аську 2883434 стукнуть?
На рабочий пример чего именно?
Сервиса экспорта новостного контента. Такого, какой описан в топике.
Обязательно стукну, в конце текущей недели. К скриптам вывода информации только вчера приступил.
Хорошо.
А парсится html или rss? Есть ли готовая база? Какого объёма?..
А парсится html или rss? Есть ли готовая база? Какого объёма?..
Парсится html. Готовая база есть, но пока очень скромная. Всего сейчас "слито" чуть более 200 новостей. Это связано с тем, что движок парсинга находится в режиме обкатки (т.е. и эти новости будут удалены перед RC-версией). Но к онцу марта планируем выйти на уровень - пара сотен новостей в сутки. Проверка обновлений будет проводиться с интервалом в ~2 часа (точнее пока не определились).
Нет, HTML - это не интересно.
RSS - это и меньшие нагрузки, и устойчивость к изменениям, и простота обработки.
Вот мощный парсер RSS с (полу?)автоматическим тэггингом и рейтингованием для подъёма/скрытия тех или иных новостей был бы интересен.
RSS - это и меньшие нагрузки, и устойчивость к изменениям, и простота обработки.
Вот мощный парсер RSS с (полу?)автоматическим тэггингом и рейтингованием для подъёма/скрытия тех или иных новостей был бы интересен.
Вам будет очень много радости когда какой-нить новостной сайт, с которого вы берете контент сменит дизайн, верстку чуть-чуть поправит и весь ваш парсинг упадет.
Ну вобщем вкратце:
Строится единая система - с Яндекс.Новостей берем rss и смотрим, каких новостей у нас еще нет (и каких обработчиков нет).
У каждого обработчика предопределены параметры на входе и выходе.
Все обработчики лежат в одной папочке, и называются, например, по названию домена.
Если у нас обработчика определенного сайта нет - отправляем письмо самим себе, типа, нада сделать.
Если есть - обрабатываем новость - парсим с сайта.
Те новости, у которых обработчика нет - ждут пока он появится.
Вот вроде и все.
Строится единая система - с Яндекс.Новостей берем rss и смотрим, каких новостей у нас еще нет (и каких обработчиков нет).
У каждого обработчика предопределены параметры на входе и выходе.
Все обработчики лежат в одной папочке, и называются, например, по названию домена.
Если у нас обработчика определенного сайта нет - отправляем письмо самим себе, типа, нада сделать.
Если есть - обрабатываем новость - парсим с сайта.
Те новости, у которых обработчика нет - ждут пока он появится.
Вот вроде и все.
Пипец, какая оригинальная идея, какой нужный ресурс!
Еще не забудь обвешать сайт бегуном и адсенсом и будет тебе щастье! Получится отменный дорвей.
Еще не забудь обвешать сайт бегуном и адсенсом и будет тебе щастье! Получится отменный дорвей.
P.S. Я от таких энтузиазстов прописываю блокировку IP в .htaccess и все в шоколаде тогда. Пусть хоть обпарсятся. :)
Я НЕ ГОВОРЮ О НЕЗАКОННОМ КОПИРОВАНИИ КОНТЕНТА. ВБЕЙТЕ ЭТО В СВОЮ ГОЛОВУ!
Однобокость, недальновидность, невнимательность и агрессия - вот главные свойства настоящего хабровца?
Большинство высказавшихся здесь ни на секунду не задумалось об одной простой вещи - "Не пеняй на зеркало, коль рожа крива."
Если вам весь мир кажется сплошным нарушением копирайтов, то вам пора лечиться, либо перестать гуньдеть для начала.
Однобокость, недальновидность, невнимательность и агрессия - вот главные свойства настоящего хабровца?
Большинство высказавшихся здесь ни на секунду не задумалось об одной простой вещи - "Не пеняй на зеркало, коль рожа крива."
Если вам весь мир кажется сплошным нарушением копирайтов, то вам пора лечиться, либо перестать гуньдеть для начала.
Sign up to leave a comment.
Сервис экспорта новостного контента