Pull to refresh

Comments 51

Вероятно он совсем не плох :)
Только вот я говорю как-раз не о подбивке rss (что в большинстве случаев являются лишь анонсами к полным текстам), а о полноценной агрегации полных текстов новостей вне зависимости от RSS, ATOM etc. Т.е. парсинг страниц и перегонка в единую базу данных с частичным сохранением разметки и изображений.
Сплоги рулят 8)

Я считаю, что главным достоинством стало бы удобство поиска нужного потока новостей.
То есть кроме облака тегов (которое на новичков в интернете производит устрашающее впечатление, а у постоянных пользователей скоро будет вызывать тошноту) следует придумать многомерную систему классификации по различным критериям (лучше если будет можно настраивать ее под конкретного пользователя).

Если нужны разработчики - я бы с удовольствием взялся помочь такому проекту.

Удачи!
Как люблю, когда это называют "экспортом контента". Воровство контента это. Или у вас договоренность с news-сайтами есть?
Правильно. Понятно дело, что для обработки: рубрикации и иных процессов - нужен полный текст. Но если отображать пользователю не "реферат" а полностью всю новость, новостным сайтам - источникам это не понравится точно.
Понравится, когда индекс цитирования подрастёт и ссылки на твой сайт будут публиковаться в месте, куда ходят люди "с общими интересами".
Однако зачем переходить на сайт источник, если новость полностью (еще допустим и с сюжетами и с прочими другими плюсами) уже есть у вас? Посмотрите на Яндекс.Новости, Новотеку, еще несколько популярных новостных сайтов, аккумулирующих новости. Как они работают? Мне кажется вы никогда не получите "добро" от всех желаемых источников, если станете новости отображать целиком и полностью.
Зачем переходить на сайт:
За комментариями, за интервью, за близкими по теме неновостными, а статейными материалами, за, собственно, статейными материалами вообще, за атмосферой.
За какой такой атмосферой? :) А комментариев на новостных сайтах очень мало, интервью может и не быть и т.п.
Вы хотите охватить большинство новостных источников или пользоваться только теми, кто со временем не попросит прекратить такое "сотрудничество"?
Это всё-равно, что реклама в магазине конкурента. Только здесь "магазинов" много и, соотв. рекламы больше.
Какая реклама, если вы продаете их товар под видом своего но с пометкой, что это все таки их? Пользователи могут и не смотреть на эти адреса-источники. Прочитали новость и пошли дальше. Новостные источники не хотят работать на других. И не станут.
Продавать?
Могут не смотреть.
Конечно.
Есть достаточная информация в подвале "прокачиваемого" сайта, типа - "Полное или частичное копирование разрешено только с размещением ссылки на наш сайт". Я говорю лишь о сайтах, дающих такое право. С чего вы собственно взяли, что кто-то собирается что-то воровать?
Когда то тоже так думал. На самом деле они не дают такого права. Они пишут "Полное или частичное копирование разрешено только с размещением ссылки на наш сайт" совершенно не для тех, кто собирается роботом каждый день все новости сливать.
Комментарии мои не для того, чтобы ваши планы как то осквернить.
А для того, чтобы вы подумали, серьезно подумали над договоренностями и правами, прежде чем расходовать на данный проект ваше время силы и средства.
"Полное или частичное копирование разрешено только с размещением ссылки на наш сайт" - для старта достаточно. Потом, если вдруг кому-то что-то не понравится, можно будет договориться о парсинге тех рубрик, которые определит сам владелец сайта. Так-же думал о варианте размещения прямой рекламы сайтовлядельца в потоке трансляции его новостей.
А если 80% попросят совсем убрать либо оставить только пару строчек (не помню как это называется в сми)? Что вы будете делать?
Мне кажется это ненадежно. Это мое мнение, основанное на личном опыте. Решать то все равно вам.
С этим же просто. На всех новостных сайтах указывается каким образом могут быть использованы их материалы. Обычно достаточно указать источник. Хотя конечно от сайта зависит :)
Они могут завтра убрать или переписать по другому.
по этому я и спросил чем их не устраивает rss :) Большая часть нормальных ресурсов генерирует rss целиком с текстом.
Странно, не замечал. Либо просто существуют открытые ссылки, которые на самом деле предназначены для яндекса, новотеки и т.п. На самом деле их легко найти, например, с помощью Яндекс.Ленты.
или я беру rss с тех ресурсов где новости идут целиком :)
Не думаю, что те люди, которые не хотят дублирования своего контента с помощью парсинга, захотят того-же средствами выкачивания rss.
В таком случае они его не генерят или генерят в сокращенном виде.
Надеялся увидеть комментарии людей, мыслящих менее стереотипно. Извините.
"Менее стереотипно" = "Так как вам хочется" что ли? Хотел общественного мнения — получи, нечего теперь обиженного строить.
А чего мы вдруг на ты?
Я хотел (и писал об этом) идей использования, а не слюней на тему хорошо это или плохо. И обиженного из себя не строю, а лишь констатирую "диагноз".
Опять - двадцатьпять. Вы читайте внимательнее, чтобы так не ошибаться с адресом послания ;)
А воровать и прадва - грешно.
Где можно посмотреть на рабочий пример?
Можете мне в аську 2883434 стукнуть?
Сервиса экспорта новостного контента. Такого, какой описан в топике.
Подробности в студию! ;)
С RSS работает? База есть? Фронт?
Я в аську питаюсь написать, точнее задать наводящие вопросы (поздаровался для начала :)), а ответа нет :(
Бот разве не задал вопроса с очевидным ответом? :)
Обязательно стукну, в конце текущей недели. К скриптам вывода информации только вчера приступил.
Хорошо.
А парсится html или rss? Есть ли готовая база? Какого объёма?..
Парсится html. Готовая база есть, но пока очень скромная. Всего сейчас "слито" чуть более 200 новостей. Это связано с тем, что движок парсинга находится в режиме обкатки (т.е. и эти новости будут удалены перед RC-версией). Но к онцу марта планируем выйти на уровень - пара сотен новостей в сутки. Проверка обновлений будет проводиться с интервалом в ~2 часа (точнее пока не определились).
Нет, HTML - это не интересно.
RSS - это и меньшие нагрузки, и устойчивость к изменениям, и простота обработки.
Вот мощный парсер RSS с (полу?)автоматическим тэггингом и рейтингованием для подъёма/скрытия тех или иных новостей был бы интересен.
Не боюсь повториться: В rss в основном анонсы транслируются.
Вам будет очень много радости когда какой-нить новостной сайт, с которого вы берете контент сменит дизайн, верстку чуть-чуть поправит и весь ваш парсинг упадет.
Да, это тоже минус. Но на это есть программисты :)
Не упадет, а лишь не отпарсит этот сайт.
Ну вобщем вкратце:
Строится единая система - с Яндекс.Новостей берем rss и смотрим, каких новостей у нас еще нет (и каких обработчиков нет).
У каждого обработчика предопределены параметры на входе и выходе.
Все обработчики лежат в одной папочке, и называются, например, по названию домена.
Если у нас обработчика определенного сайта нет - отправляем письмо самим себе, типа, нада сделать.
Если есть - обрабатываем новость - парсим с сайта.
Те новости, у которых обработчика нет - ждут пока он появится.
Вот вроде и все.
Пипец, какая оригинальная идея, какой нужный ресурс!

Еще не забудь обвешать сайт бегуном и адсенсом и будет тебе щастье! Получится отменный дорвей.
P.S. Я от таких энтузиазстов прописываю блокировку IP в .htaccess и все в шоколаде тогда. Пусть хоть обпарсятся. :)
Я НЕ ГОВОРЮ О НЕЗАКОННОМ КОПИРОВАНИИ КОНТЕНТА. ВБЕЙТЕ ЭТО В СВОЮ ГОЛОВУ!

Однобокость, недальновидность, невнимательность и агрессия - вот главные свойства настоящего хабровца?

Большинство высказавшихся здесь ни на секунду не задумалось об одной простой вещи - "Не пеняй на зеркало, коль рожа крива."
Если вам весь мир кажется сплошным нарушением копирайтов, то вам пора лечиться, либо перестать гуньдеть для начала.
Sign up to leave a comment.

Articles