redhummer27 фев 2007 в 03:50

Сервис экспорта новостного контента

1 мин

584

Чулан

-2

Комментарии 51

redhummer 27 фев 2007 в 03:51

Давайте начнём дебаты!

norguhtar 27 фев 2007 в 04:20

А чем плох gregarius ? :)

redhummer 27 фев 2007 в 04:26

Вероятно он совсем не плох :)
Только вот я говорю как-раз не о подбивке rss (что в большинстве случаев являются лишь анонсами к полным текстам), а о полноценной агрегации полных текстов новостей вне зависимости от RSS, ATOM etc. Т.е. парсинг страниц и перегонка в единую базу данных с частичным сохранением разметки и изображений.

Gugnin 27 фев 2007 в 06:12

Сплоги рулят 8)

Я считаю, что главным достоинством стало бы удобство поиска нужного потока новостей.
То есть кроме облака тегов (которое на новичков в интернете производит устрашающее впечатление, а у постоянных пользователей скоро будет вызывать тошноту) следует придумать многомерную систему классификации по различным критериям (лучше если будет можно настраивать ее под конкретного пользователя).

Если нужны разработчики - я бы с удовольствием взялся помочь такому проекту.

Удачи!

SynteZZZ 27 фев 2007 в 06:34

Как люблю, когда это называют "экспортом контента". Воровство контента это. Или у вас договоренность с news-сайтами есть?

YuriyIlyin 27 фев 2007 в 06:52

Правильно. Понятно дело, что для обработки: рубрикации и иных процессов - нужен полный текст. Но если отображать пользователю не "реферат" а полностью всю новость, новостным сайтам - источникам это не понравится точно.

redhummer 27 фев 2007 в 07:21

Понравится, когда индекс цитирования подрастёт и ссылки на твой сайт будут публиковаться в месте, куда ходят люди "с общими интересами".

YuriyIlyin 27 фев 2007 в 07:25

Однако зачем переходить на сайт источник, если новость полностью (еще допустим и с сюжетами и с прочими другими плюсами) уже есть у вас? Посмотрите на Яндекс.Новости, Новотеку, еще несколько популярных новостных сайтов, аккумулирующих новости. Как они работают? Мне кажется вы никогда не получите "добро" от всех желаемых источников, если станете новости отображать целиком и полностью.

redhummer 27 фев 2007 в 07:31

Зачем переходить на сайт:
За комментариями, за интервью, за близкими по теме неновостными, а статейными материалами, за, собственно, статейными материалами вообще, за атмосферой.

YuriyIlyin 27 фев 2007 в 07:38

За какой такой атмосферой? :) А комментариев на новостных сайтах очень мало, интервью может и не быть и т.п.
Вы хотите охватить большинство новостных источников или пользоваться только теми, кто со временем не попросит прекратить такое "сотрудничество"?

redhummer 27 фев 2007 в 07:33

Это всё-равно, что реклама в магазине конкурента. Только здесь "магазинов" много и, соотв. рекламы больше.

YuriyIlyin 27 фев 2007 в 07:42

Какая реклама, если вы продаете их товар под видом своего но с пометкой, что это все таки их? Пользователи могут и не смотреть на эти адреса-источники. Прочитали новость и пошли дальше. Новостные источники не хотят работать на других. И не станут.

redhummer 27 фев 2007 в 08:20

Продавать?
Могут не смотреть.
Конечно.

YuriyIlyin 27 фев 2007 в 08:30

Ну если "магазин" то "продавать" :)

redhummer 27 фев 2007 в 07:19

Есть достаточная информация в подвале "прокачиваемого" сайта, типа - "Полное или частичное копирование разрешено только с размещением ссылки на наш сайт". Я говорю лишь о сайтах, дающих такое право. С чего вы собственно взяли, что кто-то собирается что-то воровать?

YuriyIlyin 27 фев 2007 в 07:28

Когда то тоже так думал. На самом деле они не дают такого права. Они пишут "Полное или частичное копирование разрешено только с размещением ссылки на наш сайт" совершенно не для тех, кто собирается роботом каждый день все новости сливать.
Комментарии мои не для того, чтобы ваши планы как то осквернить.
А для того, чтобы вы подумали, серьезно подумали над договоренностями и правами, прежде чем расходовать на данный проект ваше время силы и средства.

redhummer 27 фев 2007 в 07:36

"Полное или частичное копирование разрешено только с размещением ссылки на наш сайт" - для старта достаточно. Потом, если вдруг кому-то что-то не понравится, можно будет договориться о парсинге тех рубрик, которые определит сам владелец сайта. Так-же думал о варианте размещения прямой рекламы сайтовлядельца в потоке трансляции его новостей.

YuriyIlyin 27 фев 2007 в 07:39

А если 80% попросят совсем убрать либо оставить только пару строчек (не помню как это называется в сми)? Что вы будете делать?
Мне кажется это ненадежно. Это мое мнение, основанное на личном опыте. Решать то все равно вам.

norguhtar 27 фев 2007 в 07:33

С этим же просто. На всех новостных сайтах указывается каким образом могут быть использованы их материалы. Обычно достаточно указать источник. Хотя конечно от сайта зависит :)

YuriyIlyin 27 фев 2007 в 07:41

Они могут завтра убрать или переписать по другому.

norguhtar 27 фев 2007 в 07:45

по этому я и спросил чем их не устраивает rss :) Большая часть нормальных ресурсов генерирует rss целиком с текстом.

YuriyIlyin 27 фев 2007 в 07:47

Странно, не замечал. Либо просто существуют открытые ссылки, которые на самом деле предназначены для яндекса, новотеки и т.п. На самом деле их легко найти, например, с помощью Яндекс.Ленты.

norguhtar 27 фев 2007 в 07:48

или я беру rss с тех ресурсов где новости идут целиком :)

redhummer 27 фев 2007 в 08:27

Не думаю, что те люди, которые не хотят дублирования своего контента с помощью парсинга, захотят того-же средствами выкачивания rss.

norguhtar 27 фев 2007 в 08:33

В таком случае они его не генерят или генерят в сокращенном виде.

redhummer 27 фев 2007 в 07:22

Надеялся увидеть комментарии людей, мыслящих менее стереотипно. Извините.

rumkin 27 фев 2007 в 07:53

"Менее стереотипно" = "Так как вам хочется" что ли? Хотел общественного мнения — получи, нечего теперь обиженного строить.

redhummer 27 фев 2007 в 08:22

А чего мы вдруг на ты?
Я хотел (и писал об этом) идей использования, а не слюней на тему хорошо это или плохо. И обиженного из себя не строю, а лишь констатирую "диагноз".

ququruku 27 фев 2007 в 08:03

Воровать - грешно.

redhummer 27 фев 2007 в 08:23

Опять - двадцатьпять. Вы читайте внимательнее, чтобы так не ошибаться с адресом послания ;)
А воровать и прадва - грешно.

NaFigator 27 фев 2007 в 09:43

Где можно посмотреть на рабочий пример?
Можете мне в аську 2883434 стукнуть?

YuriyIlyin 27 фев 2007 в 10:22

На рабочий пример чего именно?

NaFigator 27 фев 2007 в 11:02

Сервиса экспорта новостного контента. Такого, какой описан в топике.

YuriyIlyin 27 фев 2007 в 11:05

Пишу

NaFigator 27 фев 2007 в 11:11

Подробности в студию! ;)
С RSS работает? База есть? Фронт?

YuriyIlyin 27 фев 2007 в 11:30

Я в аську питаюсь написать, точнее задать наводящие вопросы (поздаровался для начала :)), а ответа нет :(

NaFigator 27 фев 2007 в 11:33

Бот разве не задал вопроса с очевидным ответом? :)

YuriyIlyin 27 фев 2007 в 11:38

Не задал к сожалению.

redhummer 27 фев 2007 в 10:36

Обязательно стукну, в конце текущей недели. К скриптам вывода информации только вчера приступил.

NaFigator 27 фев 2007 в 11:03

Хорошо.
А парсится html или rss? Есть ли готовая база? Какого объёма?..

redhummer 27 фев 2007 в 11:47

Парсится html. Готовая база есть, но пока очень скромная. Всего сейчас "слито" чуть более 200 новостей. Это связано с тем, что движок парсинга находится в режиме обкатки (т.е. и эти новости будут удалены перед RC-версией). Но к онцу марта планируем выйти на уровень - пара сотен новостей в сутки. Проверка обновлений будет проводиться с интервалом в ~2 часа (точнее пока не определились).

NaFigator 27 фев 2007 в 12:10

Нет, HTML - это не интересно.
RSS - это и меньшие нагрузки, и устойчивость к изменениям, и простота обработки.
Вот мощный парсер RSS с (полу?)автоматическим тэггингом и рейтингованием для подъёма/скрытия тех или иных новостей был бы интересен.

redhummer 28 фев 2007 в 03:34

Не боюсь повториться: В rss в основном анонсы транслируются.

SynteZZZ 27 фев 2007 в 11:04

Вам будет очень много радости когда какой-нить новостной сайт, с которого вы берете контент сменит дизайн, верстку чуть-чуть поправит и весь ваш парсинг упадет.

YuriyIlyin 27 фев 2007 в 11:37

Да, это тоже минус. Но на это есть программисты :)

redhummer 27 фев 2007 в 11:41

Не упадет, а лишь не отпарсит этот сайт.

YuriyIlyin 27 фев 2007 в 11:45

Ну вобщем вкратце:
Строится единая система - с Яндекс.Новостей берем rss и смотрим, каких новостей у нас еще нет (и каких обработчиков нет).
У каждого обработчика предопределены параметры на входе и выходе.
Все обработчики лежат в одной папочке, и называются, например, по названию домена.
Если у нас обработчика определенного сайта нет - отправляем письмо самим себе, типа, нада сделать.
Если есть - обрабатываем новость - парсим с сайта.
Те новости, у которых обработчика нет - ждут пока он появится.
Вот вроде и все.

lavina 28 фев 2007 в 05:59

Пипец, какая оригинальная идея, какой нужный ресурс!

Еще не забудь обвешать сайт бегуном и адсенсом и будет тебе щастье! Получится отменный дорвей.

redhummer 28 фев 2007 в 07:25

Вот если припрёт - обвешаю ;)

lavina 28 фев 2007 в 06:03

P.S. Я от таких энтузиазстов прописываю блокировку IP в .htaccess и все в шоколаде тогда. Пусть хоть обпарсятся. :)

redhummer 28 фев 2007 в 07:23

Я НЕ ГОВОРЮ О НЕЗАКОННОМ КОПИРОВАНИИ КОНТЕНТА. ВБЕЙТЕ ЭТО В СВОЮ ГОЛОВУ!

Однобокость, недальновидность, невнимательность и агрессия - вот главные свойства настоящего хабровца?

Большинство высказавшихся здесь ни на секунду не задумалось об одной простой вещи - "Не пеняй на зеркало, коль рожа крива."
Если вам весь мир кажется сплошным нарушением копирайтов, то вам пора лечиться, либо перестать гуньдеть для начала.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий