Этот текст про «20 лет без СССР» действительно есть на странице (самый последний в актуальных сюжетах), но парсер почему-то посчитал его более важным, чем основная новость, будем разбираться.
Нажмите, пожалуйста на «Report Problem Page». Спасибо за фидбек.
То что с сайта твиттеть нельзя — ок, но кнопку «рассказать друзьям» можно сделать?
И, наверное, полезнее было бы вместо этой шутливой картинки воткнуть краткое описание сервиса.
Сервис буду тестировать в режиме активного читателя. Но с виду — хорошо сделанная и нужная вещь. Во всяком случае точно лучше, чем кликать по выскакивающему в самый неподходящий момент Эхофону в Огненном лисе.
Твиттер сделали, чтобы посты были маленькими, потом в эти маленькие посты стали засовывать ссылки, а теперь вы сделали сервис, который ссылки парсит в большие посты.
У создателей тви не было задумки неразрешать публиковать ссылки. А так как сейчас большинство используют этот сервис в качестве «Поделюсь ка я ссылкой на этот замечательный контент» — LiteFeed оказывается весьма полезной штукой.
Очень интересно!
Несколько ссылок не распарсилось — сделал репорт.
Было бы клёво на этапе обработки получать уже распознанные твиты. Это лучше, потому что человек сможет заняться изучением уже появившего(их)ся твита(ов), пока обрабатываются остальные. А то у меня относительно долго была обработка.
1. Пока не планируется, но возможно, будет API с такой возможностью
2. На сервере страницы быстрее обрабатываются + можно кешировать, расширение сильно ограничивает функциональность, например невозможность сделать API и тд
3. Планируется, но пока не скоро
Сервис очень правильный, так как Тви с персоналки читать неудобно, но он (тви) для этого и не создавался. По-этому сервис мне кажется заклинанием: «Превратись твиттер в ЖЖ!» ;)
Спасибо, только что там был. Но сходу не нашел чего-то вроде описания алгоритма. Поэтому решил спросить.
А вы код свой полностью писали или что-то использовали?
Там есть ссылка и на JS код. Я посмотрел их алгоритм, взял за основу и реализовал на java ну и добавил свои какие-то вещи. У меня, например, есть специальные адаптеры для youtube, vimeo, yfrog и тд.
Если вкратце:
Парсер проходит по всем элементами страницы и выставляет им баллы. Баллы ставятся за имя класса/id элемента, количество слов и знаков препинания, плотность ссылок (чем меньше — тем лучше), в зависимости от соседних элементов и т.д. Оставляем элемент с наибольшим количеством баллов – все остальное вырезаем.
Как-то пробовал для себя делать нечто подобное. Тоже хотел выделять один элемент, охватывающий основной контент. Но сразу стали попадаться страницы, где статья разбита на много элементов, а их общий родитель включает еще кучу «мусора» вокруг статьи. Такое у вас преодолевается?
Да, основной мусор, который попадает в значимый контет — это рекламные блоки или какие-то менюшки. Это чистится по плотности ссылок уже после того, как основной элемент выбран. Но когда мусор и контент находятся в одном элементе (div, например), тут уже очень сложно от него избавиться.
Хотелось бы ещё такого функционала чтоб отображался только первый абзац текста по твиттерссылке, а остальное можно было бы развернуть по желанию, а то некоторые твитят ссылки на очень длинные тексты и прокручивать их неудобно. (а если кто то ссылку на «войну и мир» запостит?)
А ссылки на foursquare можно и не парсить все равно там ничего интересного не показыается, а у вас так вообще сервисное сообщение Join foursquare (ну можно карту парсить, хотя имхо лучше вообще не тянуть)
ооочень большая кнопка «Report problem page» — иногда больше самих твитов. Отличный сайт, я как раз искал подобное, так как на моем железе и канале твиттер.ком в новой версии уж очень долго грузится.
Проблема подобных сервисов в том, что они оказываются чересчур умными. Как бы вы не улучшали алгоритм парсинга страницы, активно сервисом будет пользоваться только небольшая кучка гиков. Кроме самой статьи на странице, юзера могут заинтересовать комментарии или какие-то второстепенные элементы на странице, о которых может быть прямо указано в твите.
Т.е. я уверен, что сервис, который предлагает контент на основании каких-то своих алгоритмов, обречен на провал. Пользователь не сможет доверять контенту, который контролирует алгоритм.
Есть расширение для хрома — Power Twitter. Оно преобразует твиттер примерно таким же образом. В ленте показывает фото-видео, ссылки в отдельные рамочки загоняет и заголовки выводит (без контента) — считаю, так удобнее!
Кстати, Денис, посмотрев на свой Kindle сразу же понял для чего я бы с удовольствием использовал твой сервис.
Проверил — работает на ура!
шрифт бы только побольше (точнее ширину контента сделать бы поменьше, чтобы буквы были больше).
Читаем контент из Твиттера без кликов по ссылкам