Pull to refresh
19
0
Денис Лунев @Gomer

User

Send message
Для детей лучше еще не придумали, кстати я один из переводчиков этой книги на русский язык ;)
О, кстати, а я на своем киндле не проверял, посмотрю, как можно оптимизировать
Да, основной мусор, который попадает в значимый контет — это рекламные блоки или какие-то менюшки. Это чистится по плотности ссылок уже после того, как основной элемент выбран. Но когда мусор и контент находятся в одном элементе (div, например), тут уже очень сложно от него избавиться.
Если вкратце:
Парсер проходит по всем элементами страницы и выставляет им баллы. Баллы ставятся за имя класса/id элемента, количество слов и знаков препинания, плотность ссылок (чем меньше — тем лучше), в зависимости от соседних элементов и т.д. Оставляем элемент с наибольшим количеством баллов – все остальное вырезаем.
Можете сделать скриншот?
Там есть ссылка и на JS код. Я посмотрел их алгоритм, взял за основу и реализовал на java ну и добавил свои какие-то вещи. У меня, например, есть специальные адаптеры для youtube, vimeo, yfrog и тд.
Про Readability можно здесь почитать
Именно! или GoogleReader для Твиттера
1. Пока не планируется, но возможно, будет API с такой возможностью
2. На сервере страницы быстрее обрабатываются + можно кешировать, расширение сильно ограничивает функциональность, например невозможность сделать API и тд
3. Планируется, но пока не скоро
Это уже запланированно ;)
Да, что-то такое надо добавить
Да, алгоритм парсинга основан на нем, но обрабатывается все на сервере + есть элемент обучаемости парсера, но пока он в экспериментальном режиме
Рассказать друзьям можно через ретвит или facebook like, или вы хотите рассказать друзьям о самом сервисе?
Теперь я буду знать, кто все сломал :)
Спасибо, поправим.
Попробуйте обновить страницу и опять залогиниться
Этот текст про «20 лет без СССР» действительно есть на странице (самый последний в актуальных сюжетах), но парсер почему-то посчитал его более важным, чем основная новость, будем разбираться.
Нажмите, пожалуйста на «Report Problem Page». Спасибо за фидбек.
Спасибо организаторам! Я выиграл книгу :)
Убрать это можно, если вы залогинены в ЖЖ:
«Профиль -> Настройки -> Вид». Там убираете галку «Я хотел бы использовать сервисы, разработанные для русскоязычных пользователей».

Information

Rating
Does not participate
Location
Illinois, США
Date of birth
Registered
Activity