Да, основной мусор, который попадает в значимый контет — это рекламные блоки или какие-то менюшки. Это чистится по плотности ссылок уже после того, как основной элемент выбран. Но когда мусор и контент находятся в одном элементе (div, например), тут уже очень сложно от него избавиться.
Если вкратце:
Парсер проходит по всем элементами страницы и выставляет им баллы. Баллы ставятся за имя класса/id элемента, количество слов и знаков препинания, плотность ссылок (чем меньше — тем лучше), в зависимости от соседних элементов и т.д. Оставляем элемент с наибольшим количеством баллов – все остальное вырезаем.
Там есть ссылка и на JS код. Я посмотрел их алгоритм, взял за основу и реализовал на java ну и добавил свои какие-то вещи. У меня, например, есть специальные адаптеры для youtube, vimeo, yfrog и тд.
1. Пока не планируется, но возможно, будет API с такой возможностью
2. На сервере страницы быстрее обрабатываются + можно кешировать, расширение сильно ограничивает функциональность, например невозможность сделать API и тд
3. Планируется, но пока не скоро
Этот текст про «20 лет без СССР» действительно есть на странице (самый последний в актуальных сюжетах), но парсер почему-то посчитал его более важным, чем основная новость, будем разбираться.
Нажмите, пожалуйста на «Report Problem Page». Спасибо за фидбек.
Парсер проходит по всем элементами страницы и выставляет им баллы. Баллы ставятся за имя класса/id элемента, количество слов и знаков препинания, плотность ссылок (чем меньше — тем лучше), в зависимости от соседних элементов и т.д. Оставляем элемент с наибольшим количеством баллов – все остальное вырезаем.
2. На сервере страницы быстрее обрабатываются + можно кешировать, расширение сильно ограничивает функциональность, например невозможность сделать API и тд
3. Планируется, но пока не скоро
Нажмите, пожалуйста на «Report Problem Page». Спасибо за фидбек.