Comments / Profile of Gomer / Habr

Денис Лунев@Gomer

User

Subscribers

ProfileArticles4PostsNewsComments77

Жили-были дед и Java…

Gomer Nov 29 2011 at 04:07

Для детей лучше еще не придумали, кстати я один из переводчиков этой книги на русский язык ;)

+11

Facebook увеличивает штат на 9400 сотрудников

Gomer Apr 30 2011 at 06:40

+17

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 18 2011 at 16:45

О, кстати, а я на своем киндле не проверял, посмотрю, как можно оптимизировать

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 18 2011 at 08:27

Да, основной мусор, который попадает в значимый контет — это рекламные блоки или какие-то менюшки. Это чистится по плотности ссылок уже после того, как основной элемент выбран. Но когда мусор и контент находятся в одном элементе (div, например), тут уже очень сложно от него избавиться.

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 18:35

Если вкратце:
Парсер проходит по всем элементами страницы и выставляет им баллы. Баллы ставятся за имя класса/id элемента, количество слов и знаков препинания, плотность ссылок (чем меньше — тем лучше), в зависимости от соседних элементов и т.д. Оставляем элемент с наибольшим количеством баллов – все остальное вырезаем.

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 17:57

Можете сделать скриншот?

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 16:44

Там есть ссылка и на JS код. Я посмотрел их алгоритм, взял за основу и реализовал на java ну и добавил свои какие-то вещи. У меня, например, есть специальные адаптеры для youtube, vimeo, yfrog и тд.

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 16:23

Про Readability можно здесь почитать

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 16:15

Именно! или GoogleReader для Твиттера

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 16:08

1. Пока не планируется, но возможно, будет API с такой возможностью
2. На сервере страницы быстрее обрабатываются + можно кешировать, расширение сильно ограничивает функциональность, например невозможность сделать API и тд
3. Планируется, но пока не скоро

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 15:58

Это уже запланированно ;)

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 14:42

Да, что-то такое надо добавить

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 14:37

Да, алгоритм парсинга основан на нем, но обрабатывается все на сервере + есть элемент обучаемости парсера, но пока он в экспериментальном режиме

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 14:33

Рассказать друзьям можно через ретвит или facebook like, или вы хотите рассказать друзьям о самом сервисе?

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 14:27

Теперь я буду знать, кто все сломал :)

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 14:25

Спасибо, поправим.

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 14:20

Попробуйте обновить страницу и опять залогиниться

Читаем контент из Твиттера без кликов по ссылкам

Gomer Jan 17 2011 at 14:04

Этот текст про «20 лет без СССР» действительно есть на странице (самый последний в актуальных сюжетах), но парсер почему-то посчитал его более важным, чем основная новость, будем разбираться.
Нажмите, пожалуйста на «Report Problem Page». Спасибо за фидбек.

Документация по API платежных систем

Gomer Dec 30 2010 at 05:52

Все ссылки битые, вы, наверное относительный путь использовали?

Новогодний переполох, md5, книги, гаджеты, софт

Gomer Dec 27 2010 at 17:51

Спасибо организаторам! Я выиграл книгу :)

2 3 4