Очевидно потому, что с медленным каналом приходится слишком долго ждать загрузки контента, особенно если это медиаконтент. В далеком прошлом, когда у меня был диалап, при открытии тяжелых страниц, обрыв загрузки был обычным делом. Когда видно, например, прогресс бар, то вы следите за процессом загрузки, и если произешел обрыв или таймаут, нет необходимости ждать лишнее время, чтобы удебедиться в обрыве.
Хм, я не сторонник fullAJAX сайтов, считаю, что AJAX нужно использовать только в определенных ситуациях, а не «грузить» через него «целые страницы». Определенные ситуации: подгрузка выпадающих списков, отправка формы и т.д.
Это мое личное мнение.
В принципе, ничего не мешает грузить несколько сообщений. Я гружу именно последний пост для следующих целей: в разрабатываемом проекте предполагается некая анкета пользователя, в этой анкете будет отображаться последнее сообщение, которое юзер оставил в своем микроблоге. Подобное реализовано на хабре, если зайти в анкету хабраюзера у которого в профиле указан твиттер-аккаунт, то отображается последнее сообщение из микроблога. Так сказать, повышает интерактивность проекта :)
>почему не грабить все обычным хмл парсером?
Всмысле обычным? А чем DOMDocument не обычный? :) Кстати, не обязательно грузить инфу в XML формате, можно, если удобно, и в JSON:
Проблема сравнения коротких текстов заключается в нехватке материала (шинглов) для сравнения. Ставится задача — увеличить их.
По поводу закольцовки текста — я несколько несколько с вами не согласен, можно получить хорошие результаты уменьшив дллину шингла (3-5 слов).
Так же в моей реализации для сравнения коротких текстов можно разбивать текст на шинглы не по словно, а посимвольно, например по 10 символов. При хорошей канонизации текста — результат отличный!
А в целом благодарю за материал — очень интересно!
>> Существующий файл robots.txt не должен закрывать слишком много областей на сайте.
Он должен закрывать ровно столько, сколько нужно закрыть от индексации и абсолютно никак не повлияет на нормальную выдачу.
У робота поисковой системы стоит определенный лимит на краулинг определенного сайта. Закрывая от индексации не нужные страницы или разделы вы даете возможность роботу обработать больше полезного контента!
>> >> TITLE не должен содержать более 15 слов.
>> один документ нельзя оптимировать по 15 ключевикам. я держу титл не длиннее 3 слов.
Согласен, на практике я делаю не более 6 слов, 15 явный перебор, тайтл является крайне важным тегом, чтобы разбавлять в нем ключи посторонними словами!
да, это так.
Это мое личное мнение.
Можно грузить в любом из 4х форматов на выбор:
twitter.com/statuses/user_timeline/skaizer.json
twitter.com/statuses/user_timeline/skaizer.xml
twitter.com/statuses/user_timeline/skaizer.rss
twitter.com/statuses/user_timeline/skaizer.atom
Можно грузить в любом из 4х форматов на выбор:
twitter.com/statuses/user_timeline/skaizer.json
twitter.com/statuses/user_timeline/skaizer.json
>почему не грабить все обычным хмл парсером?
Всмысле обычным? А чем DOMDocument не обычный? :) Кстати, не обязательно грузить инфу в XML формате, можно, если удобно, и в JSON:
twitter.com/statuses/user_timeline/skaizer.json
Держатся и ATOM и чистый XML (не RSS):
twitter.com/statuses/user_timeline/skaizer.json
www.codeisart.ru/python-shingles-algorithm/
Проблема сравнения коротких текстов заключается в нехватке материала (шинглов) для сравнения. Ставится задача — увеличить их.
По поводу закольцовки текста — я несколько несколько с вами не согласен, можно получить хорошие результаты уменьшив дллину шингла (3-5 слов).
Так же в моей реализации для сравнения коротких текстов можно разбивать текст на шинглы не по словно, а посимвольно, например по 10 символов. При хорошей канонизации текста — результат отличный!
А в целом благодарю за материал — очень интересно!
Он должен закрывать ровно столько, сколько нужно закрыть от индексации и абсолютно никак не повлияет на нормальную выдачу.
У робота поисковой системы стоит определенный лимит на краулинг определенного сайта. Закрывая от индексации не нужные страницы или разделы вы даете возможность роботу обработать больше полезного контента!
>> один документ нельзя оптимировать по 15 ключевикам. я держу титл не длиннее 3 слов.
Согласен, на практике я делаю не более 6 слов, 15 явный перебор, тайтл является крайне важным тегом, чтобы разбавлять в нем ключи посторонними словами!