Я скачивал по тупому. Создал этот пост, посмотрел на его номер — №191268, и пробежал по всем линкам с 1го по 191268, соответственно все посты, которые выдают 404ю ошибку и все посты, к которым закрыт доступ (в виде html с соответствующим сообщением об ошибке) тоже были скачаны.
в общей сложности получилось гигабайт пятнадцать, подозреваю, что без всего этого мусора было бы сильно меньше.
ваш ответ, а также другие посты, ради написания которых тоже скачивали весь интернет хабр, наталкивает на мысль что ТМ пора уже выкладывать дамп метаданных постов, чтобы люди мучили этот файл, а не качали все страницы целиком.
Возможно, как бонус, вам стоит такой файл выложить, последователям останется его просто дополнить.
Идея неплохая, но реализация в виде постоянно обновляемого поста никуда не годится. Было бы круче сделать нечто вроде онлайн-сервиса, который бы имел собственную автоматически обновляемую копию метаданных постов и позволял строить различного рода отчеты и выборки с помощью конструктора или языка запросов. А «лучшее» было бы частным случаем одной из таких выборок.
Эти статьи вовсе не «хорошие». Они интересовали кого-то и когда-то, а со временем оно почти все превращается в информационный мусор. Большая часть статей сверху уже вообще не актуальны и не интересны просто потому, что их время ушло.
Многие из «полезных» я тоже добавил в избранное, они действительно хороши. А остальные разделы представляют (по крайней мере для меня) историческую ценность — по ним можно видеть, что происходило на этом ресурсе <шутка> во времена, когда он был торт </шутка>, что нравится и что не нравится обитателям Хабра.
Да я всего лишь пост хотел написать, а не делать индексы :)
Мне интересней потом, когда руки дойдут, с частотными словарями повозиться и сделать что-то вроде этого — habrahabr.ru/post/188678/#habracut, только посоветовавшись предварительно с кем-нибудь, кто в отличие от меня, что-нибудь понимает в статистике :)
Впрочем, если кто-нибудь что-нибудь такое делать соберётся, все скрипты приведу в порядок и отдам.
А у меня уже не открывается: «автор перенёс в черновики» со всеми вытекающими.
Интересно, почему? Неужто читатели этого поста увидели антирейтинг некропостов, прошли по ссылке и решили ещё добавить автору пинков, чтобы не повадно было? Если так, то это как-то глупо. Все эти рейтинги-кармы — они ведь по сути обратная связь, показывающая востребованность какого-то контента. Кто-то мог несколько лет назад запостить какую-то глупость, потом словить пинков и осознать свою ошибку, но оставить пост в публичном доступе как назидание потомкам. Теперь у него уже новая жизнь, и минусы за старые грехи — контрпродуктивно и обидно.
Или более интересная версия: авторы поста испытали острый стыд, перечитывая свои творения былых лет. Если так, то я лично обращаюсь к таким авторам: пожалуйста, верните свои посты в публичный доступ. Вы уже стали частью хабраистории, пускай может и не в том виде, в котором вам бы хотелось там оказаться. Тем не менее, история не терпит морализма, для неё важно всё значимое, независимо от того, было оно при жизни «хорошим» или «плохим». А ваши посты значимы минимум потому, что отражают степень терпимости (а точнее нетерпимости) хабрасообщества и лучше любых формальных правил Хабра покажут новичкам, какие темы и/или какую манеру обращения к читателям лучше не использовать.
Я тоже думал про вариант с кармой. Но потом мне andorro показал, что это не так (разговор тут, в комментариях). Посты убрала администрация. Впрочем, всё по прежнему легко найти, например здесь — web.archive.org
Ну вот ChemodaH выше упомянул тему про мусоров, которую я тоже пытался прочитать. Увы, the Wayback Machine does not have this URL. Значит администрация Хабра подчистила всё буквально в последние часы. Вопрос, зачем они это делают, остаётся открытым…
Спасибо за подборку рейтингов. Удивил пропущенный недавно (в декабре 2012) пост про Скайп («Галерея безобразных скайп-аватар») и его стиль.
По последнему рейтингу. Я тоже давно заметил важность наблюдения 2 оценок комментариев и статей и давно вывожу с помощью скрипта инфографическое представление оценки (Диаграмма процентовки «за и против» на canvas). И заметно, что там, где происходит борьба мнений, там обсуждения получаются живее. Но для статей это не всегда так — борьба около нуля — это обычно спорные статьи, а если плюсов к минусам — 2 к 1 или 3 к 1 — то имеется живое обсуждение и борьба мнений по достаточно интересной теме. Поэтому важна не только борьба, но и склонение её к плюсам.
Обращусь ко всем читателям по более практическому вопросу:
Как вам идея о том, что будет создаваться онлайн-классификатор хабро-статей наподобие 3 известных сейчас дайджестов, только в онлайне, со свежей классификацией?:
Основная проблема, ради чего нужен такой — это то, что имеющиеся ленты смешиваают всё вместе, и только живые люди (ну, может быть, фильтры по ключевым словам немного) могут помочь разделить потоки новостей, разработок, обзоров железа и скандальных новостей по разным потокам. Нужны как раз эти люди, которые добровольно классифицировали бы статьи по типам и тем самым дайджест формировался бы автоматически. Важно лишь отобрать авторитетных экспертов.
Реализацию вижу через скрипт. Читатель-эксперт (не обязательно даже зарегистрированный), читая ленту, отмечает в ней статьи по типам. Этим самым он помогает и себе, и другим, удаляя ненужные в данный момент типы статей из своего поля зрения. Эти оценки транслируются на сервер, а другие читатели, читая ленту, получают тем же скриптом с сервера актуальную классификацию. У кого нет скрипта, могут зайти на страницу и увидеть актуальный усреднённый по экспертам классификатор.
На какое-нибудь засорение классификатора ответ простой: классификации, сильно отличающиеся от средних, во первых, не учитываются в онлайне, во-вторых, постоянно некоррелирующий эксперт отключается от любых автоматических голосований. Для совсем уж ортодоксов сойдёт вариант постоянного круга экспертов или имеющих самый высокий рейтинг неотклоняемости. Для личного списка эксперта собственные оценки имеют высокий рейтинг.
Кстати, если туда добавлять в онлайне ссылки типа таких, что из дайджестов, с классификацией, возродится забытый формат топиков-ссылок.
Категорий, которым нужна классификация, видится достаточно много, но не очень много:
* Собственные разработки авторов
* Переводы о разработках
* Новости обновлений версий
* Сделай сам (по железу и электронике)
* факты об организации своего бизнеса
----------на этом заканчивается идеальный Хабр, начинаются оффтопики----------
* Беллетристика об IT (то, что почитать можно, а использовать нельзя — типа как Билайн прокладывал сотовую связь в Камбодже)
* художественные сочинения
* беллетристика об офисах и бизнесах компаний
* сведения о компаниях, людях, продуктах
* исторические свеедения
* обзоры железа в плане новинок, а не редких полезных статей, кроме эпохальных обзоров
* новости кроме обновлений версий
* скандальные новости по законам
* скандальные новости по некомпетентности крупных компаний + по мошенничеству мелких + то и другое
Дальше работа с ними такая: если надо прочитать действительно ценное, смотрят на верхнюю часть списка. Если есть желание и время ознакомиться дальше, смотрят дальше. И для себя (если есть скрипт) корректируют список.
Еще интересным был бы рейтинг людей в таких разрезах: количество статей, сумма баллов всех статей, количество комментариев, сумма баллов всех комментариев.
Интегральные оценки: сумма баллов всех статей / карма и т.д.
Зависимость оценки статьи от размера, то же самое с комментариями :)
Требуете у кого? Их авторы позакрывали. Подозреваю, что из за того, что пришла толпа по ссылке и нехорошо поступила с кармой. Не думал, что будет такой эффект. Мне самому тоже пара минусов от обиженных прилетела :)
У меня оно всё есть скачанное, но как-то, по-моему, не очень этично это выкладывать без согласия авторов. Самые настырные всё равно отыщут в кэшах поисковиков и прочих архивах.
Тут небось половина в «троллях» за выражение своего мнения публично (профили не смотрел, сужу по себе), не боясь стадного инстинкта.
Текущая система «кармы» заставляет писать только комментарии которые будут не отрицательными. тем самым затыкая рот некоторым людям.
Я уж не говорю про то что аудитрия ресурса сильно изменилась, наполнилась людьми с потребительскими инстинктами, которые хаб от свитча отличить не могут, каменты читать иногда противно из-за тупизны их авторов.
Посты-рекордсмены