Отличается многим. Главное — разные подходы. Archive.org сохраняет в первую очередь текстовую информацию, SaveWeb же сохраняет то, как выглядел сайт и старается делать это с максимальной визуальной точностью.
Почему же? Он по возможности полностью 1 в 1 сохраняет. Да, бывает, что какие-то картинки с их сервера пропадают, но всё же он их сохраняет. И не ссылки, а именно к себе перетаскивает.
У них много других сложностей. CSS часто слетают, не говоря уже о сайтах, генерирующихся с помощью JS. Данные порой подгружаются очень долго (понятно, что связано с объемами). В итоге что из себя представлял сайт иногда сложно понять. Я считаю скриншот — более надежный, наглядный и удобный (для пользователей) способ сохранения внешнего вида сайта.
В любом случае и SaveWeb и WayBack делают одно большее дело — сохраняют историю. Немного подругому и для разных задач, но глобальная цель одна — сохранить для потомков.
Расскажите, пожалуйста, чем SaveWeb отличается в лучшую сторону от общепринятого Wayback Machine. Пока что я вижу значительно меньший охват сайтов и меньшую полезность запомненного (Wayback хранит текст, соответственно его проще использовать, чем картинки).
Ответил выше. Дополню, что цели у проектов совершенно разные — Wayback Machine прежде всего сохраняет информационную составляющую ресурса, и пытается охватить как можно больше сайтов, любых. Идея SaveWeb — не пытаться сохранить всё, а передать то, как выглядел интернет раньше. Для этого не нужно сохранять миллионы никому неизвестных сайтов, достаточно сохранить популярные, массовые — те самые, которые меняются словно хамелеоны.
В чем практическая ценность проекта? Из Wayback я периодически выкапываю какие-то «никому не известные» сайты, которые давно умерли, а мне нужны. А как выглядели главные страницы Гугла и Фейсбука, думаю, и так все знают :-)
Есть информационная ценность, но так же есть и визуальная. Не знаю как вам, а мне, например, безумно интересно разглядывать вот такие штуки. Жаль SaveWeb тогда еще не существовал и разрешение маленькое :)
Или просто поменялась дата, но многие сайты вообще не меняются, как этот
Если проект будет развиваться, можно анализировать разницу между скриншотами, а для начала достаточно было бы просто механизма совпало/не совпало
Оно так и есть. Если посмотреть на урл скриншота, то видно, что у двух последних дат он один (в первой итерации еще не было так сделано). В альфе так и оставил, в будущем планирую улучшить алгоритм сравнения.
С технической точки зрения уже так сделано — если изменений нет, то новый скриншот не сохраняется (используется старый). С визуальной — тоже думал над таким решением. С одной стороны незачем показывать одно и тоже, с другой — надо дать понять что SaveWeb был на сайте и не увидел изменений.
А в режиме сравнения, действительно, можно это опустить, за неимением смысла. Но это пока в будущем.
У некоторых сайтов одинаковые скриншоты за разное время, если на сервере нет линка с одного файла на другой, то это пустая трата дискового пространства)
В данный момент пройдено три итерации и это проблема была только в первой. Теперь будет использоваться старый скриншот, если новый ничем не отличается от него :)
Есть предложение, немного изменить анимацию в поле ввода. Когда ввел сайт, нажал кнопку и выдало сообщение, что сайт не найден — выделяешь весь текст, пишешь новый, а анимация сильно мешает. Было бы круто, если из поля ввода убрать анимацию, а информацию отображать немного ниже.
Хочется быть лаконичным и простым. Иногда действительно может заедать анимация — но если по ней кликнуть, то должно исчезнуть. Спасибо за отзыв, буду думать как это оптимизировать.
Интересная идея, учитывая то, что дисковое пространство все время дешевеет проект перспективный и монетизироваться со временем получиться, главное — что б трафик был.
Ещё можно добавить «фишку», чтобы пользователи могли добавлять сайты для отслеживания. Будь то свой сайт или нет. Как уж реализовать — с модерацией или нет дело Ваше. Но, наверно, лучше с модерацией, ибо сайтов однодневок и UCoz могут напихать :)
Уже можно добавлять свои сайты. В «обойму» они попадают сразу. Сайты однодневки планирую сохранять (потом же не будет? :)), а что-нибудь совсем левое — удалять. Кстати, для этого есть кнопка «Плохой сайт» на странице сайта внизу. Что-то вроде звоночка, которые я буду анализировать и, возможно, что-то удалять.
Боюсь полноценных скриншотов будет не много — Wayback Machine работает не очень стабильно в плане подгрузки CSS, JS, картинок и других данных. Но как-нибудь попробовать стоит. Спасибо за хорошую идею :)
Если серьезно, то мусор и адалт чистил как мог, но многое пролезло. Не уверен что надо удалять всё — это тоже часть истории. Но некоторые сайты, определенно, надо. Для этого можете нажать на странице сайта в правом нижнем углу «Плохой сайт» — буду постмодерировать в ручном режиме.
Ну, Вы знаете, история историей, но пока я мучал рандом, мне попалось с десяток прон-ресурсов, причем многие из них — не вполне традиционной направленности — потому, я думаю, автоматический эдалт-контроль Вашему проекту бы не помешал.
Автоматизировать отлов эдалта, к сожалению, не так просто. Делать блек-лист слов в домене — не очень правильно. Пока рекомендую нажимать на кнопку, если сайт «плохо». Она для этого и была сделана. К слову, сайт который вы упомянули уже удален и больше никогда не появится в базе SaveWeb.
А есть какая-то периодичность сохранения скриншотов?
Например, для Хабра:
28.01.2011
04.02.2011
16.02.2011
02.03.2011
04.03.2011
Может не стоит делать так часто? Или, когда введете анализ скриншотов, такого не будет?
Каюсь, любимый хабр выпадал пару раз из графика и сохранялся в ручном режиме :)
В остальных случаях, если нет каких-то важных и интересных событий о которых я узнал — сохраняется автоматически, примерно раз в месяц.
Меня интересует момент определения ПОПУЛЯРНЫХ сайтов…
Я считаю, что не очень хорошо полагаться только на рейтинг Alexa
Нужно несколько разных источников для определения стоит ли добавить сайт.
К тому же нужно говорить наверное не о САЙТЕ а о ДОМЕНЕ
Так думаю будет правильно:
как выглядел вот такой домен в интернете на такой-то момент времени.
Есть коммерческая мысль, можно предлагать владельцам сайтов включать их сайт в «останавливаемые». Может кого заинтересует. Сам иногда свои сайты нескольколетней давности смотрю на archive.org. Приятно.
Я бы определял изменения следующим образом — сохранял один раз хтмл и убирал оттуда весь текст (оставлял только теги), при следующем заходе проверял изменилась ли структура хтмла, если нет то скриншот делать не надо. Я понимаю что можно полностью изменить сайт с помощью одного css, но в 99.9% изменяется и хтмл.
а если сменяется лого/шапка при этом не затрагивая структуру (и имена файлов остаются прежними) — так то же часто бывает. Так что ваш «хак» не всегда сработает, а значит — уже не вариант. :( Хотя то же сначала об этом подумал.
Набрёл на этот пост по ссылке со своего блога.
Думаю многим будет интересно, как можно получить скриншот, тем более реализация у меня похожая. rushter.com/2011/delaem-skrinshoty-sajjtov/
SaveWeb: история сайтов