Pull to refresh

Comments 70

Ожидал этот вопрос :)

Отличается многим. Главное — разные подходы. Archive.org сохраняет в первую очередь текстовую информацию, SaveWeb же сохраняет то, как выглядел сайт и старается делать это с максимальной визуальной точностью.
Я думаю, было бы не лишним в самой статье это указать, т.к. аналогия очевидна. Однако автор статьи — Вы. Интрига получилась :)
Короче вместо гипертекста SaveWeb сохраняет скриншоты? А зачем?
Почему же? Он по возможности полностью 1 в 1 сохраняет. Да, бывает, что какие-то картинки с их сервера пропадают, но всё же он их сохраняет. И не ссылки, а именно к себе перетаскивает.
У них много других сложностей. CSS часто слетают, не говоря уже о сайтах, генерирующихся с помощью JS. Данные порой подгружаются очень долго (понятно, что связано с объемами). В итоге что из себя представлял сайт иногда сложно понять. Я считаю скриншот — более надежный, наглядный и удобный (для пользователей) способ сохранения внешнего вида сайта.

В любом случае и SaveWeb и WayBack делают одно большее дело — сохраняют историю. Немного подругому и для разных задач, но глобальная цель одна — сохранить для потомков.
UFO just landed and posted this here
Две резервные копии в разных местах лучше, чем одна.
если стартап проживет 5-10 лет вот тогда он будет интересен.
Да. Очень хочется верить что проживет и с годами будет всё интереснее :)
Расскажите, пожалуйста, чем SaveWeb отличается в лучшую сторону от общепринятого Wayback Machine. Пока что я вижу значительно меньший охват сайтов и меньшую полезность запомненного (Wayback хранит текст, соответственно его проще использовать, чем картинки).
Ответил выше. Дополню, что цели у проектов совершенно разные — Wayback Machine прежде всего сохраняет информационную составляющую ресурса, и пытается охватить как можно больше сайтов, любых. Идея SaveWeb — не пытаться сохранить всё, а передать то, как выглядел интернет раньше. Для этого не нужно сохранять миллионы никому неизвестных сайтов, достаточно сохранить популярные, массовые — те самые, которые меняются словно хамелеоны.
В чем практическая ценность проекта? Из Wayback я периодически выкапываю какие-то «никому не известные» сайты, которые давно умерли, а мне нужны. А как выглядели главные страницы Гугла и Фейсбука, думаю, и так все знают :-)
Есть информационная ценность, но так же есть и визуальная. Не знаю как вам, а мне, например, безумно интересно разглядывать вот такие штуки. Жаль SaveWeb тогда еще не существовал и разрешение маленькое :)
> Идея SaveWeb — не пытаться сохранить всё

Эх, а как мне было приятно наткнутся в «Wayback Machine» на мой старый, почти первый сайт, который уже давно мертв… Ностальгия…
Добавляйте и в SaveWeb и WayBack свои новые сайты, будем стараться сохранять :)
Хорошая идея и реализация, автор молодец, желаю запастись терпением и не опускать рук
мне кажется круто было бы в статистике выводить самые популярные (по просмотрам в SaveWeb) сайты.
говоря о режиме сравнения, может стоило бы показывать только те даты, когда новый скриншот отличается от предыдущего?
На некоторых сайтах только увеличивается количество лайков и больше ничего, забавно смотреть. например
Это упущение алгоритма сравнения (в альфа-версии слишком туп), который вскоре планируется улучшить и не учитывать настолько мелкие изменения :)
Или просто поменялась дата, но многие сайты вообще не меняются, как этот
Если проект будет развиваться, можно анализировать разницу между скриншотами, а для начала достаточно было бы просто механизма совпало/не совпало
Оно так и есть. Если посмотреть на урл скриншота, то видно, что у двух последних дат он один (в первой итерации еще не было так сделано). В альфе так и оставил, в будущем планирую улучшить алгоритм сравнения.
С технической точки зрения уже так сделано — если изменений нет, то новый скриншот не сохраняется (используется старый). С визуальной — тоже думал над таким решением. С одной стороны незачем показывать одно и тоже, с другой — надо дать понять что SaveWeb был на сайте и не увидел изменений.

А в режиме сравнения, действительно, можно это опустить, за неимением смысла. Но это пока в будущем.
Ещё идея — аддон к браузеру чтоб для текущего сайта показывать, есть ли скриншоты в базе. А если нет — кнопку «Добавить»
Да, было бы круто! Уже готов часто пользоваться SaveWeb, идея мне нравится.
Кто-то уже прикололся: saveweb.org/96147.com/160211 — красивый сайт)
Ввел хабрахабр — в итоге ничего не увидел. Могли бы уж специально для хабра скриншот добавить)
У некоторых сайтов одинаковые скриншоты за разное время, если на сервере нет линка с одного файла на другой, то это пустая трата дискового пространства)

$ wget «i.saveweb.org/1d7/1d747736b9c6bd187ad32882fc527724.jpg»
$ wget «i.saveweb.org/680/680cac8bf25ae04678f1e6708823582f.jpg»
$ md5sum 1d747736b9c6bd187ad32882fc527724.jpg
a848d88819ef48d140167f966bef284c 1d747736b9c6bd187ad32882fc527724.jpg
$ md5sum 680cac8bf25ae04678f1e6708823582f.jpg
a848d88819ef48d140167f966bef284c 680cac8bf25ae04678f1e6708823582f.jpg
В данный момент пройдено три итерации и это проблема была только в первой. Теперь будет использоваться старый скриншот, если новый ничем не отличается от него :)
Скажите, пожалуйста, сколько весит база скриншотов в данный момент и какова динамика роста?
10к сайтов занимают чуть больше 2гб. Каждый «обход» соответственно +2гб. На данный момент база занимает около 7гб.
Автор — молодец! Желаю успешного развития проекта! Дизайн конечно было бы интересней чуть-чуть изменить, но и так вполне приятно!
UFO just landed and posted this here
Грузится вроде и даже достаточно быстро :)
Есть предложение, немного изменить анимацию в поле ввода. Когда ввел сайт, нажал кнопку и выдало сообщение, что сайт не найден — выделяешь весь текст, пишешь новый, а анимация сильно мешает. Было бы круто, если из поля ввода убрать анимацию, а информацию отображать немного ниже.
Хочется быть лаконичным и простым. Иногда действительно может заедать анимация — но если по ней кликнуть, то должно исчезнуть. Спасибо за отзыв, буду думать как это оптимизировать.
А почему JPG а не PNG?

Сегодня тоже занималлся подобной задачей, с консоли сервера раз в минуту делать скрин сайта ;)
В посте написал. Если коротко — экономия ресурсов.
а замеры проводили?
pngcrush смотрели?
у вас всё таки не должно быть такой адовой нагрузки на проц, а png может быть весьма маленьким
Интересная идея, учитывая то, что дисковое пространство все время дешевеет проект перспективный и монетизироваться со временем получиться, главное — что б трафик был.
Ещё можно добавить «фишку», чтобы пользователи могли добавлять сайты для отслеживания. Будь то свой сайт или нет. Как уж реализовать — с модерацией или нет дело Ваше. Но, наверно, лучше с модерацией, ибо сайтов однодневок и UCoz могут напихать :)
Уже можно добавлять свои сайты. В «обойму» они попадают сразу. Сайты однодневки планирую сохранять (потом же не будет? :)), а что-нибудь совсем левое — удалять. Кстати, для этого есть кнопка «Плохой сайт» на странице сайта внизу. Что-то вроде звоночка, которые я буду анализировать и, возможно, что-то удалять.
А если натравить ваш SaveWeb на WaybackMachine, стащив таким образом скриншоты из прошлого?
Боюсь полноценных скриншотов будет не много — Wayback Machine работает не очень стабильно в плане подгрузки CSS, JS, картинок и других данных. Но как-нибудь попробовать стоит. Спасибо за хорошую идею :)
А у Вас забавный рандом получился, удачный, блин.

По первому же нажатию «R» вылез шот momisnaked.com. Не думали о внедрении эдалт-фильтров — хотя бы по доменному имени, что ли?
Я рандом не учил, честно, он сам :)

Если серьезно, то мусор и адалт чистил как мог, но многое пролезло. Не уверен что надо удалять всё — это тоже часть истории. Но некоторые сайты, определенно, надо. Для этого можете нажать на странице сайта в правом нижнем углу «Плохой сайт» — буду постмодерировать в ручном режиме.
Ну, Вы знаете, история историей, но пока я мучал рандом, мне попалось с десяток прон-ресурсов, причем многие из них — не вполне традиционной направленности — потому, я думаю, автоматический эдалт-контроль Вашему проекту бы не помешал.

А так — спасибо за интересный ресурс, потыкаем.
Автоматизировать отлов эдалта, к сожалению, не так просто. Делать блек-лист слов в домене — не очень правильно. Пока рекомендую нажимать на кнопку, если сайт «плохо». Она для этого и была сделана. К слову, сайт который вы упомянули уже удален и больше никогда не появится в базе SaveWeb.
Бывает, что сайты и не меняются за месяц — можно прикрутить поиск по одинаковым скриншотам, чтобы уменьшить занимаемое пространство.
Эм наверно глупый вопрос, а где деньги, и кому это нужно за деньги по вашему?
Мне кажется чем дольше будет существовать этот проект, тем выше его ценность (во всех смыслах)
а чем вы лучше вебархива?
А есть какая-то периодичность сохранения скриншотов?
Например, для Хабра:
28.01.2011
04.02.2011
16.02.2011
02.03.2011
04.03.2011
Может не стоит делать так часто? Или, когда введете анализ скриншотов, такого не будет?
Каюсь, любимый хабр выпадал пару раз из графика и сохранялся в ручном режиме :)
В остальных случаях, если нет каких-то важных и интересных событий о которых я узнал — сохраняется автоматически, примерно раз в месяц.
Намекните, как PayPal научились принимать?
С помощью верных друзей и подруг из зарубежа :)
К сожалению и такое иногда попадает в базу. Тысячи ссылок в ручную не переберешь. Удалил. Спасибо
Меня интересует момент определения ПОПУЛЯРНЫХ сайтов…
Я считаю, что не очень хорошо полагаться только на рейтинг Alexa
Нужно несколько разных источников для определения стоит ли добавить сайт.

К тому же нужно говорить наверное не о САЙТЕ а о ДОМЕНЕ
Так думаю будет правильно:
как выглядел вот такой домен в интернете на такой-то момент времени.
Никто не полагается на какой-либо рейтинг. Общую базу сайтов формируют пользователи, добавляя те которые в ней отсутствуют.

Что касается сайтов и доменов — SaveWeb все-таки сохраняет сайты, а не домены.
Ответ на комментарий выше ^
Есть коммерческая мысль, можно предлагать владельцам сайтов включать их сайт в «останавливаемые». Может кого заинтересует. Сам иногда свои сайты нескольколетней давности смотрю на archive.org. Приятно.
Я бы определял изменения следующим образом — сохранял один раз хтмл и убирал оттуда весь текст (оставлял только теги), при следующем заходе проверял изменилась ли структура хтмла, если нет то скриншот делать не надо. Я понимаю что можно полностью изменить сайт с помощью одного css, но в 99.9% изменяется и хтмл.
а если сменяется лого/шапка при этом не затрагивая структуру (и имена файлов остаются прежними) — так то же часто бывает. Так что ваш «хак» не всегда сработает, а значит — уже не вариант. :( Хотя то же сначала об этом подумал.
Спасибо, реализация интересной и полезной идеи.
Прямо web-летопись получится :), с наглядной иллюстрацией перемен.
Набрёл на этот пост по ссылке со своего блога.
Думаю многим будет интересно, как можно получить скриншот, тем более реализация у меня похожая.
rushter.com/2011/delaem-skrinshoty-sajjtov/
Зачем вы украли мою идею? :)

P.S. А вообще — прекрасный инструмент для анализа всяких HYIP Monitor, и т.п.…
Sign up to leave a comment.

Articles