Comments 70
Скажите, пожалуйста, чем проект отличается от Wayback machine?
+4
Ожидал этот вопрос :)
Отличается многим. Главное — разные подходы. Archive.org сохраняет в первую очередь текстовую информацию, SaveWeb же сохраняет то, как выглядел сайт и старается делать это с максимальной визуальной точностью.
Отличается многим. Главное — разные подходы. Archive.org сохраняет в первую очередь текстовую информацию, SaveWeb же сохраняет то, как выглядел сайт и старается делать это с максимальной визуальной точностью.
+7
Я думаю, было бы не лишним в самой статье это указать, т.к. аналогия очевидна. Однако автор статьи — Вы. Интрига получилась :)
0
Короче вместо гипертекста SaveWeb сохраняет скриншоты? А зачем?
0
Почему же? Он по возможности полностью 1 в 1 сохраняет. Да, бывает, что какие-то картинки с их сервера пропадают, но всё же он их сохраняет. И не ссылки, а именно к себе перетаскивает.
0
У них много других сложностей. CSS часто слетают, не говоря уже о сайтах, генерирующихся с помощью JS. Данные порой подгружаются очень долго (понятно, что связано с объемами). В итоге что из себя представлял сайт иногда сложно понять. Я считаю скриншот — более надежный, наглядный и удобный (для пользователей) способ сохранения внешнего вида сайта.
В любом случае и SaveWeb и WayBack делают одно большее дело — сохраняют историю. Немного подругому и для разных задач, но глобальная цель одна — сохранить для потомков.
В любом случае и SaveWeb и WayBack делают одно большее дело — сохраняют историю. Немного подругому и для разных задач, но глобальная цель одна — сохранить для потомков.
+2
Две резервные копии в разных местах лучше, чем одна.
+1
если стартап проживет 5-10 лет вот тогда он будет интересен.
+13
Расскажите, пожалуйста, чем SaveWeb отличается в лучшую сторону от общепринятого Wayback Machine. Пока что я вижу значительно меньший охват сайтов и меньшую полезность запомненного (Wayback хранит текст, соответственно его проще использовать, чем картинки).
0
Ответил выше. Дополню, что цели у проектов совершенно разные — Wayback Machine прежде всего сохраняет информационную составляющую ресурса, и пытается охватить как можно больше сайтов, любых. Идея SaveWeb — не пытаться сохранить всё, а передать то, как выглядел интернет раньше. Для этого не нужно сохранять миллионы никому неизвестных сайтов, достаточно сохранить популярные, массовые — те самые, которые меняются словно хамелеоны.
+2
В чем практическая ценность проекта? Из Wayback я периодически выкапываю какие-то «никому не известные» сайты, которые давно умерли, а мне нужны. А как выглядели главные страницы Гугла и Фейсбука, думаю, и так все знают :-)
0
Есть информационная ценность, но так же есть и визуальная. Не знаю как вам, а мне, например, безумно интересно разглядывать вот такие штуки. Жаль SaveWeb тогда еще не существовал и разрешение маленькое :)
+6
Вот тоже прикольно — рекурсивный SaveWeb
saveweb.org/whatismyip.com
saveweb.org/whatismyip.com
0
> Идея SaveWeb — не пытаться сохранить всё
Эх, а как мне было приятно наткнутся в «Wayback Machine» на мой старый, почти первый сайт, который уже давно мертв… Ностальгия…
Эх, а как мне было приятно наткнутся в «Wayback Machine» на мой старый, почти первый сайт, который уже давно мертв… Ностальгия…
0
Хорошая идея и реализация, автор молодец, желаю запастись терпением и не опускать рук
+5
мне кажется круто было бы в статистике выводить самые популярные (по просмотрам в SaveWeb) сайты.
+2
говоря о режиме сравнения, может стоило бы показывать только те даты, когда новый скриншот отличается от предыдущего?
0
Это упущение алгоритма сравнения (в альфа-версии слишком туп), который вскоре планируется улучшить и не учитывать настолько мелкие изменения :)
0
Или просто поменялась дата, но многие сайты вообще не меняются, как этот
Если проект будет развиваться, можно анализировать разницу между скриншотами, а для начала достаточно было бы просто механизма совпало/не совпало
Если проект будет развиваться, можно анализировать разницу между скриншотами, а для начала достаточно было бы просто механизма совпало/не совпало
0
Ссылка пропала
saveweb.org/imagerise.com/160211
saveweb.org/imagerise.com/160211
0
Оно так и есть. Если посмотреть на урл скриншота, то видно, что у двух последних дат он один (в первой итерации еще не было так сделано). В альфе так и оставил, в будущем планирую улучшить алгоритм сравнения.
0
С технической точки зрения уже так сделано — если изменений нет, то новый скриншот не сохраняется (используется старый). С визуальной — тоже думал над таким решением. С одной стороны незачем показывать одно и тоже, с другой — надо дать понять что SaveWeb был на сайте и не увидел изменений.
А в режиме сравнения, действительно, можно это опустить, за неимением смысла. Но это пока в будущем.
А в режиме сравнения, действительно, можно это опустить, за неимением смысла. Но это пока в будущем.
0
Ещё идея — аддон к браузеру чтоб для текущего сайта показывать, есть ли скриншоты в базе. А если нет — кнопку «Добавить»
+3
Да, было бы круто! Уже готов часто пользоваться SaveWeb, идея мне нравится.
Кто-то уже прикололся: saveweb.org/96147.com/160211 — красивый сайт)
Кто-то уже прикололся: saveweb.org/96147.com/160211 — красивый сайт)
0
Ввел хабрахабр — в итоге ничего не увидел. Могли бы уж специально для хабра скриншот добавить)
0
А как же saveweb.org/habrahabr.ru?
0
У некоторых сайтов одинаковые скриншоты за разное время, если на сервере нет линка с одного файла на другой, то это пустая трата дискового пространства)
$ wget «i.saveweb.org/1d7/1d747736b9c6bd187ad32882fc527724.jpg»
$ wget «i.saveweb.org/680/680cac8bf25ae04678f1e6708823582f.jpg»
$ md5sum 1d747736b9c6bd187ad32882fc527724.jpg
a848d88819ef48d140167f966bef284c 1d747736b9c6bd187ad32882fc527724.jpg
$ md5sum 680cac8bf25ae04678f1e6708823582f.jpg
a848d88819ef48d140167f966bef284c 680cac8bf25ae04678f1e6708823582f.jpg
$ wget «i.saveweb.org/1d7/1d747736b9c6bd187ad32882fc527724.jpg»
$ wget «i.saveweb.org/680/680cac8bf25ae04678f1e6708823582f.jpg»
$ md5sum 1d747736b9c6bd187ad32882fc527724.jpg
a848d88819ef48d140167f966bef284c 1d747736b9c6bd187ad32882fc527724.jpg
$ md5sum 680cac8bf25ae04678f1e6708823582f.jpg
a848d88819ef48d140167f966bef284c 680cac8bf25ae04678f1e6708823582f.jpg
0
Скажите, пожалуйста, сколько весит база скриншотов в данный момент и какова динамика роста?
+8
Автор — молодец! Желаю успешного развития проекта! Дизайн конечно было бы интересней чуть-чуть изменить, но и так вполне приятно!
+3
UFO just landed and posted this here
Есть предложение, немного изменить анимацию в поле ввода. Когда ввел сайт, нажал кнопку и выдало сообщение, что сайт не найден — выделяешь весь текст, пишешь новый, а анимация сильно мешает. Было бы круто, если из поля ввода убрать анимацию, а информацию отображать немного ниже.
+1
А почему JPG а не PNG?
Сегодня тоже занималлся подобной задачей, с консоли сервера раз в минуту делать скрин сайта ;)
Сегодня тоже занималлся подобной задачей, с консоли сервера раз в минуту делать скрин сайта ;)
-1
Интересная идея, учитывая то, что дисковое пространство все время дешевеет проект перспективный и монетизироваться со временем получиться, главное — что б трафик был.
0
Ещё можно добавить «фишку», чтобы пользователи могли добавлять сайты для отслеживания. Будь то свой сайт или нет. Как уж реализовать — с модерацией или нет дело Ваше. Но, наверно, лучше с модерацией, ибо сайтов однодневок и UCoz могут напихать :)
-1
Уже можно добавлять свои сайты. В «обойму» они попадают сразу. Сайты однодневки планирую сохранять (потом же не будет? :)), а что-нибудь совсем левое — удалять. Кстати, для этого есть кнопка «Плохой сайт» на странице сайта внизу. Что-то вроде звоночка, которые я буду анализировать и, возможно, что-то удалять.
+1
А если натравить ваш SaveWeb на WaybackMachine, стащив таким образом скриншоты из прошлого?
+1
А у Вас забавный рандом получился, удачный, блин.
По первому же нажатию «R» вылез шот momisnaked.com. Не думали о внедрении эдалт-фильтров — хотя бы по доменному имени, что ли?
По первому же нажатию «R» вылез шот momisnaked.com. Не думали о внедрении эдалт-фильтров — хотя бы по доменному имени, что ли?
0
Я рандом не учил, честно, он сам :)
Если серьезно, то мусор и адалт чистил как мог, но многое пролезло. Не уверен что надо удалять всё — это тоже часть истории. Но некоторые сайты, определенно, надо. Для этого можете нажать на странице сайта в правом нижнем углу «Плохой сайт» — буду постмодерировать в ручном режиме.
Если серьезно, то мусор и адалт чистил как мог, но многое пролезло. Не уверен что надо удалять всё — это тоже часть истории. Но некоторые сайты, определенно, надо. Для этого можете нажать на странице сайта в правом нижнем углу «Плохой сайт» — буду постмодерировать в ручном режиме.
0
Ну, Вы знаете, история историей, но пока я мучал рандом, мне попалось с десяток прон-ресурсов, причем многие из них — не вполне традиционной направленности — потому, я думаю, автоматический эдалт-контроль Вашему проекту бы не помешал.
А так — спасибо за интересный ресурс, потыкаем.
А так — спасибо за интересный ресурс, потыкаем.
0
Бывает, что сайты и не меняются за месяц — можно прикрутить поиск по одинаковым скриншотам, чтобы уменьшить занимаемое пространство.
-1
Эм наверно глупый вопрос, а где деньги, и кому это нужно за деньги по вашему?
0
А есть какая-то периодичность сохранения скриншотов?
Например, для Хабра:
28.01.2011
04.02.2011
16.02.2011
02.03.2011
04.03.2011
Может не стоит делать так часто? Или, когда введете анализ скриншотов, такого не будет?
Например, для Хабра:
28.01.2011
04.02.2011
16.02.2011
02.03.2011
04.03.2011
Может не стоит делать так часто? Или, когда введете анализ скриншотов, такого не будет?
+1
Намекните, как PayPal научились принимать?
+1
0
Меня интересует момент определения ПОПУЛЯРНЫХ сайтов…
Я считаю, что не очень хорошо полагаться только на рейтинг Alexa
Нужно несколько разных источников для определения стоит ли добавить сайт.
К тому же нужно говорить наверное не о САЙТЕ а о ДОМЕНЕ
Так думаю будет правильно:
как выглядел вот такой домен в интернете на такой-то момент времени.
Я считаю, что не очень хорошо полагаться только на рейтинг Alexa
Нужно несколько разных источников для определения стоит ли добавить сайт.
К тому же нужно говорить наверное не о САЙТЕ а о ДОМЕНЕ
Так думаю будет правильно:
как выглядел вот такой домен в интернете на такой-то момент времени.
-1
Никто не полагается на какой-либо рейтинг. Общую базу сайтов формируют пользователи, добавляя те которые в ней отсутствуют.
Что касается сайтов и доменов — SaveWeb все-таки сохраняет сайты, а не домены.
Что касается сайтов и доменов — SaveWeb все-таки сохраняет сайты, а не домены.
0
Есть коммерческая мысль, можно предлагать владельцам сайтов включать их сайт в «останавливаемые». Может кого заинтересует. Сам иногда свои сайты нескольколетней давности смотрю на archive.org. Приятно.
0
Я бы определял изменения следующим образом — сохранял один раз хтмл и убирал оттуда весь текст (оставлял только теги), при следующем заходе проверял изменилась ли структура хтмла, если нет то скриншот делать не надо. Я понимаю что можно полностью изменить сайт с помощью одного css, но в 99.9% изменяется и хтмл.
-1
Спасибо, реализация интересной и полезной идеи.
Прямо web-летопись получится :), с наглядной иллюстрацией перемен.
Прямо web-летопись получится :), с наглядной иллюстрацией перемен.
+1
Набрёл на этот пост по ссылке со своего блога.
Думаю многим будет интересно, как можно получить скриншот, тем более реализация у меня похожая.
rushter.com/2011/delaem-skrinshoty-sajjtov/
Думаю многим будет интересно, как можно получить скриншот, тем более реализация у меня похожая.
rushter.com/2011/delaem-skrinshoty-sajjtov/
-1
Зачем вы украли мою идею? :)
P.S. А вообще — прекрасный инструмент для анализа всяких HYIP Monitor, и т.п.…
P.S. А вообще — прекрасный инструмент для анализа всяких HYIP Monitor, и т.п.…
+1
Sign up to leave a comment.
SaveWeb: история сайтов