@FFF4 мар 2011 в 12:18

SaveWeb: история сайтов

4 мин

Я пиарюсь

+38

Комментарии 70

@CheeckyBride 4 мар 2011 в 12:24

Скажите, пожалуйста, чем проект отличается от Wayback machine?

@FFF 4 мар 2011 в 12:32

Ожидал этот вопрос :)

Отличается многим. Главное — разные подходы. Archive.org сохраняет в первую очередь текстовую информацию, SaveWeb же сохраняет то, как выглядел сайт и старается делать это с максимальной визуальной точностью.

@CheeckyBride 4 мар 2011 в 12:35

Я думаю, было бы не лишним в самой статье это указать, т.к. аналогия очевидна. Однако автор статьи — Вы. Интрига получилась :)

@iwuvjhdva 4 мар 2011 в 13:52

Короче вместо гипертекста SaveWeb сохраняет скриншоты? А зачем?

@Veterinar 4 мар 2011 в 14:00

Почему же? Он по возможности полностью 1 в 1 сохраняет. Да, бывает, что какие-то картинки с их сервера пропадают, но всё же он их сохраняет. И не ссылки, а именно к себе перетаскивает.

@FFF 4 мар 2011 в 14:26

У них много других сложностей. CSS часто слетают, не говоря уже о сайтах, генерирующихся с помощью JS. Данные порой подгружаются очень долго (понятно, что связано с объемами). В итоге что из себя представлял сайт иногда сложно понять. Я считаю скриншот — более надежный, наглядный и удобный (для пользователей) способ сохранения внешнего вида сайта.

В любом случае и SaveWeb и WayBack делают одно большее дело — сохраняют историю. Немного подругому и для разных задач, но глобальная цель одна — сохранить для потомков.

НЛО прилетело и опубликовало эту надпись здесь

@Sirob039 4 мар 2011 в 12:33

Две резервные копии в разных местах лучше, чем одна.

@egor_bulychev 4 мар 2011 в 12:26

если стартап проживет 5-10 лет вот тогда он будет интересен.

@FFF 4 мар 2011 в 13:06

Да. Очень хочется верить что проживет и с годами будет всё интереснее :)

@Nicolette 4 мар 2011 в 12:28

Расскажите, пожалуйста, чем SaveWeb отличается в лучшую сторону от общепринятого Wayback Machine. Пока что я вижу значительно меньший охват сайтов и меньшую полезность запомненного (Wayback хранит текст, соответственно его проще использовать, чем картинки).

@FFF 4 мар 2011 в 12:39

Ответил выше. Дополню, что цели у проектов совершенно разные — Wayback Machine прежде всего сохраняет информационную составляющую ресурса, и пытается охватить как можно больше сайтов, любых. Идея SaveWeb — не пытаться сохранить всё, а передать то, как выглядел интернет раньше. Для этого не нужно сохранять миллионы никому неизвестных сайтов, достаточно сохранить популярные, массовые — те самые, которые меняются словно хамелеоны.

@Nicolette 4 мар 2011 в 12:58

В чем практическая ценность проекта? Из Wayback я периодически выкапываю какие-то «никому не известные» сайты, которые давно умерли, а мне нужны. А как выглядели главные страницы Гугла и Фейсбука, думаю, и так все знают :-)

@FFF 4 мар 2011 в 13:03

Есть информационная ценность, но так же есть и визуальная. Не знаю как вам, а мне, например, безумно интересно разглядывать вот такие штуки. Жаль SaveWeb тогда еще не существовал и разрешение маленькое :)

@tripiz 5 мар 2011 в 19:42

Вот тоже прикольно — рекурсивный SaveWeb
saveweb.org/whatismyip.com

@DjYarik 4 мар 2011 в 14:23

> Идея SaveWeb — не пытаться сохранить всё

Эх, а как мне было приятно наткнутся в «Wayback Machine» на мой старый, почти первый сайт, который уже давно мертв… Ностальгия…

@FFF 4 мар 2011 в 14:29

Добавляйте и в SaveWeb и WayBack свои новые сайты, будем стараться сохранять :)

@square 4 мар 2011 в 12:40

Хорошая идея и реализация, автор молодец, желаю запастись терпением и не опускать рук

@Laplace 4 мар 2011 в 12:47

мне кажется круто было бы в статистике выводить самые популярные (по просмотрам в SaveWeb) сайты.

@Agent_J 4 мар 2011 в 12:50

говоря о режиме сравнения, может стоило бы показывать только те даты, когда новый скриншот отличается от предыдущего?

@Laplace 4 мар 2011 в 12:52

На некоторых сайтах только увеличивается количество лайков и больше ничего, забавно смотреть. например

@FFF 4 мар 2011 в 13:00

Это упущение алгоритма сравнения (в альфа-версии слишком туп), который вскоре планируется улучшить и не учитывать настолько мелкие изменения :)

@Agent_J 4 мар 2011 в 13:01

Или просто поменялась дата, но многие сайты вообще не меняются, как этот
Если проект будет развиваться, можно анализировать разницу между скриншотами, а для начала достаточно было бы просто механизма совпало/не совпало

@Agent_J 4 мар 2011 в 13:08

Ссылка пропала
saveweb.org/imagerise.com/160211

@FFF 4 мар 2011 в 13:12

Оно так и есть. Если посмотреть на урл скриншота, то видно, что у двух последних дат он один (в первой итерации еще не было так сделано). В альфе так и оставил, в будущем планирую улучшить алгоритм сравнения.

@FFF 4 мар 2011 в 12:57

С технической точки зрения уже так сделано — если изменений нет, то новый скриншот не сохраняется (используется старый). С визуальной — тоже думал над таким решением. С одной стороны незачем показывать одно и тоже, с другой — надо дать понять что SaveWeb был на сайте и не увидел изменений.

А в режиме сравнения, действительно, можно это опустить, за неимением смысла. Но это пока в будущем.

@Laplace 4 мар 2011 в 13:09

Ещё идея — аддон к браузеру чтоб для текущего сайта показывать, есть ли скриншоты в базе. А если нет — кнопку «Добавить»

@Sytrus 5 мар 2011 в 01:34

Да, было бы круто! Уже готов часто пользоваться SaveWeb, идея мне нравится.
Кто-то уже прикололся: saveweb.org/96147.com/160211 — красивый сайт)

@agul 4 мар 2011 в 13:52

Ввел хабрахабр — в итоге ничего не увидел. Могли бы уж специально для хабра скриншот добавить)

@FFF 4 мар 2011 в 13:57

А как же saveweb.org/habrahabr.ru?

@Magir 4 мар 2011 в 13:59

У некоторых сайтов одинаковые скриншоты за разное время, если на сервере нет линка с одного файла на другой, то это пустая трата дискового пространства)

$ wget «i.saveweb.org/1d7/1d747736b9c6bd187ad32882fc527724.jpg»
$ wget «i.saveweb.org/680/680cac8bf25ae04678f1e6708823582f.jpg»
$ md5sum 1d747736b9c6bd187ad32882fc527724.jpg
a848d88819ef48d140167f966bef284c 1d747736b9c6bd187ad32882fc527724.jpg
$ md5sum 680cac8bf25ae04678f1e6708823582f.jpg
a848d88819ef48d140167f966bef284c 680cac8bf25ae04678f1e6708823582f.jpg

@FFF 4 мар 2011 в 14:11

В данный момент пройдено три итерации и это проблема была только в первой. Теперь будет использоваться старый скриншот, если новый ничем не отличается от него :)

@DorBer 4 мар 2011 в 14:09

Скажите, пожалуйста, сколько весит база скриншотов в данный момент и какова динамика роста?

@FFF 4 мар 2011 в 14:49

10к сайтов занимают чуть больше 2гб. Каждый «обход» соответственно +2гб. На данный момент база занимает около 7гб.

@sskalmykov 4 мар 2011 в 14:16

Автор — молодец! Желаю успешного развития проекта! Дизайн конечно было бы интересней чуть-чуть изменить, но и так вполне приятно!

НЛО прилетело и опубликовало эту надпись здесь

@FFF 4 мар 2011 в 14:30

Грузится вроде и даже достаточно быстро :)

@seagull 4 мар 2011 в 14:19

Есть предложение, немного изменить анимацию в поле ввода. Когда ввел сайт, нажал кнопку и выдало сообщение, что сайт не найден — выделяешь весь текст, пишешь новый, а анимация сильно мешает. Было бы круто, если из поля ввода убрать анимацию, а информацию отображать немного ниже.

@FFF 4 мар 2011 в 14:33

Хочется быть лаконичным и простым. Иногда действительно может заедать анимация — но если по ней кликнуть, то должно исчезнуть. Спасибо за отзыв, буду думать как это оптимизировать.

@odmin4eg 4 мар 2011 в 14:25

А почему JPG а не PNG?

Сегодня тоже занималлся подобной задачей, с консоли сервера раз в минуту делать скрин сайта ;)

@FFF 4 мар 2011 в 14:31

В посте написал. Если коротко — экономия ресурсов.

@tzlom 4 мар 2011 в 20:44

а замеры проводили?
pngcrush смотрели?
у вас всё таки не должно быть такой адовой нагрузки на проц, а png может быть весьма маленьким

@cigulev 4 мар 2011 в 14:31

Интересная идея, учитывая то, что дисковое пространство все время дешевеет проект перспективный и монетизироваться со временем получиться, главное — что б трафик был.

@1337 4 мар 2011 в 14:40

Ещё можно добавить «фишку», чтобы пользователи могли добавлять сайты для отслеживания. Будь то свой сайт или нет. Как уж реализовать — с модерацией или нет дело Ваше. Но, наверно, лучше с модерацией, ибо сайтов однодневок и UCoz могут напихать :)

@FFF 4 мар 2011 в 14:47

Уже можно добавлять свои сайты. В «обойму» они попадают сразу. Сайты однодневки планирую сохранять (потом же не будет? :)), а что-нибудь совсем левое — удалять. Кстати, для этого есть кнопка «Плохой сайт» на странице сайта внизу. Что-то вроде звоночка, которые я буду анализировать и, возможно, что-то удалять.

@ncix 4 мар 2011 в 14:48

А если натравить ваш SaveWeb на WaybackMachine, стащив таким образом скриншоты из прошлого?

@FFF 4 мар 2011 в 14:58

Боюсь полноценных скриншотов будет не много — Wayback Machine работает не очень стабильно в плане подгрузки CSS, JS, картинок и других данных. Но как-нибудь попробовать стоит. Спасибо за хорошую идею :)

@ksenobayt 4 мар 2011 в 15:00

А у Вас забавный рандом получился, удачный, блин.

По первому же нажатию «R» вылез шот momisnaked.com. Не думали о внедрении эдалт-фильтров — хотя бы по доменному имени, что ли?

@FFF 4 мар 2011 в 15:10

Я рандом не учил, честно, он сам :)

Если серьезно, то мусор и адалт чистил как мог, но многое пролезло. Не уверен что надо удалять всё — это тоже часть истории. Но некоторые сайты, определенно, надо. Для этого можете нажать на странице сайта в правом нижнем углу «Плохой сайт» — буду постмодерировать в ручном режиме.

@ksenobayt 4 мар 2011 в 15:13

Ну, Вы знаете, история историей, но пока я мучал рандом, мне попалось с десяток прон-ресурсов, причем многие из них — не вполне традиционной направленности — потому, я думаю, автоматический эдалт-контроль Вашему проекту бы не помешал.

А так — спасибо за интересный ресурс, потыкаем.

@FFF 4 мар 2011 в 15:21

Автоматизировать отлов эдалта, к сожалению, не так просто. Делать блек-лист слов в домене — не очень правильно. Пока рекомендую нажимать на кнопку, если сайт «плохо». Она для этого и была сделана. К слову, сайт который вы упомянули уже удален и больше никогда не появится в базе SaveWeb.

@0n1y_0ne 4 мар 2011 в 15:10

Бывает, что сайты и не меняются за месяц — можно прикрутить поиск по одинаковым скриншотам, чтобы уменьшить занимаемое пространство.

@opium 4 мар 2011 в 15:29

Эм наверно глупый вопрос, а где деньги, и кому это нужно за деньги по вашему?

@FFF 4 мар 2011 в 18:45

Мне кажется чем дольше будет существовать этот проект, тем выше его ценность (во всех смыслах)

@opium 4 мар 2011 в 18:53

а чем вы лучше вебархива?

@biathlon 4 мар 2011 в 15:44

А есть какая-то периодичность сохранения скриншотов?
Например, для Хабра:
28.01.2011
04.02.2011
16.02.2011
02.03.2011
04.03.2011
Может не стоит делать так часто? Или, когда введете анализ скриншотов, такого не будет?

@FFF 4 мар 2011 в 15:52

Каюсь, любимый хабр выпадал пару раз из графика и сохранялся в ручном режиме :)
В остальных случаях, если нет каких-то важных и интересных событий о которых я узнал — сохраняется автоматически, примерно раз в месяц.

@sadmin 4 мар 2011 в 16:09

Намекните, как PayPal научились принимать?

@FFF 4 мар 2011 в 16:12

С помощью верных друзей и подруг из зарубежа :)

@ultragex 4 мар 2011 в 17:11

Открыл случайный сайт через R

saveweb.org/bigboobsalert.com — это важный сайт, чтобы его сохранять?

@FFF 4 мар 2011 в 17:34

К сожалению и такое иногда попадает в базу. Тысячи ссылок в ручную не переберешь. Удалил. Спасибо

@mentalic 4 мар 2011 в 17:42

Меня интересует момент определения ПОПУЛЯРНЫХ сайтов…
Я считаю, что не очень хорошо полагаться только на рейтинг Alexa
Нужно несколько разных источников для определения стоит ли добавить сайт.

К тому же нужно говорить наверное не о САЙТЕ а о ДОМЕНЕ
Так думаю будет правильно:
как выглядел вот такой домен в интернете на такой-то момент времени.

@FFF 4 мар 2011 в 18:39

Никто не полагается на какой-либо рейтинг. Общую базу сайтов формируют пользователи, добавляя те которые в ней отсутствуют.

Что касается сайтов и доменов — SaveWeb все-таки сохраняет сайты, а не домены.

@FFF 4 мар 2011 в 18:41

Ответ на комментарий выше ^

@Henryh 4 мар 2011 в 18:52

Есть коммерческая мысль, можно предлагать владельцам сайтов включать их сайт в «останавливаемые». Может кого заинтересует. Сам иногда свои сайты нескольколетней давности смотрю на archive.org. Приятно.

@offline15 4 мар 2011 в 19:01

Я бы определял изменения следующим образом — сохранял один раз хтмл и убирал оттуда весь текст (оставлял только теги), при следующем заходе проверял изменилась ли структура хтмла, если нет то скриншот делать не надо. Я понимаю что можно полностью изменить сайт с помощью одного css, но в 99.9% изменяется и хтмл.

@Vilmas 10 мар 2011 в 01:12

а если сменяется лого/шапка при этом не затрагивая структуру (и имена файлов остаются прежними) — так то же часто бывает. Так что ваш «хак» не всегда сработает, а значит — уже не вариант. :( Хотя то же сначала об этом подумал.

@NLab 5 мар 2011 в 00:36

Спасибо, реализация интересной и полезной идеи.
Прямо web-летопись получится :), с наглядной иллюстрацией перемен.

@rushter 6 мар 2011 в 19:49

Набрёл на этот пост по ссылке со своего блога.
Думаю многим будет интересно, как можно получить скриншот, тем более реализация у меня похожая.
rushter.com/2011/delaem-skrinshoty-sajjtov/

@klark 9 мар 2011 в 05:06

Зачем вы украли мою идею? :)

P.S. А вообще — прекрасный инструмент для анализа всяких HYIP Monitor, и т.п.…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий