FFF Mar 4 2011 at 15:18

SaveWeb: история сайтов

4 min

3.4K

Self Promo

+38

Comments 70

CheeckyBride Mar 4 2011 at 15:24

Скажите, пожалуйста, чем проект отличается от Wayback machine?

FFF Mar 4 2011 at 15:32

Ожидал этот вопрос :)

Отличается многим. Главное — разные подходы. Archive.org сохраняет в первую очередь текстовую информацию, SaveWeb же сохраняет то, как выглядел сайт и старается делать это с максимальной визуальной точностью.

CheeckyBride Mar 4 2011 at 15:35

Я думаю, было бы не лишним в самой статье это указать, т.к. аналогия очевидна. Однако автор статьи — Вы. Интрига получилась :)

iwuvjhdva Mar 4 2011 at 16:52

Короче вместо гипертекста SaveWeb сохраняет скриншоты? А зачем?

Veterinar Mar 4 2011 at 17:00

Почему же? Он по возможности полностью 1 в 1 сохраняет. Да, бывает, что какие-то картинки с их сервера пропадают, но всё же он их сохраняет. И не ссылки, а именно к себе перетаскивает.

FFF Mar 4 2011 at 17:26

У них много других сложностей. CSS часто слетают, не говоря уже о сайтах, генерирующихся с помощью JS. Данные порой подгружаются очень долго (понятно, что связано с объемами). В итоге что из себя представлял сайт иногда сложно понять. Я считаю скриншот — более надежный, наглядный и удобный (для пользователей) способ сохранения внешнего вида сайта.

В любом случае и SaveWeb и WayBack делают одно большее дело — сохраняют историю. Немного подругому и для разных задач, но глобальная цель одна — сохранить для потомков.

UFO just landed and posted this here

Sirob039 Mar 4 2011 at 15:33

Две резервные копии в разных местах лучше, чем одна.

egor_bulychev Mar 4 2011 at 15:26

если стартап проживет 5-10 лет вот тогда он будет интересен.

+13

FFF Mar 4 2011 at 16:06

Да. Очень хочется верить что проживет и с годами будет всё интереснее :)

Nicolette Mar 4 2011 at 15:28

Расскажите, пожалуйста, чем SaveWeb отличается в лучшую сторону от общепринятого Wayback Machine. Пока что я вижу значительно меньший охват сайтов и меньшую полезность запомненного (Wayback хранит текст, соответственно его проще использовать, чем картинки).

FFF Mar 4 2011 at 15:39

Ответил выше. Дополню, что цели у проектов совершенно разные — Wayback Machine прежде всего сохраняет информационную составляющую ресурса, и пытается охватить как можно больше сайтов, любых. Идея SaveWeb — не пытаться сохранить всё, а передать то, как выглядел интернет раньше. Для этого не нужно сохранять миллионы никому неизвестных сайтов, достаточно сохранить популярные, массовые — те самые, которые меняются словно хамелеоны.

Nicolette Mar 4 2011 at 15:58

В чем практическая ценность проекта? Из Wayback я периодически выкапываю какие-то «никому не известные» сайты, которые давно умерли, а мне нужны. А как выглядели главные страницы Гугла и Фейсбука, думаю, и так все знают :-)

FFF Mar 4 2011 at 16:03

Есть информационная ценность, но так же есть и визуальная. Не знаю как вам, а мне, например, безумно интересно разглядывать вот такие штуки. Жаль SaveWeb тогда еще не существовал и разрешение маленькое :)

tripiz Mar 5 2011 at 22:42

Вот тоже прикольно — рекурсивный SaveWeb
saveweb.org/whatismyip.com

DjYarik Mar 4 2011 at 17:23

> Идея SaveWeb — не пытаться сохранить всё

Эх, а как мне было приятно наткнутся в «Wayback Machine» на мой старый, почти первый сайт, который уже давно мертв… Ностальгия…

FFF Mar 4 2011 at 17:29

Добавляйте и в SaveWeb и WayBack свои новые сайты, будем стараться сохранять :)

square Mar 4 2011 at 15:40

Хорошая идея и реализация, автор молодец, желаю запастись терпением и не опускать рук

Laplace Mar 4 2011 at 15:47

мне кажется круто было бы в статистике выводить самые популярные (по просмотрам в SaveWeb) сайты.

Agent_J Mar 4 2011 at 15:50

говоря о режиме сравнения, может стоило бы показывать только те даты, когда новый скриншот отличается от предыдущего?

Laplace Mar 4 2011 at 15:52

На некоторых сайтах только увеличивается количество лайков и больше ничего, забавно смотреть. например

FFF Mar 4 2011 at 16:00

Это упущение алгоритма сравнения (в альфа-версии слишком туп), который вскоре планируется улучшить и не учитывать настолько мелкие изменения :)

Agent_J Mar 4 2011 at 16:01

Или просто поменялась дата, но многие сайты вообще не меняются, как этот
Если проект будет развиваться, можно анализировать разницу между скриншотами, а для начала достаточно было бы просто механизма совпало/не совпало

Agent_J Mar 4 2011 at 16:08

Ссылка пропала
saveweb.org/imagerise.com/160211

FFF Mar 4 2011 at 16:12

Оно так и есть. Если посмотреть на урл скриншота, то видно, что у двух последних дат он один (в первой итерации еще не было так сделано). В альфе так и оставил, в будущем планирую улучшить алгоритм сравнения.

FFF Mar 4 2011 at 15:57

С технической точки зрения уже так сделано — если изменений нет, то новый скриншот не сохраняется (используется старый). С визуальной — тоже думал над таким решением. С одной стороны незачем показывать одно и тоже, с другой — надо дать понять что SaveWeb был на сайте и не увидел изменений.

А в режиме сравнения, действительно, можно это опустить, за неимением смысла. Но это пока в будущем.

Laplace Mar 4 2011 at 16:09

Ещё идея — аддон к браузеру чтоб для текущего сайта показывать, есть ли скриншоты в базе. А если нет — кнопку «Добавить»

Sytrus Mar 5 2011 at 04:34

Да, было бы круто! Уже готов часто пользоваться SaveWeb, идея мне нравится.
Кто-то уже прикололся: saveweb.org/96147.com/160211 — красивый сайт)

agul Mar 4 2011 at 16:52

Ввел хабрахабр — в итоге ничего не увидел. Могли бы уж специально для хабра скриншот добавить)

FFF Mar 4 2011 at 16:57

А как же saveweb.org/habrahabr.ru?

Magir Mar 4 2011 at 16:59

У некоторых сайтов одинаковые скриншоты за разное время, если на сервере нет линка с одного файла на другой, то это пустая трата дискового пространства)

$ wget «i.saveweb.org/1d7/1d747736b9c6bd187ad32882fc527724.jpg»
$ wget «i.saveweb.org/680/680cac8bf25ae04678f1e6708823582f.jpg»
$ md5sum 1d747736b9c6bd187ad32882fc527724.jpg
a848d88819ef48d140167f966bef284c 1d747736b9c6bd187ad32882fc527724.jpg
$ md5sum 680cac8bf25ae04678f1e6708823582f.jpg
a848d88819ef48d140167f966bef284c 680cac8bf25ae04678f1e6708823582f.jpg

FFF Mar 4 2011 at 17:11

В данный момент пройдено три итерации и это проблема была только в первой. Теперь будет использоваться старый скриншот, если новый ничем не отличается от него :)

DorBer Mar 4 2011 at 17:09

Скажите, пожалуйста, сколько весит база скриншотов в данный момент и какова динамика роста?

FFF Mar 4 2011 at 17:49

10к сайтов занимают чуть больше 2гб. Каждый «обход» соответственно +2гб. На данный момент база занимает около 7гб.

sskalmykov Mar 4 2011 at 17:16

Автор — молодец! Желаю успешного развития проекта! Дизайн конечно было бы интересней чуть-чуть изменить, но и так вполне приятно!

UFO just landed and posted this here

FFF Mar 4 2011 at 17:30

Грузится вроде и даже достаточно быстро :)

seagull Mar 4 2011 at 17:19

Есть предложение, немного изменить анимацию в поле ввода. Когда ввел сайт, нажал кнопку и выдало сообщение, что сайт не найден — выделяешь весь текст, пишешь новый, а анимация сильно мешает. Было бы круто, если из поля ввода убрать анимацию, а информацию отображать немного ниже.

FFF Mar 4 2011 at 17:33

Хочется быть лаконичным и простым. Иногда действительно может заедать анимация — но если по ней кликнуть, то должно исчезнуть. Спасибо за отзыв, буду думать как это оптимизировать.

odmin4eg Mar 4 2011 at 17:25

А почему JPG а не PNG?

Сегодня тоже занималлся подобной задачей, с консоли сервера раз в минуту делать скрин сайта ;)

-1

FFF Mar 4 2011 at 17:31

В посте написал. Если коротко — экономия ресурсов.

tzlom Mar 4 2011 at 23:44

а замеры проводили?
pngcrush смотрели?
у вас всё таки не должно быть такой адовой нагрузки на проц, а png может быть весьма маленьким

cigulev Mar 4 2011 at 17:31

Интересная идея, учитывая то, что дисковое пространство все время дешевеет проект перспективный и монетизироваться со временем получиться, главное — что б трафик был.

1337 Mar 4 2011 at 17:40

Ещё можно добавить «фишку», чтобы пользователи могли добавлять сайты для отслеживания. Будь то свой сайт или нет. Как уж реализовать — с модерацией или нет дело Ваше. Но, наверно, лучше с модерацией, ибо сайтов однодневок и UCoz могут напихать :)

-1

FFF Mar 4 2011 at 17:47

Уже можно добавлять свои сайты. В «обойму» они попадают сразу. Сайты однодневки планирую сохранять (потом же не будет? :)), а что-нибудь совсем левое — удалять. Кстати, для этого есть кнопка «Плохой сайт» на странице сайта внизу. Что-то вроде звоночка, которые я буду анализировать и, возможно, что-то удалять.

ncix Mar 4 2011 at 17:48

А если натравить ваш SaveWeb на WaybackMachine, стащив таким образом скриншоты из прошлого?

FFF Mar 4 2011 at 17:58

Боюсь полноценных скриншотов будет не много — Wayback Machine работает не очень стабильно в плане подгрузки CSS, JS, картинок и других данных. Но как-нибудь попробовать стоит. Спасибо за хорошую идею :)

ksenobayt Mar 4 2011 at 18:00

А у Вас забавный рандом получился, удачный, блин.

По первому же нажатию «R» вылез шот momisnaked.com. Не думали о внедрении эдалт-фильтров — хотя бы по доменному имени, что ли?

FFF Mar 4 2011 at 18:10

Я рандом не учил, честно, он сам :)

Если серьезно, то мусор и адалт чистил как мог, но многое пролезло. Не уверен что надо удалять всё — это тоже часть истории. Но некоторые сайты, определенно, надо. Для этого можете нажать на странице сайта в правом нижнем углу «Плохой сайт» — буду постмодерировать в ручном режиме.

ksenobayt Mar 4 2011 at 18:13

Ну, Вы знаете, история историей, но пока я мучал рандом, мне попалось с десяток прон-ресурсов, причем многие из них — не вполне традиционной направленности — потому, я думаю, автоматический эдалт-контроль Вашему проекту бы не помешал.

А так — спасибо за интересный ресурс, потыкаем.

FFF Mar 4 2011 at 18:21

Автоматизировать отлов эдалта, к сожалению, не так просто. Делать блек-лист слов в домене — не очень правильно. Пока рекомендую нажимать на кнопку, если сайт «плохо». Она для этого и была сделана. К слову, сайт который вы упомянули уже удален и больше никогда не появится в базе SaveWeb.

0n1y_0ne Mar 4 2011 at 18:10

Бывает, что сайты и не меняются за месяц — можно прикрутить поиск по одинаковым скриншотам, чтобы уменьшить занимаемое пространство.

-1

opium Mar 4 2011 at 18:29

Эм наверно глупый вопрос, а где деньги, и кому это нужно за деньги по вашему?

FFF Mar 4 2011 at 21:45

Мне кажется чем дольше будет существовать этот проект, тем выше его ценность (во всех смыслах)

opium Mar 4 2011 at 21:53

а чем вы лучше вебархива?

-1

biathlon Mar 4 2011 at 18:44

А есть какая-то периодичность сохранения скриншотов?
Например, для Хабра:
28.01.2011
04.02.2011
16.02.2011
02.03.2011
04.03.2011
Может не стоит делать так часто? Или, когда введете анализ скриншотов, такого не будет?

FFF Mar 4 2011 at 18:52

Каюсь, любимый хабр выпадал пару раз из графика и сохранялся в ручном режиме :)
В остальных случаях, если нет каких-то важных и интересных событий о которых я узнал — сохраняется автоматически, примерно раз в месяц.

sadmin Mar 4 2011 at 19:09

Намекните, как PayPal научились принимать?

FFF Mar 4 2011 at 19:12

С помощью верных друзей и подруг из зарубежа :)

ultragex Mar 4 2011 at 20:11

Открыл случайный сайт через R

saveweb.org/bigboobsalert.com — это важный сайт, чтобы его сохранять?

FFF Mar 4 2011 at 20:34

К сожалению и такое иногда попадает в базу. Тысячи ссылок в ручную не переберешь. Удалил. Спасибо

-1

mentalic Mar 4 2011 at 20:42

Меня интересует момент определения ПОПУЛЯРНЫХ сайтов…
Я считаю, что не очень хорошо полагаться только на рейтинг Alexa
Нужно несколько разных источников для определения стоит ли добавить сайт.

К тому же нужно говорить наверное не о САЙТЕ а о ДОМЕНЕ
Так думаю будет правильно:
как выглядел вот такой домен в интернете на такой-то момент времени.

-1

FFF Mar 4 2011 at 21:39

Никто не полагается на какой-либо рейтинг. Общую базу сайтов формируют пользователи, добавляя те которые в ней отсутствуют.

Что касается сайтов и доменов — SaveWeb все-таки сохраняет сайты, а не домены.

FFF Mar 4 2011 at 21:41

Ответ на комментарий выше ^

Henryh Mar 4 2011 at 21:52

Есть коммерческая мысль, можно предлагать владельцам сайтов включать их сайт в «останавливаемые». Может кого заинтересует. Сам иногда свои сайты нескольколетней давности смотрю на archive.org. Приятно.

offline15 Mar 4 2011 at 22:01

Я бы определял изменения следующим образом — сохранял один раз хтмл и убирал оттуда весь текст (оставлял только теги), при следующем заходе проверял изменилась ли структура хтмла, если нет то скриншот делать не надо. Я понимаю что можно полностью изменить сайт с помощью одного css, но в 99.9% изменяется и хтмл.

-1

Vilmas Mar 10 2011 at 04:12

а если сменяется лого/шапка при этом не затрагивая структуру (и имена файлов остаются прежними) — так то же часто бывает. Так что ваш «хак» не всегда сработает, а значит — уже не вариант. :( Хотя то же сначала об этом подумал.

NLab Mar 5 2011 at 03:36

Спасибо, реализация интересной и полезной идеи.
Прямо web-летопись получится :), с наглядной иллюстрацией перемен.

rushter Mar 6 2011 at 22:49

Набрёл на этот пост по ссылке со своего блога.
Думаю многим будет интересно, как можно получить скриншот, тем более реализация у меня похожая.
rushter.com/2011/delaem-skrinshoty-sajjtov/

-1

klark Mar 9 2011 at 08:06

Зачем вы украли мою идею? :)

P.S. А вообще — прекрасный инструмент для анализа всяких HYIP Monitor, и т.п.…

Show the best of all time