Хабра-детектив: у вас картинка потерялась


    Вы когда-нибудь задумывались, сколько информации бесследно потеряно? Ведь информация — это то, ради чего Хабр существует. Знаете, что чаще всего случается с ресурсами основанными на пользовательских публикациях? Авторы вставляют изображения, картинки и видео со сторонних сайтов и через какое-то время они больше не доступны. Именно для этого когда-то был создан Habrastorage. Практика показала, что никто (кроме редакторов и нескольких энтузиастов) не загружает туда изображения самостоятельно. Потому в какой-то момент администрация Хабра сделала эту функцию автоматической — каждое изображение, которое встречается в публикации, автоматически загружается в хранилище и оттуда не пропадёт, пока существует сам Хабр. Конечно же, есть и исключения и что-то может пойти не так, но сейчас не о них.


    Самая большая проблема во всей этой схеме с загрузкой изображений в Habrastorage произошла во время её внедрения. К тому моменту некоторые старые публикации уже были без рисунков, а потому такими и остались. Сегодня мы попробуем выяснить, сколько же графической информации потерял Хабр с момента своего рождения. Кроме того, может нам удастся найти что-то из пропавшего? Ведь раздражает эта заглушка "изображение не может быть загружено", не так ли? Сегодняшний детектив посвящён именно этому. Приступим!


    Возможно, вас в эту статью привело упоминание в трекере? Вероятно, в одной из ваших старых публикаций пропала картинка, а я её нашел. Если вам не хочется читать всю публикацию, можно просто пролистать до спойлера в самом конце (раздел Результаты), где перечислены все публикации и найденные изображения. Спасибо!

    Вступление и методы


    Наш детектив начнётся с самого начала (логично, правда?). С начала Хабра. Ведь чем раньше был опубликован какой-либо пост, тем больше шансов, что изображения из него затерялись где-то в истории. Именно потому начнём мы с 2006 года и пройдём немного вперёд.


    В рассмотрении участвуют все публикации из 40 хабов, которые на данный момент находятся в начале рейтинга. Полный список этих хабов представлен под спойлером. На самом деле, многие из них тогда не существовали, однако при добавлении новых хабов публикации туда переносились.



    Информация собиралась с помощью набора PHP скриптов. Каждая публикация была загружена, определено содержание тега < div id="post-content-body" > и проверено наличие тегов < img > внутри. Для каждого изображения сохранены ссылки на изображения с привязкой к ID публикации на Хабре. В дальнейшем анализируется именно эта информация.


    Что и когда публиковали


    2006


    В самом начале Хабра публикаций было не так много, как сейчас, а картинок в них — ещё меньше. Всего в 2006 году (начиная с 05.06.2006) в перечисленных хабах был опубликован 221 пост. 53 из этих постов содержат всего 75 изображений. Максимум изображений (10 штук) в публикации "Десять гаджетов, которые изменили мир". 50 рисунков уже находятся на Habrastorage. Ещё 25 потеряно. Все они уникальны и не повторяются.


    Интересный факт: Два из изображений ведут на сам Хабр, но при этом недоступны уже давно. Это изображения http://www.habrahabr.ru/tmp/sup_blogs_preview.gif и http://www.habrahabr.ru/tmp/upgrade-chart.gif.

    Итак, за 2006 год потеряно 33.3% изображений в публикациях.


    2007


    В 2007 количество публикаций существенно увеличилось, как и количество изображений — было опубликовано 1 713 постов. 599 Публикаций содержат 1 467 изображений. На Habrastorage перенесено 1 229 изображений, а 238 потеряно (16.2%).


    Интересный факт: Публикация Топ 100 Mac OS приложений содержит максимум за 2007 год — 100 изображений и не содержит авторского текста.

    Кроме того, часть из этих потерянных изображений повторяется. Так, одно из них встречается 6 раз в одной публикации с всего 6 картинками. Также 21 раз повторяется изображение "Up.gif", 16 — "Down.gif" и 8 — "Same.gif" с одного домена. И все эти 45 изображений из одного поста, в котором всего 47 картинок.


    Остаётся 191 уникальный < img >.


    2008


    Поскольку год от года количество публикаций на Хабре лишь увеличивался, в 2008 наш детектив рассмотрит 2 520 публикаций, а также 2 969 изображений. Заметили, именно в 2008 количество изображений в публикациях наконец-то превышает количество публикаций. При этом всего 1 207 постов содержат картинки, а максимум в 42 элемента графической информации представлен в публикации "История праздничных логотипов Google". 1 943 изображения уже сохранены на Habrastorage, а 1 026 потеряны (34.6%).


    Интересный факт: Самое неожиданное изображение (а точнее, проблема в оформлении публикации) находится здесь. В результате, Хабр пытается загрузить изображение по http://#/.


    Рис. 1. Общая статистика рассмотренного


    Можно ли восстановить хоть что-то?


    Частичное восстановление не составляет особого труда. К примеру, самым "ленивым" способом будет использование Internet Archive в попытке загрузить сохранённые страницы публикаций. Кроме того, можно попробовать "найти" в архиве сами изображения по прямым ссылкам.


    Lifehack: Проверять наличие изображений нужно во всех версиях страницы в архиве, не только самой старой и самой новой.

    К сожалению, хотя этот метод и работает в части случаев, восстановить хотя бы половину картинок так сложно. Потому следующий шаг — проверка кросспостинга, оригиналов переводов и, естественно, архивных копий оригинальных страниц.


    К тому же, можно попробовать найти желаемые изображения с помощью одного из неофициальных зеркал Хабра, которые когда-то работали и всё ещё хранят часть скопированной информации.


    Последний и самый сложный вариант — использование поисковых систем. Если точно известно, что должно быть на изображении (есть описание и контекст), есть шанс найти файлы с таким же названием, если они когда-то кем-то были скопированы на другой ресурс.


    Естественно, каждый следующий шаг увеличивает время поиска нелинейно.


    Что удалось найти


    Возможно, вас не сильно впечатлит количество найденных на данный момент изображений — их 300 (содержатся в 140 публикациях от 81 автора). Если учесть число "потеряшек" (1 242), то результат составляет около 24.2%. Почему пропавших изображений стало меньше, чем было? Из рассмотрения удалены все бесполезные изображения (вроде счётчиков просмотров) и несуществующие изображения (вроде уже упомянутого http://#/, а также http://fig.jpg/ и т.д.).


    Как вышло такое круглое число? Дело в том, что примерно на 300 закончились сутки поисков. Вначале, я собирался дойти до 333, но и 300 выглядят вполне неплохо. К тому же, на данный момент совсем непроверенными осталось около 33% всех "жертв поиска".



    Рис. 2. Текущие результаты поисков


    Все найденные изображение (кроме одного .bmp, с ним было бы 301) загружены на hsto.org, а ссылки на них и публикации, а также индексы изображений в них приведены в следующем разделе.


    Результаты


    Итак, под спойлером приведены успешно найденные изображения, а также id публикаций, индекс рисунка внутри текста публикации (начиная с 1, не с 0) и автор публикации. Если вы — автор упомянутой публикаций, а найденные рисунки корректны, исправьте, пожалуйста, свои посты. Спасибо!


    Кстати, некоторые изображения на самом деле всё ещё доступны для просмотра в публикациях, однако не перенесены на Habrastorage, а потому в какой-то момент тоже могут стать недоступными.


    300 картинок
    Автор ID публикации Индексы и ссылки Пример
    0x62ash 27149 1
    0xa8 11105 1
    2Bad 607 1
    1097 1
    1106 1, 2, 3, 5, 24
    13836 2
    4eese 30820 1, 2, 3, 5
    8cinq 41853 1
    46498 1
    Adam_B 12582 1
    ainu 39501 1
    alardus 2628 1
    Alaska 23447 1, 2
    aleks_raiden 24479 2
    30594 3
    39037 1
    40312 1, 2, 3, 4
    44152 1, 2, 3
    46294 1
    46741 1
    47782 1, 2, 3, 4, 5
    alfsoft 42782 1, 2, 3, 4, 5
    alizar 37779 1, 2
    altblog 44677 1
    arestov 37921 1
    artch 19726 1
    badlittleduck 16292 1, 2, 3, 4, 5
    Barkov 26335 1
    BBSoD 8505 1
    bO_oblik 22150 1, 2, 3, 4, 5
    22186 1
    22215 1
    22322 1, 2, 3, 4, 5, 6
    22334 1, 2
    22375 1, 2, 3
    22510 1, 2
    22614 1
    22836 1, 2
    26181 1, 2, 3, 4, 6
    28196 1, 2, 3, 4, 5, 6, 7, 8
    29706 1, 2, 3, 4
    31490 1, 2, 3, 4
    36713 1
    37180 1
    37249 1
    37306 1, 2
    38013 1
    38389 1, 2
    41104 1, 2
    41647 1
    41821 1, 2
    chisto_v 12783 1
    chulak 45783 1, 2, 3, 4, 5, 6, 7
    Cosss 31069 1
    CurlyBrace 11010 1
    11941 1
    14157 1
    37303 1
    dreikanter 31320 1, 2, 4
    entze 40767 1
    Fenniks 20843 2
    23902 1
    39109 1
    firstbyte 38314 1
    freetonik 26593 1
    frujo 40987 1
    garbuz 29694 1
    gorinich 12027 1
    Gravitality 28840 1
    href 46908 1, 2
    iljava 30902 2, 3
    Imposeren 26566 1
    invladis 42904 1
    Karlsson 8971 Down.gif, Same.gif, tpci_trends.png, Up.gif
    31042 1
    31050 1
    31141 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
    Klaus 15775 1, 2, 3, 4, 5, 6, 7, 8
    Lain_13 16891 2
    le0pard 38391 1
    LukaSafonov 43537 1
    meako 26705 1
    Midgard 31419 2, 3, 4
    Mio 396 1
    753 1
    936 1
    mozaic 744 1
    Mr_Floppy 28343 1
    nil 44476 1
    officer 110 1
    oleg_bunin 7207 1
    7226 1
    8679 1
    12768 1
    olegafx 43934 1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19
    ostrovityanin 37146 2, 3
    ponomar 14141 1
    porchini 21850 1, 2
    Pure_BY 8416 1
    RAF 851 1, 2
    ramber 43693 1
    rost 44380 1
    ruskar 42578 3, 5, 8
    saintd 702 1
    SamDark 30104 1
    Scala 37804 4
    Shapelez 23260 1
    44379 1, 2
    46113 1
    46599 1
    47536 1
    slaff 8134 1, 2
    smartov 17160 3
    smitana 30375 1
    spanasik 44755 17
    spiritus_sancti 41129 1, 2
    SummerDream 3801 1
    sunnybear 31211 1, 2
    Switch 9095 1
    Taoorus 37507 1
    Thoggen 38733 1
    45024 1
    45170 1
    tsepelev 36611 1
    VadimUA 46922 1
    vitol 26073 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
    30171 1, 2, 3
    XaocCPS 40036 1
    284390 1
    284392 1
    284394 1
    284396 1
    yaneblog 39007 1, 6
    40621 3
    yesutin 9453 1
    9645 1
    31078 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
    yshilyaev 5556 1, 2, 3
    Zada 31123 2
    Zigzag 15492 1

    Вместо заключения


    Возможно, кто-то посчитает, что восстановление такой устаревшей информации не имеет никакого смысла. А кроме того, часть из найденных изображений были бессмысленны и при их публикации. Несомненно, так и есть.


    Любая информация важна. Как минимум, с точки зрения исторического анализа. Не говоря уже о том, что в некоторых авторских материалах она имеет ключевую роль. Да, на данный момент Хабру нет и 15 лет и некоторые из источников всё ещё доступны, но со временем их будет становиться всё меньше и меньше, а потому стоит задуматься заранее, останется ли что-то на потом, либо же будет вечное "изображение не доступно".


    Ну и не стоит забывать, что заглушки недоступных картинок просто раздражают. Конечно, мало кто будет читать "какое-то старьё", но и такие люди найдутся. Потому, раз эти публикации на Хабре всё ещё есть, то и их содержание должно быть как можно более полным.


    К сожалению, пока Habrastorage не поддерживает загрузку напрямую для всех форматов изображений, но может это когда-нибудь и будет исправлено.


    Последняя проблема, которую хочется упомянуть, и о которой вы наверняка подумали, "а что, если автор уже давно не пользуется Хабром и ему не интересно исправлять старьё?" У меня этот вопрос в голове возникал и не раз, но решение здесь не так и сложно. Старые публикации всегда может исправить НЛО в лице модераторов (вы ведь можете, Exosphere?) или администрации (Boomburum может выдать кому-то задание).


    А что думаете вы, стоит пытаться восстановить хотя бы что-то?


    На сегодня всё. Спасибо за внимание и да загрузятся все ваши изображения на Habrastorage без проблем! Пусть не будет такого





    P.S. Если вы нашли опечатки или ошибки в тексте, пожалуйста, сообщите мне. Это можно сделать выделив часть текста и нажав "Ctrl / ⌘ + Enter", если у вас есть Ctrl / ⌘, либо через личные сообщения. Если же оба варианта недоступны, напишите об ошибках в комментариях. Спасибо!


    P.P.S. Возможно, вам будут интересны также другие мои исследования Хабра или вы хотите предложить свою тему для следующей публикации, а может даже новый цикл публикаций.


    Где найти список и как внести предложение

    Всю информацию можно найти в специальном репозитории Хабра-детектива. Там же можно узнать, какие предложения уже были озвучены, а что уже находится в работе.


    Кроме того, вы можете упомянуть меня (написав VaskivskyiYe) в комментариях к публикации, которая кажется вам интересной для исследования или анализа.

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 26

    • UFO just landed and posted this here
        +2
        прилепленные картинки из комментов жаль
        • UFO just landed and posted this here
            0

            Изображения публикаций сейчас загружаются со сторонних ресурсов автоматически — даже при сохранении черновика (что лично я пользую для загрузки SVG). Правда, у этой функции есть ограничения. Но даже при этом для авторов есть специальная напоминалка, где сказано про Habrastorage:


            напоминалка

            image


            А вот для комментариев когда-то (вроде?) обещали добавить кнопку загрузки на hsto, но пока не сделали.


            Ограничения автоматической загрузки в публикациях
            • не загружает картинки с ссылками по https, если на другом сервере проблемы с сертификатом;
            • не загружает рисунки с некоторых файлохранилищ и ресурсов, которые блокируют автоматическую выгрузку;
            • не меняет ссылки в авторской версии публикации (ту, которую редактируешь), а потому если не менять их вручную и несколько раз пересохранять статью с правками, то каждый раз изображения снова загружаются;
            • UFO just landed and posted this here
            +2
            А еще можно написать авторам со сломанными картинками в публикациях и предложить им поправить посты. Ведь если пост действительно ценен, да и писался не один день, то картинка вполне могла сохранится у автора на диске.
              +1
              Всегда думал, что это скорее вопрос авторских прав.
              Если в статью вставляется ссылка на изображение извне, то хоть это и немного скользкий момент, но незаконное копирование информации как бы не происходит, просто автор ссылается на первоисточник.
              А если все эти картинки просто складировать к себе, и уже потом распространять — то совсем другое дело?
                0

                Я не знаю, но мне кажется
                Вставлять картинку с src="чужой ресурс" можно только если вам это разрешено. Не думаю, что есть вариант "можно показать, но нельзя хранить у себя". Либо нарушаете права, либо нет. Как раз, во многих странах нарушением является только распространение информации, а не сохранение.


                В любом случае, когда речь идёт об авторских правах, то всегда нужно проверять, можно ли что-то публиковать. К примеру, почти со всех новостных ресурсов можно брать материалы с указанием авторства (но опять же стоит проверять). И желательно всегда указывать автора и источник, даже если лицензия этого не требует (просто потому, что это правило хорошего тона).


                Насколько мне известно, пока вы просто "архивируете информацию", вы не нарушаете ничьи права (если вам прямо не запрещено что-то сохранять). Потому и существуют ресурсы вроде Web Archive.


                P.S. От себя могу сказать, по возможности лучше использовать свои собственные изображения везде, где это возможно. Тогда точно будет проще

              • UFO just landed and posted this here
                  0

                  К сожалению, не всегда этот процесс проходит на 100% успешно. Я чуть выше уже приводил ограничения. Они такие:


                  • не загружает картинки с ссылками по https, если на другом сервере проблемы с сертификатом;
                  • не загружает рисунки с некоторых файлохранилищ и ресурсов, которые блокируют автоматическую выгрузку;
                  • не меняет ссылки в авторской версии публикации (ту, которую редактируешь), а потому если не менять их вручную и несколько раз пересохранять статью с правками, то каждый раз изображения снова загружаются.

                  Может, есть и другие, я не проверял все возможности

                  • UFO just landed and posted this here
                  +3
                  VaskivskyiYe, огромное спасибо за ваш труд и за то, что призвали меня. Исправил публикацию, пошел искать недостающие картинки на старых жестких дисках для других своих более-менее популярных в свое время топиков.
                    +2

                    Спасибо, не знал за https://hsto.org/

                      +4

                      Я помню публиковал первую статью, имея карму -1 кажется. И хотел в ней кое-что быстро поправить, но сработал автомат "пользователям с отрицательной кармой нельзя редактировать публикацию".
                      Так-что как минимум, для исправления ссылок надо ещё авторам с отрицательной кармой вернуть эту возможность. Сейчас не знаю как механика работает, в отрицательную карму не хочется залазить, трудно выбраться )

                      • UFO just landed and posted this here
                          –2
                          Вообще эта ситуация с кармой выглядит очень странно, особенно для новичков. Никак не понять от кого и за что это пришло, если учитывать, что рейтинг комментариев не отрицательный.
                          Я считаю, что администрации стоит с этим что-то сделать. Как минимум убрать анонимность (комментарий за что и ник автора)
                            +2
                            Это уже миллион раз обсуждалось тут, писались простыни почему разделение кармы и рейтинга это плохо. Но хозяевам хабра либо пофиг, либо у них свое мнение.
                            А анонимность это хорошо на самом деле, так как иначе тут же вспыхивают кармические войны: «Ах ты редиска мне минус поставил? Нна тебе минус в ответ, и друзей сейчас своих позову, они тебе тоже минусов накидают»
                              +2

                              4pda живёт с открытой кармой, не видел, чтобы там были войны

                                +3
                                Возможно, анонимность и хорошо, но вот отсутствие инфы о том, за что тебе прилетела такая радость сводит весь воспитательный эффект к нулю. Вот написал за час десять сообщений, пришло -10 кармы, и какой вывод из этого надо сделать? Или еще веселее, за одно сообщение насыпали -10, за другое +10, в итоге ты изменений вообще не видишь.
                          +4
                          Поменял вторую картинку, но тут обнаружилось кое-что хуже потерянной картинки. Дело в том, что в той моей статье не 2 картинки потерялось, а 21! Как оказалось Хабр с тех пор стал требовательным к закрытию тэга li (который у меня не был закрыт ни разу). В случае нескольких списков с незакрытым тэгом li форматирование ломается и текст/таблицы не отображаются. Так что на Хабре теперь есть ещё и такие вот рваные статьи с поехавшим форматированием. Благо их восстановить проще, чем картинки, так-как текст остался. Просто не отображается.
                            +1

                            На Хабре, на самом деле, много старых публикаций, в которых проблемы с форматированием. Или просто форматирование на данном этапе выглядит странно (к примеру, раньше не было всех этих < code > и всего такого, потому пользователи публиковали код просто в качестве цитат. А потом отображение цитат поменялось и теперь там непонятно что, вроде примера из статьи с картинкой "http:// fig.jpg", которая на самом деле часть кода и не должна быть картинкой.


                            Я подумывал о том, чтобы создать проект по восстановлению таких старых публикаций. Без претензии на что угодно. Просто GitHub со страницами публикаций с markdown или html разметкой современного Хабра. Если автор захочет, он может загрузить "обновлённую версию" на Хабр. Если его тут уже много лет не было, то может администрация посчитает целесообразным сделать это. Просто чтобы Хабр выглядел прилично, а не оставался с всё большим числом огрызков вместо публикаций.


                            Но я так и не уверен, нужна ли Хабру такая "польза" или это просто бесполезная идея

                            +1
                            С картинками вроде проблем нет. Но вот ссылки на видосики с ютуба периодически исчезають! Может для хабра авторов сделать ресурс типа хабрастора, для видео?
                              0

                              Мне кажется, авторы публикаций выкладывают не так много видео созданных лично, а с любыми другими будут проблемы с точки зрения авторских прав. Чьё-то видео на YouTube не то же самое, что картинка с новостного портала. Если последние можно распространять почти во всех случаях с просто указанием авторства, то для видео нужно разрешение автора

                                +1
                                Я свои видео имею в виду (у меня почти в каждом посте есть). Не знаю как в деталях, но ютуб трет их у себя в итоге.
                              +3
                              Хабра сделала эту функцию автоматической — каждое изображение, которое встречается в публикации, автоматически загружается в хранилище и оттуда не пропадёт

                              Вот это для меня новость)) Всегда сам в ручную загружаю, словно школьник по указке
                                +1
                                Спасибо за колоссальный объем проделанной работы! Всегда с почтением отношусь такому кропотливому труду. Сейчас хотелось бы какой-то реакции администрации. В идеале конечно было бы замечательно, если бы администрация проявила заинтересованность и дала временные права на правку статей, таким как автор этой статьи. Тогда можно было б объединиться всем неравнодушным и за пару недель помочь редакторам пофиксить ВСЕ возможные статьи.

                                Only users with full accounts can post comments. Log in, please.