Internet Archive закачает на Flickr более 14 млн свободных исторических изображений



    Один из работников Internet Archive разработал программу для автоматического извлечения иллюстраций из миллионов книг в процессе OCR-сканирования, которое сейчас осуществляет Internet Archive. Калев Литару (Kalev Leetaru) использовал существующий модуль распознавания текста: тот сначала определяет границы иллюстраций, чтобы отбросить иллюстрации перед OCR. Но зачем материалу пропадать?

    Все извлечённые иллюстрации были выровнены, кадрированы, очищены и закачаны на фотохостинг Flickr с сопровождающим текстом из книги. Таким образом, возможен полнотекстовый поиск по архиву иллюстраций Internet Archive Book Images, которые находятся в общественном достоянии.

    Всего на Flickr закачают 14 млн картинок (на данный момент закачано 2,6 млн).



    Галерея картинок из старых книг — очень увлекательное дело. Здесь можно найти и пейзажи, и иллюстрации по кулинарному делу, и ноты, и картинки из медицинских справочников, и старые карты. Каталог иллюстраций приглашает к своеобразному «путешествию во времени»: введите какой-нибудь термин (телефон, самолёт) — и увидите, как эта вещь выглядела раньше.





    Многие картинки — это какие-то странные непонятные объекты из прошлого. Без описания и не поймёшь, что это такое.



    Наверняка редакторы Википедии найдут подходящий иллюстративный материал, чтобы пополнить многие исторические статьи.

    Для каждой иллюстрации указано название книги, год её издания и страница, на которой встретилась иллюстрация. Есть ссылка, чтобы прочитать книгу в онлайне (все они опубликованы на сайте Internet Archive). В рамках этого проекта оцифровано уже 600 млн страниц.

    Любой желающий может делать с этими изображениями что угодно, включая использование в некоммерческих или коммерческих целях, повторную публикацию, редактирование и т.д.
    Поделиться публикацией

    Похожие публикации

    Комментарии 24
      –1
      Я что-то не понял, они вручную выровняли, кадрировали, очистили и сопроводили текстом 14 млн фотографий? Мне казалось, сделать это автоматически чрезвычайно сложно, а вручную, чрезвычайно трудозатратно.
        +3
        Автоматически конечно. Выровнять/кадрировать несложно, не уверен что подразумевается под «очистили», а текст они и так OCRят для своей исходной задачи, так что просто прилепили текст с той же страницы к картинке.
        +2
        Там только 2.5 мил. Откуда 14, или ещё не всё выложили?
          +3
          Скорей всего понемногу добавляют. Сейчас туда зашел и там ~2,6 млн.
        • НЛО прилетело и опубликовало эту надпись здесь
            +1
            О, а чем бы их оттуда одним махом скачать в оригинальных разрешениях?
            • НЛО прилетело и опубликовало эту надпись здесь
            +2
            Без описания и не поймёшь, что это такое
            Последнее фото — что же это? А то ночью не засну.
            • НЛО прилетело и опубликовало эту надпись здесь
                +5
                Что-то онкологические судя по всему. Похоже на опухоль кожи эпителиального происхождения. В частности видны участки распада опухоли из-за нехватки питания. Опухоль растут быстрее, чем сосуды, которые её питают.
                  0
                  Не совсем. Я ниже привёл ссылку. Это келоид.
                    0
                    Все же скорее опухоль.
                    Характерно, что келоидные рубцы практически никогда не изъязвляются.

                    На снимке видны участки распада. Плюс, в приведенном вами описании:
                    keloid growth or tumor
                      0
                      Я воспринял это «or» как признак синонимичности (в представлении автора книги) понятий келоид и опухоль в данном контексте. Но, возможно, вы правы.
                        +2
                        Трудно что-то конкретное сказать по подобному снимку)
                  0
                  Находил я там картинки с разрезом на животе, ничего о женских органах и рядом нет.
                  Скорее всего это демонстрация как зашивать операционный разрез живота.
                  Страницы 22-26 той книги, а ссылку на неё уже дали ниже.
                  • НЛО прилетело и опубликовало эту надпись здесь
                    +1
                    Вилки это ранорасширители, вероятно.
                    image
                    Подробнее можете посмотреть на Википедии.
                    0
                    Вот описание из оригинальной книги:
                    Postoperative keloid growth or tumor following an operation for abscess of right kidney

                    Кстати, номер страницы на flickr указан неверно (или по другому изданию).
                      +1
                      Скорее всего это номер страницы в «файле», который (номер) может отличаться от нумерации в книге.
                      Там в ссылке перед номером страницы присутствует символ n, который, судя по всему, задает номер страницы в файле.
                      Без этого символа открывается страница, которая примерно соответствует нумерации в самой книге.
                    0
                    Ещё бы они «Internet Archive» в углу не ставили и вообще было бы для Википедии замечательно (там это по крайней мере не приветствуется и уотэрмарки убирают путём Фотошопа).
                    • НЛО прилетело и опубликовало эту надпись здесь
                      +2
                      Должен заметить, что это далеко не первый, но один из лучших импортов графических изображений в раздел Commons на Flickr.
                      Большинство музеев и архивов не могут или не хотят по каким-то причинам расставлять тэги и заполнять описания. Иногда там действительно совершенно непонятно что снято или нарисовано, потому что подпись имеет содержание вроде «какие-то солдаты», «дом, предположительно — 19й век».
                      Правда, есть неприятная сторона самого Flickr — поиск там крайне дрянной, если не использовать API напрямую.
                        +1
                        Как они так обрезают? Есть же явная граница.

                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                        Самое читаемое