Pull to refresh

Как «Архив Интернета» оцифровывает полвека записей с грампластинок

Reading time 2 min
Views 5.8K
Old hardware Sound


Некоммерческая организация «Архив Интернета» поделилась информацией о том, как её сотрудникам удалось довести до совершенства технологию оцифровки старых грамзаписей с шеллаковых пластинок. Таким образом удалось оцифровать уже более 250 000 записей, и их количество постоянно растёт.

Речь идёт о грампластинках, изготовленных из шеллака — воскоподобного вещества, вырабатываемого тропическими насекомыми, обитающих в юго-восточной Азии. Способ тиражирования пластинок был придуман ещё в 1892 году, и сначала для этого использовался эбонит. Из-за своей дороговизны он вскоре был заменён шеллаком.

Такие пластинки пользовались популярностью до середины XX века. Однако высокая хрупкость шеллака заставляла производителей искать ему альтернативу. В итоге его заменили на винилит (сополимер винилхлорида и винилацетата). Новые грампластинки стали называть виниловыми, и они существуют до сих пор, а в последнее время даже переживают определённый подъём популярности.
Читать дальше →
Total votes 24: ↑23 and ↓1 +22
Comments 5

«Почта России» начнет оцифровывать письма и доставлять их в электронном виде

Reading time 2 min
Views 6.5K
IT systems testing *IT Infrastructure *IT-companies

«Почта России» предложит организациям новый сервис по оцифровке входящей бумажной корреспонденции. Все письма будут передавать адресатам в электронном виде. 

Читать далее
Total votes 19: ↑19 and ↓0 +19
Comments 35

Астрономы оцифровали 94 000 фотопластинок, снятых за последние 129 лет

Reading time 2 min
Views 705
Image processing *Popular science Astronomy

Университет Фридриха-Александра в Эрлангене и Нюрнберге оцифровал 40 000 своих астрономических фотопластин, а также 54 090 пластин из других источников. Самой старой из них 129 лет, и хотя с астрономической точки зрения эта цифра не кажется существенной, данные даже за этот «короткий» период времени ценны для наблюдения за изменчивостью звёзд, сообщает Universe Today.

Читать далее
Total votes 10: ↑9 and ↓1 +8
Comments 0

Первый выпуск нового сезона подкаста Х5 Data Therapy

Reading time 7 min
Views 209
X5 Tech corporate blog Big Data *Artificial Intelligence

Всем привет! Мы стартовали с новым сезоном нашего подкаста Data Therapy. Это подкаст о больших данных и технологиях, в которых они применяются. В диалоге с коллегами из X5 Tech и с нашими друзьями из самых известных компаний рынка обсуждаем лучшие практики применения Big Data в бизнесе, как большие данные уже влияют на нашу жизнь и почему это совсем не страшно. В первом выпуске мы говорим о том, в каких направлениях медицины и генетики цифру применяют чаще всего.

Читать далее
Rating 0
Comments 0

«Яндекс» оцифрует словари

Reading time 2 min
Views 481
Lumber room
«Яндекс», намереваясь пополнить базу сервиса «Яндекс.Словари», начинает масштабную программу оцифровки словарей и справочников. В рамках этой программы компания будет приобретать права на публикацию словарей и энциклопедий по разным отраслям знания. Потратить на это планируется около миллиона долларов в течение двух лет.

Проиндексированные книги будут собраны на сайте «Яндекс.Словари». Ссылки на словарные статьи станут появляться также при поиске с главной страницы портала. Поисковый запрос специально может быть начат со слов «что такое» или «кто такой» — в результатах поиска по вебу первыми будут ссылки на соответствующие статьи из энциклопедий.

Оцифровывает словари, по сообщению «Яндекса», партнер проекта – государственный центр по электронным информационным ресурсам ФГУП НТЦ «Информрегистр». Отбирает книги для оцифровки редакционный совет программы.

«Интернет — это уникальная справочная система, — говорит Аркадий Волож, генеральный директор компании «Яндекс». — Однако установить точность и достоверность размещенной в интернете информации часто бывает трудно. Цель нашей программы — добавить в общедоступную сеть выверенные и апробированные источники знания».

«Затея» компании радует Максима Мошкова, создателя крупнейшей в России электронной библиотеки Lib.Ru: «Особенно приятно, что оцифровкой словарей занимается «Информрегистр». Я видел, как они тотально и глубоко прорабатывали оцифровки собрания сочинений русских классиков. Недостижимый класс, огромная и очень дорогая работа. Если они на таком же уровне отработают и в этом проекте, останется только снять шляпу».

Из последних обновлений на «Яндекс.Словарях» — энциклопедия символов, словарь современных географических названий, философский словарь, справочник по джазу.

Всего служба содержит около 2 963 476 статей в 49 словарях и энциклопедиях. Александр Антопольский, доктор технических наук, считает, что программа ускорит движение в интернет издательств, большинство из которых сейчас предоставляет книги только на бумажном носителе.
Rating 0
Comments 0

Восточные манускрипты оцифруют

Reading time 2 min
Views 588
Lumber room
Не имеющий аналогов электронный каталог древних книг и рукописей из библиотеки восточного факультета Санкт-Петербургского госуниверситета, будет составлен в северной столице.
Читать дальше →
Rating 0
Comments 1

Сделай сам — приспособление для оцифровки диафильмов

Reading time 2 min
Views 21K
DIY
Необходимость создания подобного устройства появилась на кафедре у нас в университете. В закромах были найдены десятки абсолютно неиспользованных учебных диафильмов – по электронике, датчикам, технологии монтажа и т.д. Выбрасывать их рука не поднялась, а использовать диапроектор архаично, да и вследствие устаревания из диафильмов нужны не все кадры. Вполне резонный выход – диафильмы оцифровать, а преподаватели сами уже будут дергать где то целые слайды, а где то иллюстрации.

Читать дальше →
Total votes 110: ↑102 and ↓8 +94
Comments 54

Оцифровка 35мм фотопленки

Reading time 6 min
Views 226K
Photographic equipment
Sandbox
Доброго времени суток, наверно у каждого из нас имеется много старой пленки. Так вот недавно я решил взять и оцифровать ее, а заодно поделиться с вами, тем что у меня из этого вышло. Итак, в этой статье я хочу показать и рассказать как практически из подручных средств можно собрать домашнюю фото-лабораторию, в частности будет рассмотрено как оцифровывать: цветную, черно-белую позитивную и негативную пленку. Цель оцифровать более 1000 кадров. Требование качества-очень высокое. В конце статьи затрону оцифровку слайдов.

Если Вам все еще интересно добро пожаловать под кат.
Читать дальше →
Total votes 88: ↑84 and ↓4 +80
Comments 104

Мобильный захват изображений: одни лишь разговоры или нечто большее?

Reading time 3 min
Views 2.5K
ALEE Software corporate blog ECM *
Translation
imageОт переводчика. Предыдущая статья вызвала небольшую, но дискуссию. «Унылая статья ни о чем», — заявил в комментариях Арам Пахчанян (вице-президент, директор департамента продуктов для ввода данных компании ABBYY) и отметил, что все публикации о мобильном захвате по сути представляют собой много шума об очевидных вещах. Мы уважаем мнение оппонента, но вряд ли можем с ним согласиться.

Применение мобильных технологий для захвата и оцифровки информации открывает огромные перспективы. Еще недавно возможность отсканировать при помощи смартфона визитку и занести данные в корпоративный CRM многими воспринималась как экзотика. Сегодня это уже давно не воспринимается как нечто необычное. Идет работа по созданию приложений, распознающих снимки счетов, извлекающих из них данные и передающих в программу по управлению электронными платежами. Как будут развиваться мобильные технологии дальше? Какова будет сфера их применения? Как они будут сосуществовать с традиционными технологиями захвата?

В поисках ответа на эти вопросы специалисты нашей компании перевели пост из блога Джо Буделли, вице-президента по продажам компании ABBYY. Читателей мы приглашаем поразмышлять над вопросами, сформулированными автором в конце статьи, и высказать свое мнение в комментариях.


Читать дальше →
Total votes 16: ↑13 and ↓3 +10
Comments 3

Простыми словами о преобразовании Фурье

Level of difficulty Medium
Reading time 14 min
Views 992K
Mathematics *Data visualization *
Sandbox
Я полагаю что все в общих чертах знают о существовании такого замечательного математического инструмента как преобразование Фурье. Однако в ВУЗах его почему-то преподают настолько плохо, что понимают как это преобразование работает и как им правильно следует пользоваться сравнительно немного людей. Между тем математика данного преобразования на удивление красива, проста и изящна. Я предлагаю всем желающим узнать немного больше о преобразовании Фурье и близкой ему теме того как аналоговые сигналы удается эффективно превращать для вычислительной обработки в цифровые.

image (с) xkcd

Без использования сложных формул и матлаба я постараюсь ответить на следующие вопросы:
  • FT, DTF, DTFT — в чем отличия и как совершенно разные казалось бы формулы дают столь концептуально похожие результаты?
  • Как правильно интерпретировать результаты быстрого преобразования Фурье (FFT)
  • Что делать если дан сигнал из 179 сэмплов а БПФ требует на вход последовательность по длине равную степени двойки
  • Почему при попытке получить с помощью Фурье спектр синусоиды вместо ожидаемой одиночной “палки” на графике вылезает странная загогулина и что с этим можно сделать
  • Зачем перед АЦП и после ЦАП ставят аналоговые фильтры
  • Можно ли оцифровать АЦП сигнал с частотой выше половины частоты дискретизации (школьный ответ неверен, правильный ответ — можно)
  • Как по цифровой последовательности восстанавливают исходный сигнал


Я буду исходить из предположения что читатель понимает что такое интеграл, комплексное число (а так же его модуль и аргумент), свертка функций, плюс хотя бы “на пальцах” представляет себе что такое дельта-функция Дирака. Не знаете — не беда, прочитайте вышеприведенные ссылки. Под “произведением функций” в данном тексте я везде буду понимать “поточечное умножение”

Итак, приступим?
Total votes 203: ↑192 and ↓11 +181
Comments 188

Cognitive PDF/A – технология оцифровки текстовых документов для публикации в интернете и долговременного архивного хранения

Reading time 9 min
Views 14K
Cognitive Technologies corporate blog Algorithms *

Привет Хабр!


Мы продолжаем публикации о технологиях оптического распознавания (OCR, ICR) и понимания документов, разработанных специалистами компании Cognitive Technologies. Сегодня наш рассказ о технологиях оцифровки текстовых документов Cognitive PDF/A.

В бизнес-сфере достаточно часто приходится сканировать бумажные документы с целью последующей пересылки по электронной почте или архивного хранения. При качественном сканировании получившиеся изображения-образы зачастую оказываются достаточно большого размера. Например, документ формата А4, отсканированный в цветном режиме при разрешении 300 DPI, имеет размер порядка 25 Мб. Использование файлов таких больших размеров неэффективно в электронных архивах, поэтому все больший интерес обретают технологии сжатия получившихся электронных образов. Классические технологии сжатия изображений (JPEG, RLE, Deflate и т.п.) не применимы, так как в общем случае документы могут содержать как монохромный текст, так и полноцветные графические области. Алгоритмы сжатия изображений без потерь, результативные для монохромных текстов, неэффективны для полноцветной графики, в то время как сжатие с потерями демонстрирует высокие показатели для цветных изображений, однако сильно искажает текстовую информацию (Рис. 1). Поэтому обычно для сжатия изображений такого типа используют комбинированный подход.

image
Читать дальше →
Total votes 26: ↑17 and ↓9 +8
Comments 9

Распознавание гильоширных элементов на примере паспорта РФ

Reading time 7 min
Views 32K
Cognitive Technologies corporate blog Algorithms *
Recovery mode
Гильош – это специальная технология защиты банкнот, документов, ценных бумаг и других видов полиграфической продукции (билетов, акцизных марок, сертификатов и многих других документов государственного масштаба).

Защита документов обеспечивается путем нанесения на бланки сложных композиций различных гильоширных элементов. Гильоширный элемент представляет собой замысловатый рисунок из множества многократно пересекающихся тончайших кружевных линий (рисунок 1). Обычно такие элементы представлены разного рода защитными сетками, розеттами, бордюрами, виньетками и уголками. Гильош может быть как симметричным, так и асимметричным по своему дизайну.

Согласно существующим нормативам, гильоширные элементы должны занимать не менее 70% площади ценных бумаг.
Причем из этой площади большая часть должна содержать многоцветные гильоширные композиции.

Читать дальше →
Total votes 61: ↑57 and ↓4 +53
Comments 7

Оцифрована первая часть из 1 500 000 страниц древних манускриптов

Reading time 2 min
Views 37K
Copyright


Библиотека Ватикана и Оксфордский университет выложили в онлайн первую часть из полутора миллиона страниц древних манускриптов, которые планируется оцифровать в течение трёх лет. Коллекция состоит из трех частей: манускрипты Древней Греции, Израиля и печатные книги 15 века. Эти группы были выбраны исходя из их академического значения и количества документов в библиотеке.
Читать дальше →
Total votes 35: ↑33 and ↓2 +31
Comments 14

Internet Archive начал оцифровку 40 000 видеокассет VHS и Betamax

Reading time 2 min
Views 28K
Working with video *


Сотрудники организации Internet Archive приступили к долгому и изнурительному процессу по оцифровке и публикации в интернете содержимого 40 тыс. видеокассет в форматах VHS и Betamax. На кассетах — записи телевизионных передач, сделанные Мэрион Стоукс (Marion Stokes). 35 лет она записывала новостные программы MSNBC, Fox, CNN, CNBC и CSPAN по телевизору. Бывший библиотекарь чётко понимала важность своей работы: в её доме почти круглосуточно работали восемь видеомагнитофонов.

Специалисты Internet Archive были поражены, получив уникальный исторический материал в таком количестве.
Читать дальше →
Total votes 73: ↑71 and ↓2 +69
Comments 45

Любите ли вы их так сильно, чтобы посмотреть, что у них внутри?

Reading time 4 min
Views 11K
Корпорация ЭЛАР corporate blog Image processing *
Детьми мы «препарируем» свои игрушки, чтобы посмотреть, как они устроены. Когда вырастаем, у многих из нас привычка копнуть глубже переходит в пристальное «рассматривание» себя и себе подобных, и мы становимся психологами, хирургами или, на худой конец, самоедами. Еще мы готовы вглядываться бесконечно в объекты своей любви и интереса…
Сегодня мы предлагаем вам соединить нашу страсть к сканерам и вашу исследовательскую активность. Надеемся, вам понравится.

Итак, это скоростной документный сканер ЭЛАР СКАМАКС.
Читать дальше →
Total votes 26: ↑17 and ↓9 +8
Comments 9

Гармонические колебания

Reading time 10 min
Views 256K
Mathematics *Data visualization *
На хабре было несколько статей по преобразованию Фурье и о всяких красивостях типа Цифровой Обработки Сигналов (ЦОС), но неискушённому пользователю совершенно не понятно, зачем всё это нужно и где, а главное как это применить.


АЧХ шума.

Лично мне после прочтения этих статей (например, этой ) не стало понятно, что это и зачем оно нужно в реальной жизни, хотя было интересно и красиво.
Хочется не просто поглядеть красивые картинки, а так сказать, ощутить нутром, что и как работает. И я приведу конкретный пример с генерацией и обработкой звуковых файлов. Можно будет и послушать звук, и поглядеть его спектр, и понять, почему это так.
Статья не будет интересна тем, кто владеет теорией функций комплексной переменной, ЦОС и прочими страшными темами. Она скорее для любопытствующих, школьников, студентов и им сочувствующих :).
Читать дальше →
Total votes 116: ↑111 and ↓5 +106
Comments 50

Сканирование фотопленки при помощи DSLR

Reading time 6 min
Views 50K
Image processing *
Sandbox
Предисловие

В интернете я находил много статей на тему сканирования пленки при помощи DSLR. В них предлагались очень простые или очень громоздкие способы, но нектоторым вопросам не уделялось должного внимания. В этой статье я бы хотел рассказать о своих соображениях в деле сканирования пленки, чуть глубже погрузится в теорию, и рассмотреть самодельную установку для сканирования. На мой взгляд мне удалось сделать достаточно простую и недорогую установку, при использовании которой, можно получить максимум информации из пленки и минимизировать пост-обработку.

Зачем нужно?

Сканирование пленки нижеописанным образом позволит получить максимум информации из снимка, возможность настройки экспозиции, баланса белого, контраста и т.д. При сканировании пленки в фотосалоне, машина автоматически выбирает контраст, баланс белого, экспозицию, зачастую делая это не верно.
Читать дальше →
Total votes 50: ↑47 and ↓3 +44
Comments 53

Книги не бывают плоскими…

Reading time 8 min
Views 14K
Корпорация ЭЛАР corporate blog Image processing *
С технической точки зрения, книги – это самые плохие объекты для сканирования, и если бы они были изобретены в наши дни, то представляли бы собой бесконечно длинные свитки. Если бы так случилось, необходимости в планетарных сканерах не было бы вовсе.

Сегодня мы расскажем о характеристиках планетарных сканеров, — параметрах, определяющих и оправдывающих существование в этом мире данного типа оборудования. Планетарные сканеры созданы для бесконтактной высококачественной оцифровки самых разных оригиналов: сшитых и расшитых документов, документов с толстым корешком, ценных, ветхих; а также тканей, орденов, монет и т.п. Планетарный (проекционный) способ сканирования – это сканирование сверху вниз, так сказать, с головы.

Пристальный взгляд

Изнутри сканирующая «голова» выглядит так:

image

В ней находится один или несколько светочувствительных сенсоров, оптическая система с приводом настройки фокуса, контроллер управления. В отдельных моделях присутствует модуль лазерного дальномера и привод управления «следящей» системой освещения, а также «мозги». Однако, в сканере самое главное это все-таки не мозг, а «глаза».
Читать дальше →
Total votes 20: ↑15 and ↓5 +10
Comments 49

Основа системного бизнеса — базовая аналитика

Reading time 5 min
Views 5.5K
Product Management *Sales management *Personnel Management *
Recovery mode
Однажды человек ехал по автостраде на своей машине… Повсюду туман. Как говорится, ехал «на интуиции»… Ладно туман, так еще и машина без фар, спидометра, только колеса, руль и кузов… Бах! Стена, авария, ремонт, разбитые судьбы, расходы.

История фантастическая, не так ли? Тогда почему 90% компаний двигаются абсолютно также, вслепую? Рассчитывая только на интуицию и без понимания того, что происходит в компании на самом деле?

image

Многие founder'ы, предприниматели и стартаперы слышали про суть и пользу «оцифровки» бизнеса, видения ключевых показателей. Многие слышали и знают о RoiStat, SmallData, BigData и так далее.
Читать дальше →
Total votes 13: ↑10 and ↓3 +7
Comments 7

Программа для оцифровки графиков, чертежей, рисунков: алгоритмы проекта «Репетитор: математика»

Reading time 7 min
Views 13K
Trinity Digital & Баласс Group corporate blog Entertaining tasks Programming *Vector graphics *Mathematics *
Tutorial

Содержание


Вступительное слово
Принцип работы
Описание программы
Финальный код программы
Преимущества работы с оцифрованными функциями на примерах
Эпилог



Вступительное слово


В различных областях, связанных с наукой и образованием, инженерным делом встречается задача, связанная с получением данных с графиков, созданных в то время, когда еще не существовало цифровых носителей, или реальные данные, по которым созданы графики, были утеряны, или, наконец, график является финальной формой работы некоторых приборов, не выдающими набор координат точек в явном виде.

Для того, чтобы получить данные, нужно “оцифровать” такой график (или графический объект), другими словами, нужно получить набор абсцисс и ординат точек графика — далее над ними можно будет производить различные манипуляции: построить новый (качественный) график, производить вычисления, переведя его в новый формат (например, построив сплайн) и пр.

В проекте «Репетитор: математика» (почитайте статью на Хабрахабре — «Репетитор: математика» для подготовки к ЕГЭ и ВПР — от идеи до релиза. Рассказ об уникальном образовательном проекте) мы встретились с этой проблемой в двух основных видах:

  • “оцифровка” графика для того, чтобы сделать его соответствующим нашему стилю или просто сделать так, чтобы он выглядел прилично;
  • получение набора базовых точек для построения геометрических чертежей, гистограмм и пр. на основе авторского рисунка от руки (или с использованием простейших графических систем).

В этом посте приведен код созданной для этого функции graphicsDigitizing, а также кратко рассказывается о том, как она устроена. Также можно посмотреть как она работает вживую.
Total votes 8: ↑7 and ↓1 +6
Comments 2
1