Как стать автором
Обновить

Офисное МФУ – не только бесплатный принтер

Время на прочтение 2 мин
Количество просмотров 16K
Блог компании Content AI
Во многих компаниях вместо маленьких персональных принтеров стоят так называемые многофункциональные устройства:

В таком ящике массой несколько десятков килограмм объединены быстрый принтер и сканер, часто на сканере есть автоподатчик.

Обычно сотрудники используют следующие функции хитрых девайсов:
  • Печать макулатуры раздаточных материалов перед совещаниями
  • Копирование документов для получения визы/загранпаспорта/займа
  • Копирование материалов перед занятием по иностранному языку
  • Печать рефератов/курсовых/дипломов
  • Другие аналогичные способы удвоения энтропии и/или ВВП


Больше ничего не приходит на ум? Тогда пройдёмте под кат!
пройдёмте под кат!
Всего голосов 71: ↑46 и ↓25 +21
Комментарии 54

Как научить Windows Search искать информацию в картинках

Время на прочтение 2 мин
Количество просмотров 7.1K
Блог компании Content AI

Некоторое время назад мы уже писали об одном из вариантов использования ABBYY Recognition Server, сегодня расскажем вам ещё об одном. Все знают виляющую хвостом собаку, которая появляется в Windows XP при нажатии F3. За ней скрывается удобная поисковая служба Windows Search, позволяющая находить затерявшиеся на компьютере файлы по названиям, а иногда и по содержимому. Поиск по содержимому в Windows по умолчанию поддержан только для файлов текстовых форматов.

Недавно мы выпустили новый продукт ABBYY Recognition Server IFilter – специальное дополнение к Windows Search, которое помогает этому поисковому сервису индексировать файлы графических форматов – TIFF, JPEG, PDF и др., хранящиеся на компьютере, чтобы потом можно было легко находить их с помощью полнотекстового поиска. Для извлечения текста из документов-изображений задействуется ABBYY Recognition Server, установленный в корпоративной сети.

Читать дальше →
Всего голосов 37: ↑25 и ↓12 +13
Комментарии 28

Свой Google Search – теперь и по сканам документов

Время на прочтение 2 мин
Количество просмотров 7.3K
Блог компании Content AI
Как сделать документы на серверах компании доступными для полнотекстового поиска и при этом сохранить их конфиденциальными? Как получить функциональность Google Search, не вынося сор из избы оставив документы в пределах сети компании? Корпоративный поиск – еще один быстрорастущий вкусный пирог.

Крохотная малоизвестная компания Google предлагает решение в виде красивой желтой коробки для установки в стандартную 19-дюймовую стойку – Google Search Appliance.

Схема следующая:
  • заключаете договор
  • cтавите у себя желтую коробку
  • назначаете ей IP-адрес (доменное имя тоже не повредит)
  • коробка обходит и индексирует документы в сети
  • каждый, кто зайдет браузером по тому IP-адресу, видит точно такую же страницу, как на www.google.com, – там можно давать такие же запросы, так же получать результаты
  • ???
  • СЧАСТЬЕ

Тот же привычный поиск (соответственно, минимум усилий на обучение сотрудников), и документы не покидают сеть компании. Существенное ограничение – файлы изображений в файловых хранилищах (например, сканы документов) для поиска недоступны – GSA не может извлечь из них текст. Хьюстон, у нас проблема.
Читать дальше →
Всего голосов 31: ↑23 и ↓8 +15
Комментарии 13

ABBYY Recognition Server и современное искусство

Время на прочтение 2 мин
Количество просмотров 8K
Блог компании Content AI
image
Всё оригинальное – абсолютно внезапно.
Однажды голландского дизайнера-экспериментатора Саймона Хейденса посетила муза современного искусства. А потом он позвонил в ABBYY и сказал, что для создания интерьера «Кафе-Эспрессо» ему очень нужен наш продукт – тот самый, который «предназначен для потокового ввода форм и организации электронного архива в компаниях» . О нестандартном использовании ABBYY Recognition Server читайте под катом.

Читать дальше →
Всего голосов 38: ↑34 и ↓4 +30
Комментарии 25

ABBYY Recognition Server на службе ботаников Её Величества

Время на прочтение 2 мин
Количество просмотров 8.2K
Блог компании Content AI
image
Королевский ботанический сад Эдинбурга (КБСЭ) вполне можно назвать флористической MI6 – его сотрудники выращивают и изучают растения со всего света. За 300 лет внешней «растительной» разведки КБСЭ изучил две трети мировой флоры и составил поистине уникальную ботаническую коллекцию, с которой ученые-флористы и ботаники-энтузиасты могли работать только в Эдинбурге.

Недавно руководство ботанического сада решило оцифровать и выложить в Интернет разведданные о 3 миллионах растений. Ботаникам потребовалось автоматизированное решение для потокового ввода документов и создания электронного архива, которое легко масштабируется и отличается высокой производительностью. По рекомендациям Национальной библиотеки Великобритании выбор был сделан в пользу ABBYY Recognition Server.

Читать дальше →
Всего голосов 51: ↑49 и ↓2 +47
Комментарии 9

От памфлетов до биллей: библиотека Хартли выходит в Сеть

Время на прочтение 3 мин
Количество просмотров 5.7K
Блог компании Content AI
Уже не первый год в Великобритании проходит грандиозная программа по оцифровке архивов университетов и крупных библиотек с помощью современных технологий. Её цель – перевести информацию в удобный для пользователя электронный вид и сделать доступной для всех желающих. На подобный подвиг образовательные институты вдохновляет (в том числе и финансово) неправительственная общественная организация «Комитет объединённых информационных систем» (Joint Information Systems Committee, JISC).


И весьма удачно: в прошлом году к этой программе присоединилась библиотека Хартли Саутгемптонского университета, одна из лучших научных библиотек страны. Она и задачу себе поставила грандиозную: оцифровать всё что можно, в темпе presto-скоро (полмиллиона страниц в год) – и дать это людям. Чтобы presto получилось именно presto, а не каким-нибудь adagio, Хартли воспользовалась ABBYY Recognition Server’ом, решением для автоматического распознавания документов в больших объёмах. Под катом – технические подробности и немного плюшек.
Читать дальше →
Всего голосов 31: ↑30 и ↓1 +29
Комментарии 4

«Весь Толстой в один клик»: как мы это делали

Время на прочтение 8 мин
Количество просмотров 24K
Блог компании Content AI Обработка изображений *


Некоторое время назад мы организовали оцифровку 90-томного собрания сочинений Льва Николаевича Толстого, в этом нам помогали более 3 тысяч волонтеров. Публикаций об этом краудсорсинговом проекте было много, но ни одна из них не касалась технической части – именно о ней и пойдет речь в этой статье.

Итак, перед нами стояла задача перевести в форматы электронных книг (ePub, fb2, html, mobi), а также в PDF с текстовым слоем самое полное собрание сочинений Толстого. Оно выпускалось в течение 30 лет: с 1928 по 1958 год, каждый том выходил тиражом 5 тыс. экземпляров. До выпуска электронного издания это собрание сочинений не переиздавалось и уже стало труднодоступным раритетом. В 90-томник входят: художественные произведения (1–45 тома), дневники и записные книжки (46–58 тома), письма (59–90 тома). Был ещё секретный 91-й том, который состоял целиком из указателей и поэтому доставил нашим редакторам много бессонных ночей поводов проявить профессионализм. Конечно, многие творения классика существовали в электронном виде и раньше, но далеко не все.
Читать дальше →
Всего голосов 67: ↑66 и ↓1 +65
Комментарии 17

Готическое распознавание: как мы помогали оцифровывать Национальную библиотеку Латвии

Время на прочтение 4 мин
Количество просмотров 12K
Блог компании Content AI Обработка изображений *


Сегодня мы хотим рассказать, как оцифровывали издания Национальной библиотеки Латвии. Если вы следите за нашим блогом, вы наверняка читали, как наши технологии помогают оцифровать литературное наследие разных библиотек, а также статьи, посвященные отдельным проектам — оцифровке в Сахалинской библиотеке, королевском ботаническом саду Эдинбурга и библиотеке Хартли. Сегодня история о том, как это было в Риге. Итак, Национальная библиотека Латвии – крупнейшая в стране, основана в 1919 году, обладает 4,5-миллионным собранием книг и документов, в том числе на латышском языке в уникальном готическом написании.
Читать дальше →
Всего голосов 40: ↑39 и ↓1 +38
Комментарии 21