Один из пользователей по имени Амр Эладави (Amr Eladawy) рассказал о сложностях, которые возникают у него при попытке забронировать билет на самолет. По словам мужчины, система не способна корректно отобразить его имя.
Пользователь поведал, что при заказе авиабилета, когда агент передает данные авиакомпании, его имя в системе отображается просто как литера А. Он пояснил, что проблема возникала неоднократно, с разными агентами и различными авиаперевозчиками.
Когда же мужчина сам бронирует билет на сайте авиакомпании, то на билете его имя отображается как ELADAWY/AMRMR.
Компания «Яндекс» выпустила масштабное обновление умной камеры, благодаря которой нейросеть научилась распознавать марку автомобилей, определять количество белков, жиров и углеводов в чипсах и решать уравнения. Об этом редакции «Хабра» рассказали в пресс-центре компании.
Google расширила возможности своего приложения «Объектив» в браузере Chrome. Теперь приложение может не только искать похожие изображения, но и распознавать на них текст. Распознанный текст можно скопировать в исходном виде или перевести с помощью онлайн-переводчика.
Сотрудники МГУ вместе с пермскими и немецкими коллегами перевели в цифровой формат тысячи рукописей о солнечной активности конца XIX — начала XX веков из обсерватории в Цюрихе. Для этого они создали нейросеть, способную с высокой точностью читать рукописные тексты.
Пресс-служба «Яндекса» рассказала Хабру, что умная камера в фирменном приложении теперь умеет распознавать текст. Пользователь может навести камеру на текст и скопировать его.
«Яндекс» научил нейросети расшифровывать архивные записи со сложной дореволюционной орфографией. Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 млн страниц исторических документов с текстовой расшифровкой, рассказали в компании.
Платформа личных финансов Финуслуги Московской биржи внедрила систему распознавания паспортов, разработанную российской AI-компанией Smart Engines.
Система Smart Engines распознает данные паспортов в неидеальных условиях, например: блики, недостаточное освещение, расположение документа под углом или в виде “книжечки”. Решение считывает основной разворот паспорта за 0,15 сек. и способно определять признаки подделки документов на фотокопиях документов для целей физической идентификации клиента на Финуслугах.
Исследователи из Microsoft представили мультимодальную модель Kosmos-1, которая способна анализировать изображения, решать визуальные головоломки, распознавать текст, проходить визуальные тесты IQ и понимать инструкции на естественном языке.
OpenAI представила новую модель ИИ для интерпретации изображений и текста GPT-4, которую компания назвала «последней вехой в своих усилиях по расширению масштабов глубокого обучения».
Сегодня наша команда официально запустила сервис Evernote на русском языке — www.evernote.com!
Не буду скрывать, мы внимательно отслеживали все упоминания о нашем детище на Хабрахабре, и рады, что многие уже успели оценить возможности «слона», хотя еще и на английском языке. Но поскольку развивался Evernote до последнего времени преимущественно в США, и в Рунете о нем пока знают немногие, имеет смысл рассказать подробнее. Рассказ и видео под катом.
Как известно, Google поставила перед собой отсканировать, распознать и проиндексировать все бумажные книги в мире, то есть всё знание человечества. Однако в реальности этот процесс продвигается не так быстро, как хотелось бы. Самый трудный этап — нормальное распознавание текста. Для программы OCR нужно чёткое изображение страницы без искажений. Все строчки на странице должны быть идеально ровными. На практике же книгу невозможно прижать к сканеру (во многих случаях страницы книги вообще нельзя трогать). Как бы то ни было, возникают характерные искривления по краям страниц. С ними борются программными методами, с разной степенью успешности.
Однако, компания Google придумала, как можно аппаратным способом помочь в решении этой проблемы. На прошлой неделе они получили патент на применение инфракрасных сенсоров при сканировании книг (патент США № 7508978). Суть идеи в том, что инфракрасная сетка позволяет составить трёхмерную модель искривления страницы, так что программа для выравнивания изображения получает чёткие координаты, как нужно преобразовать картинку.
Мы уже упоминали о том, что Evernote кое в чём выгодно отличается от человеческой памяти. Последняя с возрастом ухудшается, в то время как Evernote со временем учится «вспоминать» заметки все лучше и лучше за счет расширения функциональности поиска и появления других возможностей. Недавно этот тезис получил еще одно подтверждение: мы завершили переиндексацию текста в изображениях в старых заметках пользователей русскоязычной версии Evernote.
Вскоре после запуска локализованной версии в апреле некоторые пользователи жаловались на то, что на фотографиях и сканах, добавленных до официальной русификации, по-прежнему распознавался только английский текст. Сейчас это неудобство при поиске старых заметок с картинками разрешилось.
Теперь текст распознается во всех изображениях, которые были загружены до 1 мая 2009 года в аккаунты, созданные до 2 апреля 2009 (дата запуска русской версии). Всего было заново распознано около 50 000 изображений.
До сих пор все известные мне концепты книг для слепых представляли собой по большому счету специальное переиздание, в котором либо страницы отображаются шрифтом Брайля, либо текст озвучивается голосом. В общем, если считать книгу устройством, то дизайнеры всегда стремились создавать устройства новые. А вот команда китайцев в лице David Lee, Yuna Kim и Hansub Lee предложила нового ничего не изобретать, а модернизировать старое. В их концепте Haptic Reader книга остается набранной обычным шрифтом для зрячих. Новое – это только полупрозрачная закладка-сканер: кладешь ее на страницу и на гаджете появляются пупырышки Брайля.
Как сообщалось вчера, для Google Docs API начали тестировать новую фичу распознавания текстов, как в Evernote. То есть станет возможным просто сфотографировать или отсканировать документ, загрузить картинку в Google Docs — и документ появится там в виде нормального текста
Для активации OCR при загрузке документов через API нужно добавить параметр ocr=true.
В онлайне появилась работающая демо-версия (исходники будут позже). Поддерживаются файлы JPG, GIF и PNG размером до 10 МБ. Распознавание одной страницы текста занимает до 40 секунд (сегодня, очевидно, будет и дольше). Сервис работает с глюками, возможны ошибки.
Итак, мы собираемся написать программу на Delphi (я использую версию 6), способную перевести символы с картинки в текст. Задача довольно популярная в интернете, и на каждый пост «Хочу реализовать распознавание символов!!! Помогите» самые частые ответы «почитай в интернете» либо «не берись, используй файнридер» и тому подобное.
Я, как и многие другие, начал с изучения основных алгоритмов. Конечно, такие монстры как FineReader тратят на алгоритмическую составляющую огромные деньги, и их секретов нам не узнать, но прочей информации было найдено приличное количество, чтобы понять основные методы. Но начнем издалека.
Юсси Пакканен сообщил о выходе версии 1.0 системы оптического распознавания текстов Cuneiform Linux. В новой версии удалён некоторый код сомнительного лицензионного происхождения и исправлено множество ошибок.
Код Cuneiform Linux распространяется под упрощённой лицензией BSD и основан на коде системы CuneiForm, который был открыт компанией Cognitive Technologies в 2008 году.
Возможно каждый из нас переживал период в своей жизни который сопровождался активно оцифровкой аналогов материала. Я имею в виду необходимость работы с текстом из неоцифрованных источников. Имеется в виду не только проблема сканирования, но и так же множество материала который к сожалению доходит до конечного потребитель не совсем в пригодном для использования виде. И я думаю у каждого из нас очень часто в голове пробегали лестные мысли об распространителя книги в формате djvu или pdf в котором весь контент был представлен сугубо графически без возможности использование материалов для своей деятельности.
Все началось с необходимости в одном из приложений получать снимок произвольного окна и 3-4 раза в секунду распознавать несколько областей изображения с заранее известными символами. Сделать скриншот окна с помощью WinAPI проблем не составило, а вот над распознаванием пришлось немного потрудиться.
В статье расскажу как достаточно быстро перечислить связные объекты на бинарном растре. Этот алгоритм мы использовали для распознавания изображений и текстов; он отличается от подобных высокой скоростью обработки (на картинках до 3200x2400, с некоторыми оговорками, он отрабатывает за миллисекунды) и доступностью в понимании (при наличии некоторых знаний C++). Отмечу, что исходная картинка будет трактоваться алгоритмом как «только для чтения» (зачем портить то, с чем могут работать другие методы), и в связи с этим, алгоритму потребуется небольшое количество дополнительной памяти. Кроме того, внешние контуры являются полезным объектом для анализа и векторизации изображений.