Как стать автором
Обновить
4
0
mkal @mkal

Пользователь

Отправить сообщение
Ну, меня немного возмутило некоторое промежуточное подведение итогов, по которому этот алгоритм якобы примерно в 2 раза лучше CuneiForm. У случайного читателя могло сложится ложное впечатление о состоянии дел в индустрии распознавания. Немного смущает ещё и 100-процентный результат FineReader — это говорит о том, что база для тестирования выбрана плохо и не способна зарегистрировать ошибки даже там, где они в принципе есть (ну не бывает пока 100% качества на реальных документах, пока программа хуже человека работает и заметить это можно).

В остальном я против данного алгоритма ничего не имею, хотя статью читал по диагонали и о её полезности судить не возьмусь. Если этот подход лучше растрового эталона, то и тестировать её надо на таких примерах, где это будет видно. Важный недостаток растра — он не работает для незнакомых шрифтов. Этот алгоритм, на первый взгляд, тоже не должен, потому я про растр и написал. Создание системы распознавания, которая умеет обрабатывать произвольные, в т.ч. незнакомые гарнитуры — это задача гораздо более сложная, чем распознавание фиксированного набора гарнитур. Если данный алгоритм с этой задачей справляется, то это хорошее достижение и надо именно это и тестировать. Но приведённые результаты о таких возможностях алгоритма ничего сказать не могут.
Ну, сравнение с CuneiForm тут явно некорректное — он может быть просто не заточен на распознавание текста при разрешении 96 dpi или вы ему неправильно указали разрешение. Говорить, что в по результатам двух тестов у вас примерно в 2 раза больше правильно распознанных слов — это неприкрытая подтасовка. Ну можно тупо смаштабировать этот текст до размеров, которые ожидает на входе CuneiForm, и окажется, что он распознает не хуже, чем при разрешении 180 dpi. Скажем, для ABBYY FineReader заявлено, что оптимальным для него разрешением является 300 dpi, думаю, что для CuneiForm есть похожие требования. Просто ABBYY FineReader программа коммерческая и должна работать хорошо всегда. Поэтому она поступает интеллектуально, и в случае, если изображение имеет явно недостаточное или неверное значение разрешения, просто подбирает оптимальный масштаб для распознавания сама.

Что касается полученных результатов, то для диплома они, наверное, вполне неплохие, но о том, чтобы конкурировать хотя бы с CuneiForm, тут не может быть и речи. Чтобы это стало понятно всем, я немного перепишу ваши результаты для разрешения 180 dpi.

FineReader — 0.0% ошибок
CuneiForm — 0.5% ошибок
Ваш алгоритм — 2.8% ошибок

Точность измерения тут порядка 0.2% (1 ошибка = 0.17%).

При этом FineReader и CuneiForm заточены под распознавание более-менее любых шрифтов, а вы тестировали свою программу примерно на той же базе, что и обучали (изменение dpi примерно в 2 раза при неизменной гарнитуре). Если вам подсунуть незнакомый шрифт, то результаты, скорее всего, будут сильно хуже (для FineReader и CuneiForm они тоже могут немного ухудшиться, т.к. на Arial и Times New Roman они, конечно, тоже настраивались, но они настроены не только на них, а ваш алгоритм — только на них).

В общем, выходит, что даже имея преимущества (в виде совпадения базы для настройки и для тестирования), вы по количеству ошибок в 5-6 раз проигрываете CuneiForm и примерно в 50 — FineReader. При этом даже наивный растровый эталон может дать здесь результат лучше вашего (это я на самом деле на обум говорю, и проводить эксперимент мне лень, но не вижу, почему бы в данном примере растровый эталон мог работать хуже).
Вот про такую реализацию хотелось бы почитать.
У меня заработало, но не с первого раза.
Все забывают, что Opera — это всё такие коммерческая фирма, у которой браузер — единственный продукт. Они были вынуждены сделать его бесплатным, т.к. иначе уже умерли бы, но они сделали это очень поздно. И самое главное, что сделав браузер бесплатным юридически, они не сделали его бесплатным «в душе». Им просто не нужна его популярность, т.к. она не приносит денег. Opera Mini приносит, и руководство Opera считает, что продвигать её оправданно, а тратить существенные ресурсы на продвижение десктопной версии они не хотят, т.к. КПД с точки зрения возврата потраченных денег от этого сильно отрицательное. Да они последние два года выкатывали новые фичи, которые были никому не нужны, и забили на сотни орущих пользователей, кричащих «не надо фич, сделайте чтобы не глючило», что убили качество продукта настолько, что многие опероводы со стажем были вынуждены перейди на другие браузеры. Только недавно они увидели, что происходит и одумались, и пока что на словах пообещали уделять больше внимания качеству.

Ну и в заключение ещё раз основной тезис повторю. IE делают ради имиджа, финансируя разработку деньгами от продажи MS, Safari — из-за необходимости иметь браузер для Маков, финансируя разработку деньгами от их продажи, Chrome — нужен для захвата мира и финансируется деньгами от рекламы в гугле, Firefox имеет за плечами opensource-сообщество и кормится с подачек всяческих добрых IT-компаний и на энтузиазме линуксоидов. А Opera — просто браузер, который хочет выжить и не имеет таких источников для финансирования разработки. Вот и всё.
Опасайтесь людей с макбуком и камерой в Макдональдсах!
О, а как это работает?
Проблема в том, что в и не может быть текста. WebKit, видимо, понимает, что получается невалидный код и убирает некошерный текст за пределы . Вообще не очень понятно, какой html код в шаблоне может туда вставится. Разве что ещё одна колонка. Или там какой-то сервер-сайд код выполняется?
Никогда не покупайте ничего, что имеет SONY в названии. Никогда не покупайте ничего, что имеет SONY в названии. Никогда не покупайте ничего, что имеет SONY в названии. Никогда не покупайте ничего, что имеет SONY в названии. Никогда не покупайте ничего, что имеет SONY в названии. Никогда не покупайте ничего, что имеет SONY в названии. Никогда не покупайте ничего, что имеет SONY в названии.
Написал в about.online.ua/contact/, что они сказочные уебаны.
Господа барыги, продайте один журнал для хорошего дела.
Это потому, что для кириллицы этот способ не подходит (мало выносных элементов в строчных буквах и разница не такая сильная). А для латиницы этот метод применяется часто и весьма успешно.
Я, честно говоря, не видел ни лингву для айфонов, ни Dict EN-RU, да и вообще у меня айфона нет. Но чисто ради любопытства — в чём именно Dict EN-RU выигрывает?
А где на задачи посмотреть можно? Сходу что-то не нашёл
В данном случае воспроизведение означает тиражирование. Ну и вообще, надписи на всяких коробках не всегда имеют непосредственное отношение к закону. Если я, например, на книжке напишу, что она не предназначена для чтения, то это не будет иметь никакой юридической силы.
За «habr/» — спасибо. Это почти то, что мне надо — раньше то же, но без слеша в конце работало, а теперь там неубираемый поиск. А Ctrl+Enter запускает какоt-то другое автодополнение, которое плюёт на настройки правильного и всегда лезет в зону com. Это можно перенастроить, как ниже описано, но нельзя заставить работать по Enter без Ctrl — всё равно поиск запускается.
Раньше, в 8ке или 9ке, автозавершение работало автоматически по enter. Теперь вместо этого поиск, который мне тут не нужен, а отключить его нельзя. Как выяснилось выше по enter теперь работает «habr/». По ctrl+enter тоже можно настроить в управлении клавиатурой, но это не тот автокомплит, он как-то по другому работает и его нельзя таким образом на enter без ctrl настроить.

Вообще таких вот мелочей куча. Раньше Опера была самым продуманным по юзабилити браузером, практически идеальным, а теперь с каждой версией все больше и больше привычных мелочей перестаёт работать, а вместо них появляются какие-то неотключаемые ненужные украшательства. Видимо интерфейс-дизайнер у них уволился или чем-то другим занимается и теперь там бардак. Печально всё это.
А расскажите операводы, работает ли у вас автодополнение адреса доменом верхнего уровня (.com, .ru и т.п.)? Раньше можно было набрать habr и сразу попадаешь на habr.ru, а теперь — в поиск гугла. Очень раздражает и никакие настройки на это не влияют.
Извините если оффтоп.

Меня интересует один вопрос — когда уже закончат приделывать к Опере свистульки и перделки и начнут наконец-то исправлять старые и новые баги, полученные при добалении предыдущих перделок и свистелок? Ну стыдно же должно быть такие нестабильные релизы выпускать. Куча преданных опероводов со стажем уже перешли на FF и хром или подумывают об этом. Я сам Оперой пользуюсь уже 10 лет и тоже начал подумывать о миграции на другой браузер.

Вы этот вопрос там куда нибудь в эти 5 пунктов вставьте, пожалуйста.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность