Как стать автором
Обновить

Комментарии 13

«На свете существует 10 типов людей: те, кто понимает двоичную систему счисления, и те, кто не понимает.»
Есть два типа людей: которые умеют экстраполировать из неполных данных
НЛО прилетело и опубликовало эту надпись здесь
с удивлением, обнаружил в ж шрифте: Y, m, K, Ψ, X, w, динозаврика, змею, черепашку, рыбий хвост, танцора диско
Там ещё Египтяне присутствуют.
Набираем по очереди буквы алфавита и нажимаем «Поезд».
Это ирония?
Статью про автоматическое распознавание надо писать автоматическим генератором текста или переводить автопереводчиком
НЛО прилетело и опубликовало эту надпись здесь
На картинке если посмотрите есть кнопка «Train».
По-моему это логично — вы набрали кучу картинок и одним поездом его изучили.
Действительно, логично:)
А почему бы тогда не сделать полностью автоматическое распознавание алфавита(соответствия между символами)? У нас ведь есть информация что это изначально текст на русском языке. Если объем его достаточно большой — задача вполне разрешима.
Распознайте 1 картинка = 1 любая буква
А потом обычными средствами статистического анализа
Исходный текст на английском, но это не важно.
Основная проблема в том, чтобы правильно найти все картинки. Например, при обучении FineReader упорно не хотел различать буквы i и s (черный круг и черный прямоугольник на белом фоне). Т.е. после обучения одной из этих букв, он не предлагал обучать вторую. На этой стадии скорее всего понадобиться помощь оператора. Ну а после, экспорт в txt и, как уже предложили, разбор обычными средствами статистического анализа.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий