Pull to refresh

Comments 13

«На свете существует 10 типов людей: те, кто понимает двоичную систему счисления, и те, кто не понимает.»
Есть два типа людей: которые умеют экстраполировать из неполных данных
UFO landed and left these words here
с удивлением, обнаружил в ж шрифте: Y, m, K, Ψ, X, w, динозаврика, змею, черепашку, рыбий хвост, танцора диско
Набираем по очереди буквы алфавита и нажимаем «Поезд».
Это ирония?
Статью про автоматическое распознавание надо писать автоматическим генератором текста или переводить автопереводчиком
UFO landed and left these words here
На картинке если посмотрите есть кнопка «Train».
По-моему это логично — вы набрали кучу картинок и одним поездом его изучили.
Действительно, логично:)
А почему бы тогда не сделать полностью автоматическое распознавание алфавита(соответствия между символами)? У нас ведь есть информация что это изначально текст на русском языке. Если объем его достаточно большой — задача вполне разрешима.
Распознайте 1 картинка = 1 любая буква
А потом обычными средствами статистического анализа
Исходный текст на английском, но это не важно.
Основная проблема в том, чтобы правильно найти все картинки. Например, при обучении FineReader упорно не хотел различать буквы i и s (черный круг и черный прямоугольник на белом фоне). Т.е. после обучения одной из этих букв, он не предлагал обучать вторую. На этой стадии скорее всего понадобиться помощь оператора. Ну а после, экспорт в txt и, как уже предложили, разбор обычными средствами статистического анализа.
Sign up to leave a comment.