От переводчика. Продолжаем серию статей, посвященных проблеме создания электронных архивов проектной и конструкторской документации. Сегодняшняя статья посвящена проблеме индексирования отсканированных чертежей. Под индексированием (атрибутированием) в данном случае понимается анализ и последующий ввод в систему метаданных, на основе которых осуществляется классификация, структурирование и поиск документов в архиве. Приглашаем наших читателей к дискуссии и обмену практическим опытом по данному вопросу.
В индексировании документов большого формата не бывает легких путей. Нередко приходится слышать об организациях, отдающих на аутсорсинг проекты по сканированию и индексированию больших объемов изображений. К сожалению, в этих организациях часто не уделяется должного внимания определению спецификаций, стандартизации, проверке индексированных данных. В результате после оцифровки обнаруживаются многочисленные ошибки. Несколько рекомендаций по поводу того, как избежать этих ошибок, будут даны ниже.
Первый момент, который нужно учитывать, заключается в следующем: те, кто осуществляет сканирование и индексацию, в большинстве случаев не понимают смысла сканируемых документов и вряд ли способны его понять. Они могут обеспечить качество сканирования, но работа по систематизации и обеспечению находимости документов во многом ложится на плечи заказчика.
Работа по индексации чертежей большого формата не может быть автоматизирована. Программ для такой автоматизации нет и, возможно, никогда не появится.
Название чертежа может быть расположено как в нижней части, так и справа или слева. Текст может быть расположен в разных частях чертежа; кроме того, на чертеже могут быть проставлены многочисленные даты. Распознавание чертежных шрифтов или надписей, сделанных от руки, зачастую не приносит ожидаемых результатов. У чертежа может быть несколько разработчиков: какого из них следует выбрать? Единственно возможное в таком случае решение — тщательно просмотреть все чертежи, проанализировать информацию и внести ее в систему вручную.
Разобраться со стандартами ввода данных и аббревиатурами нужно до того, как вы сядете за компьютер. Все запросы в базе данных основываются на параметрах, а не на переводе информации. Составьте список всех используемых сокращений и доведите его до сведения участвующих в проекте сотрудников. Помните о том, что стандарты ввода данных носят рекомендательный, а не обязательный характер.
Определившись со стандартами ввода данных и сокращениями, нужно также обратить внимание и на используемую пунктуацию. Рекомендуется вообще отказаться от использования пунктуационных знаков — если, конечно, они не несут важную смысловую нагрузку (например, дефисы и точки разделяют номера чертежей на смысловые части, и поэтому от их использования отказаться нельзя).
Наконец, необходимо постоянно контролировать процесс индексирования. Будьте готовы к постоянным вопросам типа: «А что мы вписываем сюда?» и т.п. Индексирование — это командная работа. И совместными усилиями можно грамотно оформить метаданные чертежа и сделать процесс работы с документом действительно удобным. А иначе — зачем осуществлять оцифровку документов?
В индексировании документов большого формата не бывает легких путей. Нередко приходится слышать об организациях, отдающих на аутсорсинг проекты по сканированию и индексированию больших объемов изображений. К сожалению, в этих организациях часто не уделяется должного внимания определению спецификаций, стандартизации, проверке индексированных данных. В результате после оцифровки обнаруживаются многочисленные ошибки. Несколько рекомендаций по поводу того, как избежать этих ошибок, будут даны ниже.
Первый момент, который нужно учитывать, заключается в следующем: те, кто осуществляет сканирование и индексацию, в большинстве случаев не понимают смысла сканируемых документов и вряд ли способны его понять. Они могут обеспечить качество сканирования, но работа по систематизации и обеспечению находимости документов во многом ложится на плечи заказчика.
Работа по индексации чертежей большого формата не может быть автоматизирована. Программ для такой автоматизации нет и, возможно, никогда не появится.
Название чертежа может быть расположено как в нижней части, так и справа или слева. Текст может быть расположен в разных частях чертежа; кроме того, на чертеже могут быть проставлены многочисленные даты. Распознавание чертежных шрифтов или надписей, сделанных от руки, зачастую не приносит ожидаемых результатов. У чертежа может быть несколько разработчиков: какого из них следует выбрать? Единственно возможное в таком случае решение — тщательно просмотреть все чертежи, проанализировать информацию и внести ее в систему вручную.
Разобраться со стандартами ввода данных и аббревиатурами нужно до того, как вы сядете за компьютер. Все запросы в базе данных основываются на параметрах, а не на переводе информации. Составьте список всех используемых сокращений и доведите его до сведения участвующих в проекте сотрудников. Помните о том, что стандарты ввода данных носят рекомендательный, а не обязательный характер.
Определившись со стандартами ввода данных и сокращениями, нужно также обратить внимание и на используемую пунктуацию. Рекомендуется вообще отказаться от использования пунктуационных знаков — если, конечно, они не несут важную смысловую нагрузку (например, дефисы и точки разделяют номера чертежей на смысловые части, и поэтому от их использования отказаться нельзя).
Наконец, необходимо постоянно контролировать процесс индексирования. Будьте готовы к постоянным вопросам типа: «А что мы вписываем сюда?» и т.п. Индексирование — это командная работа. И совместными усилиями можно грамотно оформить метаданные чертежа и сделать процесс работы с документом действительно удобным. А иначе — зачем осуществлять оцифровку документов?