anazarta Jan 25 2023 at 10:02

Как Яндекс научился распознавать, что написано в рукописных архивах

11 min

31K

Яндекс corporate blogSearch engines*Image processing*Machine learning*Artificial Intelligence

✏️ Technotext 2023

+143

103

Comments 103

Aquahawk Jan 25 2023 at 10:05

На данный момент мы расшифровали и открыли для поиска около 2,5 млн страниц из архивных документов.

А где потыкать можно?

UP: нашёл https://ya.ru/archive/

+12

id_Phoenix Feb 3 2023 at 12:32

А где потыкать API? Пробовал Yandex Vision (метод batchAnalyze) даже близко не распознает рукописный текст... может есть Google Colab или еще что то?

GDragon Jan 25 2023 at 10:46

Спасибо вам, нужное дело делаете.
Поиск в не оцифрованных архивах это время и деньго-затратный ад и израиль.

+16

YMA Jan 25 2023 at 11:26

Спасибо! Ждем остальные регионы. У меня отец просматривал вручную архивы по северным регионам, построил родословную до 1600-х годов, но на другие регионы пока не решился. А с вашим сервисом будет легче...

+11

Didimus Jan 25 2023 at 18:44

Является ли родословная персональными данными?

PereslavlFoto Jan 25 2023 at 19:41

Судя по тому, что сведения на могильном памятнике являются ПД, значит, и родословная тоже является.

YMA Jan 25 2023 at 20:01

В том составе, как в сказках и ведомостях, думаю, не являются. Они не позволяют однозначно идентифицировать субъекта ПД. Надо запрос писать, однако..

PereslavlFoto Jan 25 2023 at 22:04

То есть там нет фамилии, имени и отчества и даты рождения?

radix22 Feb 2 2023 at 06:06

Действие закона ФЗ-125 не распространяется на персональные данные документов Архивного фонда РФ.

Didimus Feb 2 2023 at 08:24

То есть любой документ можно отсканировать, поместить скан в архив, после чего свободно распространять?

radix22 Feb 2 2023 at 09:10

Этот документ уже должен быть в составе Архивного фонда РФ, т.е. находиться на хранении в федеральном, государственном или муниципальном архиве. А до этого прошедший экспертизу ценности и поставленный на государственный учёт. Только в таком случае документ не подпадает под действие закона о персональных данных. Личные дела, хранящиеся в архивах, и имеющие срок хранения 50 или 75 лет под это, кстати, не попадают - только дела имеющие постоянный срок хранения.

YMA Feb 2 2023 at 09:25

Добавлю ссылки на подтверждение:

Федеральный закон от 27.07.2006 N 152-ФЗ (ред. от 14.07.2022) "О персональных данных"

Статья 1. Сфера действия настоящего Федерального закона

Действие настоящего Федерального закона не распространяется на отношения, возникающие при:
...
1. организации хранения, комплектования, учета и использования содержащих персональные данные документов Архивного фонда Российской Федерации и других архивных документов в соответствии с законодательством об архивном деле в Российской Федерации;

...

@Didimus- "любой документ" в Архивный фонд просто не примут ;)

Федеральный закон от 22.10.2004 N 125-ФЗ (ред. от 14.07.2022) "Об архивном деле в Российской Федерации"

архивный документ - материальный носитель с зафиксированной на нем информацией, который имеет реквизиты, позволяющие его идентифицировать, и подлежит хранению в силу значимости указанных носителя и информации для граждан, общества и государства;

документ Архивного фонда Российской Федерации - архивный документ, прошедший экспертизу ценности документов, поставленный на государственный учет и подлежащий постоянному хранению;

Didimus Feb 2 2023 at 10:14

А где экспертиза, там и любые преступления. Вспоминаем «пьяного» мальчика

-2

develmax Jan 25 2023 at 11:47

Потыкал тексты, есть успехи, но яндекс пока не научился распознавать тексты, результат близкий к обычной OCR. Вот возможность увеличить в высоком разрешении - слава сканеру, это очень полезно, можно легко рассмотреть, что там реально написано. Поэтому данную систему можно пока рассматривать как вспомогательную для специалистов - много чего распознает, но связывать слова, предложения и править ошибки пока должен человек.

anazarta Jan 26 2023 at 12:17

Мы уже работаем над улучшение качества распознавания. Как можно заменить, текст в старых документах структурировали, часто писали иначе, чем сейчас в плане орфографии (переноса строк). Это все создает дополнительные сложности. Я думаю в обозримом будущем качество моделей, которые применяются в сервисе будет расти.

okolobaxa Jan 25 2023 at 12:22

А есть какой-то стандарт или стандартный формат для разметки изображения как на первой картинке? Например у меня есть фотография со списком ФИО, как мне лучше разметить на ней отдельные фамилии чтобы это был какой-то файл с мета-данными к имеющейся фотографии.

anazarta Jan 26 2023 at 12:18

Мы для себя определили свой формат хранения расшифровок, потому что многое зависит от решаемой задачи. Если нужно уметь распознавать символы в строке - один формат, если надо уметь понимать структуру документа - формат конечно будет отличаться.

okolobaxa Jan 25 2023 at 12:29

Ваш поиск нашёл больше данных по моим предкам, чем поиск Генотека. Зачёт! Надеюсь скоро добавятся и другие архивы (Тула, Курск, Воронеж, Самара)

+12

anazarta Jan 26 2023 at 12:19

Мы работаем над увеличением числа архивов. Надеюсь в ближайшее время сможем обрадовать всех хорошими новостями.

Vjay Jan 25 2023 at 15:10

Есть малейший шанс на платный API? Лежат 250К снимков метрик по селам на границе Полтавской и Черниговской губерний, откуда мои предки. Но, официально получить такие сканы на нашем веку думаю уже не будет возможности.

Akr0n Jan 25 2023 at 17:17

Лежат у Вас или вы про госархив Украины? Тоже интересуют данные из тех мест для генеалогических изысканий.

Vjay Jan 25 2023 at 17:41

У меня, одолжил у мормонов, т.е. то же самое что доступно на FS.

Akr0n Jan 25 2023 at 18:03

Я так понимаю, на FS уже ведь есть текстовый поиск?

okolobaxa Jan 25 2023 at 18:17

только по вручную проидексированным документам

Akr0n Jan 26 2023 at 02:45

Я думал, что там все проиндексированы. Нет?

okolobaxa Jan 26 2023 at 09:58

Нет, что вы. Мормонские волонтёры конечно стараются, но до полной индексации ещё вечность.

BMXer_V Jan 26 2023 at 23:48

А можно ссылку, пожалуйста? Или хотя бы по каким ключевым словам гуглить?

UPD: похоже, я сам нашёл. Имелось в виду вот это? https://www.familysearch.org/ru/ В любом случае, спасибо за наводку!

da-nie Jan 25 2023 at 20:00

Вот есть много мормонских.

okolobaxa Jan 25 2023 at 17:45

Присоединяюсь. Любой нормальный исследователь после пары лет поисков обрастает парой десятков гигов официально купленных в архивах или вымененных у других исследователей документов. Многое из этого никогда не появится в публичном доступе и хочется хотя бы для себя распознать.

YMA Jan 25 2023 at 18:01

Это бы на торренты выкладывать для сохранности... Лежит же там либрусек 2-терабайтный, я бы с удовольствием сидировал еще и по сканам исторических документов.

da-nie Jan 25 2023 at 20:01

Там только в тиснутой части мормонского архива 200 терабайт. :)

YMA Jan 26 2023 at 12:48

Многовато, терабайт 20-30 я бы взял, но 200 - дороговато выйдет. :) Разве что создавать команду - каждый хранит по региону, наиболее ему симпатичному.

PereslavlFoto Jan 25 2023 at 19:42

Но что же мешает помещать это в публичном доступе?

okolobaxa Jan 26 2023 at 10:07

Жадность и индивидуальные договоренности. Я например не спешу выкладывать в общий доступ документ, на получение которого я потратил несколько лет и 25к рублей. Если мне кто-то напишет в личку, я конечно поменяюсь на что-нибудь ещё чего у меня нет или предложу совместно скинуться на оцифровку чего-то полезного обеим сторонам. Индивидуальные договоренности - кто-то скинул мне документ с обязательством не публиковать его публично например потому что он получен по знакомству или через "крота" или так же куплен за большие деньги.

vikarti Jan 26 2023 at 05:28

Купленных?
А вот такой вопрос — вот допустим такие материалы уплывут яндексу и появятся в общей базе?
Или появятся на рутрекере а яндекс их оттуда возмет.
Какие юридические последствия?
Допустим все тексты — до 1918.
Какие действующие сейчас права на содержание этих документов могут быть и у кого?
И неужели договорится никак нельзя?

YMA Jan 26 2023 at 08:57

Права на документы уже в публичном достоянии, но вот права на их сканы - нет. Люди проделали большую работу, сканируя старые документы и имеют право на доход от предоставления доступа к сканам.

На торренты я предлагал разместить те документы, которые находятся под риском полной утраты. Документы в РФ и Украине, в частности - прилетит что-нибудь куда-нибудь и опаньки, данные, пережившие несколько столетий - будут потеряны. :(

PereslavlFoto Jan 26 2023 at 18:29

Сканирование не создаёт новых авторских прав. Здесь вы что-то преувеличили.

YMA Jan 26 2023 at 19:50

Фотография - создает, исполнение музыкального произведения - создает, а сканирование нет? ;)

-1

PereslavlFoto Jan 26 2023 at 20:05

Если вы сфотографируете картину точно так, как она была нарисована, получится фотокопия. Авторское участие в ней нулевое, авторских прав не возникнет. То же самое будет и с фотокопией чертежа.

Исполнение музыкального произведения не создаёт копию нотного текста. Этот пример не подходит к нашему обсуждению.

Обратите внимание, что в альбомах с картинами всегда использованы фотокопии картин и указаны художники, однако нигде не указаны фотографы, делавшие эти фотокопии для издательства.

YMA Jan 27 2023 at 11:36

Использование материалов сайта - Третьяковская галерея (tretyakovgallery.ru)

Использование фотографий – с указанием автора снимка, если он указан на сайте.

PereslavlFoto Jan 27 2023 at 13:44

Вы правы, когда речь идёт про фотографии.

Вы ошибаетесь, когда речь идёт про фотокопии картин. Именно поэтому в цитате и сказано, что автор снимка не всегда наличествует.

YMA Jan 27 2023 at 14:08

Не соглашусь, полистал сейчас статьи на эту тему в Консультанте - в итоге авторы сходятся к тому, что только фотографии, полученные автоматическим путем без участия человека - можно считать свободными от авторских прав. И то с оговорками - снимки животных с фотоловушек тому примером.

Остальное, даже если просто снята картина - человек пришел, выбрал оптимальную точку, поставил свет, штатив, нажал на кнопку - уже имеется творчество.

Фотография как объект авторских прав (фрагмент статьи)

Статья: Использование фотографий, взятых из Интернета: правовые риски, практика, рекомендации (Гайдук В.П.) ("ИС. Авторское право и смежные права", 2022, N 6)

Фотография является объектом авторских прав (ч. 1 ст. 1259 ГК РФ). Для возникновения авторских прав на фотографию необходимо, чтобы фотография отвечала определенным критериям. Назовем их позитивные и негативные критерии. К числу позитивных критериев отнесем: наличие творческого результата и объективную форму. Негативные критерии: отсутствие в фотографии признаков, предусмотренных частями 5 и 6 ст. 1259 ГК РФ.
Фотография должна быть выражена в объективной форме (цифровая, пленочная, негатив, бумажная и т.п.), то есть таким образом, чтобы другие люди могли ее воспринимать как существующую реальность (ч. 1 ст. 1259 ГК РФ).
Фотография должна быть результатом творческого труда (статьи 1228, 1257, 1258 ГК РФ). Несмотря на то что воплощение творчества является ключевым критерием в определении того, является ли объект объектом авторских прав, Гражданский кодекс РФ не дает определения тому, что является творчеством и творческим трудом.
Не раскрывается определение творчества и творческого труда и в Постановлении Пленума Верховного Суда РФ от 23 апреля 2019 г. N 10 "О применении части четвертой Гражданского кодекса Российской Федерации" (далее - Постановление). Постановление прописывает презумпцию творческого труда в объекте авторских прав: "Пока не доказано иное, результаты интеллектуальной деятельности предполагаются созданными творческим трудом" (пункт 80 Постановления). При этом "само по себе отсутствие новизны, уникальности и (или) оригинальности результата интеллектуальной деятельности не может свидетельствовать о том, что такой результат создан не творческим трудом и, следовательно, не является объектом авторского права". Исключение критериев новизны, оригинальности и уникальности как признаков творческого результата и отсутствие легального определения творчества усложняют задачу определения объекта авторских прав в правоприменительной практике.
Для отнесения фотографии к охраняемым объектам важно понимать, что "творческий характер создания произведения не зависит от того, создано произведение автором собственноручно или с использованием технических средств. Вместе с тем результаты, созданные с помощью технических средств в отсутствие творческого характера деятельности человека (например, фото- и видеосъемка работающей в автоматическом режиме камерой видеонаблюдения, применяемой для фиксации административных правонарушений), объектами авторского права не являются" (пункт 80 Постановления).
Таким образом, применительно к фотографии можно сделать вывод, что практически любая фотография может быть признана объектом авторских прав, если только она не была сделана в автоматическом режиме фотосъемки. При этом качество фотографии, ее художественная, эстетическая, смысловая ценность значения не имеют, поскольку "объектами авторских прав являются произведения науки, литературы и искусства независимо от достоинств и назначения произведения, а также от способа его выражения" (ч. 1 ст. 1259 ГК РФ).
Из этого следует, что подавляющее большинство фотографий, которые представлены в Интернете, являются объектами авторских прав. Поэтому правомерное использование фотографий возможно только при соблюдении авторских прав. Они предполагают законную монополию правообладателя на использование фотографии. Третьи лица могут использовать фотографии только с письменного (или приравненного к письменному) разрешения. При этом важно понимать следующие правовые принципы. Первый: "Отсутствие запрета не считается согласием (разрешением)" (ч. 1 ст. 1229 ГК РФ). Применительно к фотографии это означает, что если на фотографии либо на сайте, аккаунте, где размещена фотография, нет запретов на ее копирование, скачивание, скринирование, распечатывание и совершение иных манипуляций с фотографией, то это не свидетельствует, что такие манипуляции с фотографией можно совершать.
Второй принцип: отсутствие имени автора (фотографа) и/или авторского знака / знака копирайта на фотографии или на ресурсе Интернета, где размещена фотография, не свидетельствует о том, что у фотографии нет правообладателя и ее можно свободно использовать, поскольку автор вправе опубликовывать, распространять свои произведения как с указанием имени, псевдонима, так и анонимно (ч. 1 ст. 1265 ГК РФ).
Поэтому использование фотографии, взятой из ресурсов Интернета, возможно с письменного согласия правообладателя. Исключением из этого правила являются случаи свободного использования объектов авторских прав, предусмотренные законом (статьи 1273 - 1279 ГК РФ), а также случаи, когда пользовательское соглашение сайта позволяет использовать фотографии без непосредственного согласия автора. Это так называемые стоки - сайты, где размещаются фотографии на условиях открытых лицензий При этом при использовании фотографий на этих сайтах необходимо внимательно смотреть возможности использования фотографий, в том числе для коммерческих целей. Также свободно можно использовать фотографии, перешедшие в общественное достояние, то есть срок действия исключительного права на которые истек (ст. 1282 ГК РФ).

Кто является правообладателем,
автором и собственником фотографии?

Вопрос очень важный, поскольку именно от этого зависит, кто может подавать претензию лицу, использовавшему фотографию. От этого также зависит выбор средств защиты.
Итак, автором фотографии является гражданин, творческим трудом которого она создана согласно статье 1257 ГК РФ.
Кто может быть автором фотографии? Таковым может быть фотограф - как профессиональный, так и любитель, обычный гражданин. Представим себе следующую ситуацию. Человек (фотолюбитель) создал композицию для снимка, придумал сюжет, выбрал место, подобрал освещение, аппаратуру, сделал себе грим, но сам себя снять не может, приглашает для этого знакомого, который по команде фотолюбителя нажимает на кнопочку фотоаппарата (или телефона; технический инструмент не важен). Кто будет автором фотографии?
Согласно статье 1228 ГК РФ "не признаются авторами результата интеллектуальной деятельности граждане, не внесшие личного творческого вклада в создание такого результата, в том числе оказавшие его автору только техническое, консультационное, организационное или материальное содействие или помощь...". Поэтому автором такого снимка будет тот, кто создал все условия для создания фотографии. А второй человек будет техническим исполнителем.
Правообладатель фотографии - это лицо, которому принадлежит исключительное (имущественное) право на фотографию (статьи 1229, 1270 ГК РФ). При этом "исключительное право на результат интеллектуальной деятельности, созданный творческим трудом, первоначально возникает у его автора. Это право может быть передано автором другому лицу по договору, а также может перейти к другим лицам по иным основаниям, установленным законом". Таким образом, первоначально исключительное право возникает у того, кто создал фотографию, а затем оно может быть передано другим лицам. Так, при проведении фотосессии по заказу автором и правообладателем прав на фотоснимки будет фотограф. Исключительное право на фотографии может перейти к заказчику фотосессии только в том случае, если это отражено в договоре с фотографом. Тогда правообладателем фотографий будет заказчик фотосессии (ст. 1288 ГК РФ, п. 1 ст. 1291 ГК РФ).
Если же проведение фотосессии является служебной обязанностью фотографа и это отражено в трудовом договоре с фотографом, то правообладателем таких фотографий будет работодатель фотографа (ч. 2 ст. 1295 ГК РФ, п. 104 Постановления), поскольку согласно статье 1295 ГК РФ под служебным произведением подразумевается произведение науки, литературы или искусства, созданное в пределах установленных для работника (автора) трудовых обязанностей. В этом случае исключительное право на фотографии заказчику может передать работодатель фотографа (ст. 1296, абз. 2 п. 1 ст. 1291 ГК РФ).
Какие права на фотографии возникают у заказчика фотографий? Ответ: авторские права у заказчика фотографий не возникают, а возникает право собственности на материальный носитель фотографий и право на изображение, являющееся личным неимущественным правом лица, изображенного на фотографии (ст. 152.1 ГК РФ).
И еще есть очень важный принцип авторского права, который я обозначила следующим образом: "Рукописи не горят". Это означает, что передача материального носителя результата интеллектуальной деятельности не влечет передачу интеллектуальных прав на этот результат интеллектуальной деятельности (ст. 1227 ГК РФ). Он имеет важное практическое значение. Если фотограф осуществил фотосессию по договору оказания услуг или договору авторского заказа и передал фотографии заказчику, не обозначив в договоре передачу исключительного права на фотографии, то весь комплекс авторских прав остался у фотографа. Это означает, что в случае попадания фотографии на различные ресурсы Интернета требования о защите авторских прав может заявить только правообладатель фотографии, то есть фотограф в приведенном примере.
Так, суд частично удовлетворил требование (снизив размер компенсации) фотографа о взыскании денежной компенсации за нарушение исключительного права, компенсации морального вреда за нарушение личных неимущественных авторских прав с ответчиков, которые использовали фотографии в рекламных целях. При этом из судебных актов следует, что ранее фотограф передал фотографии заказчику на основании договора на проведение фотосессии, в котором отсутствовала передача исключительного права на фотографии [1]. Еще один пример из практики, который отражает данный подход: в споре между администратором сайта и владельцем сайта, в котором администратор сайта размещал созданные им фотографии для своего клиента (ответчик по делу - владелец сайта) и в дальнейшем размещал их на сайте, выиграл администратор сайта, поскольку в договоре не были прописаны обязанности администратора сайта по созданию фотографий для клиента и, соответственно, не была осуществлена передача прав на фотографии клиенту администратором сайта [2].
Этот подход судебной практики отражает смысл норм интеллектуального права о том, что права на интеллектуальную собственность возникают у автора (ст. 1228 ГК РФ), только автор (правообладатель) вправе разрешать использовать авторские результаты (ст. 1229 ГК РФ), передача материального носителя не влечет передачу интеллектуальных прав на интеллектуальную собственность (ст. 1227 ГК РФ).
Гражданин, изображенный на фотографии, не обладающий авторскими правами на фотографию, может заявить только требование об удалении фотографии и компенсации морального вреда (ст. 151, ст. 152.1 ГК РФ).
У автора и правообладателя фотографий правовой инструментарий защиты гораздо больше, чем у изображенного на фотографии гражданина, о чем мы поговорим далее.
Собственником фотографий, зафиксированных на материальном носителе, будет то лицо, которому принадлежит право собственности на материальные носители фотографий. Это может быть заказчик фотосессии при получении фотографий на материальном носителе, лицо, которому отчуждено право собственности на фотографии по разным сделкам (продажа, дарение, мена и т.д.). В отношении собственников фотографий следует отметить еще одну важную норму. "При отчуждении оригинала произведения его собственником, обладающим исключительным правом на произведение, но не являющимся автором произведения, исключительное право на произведение переходит к приобретателю оригинала произведения, если договором не предусмотрено иное" (п. 1 ст. 1291 ГК РФ). Это означает, например, что если фотостудия (юрлицо или индивидуальный предприниматель) привлекает фотографа на основании трудового договора, то заказчику при передаче фотографий передается исключительное право на фотографии одновременно с фотографиями.
Подведем некоторый итог выше сказанному. Первое. Фотографии являются объектами авторских прав по умолчанию, если только они не созданы в режиме автоматической фотосъемки. Второе. Размещение фотографии без указания имени автора и/или правообладателя в Интернете не означает, что эти фотографии можно свободно использовать. Так, Определением СК по гражданским делам Верховного Суда РФ от 28.01.2020 N 5-КГ19-228 Суд отменил Апелляционное определение, которым отказано в удовлетворении требований о запрете использования фотографического произведения, взыскании компенсации за нарушение исключительного права на произведение, и направил дело на новое апелляционное рассмотрение, поскольку "сам по себе факт того, что спорная фотография в настоящее время размещена на различных информационных порталах в сети Интернет в отсутствие сведений об авторстве, не свидетельствует о том, что изображение находится в свободном доступе с возможностью копирования без согласия автора и без выплаты вознаграждения" [3].

PereslavlFoto Jan 27 2023 at 14:13

Вы упираете на то, что фотограф --> творческий вклад.

При фотокопировании картины никакого творческого вклада быть не должно. Творческий труд уже совершил художник, и теперь фотограф должен не добавлять никакого творческого труда. Иначе получится не фотокопия картины, а производная работа двух авторов (художника и фотографа).

YMA Jan 27 2023 at 14:15

Вот это - творческий продукт или фотокопия? Я назову это произведение "Картина в музее" ;)

Объект авторских прав

До сего момента этого фото в Интернете не было, если что.

PereslavlFoto Jan 27 2023 at 14:23

Вы правы, это не фотокопия. Здесь картина очень серьёзно искажена, а к ней добавлено много того, что не является картиной.

okolobaxa Jan 26 2023 at 10:34

Эта тема ещё сложнее чем закон об авторских правах.

Документы в архиве лежат, каждый может прийти и их глазами посмотреть, сделать выписки. В некоторых архивах есть электронные читальные залы и можно делать тоже самое удаленно. Где-то бесплатно, где-то за деньги.

Но когда речь заходит о копиях - архив хочет денег. Можно скопировать собственным фотоаппаратом за 57р кадр, а можно воспользоваться услугами архива за 114р. Не все документы можно фотографировать самому, потому что архив решил что они "особо ценные" (все метрические книги например) и фотографировать их можно только силами архива. В одном документе может быть 1000 листов. Например список всех налогоплательщиков одного очень крупного села за 1858 год как раз 1200 листов. Посчитайте сколько стоит получить дело целиком.

Яндексу они не уплывут, Яндекс просто не станет к себе добавлять документы неизвестного происхождения. Я представляю какую огромную работу провели в Яндексе чтобы договориться с тремя доступными архивами о передаче сканов Яндексу.

Никаких прецедентов не было. Только в прошлом году был забавный инцидент, когда одна коммерческая генеалогическая компания скраулила с сайта архива все названия дел для своего поискового сервиса. Не сами дела, только их названия. Последовал поросячий визг руководства архива, угрозы убрать вс заголовки дел из публичного доступа (это значительно усложнит жизнь исследователям), пойти в суд и т.д.. В итоге полюбовно разошлись, материалы этого архива из поисковика убрали. Яндексу такие скандалы не нужны, поэтому он будет добавлять только то, что было подкреплено договорами с архивами.

Didimus Jan 26 2023 at 10:50

По-хорошему за скрытие архивов должна быть уголовная ответственность такая же, как и за уничтожение информации.

okolobaxa Jan 26 2023 at 11:10

А в чем скрытие? Приходите в читальный зал и изучайте документ глазами, делайте выписки. К сожалению закон об архивном деле не обязывает архивы предоставлять у документам удаленный доступ. А недавние изменения в законе полностью легализовали побор платы даже за фотографирование собственными средствами (раньше это было бесплатно).

Neitr Feb 15 2023 at 00:19

Этот вопрос можно было бы решить складчиной (Краудфа́ндинг).
Создать портал для сбора средств и потом выкупать качественные сканы. Создать сначала базу всех архивов (что вообще есть). Разместить. Выделить приоритеты.

UFO just landed and posted this here

Didimus Jan 26 2023 at 12:49

Тогда чем меньше книг, тем они ценнее. Тем дороже можно продавать доступ

Akr0n Jan 26 2023 at 11:08

А архиву-то что от этого? Ощутимое падение доходов? Разве там директору капает ЗП с этих доходов? Так-то налогоплательщики это все содержат.

okolobaxa Jan 26 2023 at 11:17

У архива есть два источника финансирования - бюджет и "внебюджетные источники". Под вторым как раз понимается исполнение не социальных запросов (НЕ подтверждение стажа, наград, права собственности и т.п.), а например генеалогических запросов, платный удаленный доступ к электронному читальному залу, копирование документов. Это всё составляет приличную часть доходов архива, из которых сотрудникам к копеечным зарплатам выплачиваются премии. Ну и часть своих внебюджетных доходов архив передаёт в общак региона. В этом смысле региональный архив мало чем отличается от МУП "Банно-прачечное хозяйство", директор так же ходит на летучки к губернатору и получает план по доходам. Печально, но так это сейчас работает.

anazarta Jan 26 2023 at 12:21

Перед тем, как думать в сторону платного API мы хотим научиться еще лучше распознавать документы. Это первоочередная задача для нас.

BiosUefi Jan 25 2023 at 16:28

//2,5 млн страниц из архивных документов.

Как отличит поддельный документ от настоящего?

anazarta Jan 26 2023 at 12:29

А что такое "поддельный" документ? Мы работаем с теми сканами документов, которые делают архивы.

arjunarus Jan 25 2023 at 19:03

А есть ли (или планируется) аналогичный проект для распознавания старых медицинских карт?

anazarta Jan 26 2023 at 12:29

Мы будем смотреть как наша модель работает на разных документах с разными текстами и уже от этого принимать решение. Конечно, хочется попробовать всё :) Очень уж интересная область!

SergLit Jan 26 2023 at 16:13

Не представляю, как там можно будет расшифровать медицинский подчерк.

Lapk Jan 27 2023 at 19:43

по количеству закорючек, актуальному словарю с различными наименованиями лекарств и болезней, контекст по диагнозу и прочим закорючкам в том же документе. Скорее всего, больше никак. Конечно исключая вариант "спросить врача и самому записать", это не распознавание.

Kaputmaher Jan 30 2023 at 02:32

Гугл уже это сделал: https://techcrunch.com/2022/12/18/google-can-now-decode-doctors-bad-handwriting/

bolk Jan 25 2023 at 19:35

Нужное дело делаете, жаль пока до идеала далеко — по моим фамилиям много ложноположительных срабатываний, да и интерфейс пилить и пилить ещё. Но это большой шаг вперёд, спасибо вам за это!

Lapk Jan 25 2023 at 19:55

а как обстоит дело с "врачебным почерком"? Очень пригодится.

da-nie Jan 25 2023 at 19:57

По такой таблице работает?

bak Jan 25 2023 at 21:25

По итогу какую точность получили (cerr, werr)? Языковую модель поверх результатов seq2seq нейронки применяете?

nehrung Jan 25 2023 at 21:36

Чем плодить ограниченно полезные новые опции, лучше бы вернули одну старую, чрезвычайно полезную — кнопку (или чекбокс) «Искать в найденном». Хорошо помню, как с помощью этой опции мне в несколько итераций удавалось свести развесистую поисковую выдачу из нескольких тысяч (или сотен тысяч) строк к единственному, максимально релевантному результату.

Didimus Jan 26 2023 at 10:51

"Искать в найденом и рекламе"

nehrung Jan 26 2023 at 21:17

А вам она зачем? Я вот приучил свои глаза не замечать рекламу.

PereslavlFoto Jan 27 2023 at 13:50

Дело в том, что если не вводить рекламу — поисковый бизнес становится невыгодным.

nehrung Jan 27 2023 at 20:04

Да, к владельцам этого бизнеса придётся отнестись с пониманием — им тоже надо на что-то жить. С другой стороны, лично я ненавижу пропаганду в любом виде, в т.ч. и в виде рекламы. Похвастаюсь — не могу припомнить случая, когда я хоть что-то (даже мелкую мелочь) купил с подачи рекламы.
Так что, ПМСМ, пусть бизнесмены воюют на более широком фронте — например, с адблокерами, а конкретный узкий и некритичный для бизнеса сегмент «Искать в найденном» пусть оставят в покое. Особенно с учётом того, что этого сегмента пока нет ни в одном поисковике.

inscriptor Jan 26 2023 at 01:09

Уважаемый @anazarta, а есть ли у вас табличка со скорописями 15–19 веков в более высоком (хайрезном) качестве? Если есть, приложите, пожалуйста.

anazarta Jan 26 2023 at 12:31

В более высоком качестве я не встречал на просторах интернета. Можно воспользоваться поиском по Картинкам (https://yandex.ru/images) и туда просто скопировать картинку со скорописью и посмотреть похожие. Находятся очень полезные картинки с примерами.

dim-ev Jan 26 2023 at 21:06

Есть вот такие варианты. Взято отсюда: https://rodnaya-vyatka.ru/blog/11990/129773

caban Jan 26 2023 at 06:18

Открывает крутой просто для исследователей, например известный спортивный журналист разрешил один из споров https://t.me/stg_50/1029. Очень крутая и интересная вещь, ждём больше архивов и развития.

yo-jik Jan 26 2023 at 09:16

Во-первых, огромное спасибо за это замеченный проект!!! Сегодня день, когда мечты сбываются!

А во-вторых, хотелось бы уточнить, есть или подразумевается ли в будущем возможность вручную корректировать результат распознавания? Сегодня много раз встречалась ситуация, когда ты точно знаешь, что написано в документе, а программа распознает это иначе/ не корректно. Хотелось бы иметь возможность вносить корректировки для облегчения своих повторных или чужих поисков.

Ещё заинтересовал вопрос, может ли помочь распознаванию текста дополнительная информация, к примеру список с названиями губерний, уездов и т.д?!

AigizK Jan 26 2023 at 09:28

@anazarta как с вами можно связаться, чтоб добавить https://basharchive.ru/census/reviz/ ?

Syzd Jan 26 2023 at 12:25

Молодцы! Спасибо!

Но надо дообучить сеть, Ревѣста - явно невеста.

rscout13 Jan 26 2023 at 13:05

Уважаемый Александр Валерьевич, как с Вами связаться?

Хочу отправить смежную генеалогическую идею в один абзац, эти технологии в Яндексе уже разработаны и используются в сервисах.

San66 Jan 26 2023 at 22:25

Как здорово! Я как раз недавно пытался врукопашную отследить судьбу бабушкиной семьи по сканам, выложенным в свободный доступ (https://cgamos.ru/metric-books/203/203-780/ ). Сломался на пятой метрической книге и подумал, что было бы полезно всё оцифрованное распознать и тут такой подарок судьбы ( и связанных с ней специалистов)!

Распознавание конечно хромает на обе лапы, но это уже прогресс в любительской генеалогии. Полезно было бы подгрузить список имен, а то всякие Екаторины. Опять таки, священники и дьяконы на одном листе почти всегда одинаковые с одинаковым почерком, но распознаются по разному.

Не против, если я кину ссылку на соответствующем форуме? Они могут ломануться и положить вам сервер :-)

DivoTech Jan 26 2023 at 23:01

Было бы полезно, если можно было бы распознавать свои документы. А так, вероятность, что в базе в ближайшее время появится нужный документ крайне мала

khan-alex Jan 27 2023 at 11:19

Отличный проект, отличная реализация, СПАСИБО! Сам долгое время занимался генеалогическими исследованиями, что называется посиживал в архивах и представляю какой это огромный труд: найти фонд, опись, единицу в единице архива найти нужное село-приход и потом уже подобраться к нужному родственнику (научившись что-то разбирать по старославянски) и испытать неописуемое чувство удовлетворения от процесса - НАШЁЛ!

А у Вас как всё прекрасно и здорово: ввёл Фамилию, уточнил имя и сразу нашёл прадеда, который был поручителем в одной из венчающихся семей, просто феноменальный результат. В бытность изучения истории семьи о таком даже не мечтал.

Конечно, сейчас Вас завалят предложениями по оцифровке, уже много архивов имеют документы в цифровом виде и можно посетить архив online за умеренную плату (в том числе и наш Ярославский), но всё это конечно не идёт ни в какое сравнение с Вашим текстовым поиском.

Ещё раз спасибо от всех исследователей и посетителей архивов!!!

P.S. А у работников архивов с которыми Вы сотрудничали никакого противодействия не возникало? Ведь если "ВСЁ" оцифровать и выложить в открытый доступ, то у них (работников архива) небольшой коммерческий ручеёк от услуг архива прервётся.

YMA Jan 27 2023 at 11:41

Думаю, стоит подумать о заключении договоров с архивами. Я лично согласен заплатить за доступ к качественно отсортированному и распознанному массиву данных.

Отец при поиске предков оплачивал услуги доступа к архивам - но там были только сырые сканы, слабо каталогизированные (населенный пункт и год).

PereslavlFoto Jan 27 2023 at 13:49

Он не небольшой. Он громадный.

alekssamos Jan 28 2023 at 12:48

Здравствуйте. А как насчёт распознавания рукописи в умной камере, в приложение Яндекс с Алисой для незрячих?

olenenok_ovi Jan 28 2023 at 17:23

Блин, это очень круто! Я бы с удовольствием тоже бы поработала на этом проекте!

makondo Jan 29 2023 at 02:24

Александр, примите мой респект. Вашей команде удалось сделать, что не удалось мне в одиночку. Для сегментации я допиливал и компоновал проекты P2PaLA, ARU-Net и другие. Все уткнулось в отсутствии размеченного датасета и невозможности уделять этому всему время. Разделение строк можно делать сложнее, разделение прямыми или очень гладкими кривыми выглядит недостаточным в большинстве примеров сканов МК и РС. Судя по всему подобную задачу решали и решили в Генотеке, активно занимаются в FamilySearch. Видел много интересного в решениях конкурсов AIJ за несколько последних лет. Желаю вам удачи!

makondo Jan 29 2023 at 02:28

По поводу имени Фиона. Это женская производная (как Валентин -> Валентина) от ветхозаветного мужского имени Фиония (аналогично Захария). У меня такое встречалось, именно женский вариант.

maynoz Jan 30 2023 at 19:45

Лучше бы вы рассказали, как фильтровали выдачу по «бункерный дед», «главный вор» и т.д. Всегда считал Яндекс продажной шкурой... с тех пор как вы поддедылывали Хром, изменив расположение цветов в логотипе, а сам поддельный "Хром" не запускался и выдавал кучу эрроров при исполнении EXE.

-9

Kromeshnaja Jan 31 2023 at 11:44

Попросите кормчего открыть те самые архивы. А то в некоторых странах открыты, а в других почему-то скрывают.

gasyoun Jan 31 2023 at 16:07

Архикруто

Cornetco Jan 31 2023 at 19:00

Круто, огромное спасибо! Надеюсь когда нибудь появится API или открытый код чтобы ваши серверы не перегружать ;)

Обратите внимание, что на территории России проживают люди не только с русскими именами. По Оренбургской губернии очень ужасное распознавание имен, да и блоки тоже коряво определяются, а некоторые строки даже не находит https://ya.ru/archive/catalog/088ff31a-03c9-4cec-a07f-b175a03b1dd6/324

EugeneFEDYAKIN Jan 31 2023 at 19:00

Ну т.е., как я понял, решили сильно уменьшить масштаб отсканированной картинки на этапе поиска блоков? А уже полученные блоки отдельно подаются в следующую сетку в высоком разрешении?

xbox Feb 1 2023 at 21:59

@anazarta Спасибо вам за замечательный проект! В моем случае качество распознания Яндексом и количество находок на очень высоком уровне. Уверен, что мелкие недочеты будут исправлены в бушующих версиях.

В каталоге Яндекса загружено 7155 дел ЦГА Москвы. В то же время на сайте самого ЦГАМ без учета дел иных конфессий выложено 10647 книги. Т.е. у Вас в каталоге всего около 67% от уже оцифрованных дел ЦГАМ. Многие пользователи пишут, что иногда Яндекс не находит то, что нашел Генотек. Полагаю, что, после добавления в ваш каталог ~3,5 тысяч нераспознанных дел вопросов о том, что Яндекс что-то пропустил, не останется. Подскажите, когда планируете добавить уже отсканированные дела ЦГА Москвы?

Полную статистику по количеству доступных online дел ЦГА Москвы в разрезе по фондам, описям, обновлениям и др. можно посмотреть на сайте https://epoisk.ru/ . Больше двух лет я занимаюсь регулярным сбором, обработкой и анализом данных по доступным делам ЦГА Москвы (метрические книги итп). Сначала публиковал собранные данные в открытом доступе в удобных excel-таблицах, а полтора месяца назад, чтобы еще больше облегчить поиск, разработал и запустил этот сайт. По ФИО он не ищет, но по описаниям и реквизитам дел ищет лучше и удобнее, чем какие-либо другие сайты.

anazarta Feb 14 2023 at 19:56

Добавить дела по Москве хотим до конца марта. Думаю будут еще бонусы, надеюсь всем приятные.

anazarta Feb 2 2023 at 19:41

Попробую ответить, так как много вопросов про это задается, о способах "поправить" расшифровку нейросетки. Мы думали над вики-моделью, когда каждый может править, а дальше есть модераторы. В наших оценках это оказывалось слишком "дорого" по разным параметрам. Нужна защита от бесконечного потока малополезных правок. Идеальный вариант, когда человек если взялся - приводит в идеальный вид весь документ (скан). Мы рассматриваем варианты, как можно было бы дать энтузиастам, тем кто готов помочь сделать расшифровки "идеальными", доступ на редактирование. Когда тут решение будет принято, то на странице сервиса появится соответствующий раздел, чтобы оформить такое взаимодействие. При этот такой расшифровщик должен будет принять правила работы, чтобы формальные критерии соблюдались и человек осознавал свою роль в проекте и ответственность за проделанную работу.
Так что следите за новостями, надеюсь скоро мы сможем порадовать всех новостями.

Akr0n Feb 3 2023 at 17:28

Где именно можно следить?

goleon Feb 3 2023 at 10:49

Огромная работа, спасибо! Но есть скепсис по поводу очень некачественных документов (деревенские церкви, меняющиеся дьяки, почерк хуже врачебного, опечатки, и т д). После первичного распознавания было бы идеально предоставить людям возможность ручной коррекции. Сделать что-то вроде "народный архив"

xbox Feb 3 2023 at 12:50

@anazarta Александр, примите в качестве идеи на будущее. У архивов есть большое количество описей дел, которые хранятся в их фондах. Небольшая часть из этих описей переведена в "текстовый" вид, по которому можно проводить поиск. Но бОльшая часть остается "нераспознанной".

К примеру, на сайте ЦГА Москвы выложено ~5500 отсканированных описей в формате PDF и это количество увеличивается. Из всего этого объема, я думаю, текстовый поиск доступен в лучшем случае в ~10%. В каждой описи может быть от нескольких страниц, до нескольких сотен страниц. На одной странице описи может быть до 10-20 заголовков единиц хранения. Т.е. в одной описи максимум может быть до 1-2 тыс записей.

В архивах очень много ценных документов, которые никто не смотрит десятилетиями, просто по той причине, что люди о них не знают. Например, я недавно смотрел ценный документ 17 века, который до меня с 1917года не посмотрел ни один человек... В заголовках дел в описи может быть много интересного. Например, почти по каждому уезду сохранились фонды, хранящие судебные дела. Заголовки в описи примерно такие: "Дело об оскорблении мещанина Иванова Ивана Ивановича мещанином Петровым П.П", "Дело о взыскании купцом Ивановым И.И. долга с ....", "Дело о духовном завещании купца ... своего состояния такой-то церкви и открытия при ней богадельни", "Дело крестьян деревни такой-то к ...". Ходатайства, обвинения, личные дела учащихся, служащих, арестованных итп. Все варианты заголовков не перечисляю. Их огромное количество. Даже в заголовках уже много ценной генеалогической информации. А если кто-то нашел нужный заголовок, то он может дополнительно в архиве посмотреть или удаленно заказать копию дела. А в одном таком деле может быть информации о предке больше, чем во всех остальных источниках.

Я понимаю, что для Яндекса задача распознавания описей в приоритетах далеко не на первых строчках. Но, может быть, когда-нибудь вы и на нее обратите внимание. С технической точки зрения распознавание таких документов намного проще распознавания метрик. Очень многие описи напечатаны на печатной машинке или в типографии, а более старые описи, хоть и написаны от руки, но обычно написаны "современным" почерком и в большинстве случаев имеют четкую структуру.

anazarta Feb 3 2023 at 21:06

В этом направлении (наполнение описями и их добавление в поиск) мы также движется. И тут я думаю скоро будут обновления на сервисе.

xbox Feb 3 2023 at 22:39

@anazarta Благодарю вас, за то, что начали добавлять новые дела по ЦГА Москвы. Прошу обратить внимание ещё вот на какой момент.

Сейчас по ЦГА Москвы Яндексом загружено ~7+тыс дел. Предположим, я сделал десятки разных запросов по всем фамилиям и нашел 100 полезных записей. Через месяц Яндекс добавит еще ~тысячу новых дел. Я повторю свои запросы и найду 110 интересных записей. Из них всего 10 новых. При этом, чтобы понять, где новые находки, а где старые, нужно пересмотреть практически каждую картинку из найденных 110шт. Еще через месяц Яндекс загрузит еще тысячу дел. И придется опять и опять все пересматривать повторно изображения, чтобы найти несколько новых записей. И так до бесконечности.

Было бы удобно, если бы Яндекс как-то помечал новые дела или позволял их фильтровать по дате добавления. Например, если бы был фильтр "Отобразить дела добавленные за последний месяц" или за три месяца, или за произвольный период - это было бы очень удобно. Можно было бы искать только в тех делах, которые ранее не просматривались.

anazarta Feb 3 2023 at 22:47

Запишем себе как полезный функционал. Сейчас всё-таки для нас первоочередная задача - наполнение материалом и полнота поиска.

Neitr Feb 15 2023 at 16:00

Нужно было начать с распознавания медицинских карт

-1

DmitrySukharev Feb 16 2023 at 15:37

Круто, что Яндекс добрался до архивов! Мне, как и другим знакомым с этой темой, тоже приходили в голову разные мысли про такое применение нейросетей; ну что ж, одной ~~проблемой~~ идеей теперь меньше )

Понятно, что качество распознавания никогда не достигнет 100% и всегда будет нужен баланс затраченных усилий и результата, но уже сейчас много чего находится. Также хорошо то, что поиск по распознанным текстам... предсказуемый, и можно попробовать разные варианты для получения желаемого результата.

Собственно, хотел сразу написать о том, что можно было бы сделать лучше, но решил попробовать на реальных фамилиях и, как говорится, "открою яндекс на любой странице и не могу - читаю до конца". Неожиданно нашлись предки по линии жены, и стали приоткрываться семейные тайны моей тёщи ;) Ведь по архивам Москвы, когда ничего не известно про место жительство искомого человека, такой поиск - это единственный вариант найти хоть что-нибудь.

Всё же упомяну здесь о некоторых предложениях:

Использовать каким-то образом словари по названиям губерний / уездов / населённых пунктов / имён / отчеств для борьбы с ошибками распознавания. На профильном форуме все об этом говорили, и действительно, кажется, что это может дать хороший результат при разумных усилиях
Дать возможность пользователю сделать поиск всё же менее точным и предсказуемым, и как-то отделить результаты точного поиска от "нечёткого".
А не замахнуться ли в отдалённой перспективе (и с помощью экспертов) на более старые тексты? Метрики 19 века любой может прочитать, чего не скажешь о документах 17 и начале 18 века, которые могут выглядеть как каракули, где ни одного слова нельзя разобрать.

Желаю всяческих успехов в развитии проекта и в поиске знающих и адекватных помощников, а также мудрости в ситуациях, когда в интернете кто-то не прав. Большое спасибо за уже проделанную работу и примите поздравления с более чем удачным стартом!