Comments / Profile of okolobaxa / Habr

How to become an author

Антон Хействер @okolobaxa

.NET developer

Profile Publications 1Comments 64Bookmarks 19

Как Яндекс научился распознавать, что написано в рукописных архивах

okolobaxa Jan 26 2023 at 11:17

У архива есть два источника финансирования - бюджет и "внебюджетные источники". Под вторым как раз понимается исполнение не социальных запросов (НЕ подтверждение стажа, наград, права собственности и т.п.), а например генеалогических запросов, платный удаленный доступ к электронному читальному залу, копирование документов. Это всё составляет приличную часть доходов архива, из которых сотрудникам к копеечным зарплатам выплачиваются премии. Ну и часть своих внебюджетных доходов архив передаёт в общак региона. В этом смысле региональный архив мало чем отличается от МУП "Банно-прачечное хозяйство", директор так же ходит на летучки к губернатору и получает план по доходам. Печально, но так это сейчас работает.

Как Яндекс научился распознавать, что написано в рукописных архивах

okolobaxa Jan 26 2023 at 11:10

А в чем скрытие? Приходите в читальный зал и изучайте документ глазами, делайте выписки. К сожалению закон об архивном деле не обязывает архивы предоставлять у документам удаленный доступ. А недавние изменения в законе полностью легализовали побор платы даже за фотографирование собственными средствами (раньше это было бесплатно).

Как Яндекс научился распознавать, что написано в рукописных архивах

okolobaxa Jan 26 2023 at 10:34

Эта тема ещё сложнее чем закон об авторских правах.

Документы в архиве лежат, каждый может прийти и их глазами посмотреть, сделать выписки. В некоторых архивах есть электронные читальные залы и можно делать тоже самое удаленно. Где-то бесплатно, где-то за деньги.

Но когда речь заходит о копиях - архив хочет денег. Можно скопировать собственным фотоаппаратом за 57р кадр, а можно воспользоваться услугами архива за 114р. Не все документы можно фотографировать самому, потому что архив решил что они "особо ценные" (все метрические книги например) и фотографировать их можно только силами архива. В одном документе может быть 1000 листов. Например список всех налогоплательщиков одного очень крупного села за 1858 год как раз 1200 листов. Посчитайте сколько стоит получить дело целиком.

Яндексу они не уплывут, Яндекс просто не станет к себе добавлять документы неизвестного происхождения. Я представляю какую огромную работу провели в Яндексе чтобы договориться с тремя доступными архивами о передаче сканов Яндексу.

Никаких прецедентов не было. Только в прошлом году был забавный инцидент, когда одна коммерческая генеалогическая компания скраулила с сайта архива все названия дел для своего поискового сервиса. Не сами дела, только их названия. Последовал поросячий визг руководства архива, угрозы убрать вс заголовки дел из публичного доступа (это значительно усложнит жизнь исследователям), пойти в суд и т.д.. В итоге полюбовно разошлись, материалы этого архива из поисковика убрали. Яндексу такие скандалы не нужны, поэтому он будет добавлять только то, что было подкреплено договорами с архивами.

Как Яндекс научился распознавать, что написано в рукописных архивах

okolobaxa Jan 26 2023 at 10:07

Жадность и индивидуальные договоренности. Я например не спешу выкладывать в общий доступ документ, на получение которого я потратил несколько лет и 25к рублей. Если мне кто-то напишет в личку, я конечно поменяюсь на что-нибудь ещё чего у меня нет или предложу совместно скинуться на оцифровку чего-то полезного обеим сторонам. Индивидуальные договоренности - кто-то скинул мне документ с обязательством не публиковать его публично например потому что он получен по знакомству или через "крота" или так же куплен за большие деньги.

Как Яндекс научился распознавать, что написано в рукописных архивах

okolobaxa Jan 26 2023 at 09:58

Нет, что вы. Мормонские волонтёры конечно стараются, но до полной индексации ещё вечность.

Как Яндекс научился распознавать, что написано в рукописных архивах

okolobaxa Jan 25 2023 at 18:17

только по вручную проидексированным документам

Как Яндекс научился распознавать, что написано в рукописных архивах

okolobaxa Jan 25 2023 at 17:45

Присоединяюсь. Любой нормальный исследователь после пары лет поисков обрастает парой десятков гигов официально купленных в архивах или вымененных у других исследователей документов. Многое из этого никогда не появится в публичном доступе и хочется хотя бы для себя распознать.

Как Яндекс научился распознавать, что написано в рукописных архивах

okolobaxa Jan 25 2023 at 12:29

Ваш поиск нашёл больше данных по моим предкам, чем поиск Генотека. Зачёт! Надеюсь скоро добавятся и другие архивы (Тула, Курск, Воронеж, Самара)

Как Яндекс научился распознавать, что написано в рукописных архивах

okolobaxa Jan 25 2023 at 12:22

А есть какой-то стандарт или стандартный формат для разметки изображения как на первой картинке? Например у меня есть фотография со списком ФИО, как мне лучше разметить на ней отдельные фамилии чтобы это был какой-то файл с мета-данными к имеющейся фотографии.

Как мы обучили нейронную сеть классифицировать шурупы

okolobaxa Jul 16 2019 at 22:15

А если представить, что у меня есть 15000 картинок болтов и шурупов и я всё же хочу каждую картинку разметить и описать. Существуют ли какие то системы управления датасетом, через которую можно размечать данные, видеть текущий объем датасета, наблюдать за его приростом, делать какие-то базовые запросы к датасету («покажи какие у меня есть образцы болтов с плоской головкой») и т.п.?

Открываем историю Большого театра. Часть первая

okolobaxa Apr 4 2018 at 20:50

Не планируете ли вы превратить это в какой-нибудь сервис, по типу smartcat, где можно будет объединяться для совместной работы и, в частности, валидации результатов. Работаю над несколькими некоммерческими архивно-краеведческими проектами и такой сервис очень бы пригодился. Объемы безусловно не такие как в музеях, но важные для провинции.

Адаптивный тест грамматики английского языка — учитесь по персональным рекомендациям c LinguaLeo

okolobaxa Oct 15 2013 at 16:11

Очень хочу читалку книг для планшета с поддержкой LinguaLeo. Чтобы сразу добавлять неизвестные слова в словарь. Планируется ли какое-либо API для таких целей?

Uploadcare — файловое хранилище для сайтов и приложений

okolobaxa Apr 22 2013 at 10:07

Очень интересный сервис, спасибо!
А есть какие-нибудь инструменты миграции? У нас Drupal и 25Gb фотографий.

5 обновлений LinguaLeo и секретные планы для изучающих английский язык

okolobaxa Sep 4 2012 at 19:31

Будет бы клево, если в бридж можно будет приглашать друзей из прайда

Прототипирование приложений для Windows Phone в SketchFlow

okolobaxa Feb 28 2012 at 10:51

Но занимает куда меньше времени, не нужно выверять точное расположение грида после перетаскивания.

Прототипирование приложений для Windows Phone в SketchFlow

okolobaxa Feb 28 2012 at 09:33

А еще можно менять порядок страниц в PanoramaItem чтобы ничего никуда не перетаскивать.

+2Гб для вашего DropBox аккаунта. Промо-акция Samsung Бразилия

okolobaxa Feb 13 2012 at 08:24

Буду рад, если еще остались конечно

Четвертый «Фестиваль 404» состоится 1-2 октября 2011 в Самаре

okolobaxa Sep 7 2011 at 10:52

Оплатил еще в августе.

Можно сейчас доплатить за афтерпати? Я одумался!

300 тысяч львят для изучения английского языка

okolobaxa Aug 25 2011 at 10:25

Очень жду приложения под мобильный платформы

KnockoutJS: Ajax grid view с нуля в 40 строк

okolobaxa Aug 5 2011 at 19:27

Еще бы live demo посмотреть, не всегда есть желание собирать проект

1