Comments / Profile of anazarta / Habr

Попробую ответить, так как много вопросов про это задается, о способах "поправить" расшифровку нейросетки. Мы думали над вики-моделью, когда каждый может править, а дальше есть модераторы. В наших оценках это оказывалось слишком "дорого" по разным параметрам. Нужна защита от бесконечного потока малополезных правок. Идеальный вариант, когда человек если взялся - приводит в идеальный вид весь документ (скан). Мы рассматриваем варианты, как можно было бы дать энтузиастам, тем кто готов помочь сделать расшифровки "идеальными", доступ на редактирование. Когда тут решение будет принято, то на странице сервиса появится соответствующий раздел, чтобы оформить такое взаимодействие. При этот такой расшифровщик должен будет принять правила работы, чтобы формальные критерии соблюдались и человек осознавал свою роль в проекте и ответственность за проделанную работу.
Так что следите за новостями, надеюсь скоро мы сможем порадовать всех новостями.

Look

Как Яндекс научился распознавать, что написано в рукописных архивах

anazarta Jan 26 2023 at 12:31

В более высоком качестве я не встречал на просторах интернета. Можно воспользоваться поиском по Картинкам (https://yandex.ru/images) и туда просто скопировать картинку со скорописью и посмотреть похожие. Находятся очень полезные картинки с примерами.

Look

Как Яндекс научился распознавать, что написано в рукописных архивах

anazarta Jan 26 2023 at 12:29

А что такое "поддельный" документ? Мы работаем с теми сканами документов, которые делают архивы.

Look

Как Яндекс научился распознавать, что написано в рукописных архивах

anazarta Jan 26 2023 at 12:29

Мы будем смотреть как наша модель работает на разных документах с разными текстами и уже от этого принимать решение. Конечно, хочется попробовать всё :) Очень уж интересная область!

Look

Как Яндекс научился распознавать, что написано в рукописных архивах

anazarta Jan 26 2023 at 12:21

Перед тем, как думать в сторону платного API мы хотим научиться еще лучше распознавать документы. Это первоочередная задача для нас.

Look

Как Яндекс научился распознавать, что написано в рукописных архивах

anazarta Jan 26 2023 at 12:19

Мы работаем над увеличением числа архивов. Надеюсь в ближайшее время сможем обрадовать всех хорошими новостями.

Look

Как Яндекс научился распознавать, что написано в рукописных архивах

anazarta Jan 26 2023 at 12:18

Мы для себя определили свой формат хранения расшифровок, потому что многое зависит от решаемой задачи. Если нужно уметь распознавать символы в строке - один формат, если надо уметь понимать структуру документа - формат конечно будет отличаться.

Look

Как Яндекс научился распознавать, что написано в рукописных архивах

anazarta Jan 26 2023 at 12:17

Мы уже работаем над улучшение качества распознавания. Как можно заменить, текст в старых документах структурировали, часто писали иначе, чем сейчас в плане орфографии (переноса строк). Это все создает дополнительные сложности. Я думаю в обозримом будущем качество моделей, которые применяются в сервисе будет расти.

Look