Pull to refresh
38
0
Александр Болховитянов @anazarta

Руководитель проекта

Send message

Добавить дела по Москве хотим до конца марта. Думаю будут еще бонусы, надеюсь всем приятные.

Запишем себе как полезный функционал. Сейчас всё-таки для нас первоочередная задача - наполнение материалом и полнота поиска.

В этом направлении (наполнение описями и их добавление в поиск) мы также движется. И тут я думаю скоро будут обновления на сервисе.

Попробую ответить, так как много вопросов про это задается, о способах "поправить" расшифровку нейросетки. Мы думали над вики-моделью, когда каждый может править, а дальше есть модераторы. В наших оценках это оказывалось слишком "дорого" по разным параметрам. Нужна защита от бесконечного потока малополезных правок. Идеальный вариант, когда человек если взялся - приводит в идеальный вид весь документ (скан). Мы рассматриваем варианты, как можно было бы дать энтузиастам, тем кто готов помочь сделать расшифровки "идеальными", доступ на редактирование. Когда тут решение будет принято, то на странице сервиса появится соответствующий раздел, чтобы оформить такое взаимодействие. При этот такой расшифровщик должен будет принять правила работы, чтобы формальные критерии соблюдались и человек осознавал свою роль в проекте и ответственность за проделанную работу.
Так что следите за новостями, надеюсь скоро мы сможем порадовать всех новостями.

В более высоком качестве я не встречал на просторах интернета. Можно воспользоваться поиском по Картинкам (https://yandex.ru/images) и туда просто скопировать картинку со скорописью и посмотреть похожие. Находятся очень полезные картинки с примерами.

А что такое "поддельный" документ? Мы работаем с теми сканами документов, которые делают архивы.

Мы будем смотреть как наша модель работает на разных документах с разными текстами и уже от этого принимать решение. Конечно, хочется попробовать всё :) Очень уж интересная область!

Перед тем, как думать в сторону платного API мы хотим научиться еще лучше распознавать документы. Это первоочередная задача для нас.

Мы работаем над увеличением числа архивов. Надеюсь в ближайшее время сможем обрадовать всех хорошими новостями.

Мы для себя определили свой формат хранения расшифровок, потому что многое зависит от решаемой задачи. Если нужно уметь распознавать символы в строке - один формат, если надо уметь понимать структуру документа - формат конечно будет отличаться.

Мы уже работаем над улучшение качества распознавания. Как можно заменить, текст в старых документах структурировали, часто писали иначе, чем сейчас в плане орфографии (переноса строк). Это все создает дополнительные сложности. Я думаю в обозримом будущем качество моделей, которые применяются в сервисе будет расти.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity