Pull to refresh
9
0
Павел Мызников@mizza

Аналитик

Send message
Привет! Спасибо за внимание к проекту! Работа идёт, но релизить пока не осмеливаюсь: надо решить пару важных задач. За ссылку большое спасибо!
Да, безусловно, будут случаи, которые не покроются прецедентами, особенно, если их собирать вручную.

С другой стороны, я сейчас работаю над механизмом полуавтоматического заполнения базы прецедентов.
Алгоритм сам выберет, какие свойства будут лучше идентифицировать объект. Здесь подходов множество: метод главных компонент, анализ формальных концептов, что-нибудь ещё. Надо экспериментировать… Но на первое время зафиксирую самые типовые блоки вручную. Повторюсь, по собственному опыту, мне кажется, что большая часть элементов не так уж и «уникальна».

К тому же, не требуется описать прецедент максимально точно. Нужно лишь сделать так, чтобы расстояние до более «близких» прецедентов" было меньше.

Например, «верхняя часть страницы» в данном случае определяется через свойство relative_position — это относительные координаты внутри родителя. Аналогичное свойство есть и для определения относительных координат внутри страницы в целом. Понятно, что чем данные координаты будут ближе соответствовать эталону, заданному в прецеденте, тем меньший штраф будет получать прецедент при нахождении расстояния. Нужно лишь найти эти «эталонные» значения. На лицо классическая задача регрессии, в которых нужно минимизировать ошибку.

Спасибо за интерес и конструктивные комментарии!
Да, конечно, это более разумное решение)) Спасибо!
Распознавание таблиц пока ещё не реализовано. Это, действительно, одна из самых сложных подзадач. С меню проще — прецеденты, описывающие такие элементы, имеют чёткие характеристики (несколько текстовых элементов, расположенных в линию, находятся либо в верхней части страницы, либо в нижней). В принципе плоское меню распознаёт пока не плохо. С выпадающими сложнее. Часто путает с плавающим блоком. Я писал в одном из комментариев выше, что есть идея подавать на вход несколько изображений с разным состоянием страницы, но это пока гипотеза.
Да, Вы совершенно правы! Это именно то, что я имел ввиду, когда говорил о том, что не всё заложено в изображении макета и об экспертных эвристиках. Одна из идей, как покрыть часть этих проблем — подавать на вход несколько изображений одной и той же страницы в разном состоянии. Впрочем, это всё мысли об относительно отдалённом будущем. Думаю, что если эти вещи останутся единственным, что останется на откуп человеку — это будет уже неплохим шагом вперёд.
Насчёт замены людей, лично я всё ещё настроен весьма скептически на этот счёт, но делегирование рутины машине — это самое ближайшее будущее. Выше в комментариях написал о деталях релиза, не хочу дублировать комментарий.
Спасибо за интерес! Как я упоминал в статье, планы были выпустить бета-версию после новогодних праздников, но, к сожалению, не получилось. Думаю, в течение месяца постараюсь всё-таки зафиксировать какое-то состояние системы и опубликовать сервис. Сейчас куплен домен png2html.com — там сейчас заглушка на WordPress, но вообще идея такая, что Щелкунчик будет работать по этому адресу. Так что, если интересно, проверяйте сайт через месяц.

По поводу Вашей статьи, нет, я её как-то пропустил тогда. Сейчас нашёл — очень интересная и полезная для меня статья, спасибо!

Information

Rating
Does not participate
Date of birth
Registered
Activity