Последние достижения в распознавании образов впечатляют. Достаточно вспомнить результаты соревнований на базе ImageNet. Сразу же возникает вопрос, что дальше? Как мы можем использовать полученные достижения?
Что-то важное началось, когда Fei-Fei стартовала ImageNet проект. Похоже на революцию.
Меня на подсознательном уровне не отпускала одна маленькая деталь, часто упоминаемая в обсуждении соревнований ImageNet. А именно, как точно нейронные сети распознают породы собак. Есть в этом что-то, что резонирует с моей нейронной сетью. И наконец-то я тоже понял то, что многие из вас поняли давным давно. Теперь я попытаюсь сформулировать то, что я понял.
Породы собак – это довольно узкая, хорошо проработанная и очень специализированная область наших знаний. Чтобы разбираться в породах, надо видеть и запомнить очень-очень много специфических деталей. Надо знать много связанной с породами информации, к примеру историю пород, методы скрещивания, основы генетики. Надо проштудировать массу книг и постоянно отслеживать новую информацию в этой области. Причем внешность собаки, если можно сказать, ее изображение имеет решающее значение для данной области науки. Окей, согласен, разведение пород можно отнести к науке с большой натяжкой. Давайте лучше скажем — «имеет решающее значение для данной области знаний».
Недавно я работал над системой по распознаванию автомобилей и кораблей. Используя готовые модели, которые блистали в соревновании ImageNet, я не получил хороших результатов. Очевидно в базе ImageNet фотографий кораблей было значительно меньше, чем фото собак.
Где можно найти фото кораблей? Собраны ли эти фотографии в каких-нибудь базах или реестрах? Может и собраны, но найти их я не смог. Еще один маленький вопрос опустился в мою нейронную сеть и не давал спокойно спать.
Пару дней назад я опять наткнулся на популярную базу изображений для новичков, на базу цветков ириса. Что-то щелкнуло в мозгу и стало укладываться в модель.
Классификация – один из старейших научных методов. Сразу вспоминается Карл Линней с его единой системой классификации.
Изображение объекта в этих системах – одна из необходимых и главнейших частей классификации. Это, по сути, часть знаний, представление знаний.
Какие базы изображений нужны ученым, инженерам, специалистам на повседневной основе Давайте попробуем выбрать наугад:
И так далее и тому подобное. Как только попытаешься копнуть, окажется, что буквально везде мы имеем дело с изображениями и буквально везде мы принимаем решения на основе изображений.
Изображения объектов используются практически везде. Понятно, что работа по распознаванию объектов ускорилась и улучшилась, если бы мы могли везде и всегда использовать системы распознавания, вместо того, чтобы вручную искать объекты в горе книг или приглашать экспертов.
Изображения есть. Но они разбросаны по книгам и коллекциям. Они не представлены в формате, удобном для автоматической обработки. И их мало. Их явно недостаточно для тренировки хорошей системы распознавания.
Пришла пора представить вам мою модель. Мне стыдно, что до меня так долго доходили всем и так понятные вещи. Я понимаю, что ничего нового в этой модели нет. Но сочинение этого текста помогло мне сформулировать проблему. Поэтому я взял на себя смелость отдать этот текст вам на обсуждение.
Любая область науки и инженерии, имеющая дело с видимыми объектами, получит очевидные преимущества, создав базу изображений (или базы).
Любая область науки и инженерии, имеющая дело с видимыми объектами, получит очевидные преимущества, создав свои системы распознавания изображений.
Ясно, что готовые специализированные системы распознавания надо научиться встраивать, комбинировать.
И может быть, имеет смысл сделать готовую систему, библиотеку для создания баз изображений. Чтобы было удобно, к примеру, импортировать изображения, размечать их. Но может быть мы сможем обойтись чем-нибудь более простым, типа Amazon Mechanical Turk?
Как бы упростился мой последний проект, если бы я имел доступ не только к моделям ImageNet, но и к готовым моделям распознавания кораблей, катеров, каяков, гидросамолетов, грузовиков, легковых машин, велосипедов. Если бы все эти модели можно было легко скомбинировать.
Если говорить в общем, то создание специализированных систем распознавания помогло бы формализовать знания в отношении видимой стороны сущностей. Узко специализированные знания можно будет распространять и использовать быстро, дешево и эффективно. Экспертные оценки можно будет получить, используя смартфон с камерой.
Что-то важное началось, когда Fei-Fei стартовала ImageNet проект. Похоже на революцию.
Меня на подсознательном уровне не отпускала одна маленькая деталь, часто упоминаемая в обсуждении соревнований ImageNet. А именно, как точно нейронные сети распознают породы собак. Есть в этом что-то, что резонирует с моей нейронной сетью. И наконец-то я тоже понял то, что многие из вас поняли давным давно. Теперь я попытаюсь сформулировать то, что я понял.
Породы собак – это довольно узкая, хорошо проработанная и очень специализированная область наших знаний. Чтобы разбираться в породах, надо видеть и запомнить очень-очень много специфических деталей. Надо знать много связанной с породами информации, к примеру историю пород, методы скрещивания, основы генетики. Надо проштудировать массу книг и постоянно отслеживать новую информацию в этой области. Причем внешность собаки, если можно сказать, ее изображение имеет решающее значение для данной области науки. Окей, согласен, разведение пород можно отнести к науке с большой натяжкой. Давайте лучше скажем — «имеет решающее значение для данной области знаний».
Недавно я работал над системой по распознаванию автомобилей и кораблей. Используя готовые модели, которые блистали в соревновании ImageNet, я не получил хороших результатов. Очевидно в базе ImageNet фотографий кораблей было значительно меньше, чем фото собак.
Где можно найти фото кораблей? Собраны ли эти фотографии в каких-нибудь базах или реестрах? Может и собраны, но найти их я не смог. Еще один маленький вопрос опустился в мою нейронную сеть и не давал спокойно спать.
Пару дней назад я опять наткнулся на популярную базу изображений для новичков, на базу цветков ириса. Что-то щелкнуло в мозгу и стало укладываться в модель.
Имеющиеся базы знаний и изображений
Классификация – один из старейших научных методов. Сразу вспоминается Карл Линней с его единой системой классификации.
Изображение объекта в этих системах – одна из необходимых и главнейших частей классификации. Это, по сути, часть знаний, представление знаний.
Какие базы изображений нужны ученым, инженерам, специалистам на повседневной основе Давайте попробуем выбрать наугад:
Агрономия, растения
Медицина, бактерии
Рыболовство, рыбы
Геология, руды
Биология, насекомые
И так далее и тому подобное. Как только попытаешься копнуть, окажется, что буквально везде мы имеем дело с изображениями и буквально везде мы принимаем решения на основе изображений.
Необходимость баз данных изображений
Изображения объектов используются практически везде. Понятно, что работа по распознаванию объектов ускорилась и улучшилась, если бы мы могли везде и всегда использовать системы распознавания, вместо того, чтобы вручную искать объекты в горе книг или приглашать экспертов.
Изображения есть. Но они разбросаны по книгам и коллекциям. Они не представлены в формате, удобном для автоматической обработки. И их мало. Их явно недостаточно для тренировки хорошей системы распознавания.
Модель
Пришла пора представить вам мою модель. Мне стыдно, что до меня так долго доходили всем и так понятные вещи. Я понимаю, что ничего нового в этой модели нет. Но сочинение этого текста помогло мне сформулировать проблему. Поэтому я взял на себя смелость отдать этот текст вам на обсуждение.
Специализированные базы изображений
Любая область науки и инженерии, имеющая дело с видимыми объектами, получит очевидные преимущества, создав базу изображений (или базы).
Специализированные модели распознавания изображений
Любая область науки и инженерии, имеющая дело с видимыми объектами, получит очевидные преимущества, создав свои системы распознавания изображений.
Комбинация специализированных систем распознавания
Ясно, что готовые специализированные системы распознавания надо научиться встраивать, комбинировать.
Готовая система для создания баз изображений
И может быть, имеет смысл сделать готовую систему, библиотеку для создания баз изображений. Чтобы было удобно, к примеру, импортировать изображения, размечать их. Но может быть мы сможем обойтись чем-нибудь более простым, типа Amazon Mechanical Turk?
Помечтаем
Как бы упростился мой последний проект, если бы я имел доступ не только к моделям ImageNet, но и к готовым моделям распознавания кораблей, катеров, каяков, гидросамолетов, грузовиков, легковых машин, велосипедов. Если бы все эти модели можно было легко скомбинировать.
Если говорить в общем, то создание специализированных систем распознавания помогло бы формализовать знания в отношении видимой стороны сущностей. Узко специализированные знания можно будет распространять и использовать быстро, дешево и эффективно. Экспертные оценки можно будет получить, используя смартфон с камерой.