
Исследователи Массачусетского технологического института нашли еще одно применение для технологий распознавания изображений. Разработанная ими модель PizzaGAN определяет набор ингредиентов в пицце по фотографии и вносит в нее коррективы, добавляя или убирая любые топпинги по запросу.
Конечная цель проекта — добиться того, чтобы искусственный интеллект считывал и воспроизводил кулинарные рецепты по изображению конечного результата. Для первых шагов к этой цели пицца — наилучший вариант: ее приготовление складывается из простых, четко разделенных шагов; при этом внешний вид блюда существенно меняется на каждом этапе.
Для обучения использовалось около 10 000 фотографий пиццы с популярными топпингами — пепперони, ветчина, грибы, оливки, зелень и другие. Изображения были аннотированными: для каждого прописывался точный набор ингредиентов. На базе этой информации модель научилась распознавать визуальный эффект, который дает добавление того или иного продукта. Кроме того, исследователи включили в набор входных данных изображения как сырой, так и выпеченной пиццы, чтобы продемонстрировать различие между этими двумя состояниями.
Работа с загруженным изображением происходит следующим образом: сначала дискриминатор распознает по фотографии текущий состав пиццы и фиксирует все ингредиенты. Набор «тесто, соус, сыр» считается базовым, все прочие добавки интерпретируются как переменные, для которых можно задавать значения наличия (1) или отсутствия (0). Определяется также порядок ��асположения топпингов, от нижних к верхним, и общее состояние — готовая или непропеченная.
Затем в дело вступает система генераторов, работающих с запросами на изменение списка ингредиентов (допустим, «Заменить пепперони на ветчину», «Добавить оливки» или «Показать эту пиццу выпеченной»). Каждый генератор отвечает за одну операцию — добавление или удаление конкретного продукта либо изменение состояния. Модель сравнивает состав, определенный дискриминатором, с заданными требованиями, находит расхождения в списке топпингов, разбивает процесс корректировки на последовательность операций и активирует нужные генераторы для редактирования фотографии. Исследователи оценивают сгенерированные изображения как «очень реалистичные».

Говоря о развитии проекта в будущем, авторы отмечают, что модель наверняка покажет хорошие результаты и с другими типами еды, где ингредиенты выкладываются слоями, например, гамбургерами или сэндвичами. Практическое применение PizzaGAN пока ограничено, однако специалисты отмечают, что подобные технологии набирают популярность как инструмент для контроля качества. Так, в сети Domino уже тестируется решение на основе компьютерного зрения, которое проверяет приготовленную пиццу на соответствие стандартам компании.
