malyazin_201029 янв 2024 в 10:04

Фотограмметрия для создания датасета систем распознавания лиц

Простой

6 мин

4.3K

Data Mining * 3D-графика * Искусственный интеллект

Комментарии 37

Dynasaur 29 янв 2024 в 10:42

Экспериментировал с фотограмметрией - искажения очень большие. Для распознавания лица, наверное, не критично, а как способ 3д-сканирования не годится. Ну, если только что-то сильно поменялось в алгоритмах в последние годы.

Sercius 29 янв 2024 в 11:08

коммерческие пакеты достигли определенного прогресса, даже стоматологи бывает пользуются. Бесплатные, в большинстве своем, недалеко ушли, т.к. под капотом всё тот же движко sfm. Дело не только в алгоритмах, но и в технологии съемки (фиксированный фокус, геометрия камеры и пр.).

mlnw 29 янв 2024 в 11:38

Зачем вообще фотографии, если лица могут генерироваться целиком программно. Тем более что для качественного датасета нужно богатое представление всех комбинаций рас, гендеров, возрастов, ракурсов, типов освещения итп, что с помощью фото получить сложнее.

Dynasaur 29 янв 2024 в 15:58

если полагаться на сгенерённые алгоритмами лица, не сверяя результат с реальностью, то со временем начнут генериться лица с тремя носами и пятью ушами в самых неожиданных местах.

mlnw 29 янв 2024 в 18:34

Генерируемые алгоритмами лица есть давно, как в кинематографе, так и в играх, и никаких семи ушей там нет.

malyazin_2010 30 янв 2024 в 07:25

Да, по той же причине, по которой chatGPT обучают на реальных текстах, а не на текстах, написанных другой нейросетью.

mlnw 30 янв 2024 в 11:50

Вы путаете данные, сгенерированные нейросетью, и данные, сгенерированные детерминированными алгоритмами.

malyazin_2010 30 янв 2024 в 13:15

Тексты (данные), сгенерированные детерминированными алгоритмами для обучения chatGPT и других моделей тоже не используются.

mlnw 30 янв 2024 в 13:25

О каких таких текстах, сгенерированных детерминированными алгоритмами идет речь? Возможно, их и не используют, т.к. сгенерировать и аугументировать изображение, которое будет сопоставимо с реальным фото, давно является посильной задачей, а сгенерировать осмысленный текст без нейросети, сравнимый с реальными текстами, - нет.

malyazin_2010 30 янв 2024 в 14:34

Я привел пример одну область (языковые модели), где данные, полученные детерминированными алгоритмами не используются для обучения нейросетей.

Могу привести примеры из других областей тоже.

mlnw 30 янв 2024 в 14:52

Вы не привели пример существования подобных данных.

malyazin_2010 30 янв 2024 в 15:07

Любые смски от банков это сгенерированные алгоритмом тексты.

mlnw 30 янв 2024 в 17:51

Если вы хотите натренить нейронку, чтобы она писала смски или находила в них паттерны, то именно эти смски еще как пойдут в качестве датасета (сотовые операторы продают данные геомаркетинга на основании обработки подобных смсок). Если вы хотите натренить чат-бота с трансформером под капотом, чтобы он говорил на произвольные темы, то ему нужны входные данные максимальной степени разнообразности. В случае с задачей идентификации лиц, сгенерированные лица подходят очень даже хорошо, поскольку на выходе они неотличимы от реальных датасетов, типа cfp, megaface и подобн.

malyazin_2010 31 янв 2024 в 14:26

Нужно признать, что из статьи не совсем понятно о каком типе систем распознавания лиц идет речь.

По используемому методу выделяют 5 типов систем распознавания лиц:

1. Метод гибкого сравнения на графах (Elastic graph matching)

2. Нейронные сети

3. Скрытые Марковские модели (СММ, HMM)

4. Метод главных компонент или principal component analysis (PCA)

5. Active Appearance Models (AAM) и Active Shape Models (ASM)

В моей статье идет речь про 2-й тип систем распознавания лиц, (с использованием нейросетей). Данный тип систем распознавания лиц используется в социальной сети Марка Цикерберга. Подробнее тут: https://habr.com/ru/companies/synesis/articles/238129/

malyazin_2010 31 янв 2024 в 16:47

29. Face Recognition A Convolutional Neural Network Approach
30. Face Recognition using Convolutional Neural Network and Simple Logistic Classifier
31. Face Image Analysis With Convolutional Neural Networks

malyazin_2010 31 янв 2024 в 17:36

malyazin_2010 31 янв 2024 в 17:38

https://habr.com/ru/companies/jetinfosystems/articles/465279/

malyazin_2010 31 янв 2024 в 18:25

Распознавание лиц человеческим мозгом: 19 фактов, о которых должны знать исследователи компьютерного зрения

https://habr.com/ru/articles/136483/

malyazin_2010 2 фев 2024 в 18:19

Тут другое интересное исследование: Ученые выяснили, сколько лиц может запомнить человек

Человек может запомнить в среднем 5000 лиц

malyazin_2010 2 фев 2024 в 18:28

Интересно, что Цукерберг обучал свое разпознавание лиц на датасете из 4000 людей и получил точность распознавания примерно как у среднего человека. Подробнее тут.

Что наталкивает на мысль, что для получения модели с качеством распознавания лучше, чем у человека нужно использовать в датасете больше 5000 людей.

malyazin_2010 1 фев 2024 в 14:20

Тут пример глубокого обучения системы распознавания лиц: https://habr.com/ru/articles/306568/

В данном случае авторы использовали датасет из 500тыс картинок с лицами, а обучение проводили всего лишь на одной видеокарте nvidia tesla 16Gb (500 тыс картинок 100*100 пикселей как раз занимают около 16 Gb)

malyazin_2010 1 фев 2024 в 15:04

Хотя скорее всего глубокое обучение запускали на видеокарте с 24Gb видеопамяти.

Видимо без 24Gb видеопамяти в глубоком обучении делать нечего.

malyazin_2010 1 фев 2024 в 16:03

Глубокое обучение распознавания лиц в соцсети Цукерберга использовало датасет из 4 млн изображений: https://en.wikipedia.org/wiki/DeepFace

malyazin_2010 1 фев 2024 в 20:18

4,4 млн изобрпжений 4 тыс человек.

В среднем получается 1100 изображений каждого человека

https://hub.docker.com/r/harshjv/openface

mlnw 1 фев 2024 в 16:59

Обучаться на таком датасете можно хоть на Raspberry Pi.

malyazin_2010 1 фев 2024 в 20:28

Тут пишут что 24Gb видеопамяти минимум нужно: https://habr.com/ru/articles/520996/

mlnw 2 фев 2024 в 15:54

Нигде не указано с какого потолка автор взял эти цифры. Нейронки на больших датасетах практически никогда не обучаются сразу на всех данных одновременно, всегда батчами, в которых на входной слой за один прогон может поступать в т.ч. лишь несколько десятков сэмплов. Поэтому хоть учить нейронку на RPi с 1Gb памяти и не практично (медленно), но и говорить, что это невозможно, и надо минимум 24Гб и ни Гб меньше - тоже неверно.

malyazin_2010 4 фев 2024 в 08:51

В качестве резюме. Схема создания систем распознавания лиц и роли метода фотограмметрии-антифотограмметрии в ней:

1 этап самый трудозатратный. Создание больших датасетов под силу только крупным ШЕ компаниям или большим соцсетям. Для примера создание датасета сотрудниками соцсети "Однокласники": https://habr.com/ru/companies/odnoklassniki/articles/350566/

2 этап требует существенных вычислительных мощностей. Если для создания minimum valuable product бывает достаточно одной продвинутой видеокарты, то для создания state-of-art модели нужны тысячи GPU

3 этап самый простой. Часто на этом этапе берут чужую, предобученную кем-то другим модель. Соответственно первые два этапа проходить не нужно. К примеру для создания аналога FindFace три разработчика использовали модель, которая "почти случайно оказалась в открытом доступе" ( ссылку приводить не буду, можно загуглить по этой фразе)