Комментарии 18
А нафига для этого нейросеть интересно? Там же математика ?
Так ты слона не продашь!
Зачем им продавать открытую модель? А математикой эту задачу пока никто до конца не решил.
Зачем им продавать открытую модель?
Вы не бот, случайно?
Невозможно не знать таких базовых вещей.
Математикой вы дырки в модели не зашьёте нормально, тут Novel View Synthesis используется
Качество выше, гемора меньше, инфы (фоток) требуется меньше
Классическая фотограмметрия — тот ещё гемор, особенно при реконструкции помещений. Особенно с зашиванием дыр и реконструкцией карт отражений, рельефа, нормалей, прозрачности и подповерхностного рассеянния. Особенно если в реалтайме.
А сетки, особенно всякие NeRF/Gaussian splatting, всё это могут (кроме реалтайма пока что) легко и качественно. Даже если свет жёсткий и поставлен неправильно.
Опыт от Gaussian splatting в VR конечно необычный. Пробовал год или полтора назад в https://store.steampowered.com/app/2802520/Gracia
Да, 3D‑мазки вкусная штука. Единственное — жрут очень много памяти. Но на фоне спроса на нейросетки, я думаю, память в картах должна быстро вырасти и 100+ гб в бытовой карте должно стать обыденностью.
Я одно время задолбался делать реалтаймовое 3D сканирование в традиционную полигональную поверхность с текстуркой. Полигональные поверхности в принципе плохо подходят для сложных объектов. А уж их сшивка и закрытие дырок это вообще песня.
Кстати, одно время 3D графика пробовала свернуть с треугольников в эллипсоиды (правда, не объёмные а поверхности) — это была игра Ecstatica 1994 года.

Но не прижилось, решили треугольники делать. А сейчас мы возвращаемся туда, хоть и в другом виде.
Ждём в новых Айфонах
Интересно, когда станет возможным сделать бюджетную замену motion capture?
Это было бы очень здорово для разных занятий спортом. Натыкал по периметру зала 8-12 айфонов, поставил системник, и выполняешь спортивные элементы. А софт строит 3д модель с анимациями, которые уже можно дальше анализировать и сравнивать с эталонами.
А зачем 10 айфонов? Моделей строящих скелет человека вагон и тележка.
Без триангуляции либо лидера тут никак, чтобы построить достаточно точную 3д модель + скелетную анимацию.
На самом деле я думаю в сторону этого в качестве пет проекта, но знания в нейросетях у меня практически нулевые. К примеру, у той же yolo очень низкая точность, хотя там практически realtime.
Без триангуляции либо лидера тут никак
Так по 1 айфону можно сделать триангуляцию. В топовых айфонах/айпадах, если что, стоит камера глубины, которая видит не только RGB, но и Z‑буфер (в каждом пикселе расстояние). Маркетологи называют эти камеры глубины лидарами, но это не так — это именно камеры глубины. Они же продаются отдельно, хотя сейчас уже почти исчезли из продаж. Камеры глубины — не лидары, они гораздо проще устроены.

Сейчас вообще сетки, строящие Z‑буфер по 2D картинке и реконструирующие 3D координаты работают сносно. Берёте 2D, строите карту глубины, получаете 3D и вытаскиваете инфу о положении скелета. Ещё есть сетки, которые без Z буфера из 2D картинки напрямую вытаскивают скелет и даже давят шумы, вызванные неточностью распознавания.
Так что если брать айфон/айпад — просто берёте шумную карту глубины и карту цвета с его бортовых камер, пихаете в сетку и варите на местных тензорных ядрах. Не RTX 5090, конечно, но тоже ничего. Или, как вариант — жрать картинки RGBZ из айфона, транслировать в комп и на нём уже тяжёлыми сетями делать точную обработку. По одной камере.
Ладно, колюсь. У меня есть идея написать софт для анализа спортивных танцев. А там пары, и надо по танцу строить 3д скелетную анимацию мальчика и девочки по отдельности, хотя они танцуют вместе. И чем больше ракурсов - тем меньше нейросеть будет додумывать. В идеале должна быть точность которая учитывает детали вплоть до поворотов кисти, высоты подъема стопы (пятки относительно носка), степени скручивания корпуса и тп.
Это всё (захват, не аналитика) давно достижимо с помощью классического motion capture. Но его недостаток - это крайняя дороговизна и сложность монтажа оборудования. Плюс спортсменам неудобно в костюмах с метками.
Я не спец в нейросетях, хотя чатгпт посоветовал пару интересных для точного захвата. Я хорошо в самой предметной области шарю.
Интересная идея. Имхо — вполне можно на 1 точке съёмки вывезти. Я бы сделал так: покупаем/арендуем систему motion capture, добавляем всякие фитнес напульсники‑тренеры на запястьях, щиколотках и шее. Трекаем 100 танцев. С разными людьми, разным шмотом, разной обстановкой, разным временем суток, разным освещением, разной музыкой и стилем. До еды/после еды.
Берем гору сеток для подобной задачи. Сетки двух видов — жирные под H100/5090 и простые под айфон. Далее на полученном датасете файнтюним их, чтоб учились распознавать движения тел, пальцев, стоп и прочего. Чтоб оно даже учитывало выражения лиц и мельчайшие движения одежды для реконструкции напряжения мышц ещё до движения. И музыку тоже кстати. Сетки должны жрать не 1 кадр, а последние N — для того, чтобы учитывать законы физики и кинематические особенности человеков. Отбираем те из сеток, которые выдают более‑менее годный результат. По факту для разных условий лучше себя покажет та или иная сетка — для этого прикручиваем ещё одну сетку, которая по условиям съёмки/одежде/музыке автоматом подбирает нужную сетку для трекинга.
Получаем систему, которая по картинке с айфона (или даже по простой 2д картинке) делает качественный тренинг танцев.
И выкатываем три продукта — лайт, про и облачко. Лайт — чисто под айфон. Неточно, быстро, дешево. Про юзает айфон(ы) как камеры, а анализ делает на жирном ведре с Threadripper и H100/5090. Оба в реалтайме. А для не реалтайма есть облачный сервис — заливаем видос, ждём, получаем аналитику. Монетизация всех трёх по вкусу.
Почти так, но в любом случае минимум 2 синхронизированные камеры с разных сторон - необходимость. Сложно объяснять, но поверьте на слово, что в танцах есть такие нюансы связанные с положением корсара партнёрши относительно партнёра, которые ну никак не достроить с одной картинкой.
По поводу учёта физики - тоже понятно, что видеопоток даст куда больше информации чем отдельные кадры. Можно дополнительно отснять окружение чтобы проще было отсекать фон. Файнтюнинг модели(моделей) - обязательный. Референтные датасеты с маркерами и захватом движения заменяются ручной разметкой контрольных кадров.
Цели сделать реалтайм или возможность обработки на слабом железе - не стоит, не вижу в этом смысла. Конечный продукт представляю как мощный комп + набор камер, который останавливается и калибруется под определенное помещение.
Да, для аналитики ещё надо учитывать музыку - разбиение на такты, определение точности шагов на активную долю и тп.
Тоже самое думаю для тенниса. Эталоны техники известны, материалов для обучения просто куча.
Осталось дождаться когда кто-то реализует это.
Apple представила Matrix3D — нейросеть для фотограмметрии