Комментарии / Профиль Sakhar / Хабр

@Sakhar

Пользователь

Профиль Публикации 5Комментарии 28Закладки

Генеративные 3D-модели

Sakhar 20 апр в 00:46

Зачем сберу генерация 3d моделей? Не вижу пока бизнес-кейсов

Посмотреть

Гауссов сплэтинг: как это выглядит

Sakhar 21 окт 2023 в 18:18

Это реализовано в lumalabs.ai - можно из своих видео instantngp/splatting сделать и повертеть в браузере. Даже на телефоне не тормозит.

По работе очень много ресерча на тему делаем, стандартный пайплайн как раз предполагает видео + colmap для определения положения камеры. Но основная цель сейчас - 6dof видео. Но пока проблемы очень существенные есть:

1. Генерация 6dof видео нужна без сложных кастомных установок на 30+ камер. В основном работы сейчас все на одних и тех же датасетах так как получать их долго.

Стриминг - форматы для 6dof видео в основном послойные и немного ущербные для pointcloud видео . С нерфами вообще беда была, splatting удобнее, но все равно много надо изобретать

Посмотреть

Легко ли собрать выжигатель мозгов? История электромагнитных полей в медицине

Sakhar 11 окт 2021 в 18:36

Спасибо за статью! Я как раз с начала этого года веду проект по активируемым ВЧ нагревом (использую 27 МГц) наночастицам для высвобождения лекарства. Можно поинтересоваться, где Вы работаете?

Посмотреть

Играем с CLIP. Создаем универсальный zero-shot классификатор на Android

Sakhar 9 сен 2021 в 22:08

В целом для детекции (определения координат) объектов она не приспособлена. В оригинальной статье что-то из этого пытались сделать, но " it struggles on more abstract or systematic tasks such as counting the number of objects in an image and on more complex tasks such as predicting how close the nearest car is in a photo. "

С другой стороны, в oppenai использовали скорее близость к словеснлму описанию положения. Если попробовать вытащить эти данные из эмбеддингов, то может что-то получиться, но достаточно узкоспециализированное, например для определения координат человека - одна head- модель на эмбедингах, для собак - другая. Это скорее всего будет работать. Как сделать универсальную сеть, которая бы давала координаты чего угодно на картинке по текстовому запросу мне не понятно, как сделать. Хотя есть ощущение, что такая задача будет решена в ближайшее время

Посмотреть

ComputerVision и стиль

Sakhar 19 июл 2021 в 15:52

Спасибо за супер статью, очень интересный обзор. Много новых для себя проектов и подходов увидел. Сам собираюсь запилить на неделе что-то типа styleclip, но с clip и cyclegan, а обучать картинку. Очень полезно было посмотреть, как сейчас совмещают текст и gan ы.

Посмотреть

Основы функционального программирования на Python

Sakhar 1 мая 2021 в 22:24

next(filter) — опечатка?

Посмотреть

Как построить свою систему поиска похожих изображений

Sakhar 4 апр 2021 в 17:40

Спасибо большое за статью! Узнал новое про r-mac пудинг. Используются ли в работе трансформеры и attention модели? Особенно интересны модели, связывающие текст и картинки. вроде бы из общих соображений CLIP, от
openai например, должен особенно хорошо значимые фичи выделять

Посмотреть

Играем с CLIP. Создаем универсальный zero-shot классификатор на Android

Sakhar 13 мар 2021 в 20:53

Да, согласен, как раз планирую добавить р — это и подразумевается под one-shot learning в последней части статьи. Тем более для её реализации не нужна серверная часть. Пока самое большое препятствие для реализации — непонятно, как должен выглядеть интерфейс, чтобы было удобно и надо ли на один класс позволять грузить несколько фото (тогда это уже не one-shot learning и будет громоздко). Кроме того, до добавления этой идеи следует её потестировать на компе — могут возникнуть некоторые принципиальные проблемы с тем, на что именно обращается внимание. К примеру, если показать бородатого доктора в белом халате, то что будет ближе — фото бороды, халата или доктора-женщины? Ответ мне пока непонятен

Посмотреть

Как посмотреть плоские фильмы в 3D

Sakhar 26 ноя 2020 в 00:25

Это реально, но я в работе не очень много времени уделил построению лучшего loss function — взял среднемодульное отклонение попиксельное, структурную схожесть (ssim_loss), чтобы учесть контратст, кроме того полученное изображение прогонялось через первый слой предобусенной нейросети vgg16, который по идее должен отвечать за простые признаки типа четких границ итд. Среднее отклонение признаков тоже использовалось как компонент loss а. Но касаемо весов каждой из компонент -подробно не оптимизировал, так как обучалась сеть достаточно медленно

Посмотреть

Как посмотреть плоские фильмы в 3D

Sakhar 25 ноя 2020 в 22:09

Немного неточно выразился. Изначально показалось, что сверточной нейросети должно быть очень легко научиться сдвигу по горизонтали (потому размеры сверточных фильтров вытянул по горизонтали). Но действительно, скорее всего подход с точным расчетом сдвига, а не «само обучится» лучший результат даст и размытия поменьше будет. Но и принципиальной разницы по сравнению с фейсбучным алгоритмом не особо много тогда будет

Посмотреть

Как посмотреть плоские фильмы в 3D

Sakhar 25 ноя 2020 в 22:00

Статья по идее простая, но в хороший журнал приняли, так как в науке по применению нейронок вообще все очень слабо. Вот ссылка на примерное описание, а вот сама статья. Идея в том, что для анализа СЭМ и других узких задач никто датасеты размечать не будет, поэтому можно данные синтетические нарендерить, обучить на них нейронку и она сносно работает на реальных данных

Посмотреть

Как посмотреть плоские фильмы в 3D

Sakhar 25 ноя 2020 в 16:00

Поправил

Посмотреть

Как посмотреть плоские фильмы в 3D

Sakhar 25 ноя 2020 в 15:55

Да, такой подход работает, читал что-то подобное люди из фейсбука пытались делать. Вроде оно неплохо работает. Но там ручной работы достаточно много.

Посмотреть

Как посмотреть плоские фильмы в 3D

Sakhar 24 ноя 2020 в 22:14

Спасибо, поправил. А природа простая — недавно писал статейку научную по нейросетям в материаловедении, да и сам по работе с электронным микроскопом работаю (там как раз позиции атомов фигурируют). Вот и сбился )

Посмотреть

Я вам графония принес! Как нейросеть может улучшить разрешение в старых играх до HD

Sakhar 26 июн 2020 в 23:22

В целом части, где такое в принципе могло бы возникнуть — это свертки. Но в данной сети все свертки 3x3 идут с шагом (stride) в 1 пиксель

Поэтому артефактов нет. Теоретически может быть артефакты на расстоянии до 4 пикселей от края, связанные с padding на границе, но реально они незаметны.
На практике возникала проблема в предобработке с неправильным ресайзом захваченного окна 640x480 (дос игры по большей части в реальном 320x240). Вот там иногда надо позаниматься пиксельхантингом, чтоб правильно уменьшить без размыления

Посмотреть

Я вам графония принес! Как нейросеть может улучшить разрешение в старых играх до HD

Sakhar 26 июн 2020 в 16:58

Имеется ввиду сцена из самого фильма, а не история с автоэнкодером

Посмотреть

Я вам графония принес! Как нейросеть может улучшить разрешение в старых играх до HD

Sakhar 26 июн 2020 в 16:56

Основная идея — оптимизация для увеличения FPS до реального времени.
ERSGAN и прочие SR сети сильно тяжелые, поэтому вот тут, например просто обрабатывают текстуры и пересохраняют. Ну или по кадрам в течение долгово времени обрабатывают, потом склеивают видео обратно

Посмотреть

Я вам графония принес! Как нейросеть может улучшить разрешение в старых играх до HD

Sakhar 26 июн 2020 в 16:50

При разработке как раз с фильтром ланцоша сравнивал, но это опустил —
Исходное

Фильтр ланцоша из библиотеки PIL

RTSR

Посмотреть

Как научить телефон видеть красоту

Sakhar 30 янв 2020 в 22:45

Как правильно заметили, разброс значений по 10 бальной шкале чуть меньше 2 баллов. Вопрос, что считать ошибкой это вопрос статистической гипотезы. Например, можно предположить, что есть некое «истинное» значение красоты для каждого лица, а оценщики пытаются его угадать, причем матожидание оценок соответствует истине. Хотя, очевидно, что такая гипотеза далека от реальности, она позволит интерпретировать результаты. Из такой гипотезы, например, следовало бы, что нейросеть лучше, чем средний человек, определяет «истинную красоту» и ошибается в 1.5 паза меньше (0.42 против 0.64).
Вопрос о том, что считать «ошибкой», сложен и зависит от того, что именно мы хотим узнать. Например при всех вышеуказанных допущениях, можно принять нулевую гипотезу, например, что A красивее, чем Б, а потом на основании тестов нейросети проверить ее с помощью какого-либо критерия.
Вопрос сложный, что считать ошибкой и короткого и однозначного ответа дать на него не могу

Посмотреть

Как научить телефон видеть красоту

Sakhar 29 янв 2020 в 14:14

Нет, не пока не пробовал. Можно в питоне heatmaps построить по признакам, например. В принципе идея решения обратной задачи и применения приходила в голову в такой формулировке:
«Как минимальным образом изменить картинку (то есть в качестве оптимизируемых параметров использовать не веса сети, а пиксели картинки), чтобы максимизировать красоту». По реализации должно быть примерно как neural stule transfer. Кроме того это только десктопно на GPU можно, обучение сети на телефоне долгое время займет, раз даже прямой прогон по несколько секунд занимает. Если будет интересно, могу поиграть с этим и тоже написать по признакам и оптимизации красоты статью. Но может и вовсе ничего не получиться из-за проблемы One pixel attack.

Посмотреть