Комментарии 8
А почему не CLIP/DINO/Yolo-world? Для задачи "Определить всё" явно лучше. Ну и как бы получается one-stage. И учить не нужно - берем из коробки.
Почему плачет один дата-сайентист? В чем проблема сказать нейросети, что адидасов бывает три?
анализируете каждый кадр? или применяете какие то оптимизации, например анализ только i-frames
как получаете данные от ТВ
Если не секрет, подскажите пожалуйста, какой нейросетью вы пользовались, когда создавали обложку и арты внутри статьи с отсылками на Страх и ненависть в Лас Вегасе?))) Они просто до мурашек атмосферны и захатывающи)
Спасибо) все банально, Midjourney. Писал промпты вроде « picture in the style of the movie fear and loathing in las vegas, three guys in a car surrounded by bats. »
Еще хотел для конца статьи сделать такую картинку: терминатор-скелет вылезает из телевизора, при этом у него длинные черные волосы как у Самары из «Звонка». Выдало лютую крипоту.
Потом отказался от этой идеи и решил просто сделать Самару из «Звонка», вылезающую из телевизора, но милую. Верный способ сделать что-то милое в Midjourney — добавить в промпт «pixar style». В итоге картинки выглядели примерно так: очень милая голова девочки без шеи и тела. Лежит на полу. Оригинал потерял, но вот что-то похожее.
Страх и ненависть в телевизоре: как 3 разработчика взяли целую кучу нейросетей и научили их находить буквально ВСЁ