Comments 48
Слишком круто. Сначала он показывает пару тривиальных функций (замена фона и центрирование человека), а потом показывает то, к чему конкуренты даже близко не подошли. Наверное для контраста :)
Подумали, что надо показывать возможности шумодава буквально на максимум :)
Сначала он показывает замену фона, а потом показывает трактор.
Что-то одно из этого работает идеально - замена фона или шумоподавление ;-)
Ну, я может о чём-то не в курсе, но при наличии видеокарточки от NVidia все представленные ништяки доступны, если установить NVidia Broadcast. И шумодав, и замена/удаление фона и парочка криповых штук, таких как имитация того, что ты смотришь прямо в камеру.
парочка криповых штук, таких как имитация того, что ты смотришь прямо в камеру.
А что не так? Меня лично всегда раздражает, когда собеседники смотрят непонятно куда.
Даже думал об идее камеры с несколькими матрицами по разным сторонам экрана.
Ну, во-первых, смотреть прямо в камеру - это неестественно)
Во-вторых, реализация вышла довольно криповой, потому что глаза там получаются не под естественными углами. Эффект зловещей долины никто не отменял.
От себя лично могу сказать, что я персонально ненавижу эту функцию из-за своей, как я её обозвал, "скайпофобии" (боязнь общения по ВКС). Я не знаю как это объяснить, но у меня внутри постоянно дискомфорт при общении по видео. Я всегда сворачиваю окно с отображением участников звонка, потому что иначе начинаю нервничать. Более или менее свыкся с этим во времена ковида, но тяженько бывает до сих пор.
И вот функция, которая заставляет людей в кадре смотреть "прямо в душу" меня прям конкретно так пугает)
Трактор какой-то неправильный, судя по родным пятиэтажкам на фоне.
Должен быть Беларус!
От них даже белорусы уже открещиваются. Изделия для тех, кто не ищет лёгких путей.
Отец решил что ему слишком скучно и купил минитрактор МТЗ-132н, теперь полностью перешёл на русский матный. Сразу понимаешь, откуда идут корни многоэтажных матных конструкций.
С Беларусом шумодав не справляется.
обещали ребята с Белаза (завод) сделать натурное испытание собственно с Белазом(и шумный цех и самосвал). Ждем-с.
Осталось добавить своего AI аватара чтоб одетый сидел и моргал, останется только говорить :)
Ещё бы сделали возможность записать зацикленное видео, как в шпионских ыильмах и что бы когда начинаешь говорить автоматом переключалось опять на видеопоток с камеры. А то иногда хочется почесаться, воды попить, при этом вода мимо рта на рубашку льется. То вот так бы было красиво, конференции более расслаблено проходили бы.
Пока в разработке отслеживание доски/документа в кадре для более удобного развертывания в кадре по отношению к другим участникам ВКС. И транскрибация речи сейчас на закрытом тестировании.
Obs Studio в помощь) он может делать "виртуальную камеру", которая на самом деле будет транслировать то, что вы ей скажете - хотите рабочий стол, хотите видео, хотите сцены переключайте.
Как пилить фичи и пиариться - так это ок. Как поправить зависание намертво камеры в виндовс 10 на iMac для клиента, который вам платит за «стандартную» поддержку - так это фиг (запрос уже 16 месяцев в работе, прогнозы не понятны).
https://trueconf.ru/support/technical-support/view?ticket_id=14734&d=efac6d1c001c0e78768fd445fbad8fa5
Интересно, а не бывает такого, чтобы ИИ, понаблюдав за спикером, после шумоподавления снова приводил частотную характеристику речи в норму? А то здесь после шумоподавления субъективно слишком много металла в голосе, хотя чистота, конечно, на высоте.
Мне одному кажется что ИИ путают с машинным обучением?
Каков лаг?
Не ожидал такого эпика в конце. Звучит годно, интересно будет попробовать
Вау! Я впечатлен! Интересно, а настройку "детское кафе", "метро", "парк" - можно сделать?
Все таки рядом с трактором и перфоратором не выдержись в первую очередь сам, а не твои слушатели.
А с дешёвыми микрофоном с никаким динамическим диапазоном сможет перф заглушить?))))
Тут самое главное, чтобы тракторист не матерился. Ведь сторонние голоса отсеять нельзя. Ждём репортаж из группы детского сада, как там этот ИИ справится?
Презентация - не повод рукоплескать. Сделать шумодав для работающего двигателя трактора - не сложно. Если я правильно помню, то таким было тестовое задание для одного моего знакомого при найме. Сделать универсальный шумодав - вот тут уже задача для серьёзных претендентов на "короля горы".
Ха, а ведь и вправду - эти инструменты э... циклические. И такой шум должен иметь характерные паттерны/периоды.
Смотря как оно работает. Если постоянно отрезаются все звуки кроме голоса, то это уже заявка на успех.
Если смогут ещё и конкретный голос оставлять, вырезая все остальные, то шумодав будет разлетаться как горячие пирожки.
так он универсальный. Его же не на тракторах мы учили. Я даже специально попросил проверить, мы справимся с трактором во дворе или нет. Удивлён сам, что справились. Дрели, лобзики - я сам проверял, тут нет вопросов. Хлопки, стук - тоже долой. Там проблема - спикер орать начинает в микрофон, так как громко вокруг. А дешевые микрофоны по честному не справляются с таким.
Ну и будем честны, пробить его можно. Пихаете в микрофон дрель непосредственно и вуаля. Дрель загасит, но и речь тоже скорее всего накроется. Не для таких все же ситуаций сделано. Станки там на фоне, человек-сосед, такое вот.
Вот это было бы уже интересно почитать. На чём учили, что побивает и тд.
Сунуть дрель в микрофон, всё-таки, не юзкейс. А как насчёт невнятного произношения, заиканий, множества живых голосов на фоне, записи/радио/музыка, эхо в конце концов. Универсальность "не на тракторах учили" - слишком слабый аргумент. Я не специалист, но кажется, тут должно быть что то аналогичное вычислительной фотографии. Выделить голос, отделить шумы, достроить слабые участки. Точно так же, как на смартфонах заменят фото луны на рендер, можно было бы и генерировать распознанные слова голосом говорящего.
Ну и, конечно, никуда без бизнес решений в неоднозначных ситуациях: если я звоню с концерта и молчу - нужно ли транслировать окружающие звуки или только голоса? А если я звоню с совещания, то нужно ли подавлять все голоса кроме моего? А если в автобусе? Короче, чистой универсальности техническим путём вряд ли можно достичь.
Фокус на лице – классно, почти догнали разработку Apple двухгодичной давности. Что-что, а повторять наши инженеры всегда умели.
А вот звук действительно впечатлил.
А что плохого в том, что разработчик сделал СВОЮ версию фокуса на лице, для которого не нужны девайсы эпл?
Разработчик молодец. Проблема в идеях. Наши копируют чужие идеи после того, как они были реализованы и доказали свою успешность. Вечно в догоняющих. Бывает даже своя классная новаторская идея, но её не воплощают, боясь провала. Ждут пока сделают американцы, а потом такие «а мы это первыми придумали». Печально.
А как сейчас работает эхо подавление в TrueConf? Года 4 назад, именно из него мы отказались от TrueConf.
TrueConf показала возможности своего шумодава при включённом тракторе