Как стать автором
Обновить

Комментарии 48

Слишком круто. Сначала он показывает пару тривиальных функций (замена фона и центрирование человека), а потом показывает то, к чему конкуренты даже близко не подошли. Наверное для контраста :)

Подумали, что надо показывать возможности шумодава буквально на максимум :)

Сначала он показывает замену фона, а потом показывает трактор.

Что-то одно из этого работает идеально - замена фона или шумоподавление ;-)

Ну, я может о чём-то не в курсе, но при наличии видеокарточки от NVidia все представленные ништяки доступны, если установить NVidia Broadcast. И шумодав, и замена/удаление фона и парочка криповых штук, таких как имитация того, что ты смотришь прямо в камеру.

парочка криповых штук, таких как имитация того, что ты смотришь прямо в камеру.

А что не так? Меня лично всегда раздражает, когда собеседники смотрят непонятно куда.
Даже думал об идее камеры с несколькими матрицами по разным сторонам экрана.

Ну, во-первых, смотреть прямо в камеру - это неестественно)

Во-вторых, реализация вышла довольно криповой, потому что глаза там получаются не под естественными углами. Эффект зловещей долины никто не отменял.

От себя лично могу сказать, что я персонально ненавижу эту функцию из-за своей, как я её обозвал, "скайпофобии" (боязнь общения по ВКС). Я не знаю как это объяснить, но у меня внутри постоянно дискомфорт при общении по видео. Я всегда сворачиваю окно с отображением участников звонка, потому что иначе начинаю нервничать. Более или менее свыкся с этим во времена ковида, но тяженько бывает до сих пор.

И вот функция, которая заставляет людей в кадре смотреть "прямо в душу" меня прям конкретно так пугает)

Трактор какой-то неправильный, судя по родным пятиэтажкам на фоне.

Должен быть Беларус!

От них даже белорусы уже открещиваются. Изделия для тех, кто не ищет лёгких путей.
Отец решил что ему слишком скучно и купил минитрактор МТЗ-132н, теперь полностью перешёл на русский матный. Сразу понимаешь, откуда идут корни многоэтажных матных конструкций.

С Беларусом шумодав не справляется.

обещали ребята с Белаза (завод) сделать натурное испытание собственно с Белазом(и шумный цех и самосвал). Ждем-с.

Осталось добавить своего AI аватара чтоб одетый сидел и моргал, останется только говорить :)

ТехtToSpeech на ChatCPT и вперед

Не понимаю почему тут минус. Но ведь сейчас нейросеть может генерить код, голос, персонажей, видео и обучать кожаных мешков тому, что она проходит за 3 минуты.

Ещё бы сделали возможность записать зацикленное видео, как в шпионских ыильмах и что бы когда начинаешь говорить автоматом переключалось опять на видеопоток с камеры. А то иногда хочется почесаться, воды попить, при этом вода мимо рта на рубашку льется. То вот так бы было красиво, конференции более расслаблено проходили бы.

Пока в разработке отслеживание доски/документа в кадре для более удобного развертывания в кадре по отношению к другим участникам ВКС. И транскрибация речи сейчас на закрытом тестировании.

Obs Studio в помощь) он может делать "виртуальную камеру", которая на самом деле будет транслировать то, что вы ей скажете - хотите рабочий стол, хотите видео, хотите сцены переключайте.

Как пилить фичи и пиариться - так это ок. Как поправить зависание намертво камеры в виндовс 10 на iMac для клиента, который вам платит за «стандартную» поддержку - так это фиг (запрос уже 16 месяцев в работе, прогнозы не понятны).

https://trueconf.ru/support/technical-support/view?ticket_id=14734&d=efac6d1c001c0e78768fd445fbad8fa5

План, как и прогноз, вполне очевиден:

1) ждём EOL для 10-ки

2) говорим, что 10-ка не поддерживается =)

3) закрываем тикет!

Использовать винду на маке, а вы знаете толк в извращениях)

Интересно, а не бывает такого, чтобы ИИ, понаблюдав за спикером, после шумоподавления снова приводил частотную характеристику речи в норму? А то здесь после шумоподавления субъективно слишком много металла в голосе, хотя чистота, конечно, на высоте.

Возможно, не шумодав классно работает, а AI вычленяет голос.

Металл в голосе - это, вроде бы, если фазы сдвинуты

если тихо - шумодав лучше вообще отключать. Лишняя обработка голоса ни к чему.

Мне одному кажется что ИИ путают с машинным обучением?

Лучше не верить, т.к. вики не является авторитетным источником.

"Процитированное в преамбуле определение искусственного интеллекта, данное Джоном Маккарти в 1956 году на семинаре в Дартмутском университете, не связано напрямую с пониманием интеллекта у человека. "

Вы имеете в виду задержку? Шумодав работает в режиме реального времени

Не ожидал такого эпика в конце. Звучит годно, интересно будет попробовать

Вау! Я впечатлен! Интересно, а настройку "детское кафе", "метро", "парк" - можно сделать?
Все таки рядом с трактором и перфоратором не выдержись в первую очередь сам, а не твои слушатели.

Настройки как таковой нет. Бытовой шум и музыку тоже хорошо удаляет.

Самому можно просто в хороших наушниках сидеть.

НЛО прилетело и опубликовало эту надпись здесь

Музыку режет на ура. С голосами сильно сложнее. Под конкретного человека учить нейросеть задачи нет.

У нас цель с помощью ИИ-функций решить типовые проблемы отдельных пользователей со звуком и видео, повысить приватность, немного разгрузить сис. администраторов и ИТ-отделы в компаниях.

А с дешёвыми микрофоном с никаким динамическим диапазоном сможет перф заглушить?))))

На видео использовался встроенный в ноутбук HP микрофон. От гарнитуры технология не зависит. Но, конечно, для собственного комфорта в условиях шумного фона - проще самому сидеть в наушниках.

Тут самое главное, чтобы тракторист не матерился. Ведь сторонние голоса отсеять нельзя. Ждём репортаж из группы детского сада, как там этот ИИ справится?

Презентация - не повод рукоплескать. Сделать шумодав для работающего двигателя трактора - не сложно. Если я правильно помню, то таким было тестовое задание для одного моего знакомого при найме. Сделать универсальный шумодав - вот тут уже задача для серьёзных претендентов на "короля горы".

Ха, а ведь и вправду - эти инструменты э... циклические. И такой шум должен иметь характерные паттерны/периоды.

Смотря как оно работает. Если постоянно отрезаются все звуки кроме голоса, то это уже заявка на успех.
Если смогут ещё и конкретный голос оставлять, вырезая все остальные, то шумодав будет разлетаться как горячие пирожки.

так он универсальный. Его же не на тракторах мы учили. Я даже специально попросил проверить, мы справимся с трактором во дворе или нет. Удивлён сам, что справились. Дрели, лобзики - я сам проверял, тут нет вопросов. Хлопки, стук - тоже долой. Там проблема - спикер орать начинает в микрофон, так как громко вокруг. А дешевые микрофоны по честному не справляются с таким.

Ну и будем честны, пробить его можно. Пихаете в микрофон дрель непосредственно и вуаля. Дрель загасит, но и речь тоже скорее всего накроется. Не для таких все же ситуаций сделано. Станки там на фоне, человек-сосед, такое вот.

Вот это было бы уже интересно почитать. На чём учили, что побивает и тд.

Сунуть дрель в микрофон, всё-таки, не юзкейс. А как насчёт невнятного произношения, заиканий, множества живых голосов на фоне, записи/радио/музыка, эхо в конце концов. Универсальность "не на тракторах учили" - слишком слабый аргумент. Я не специалист, но кажется, тут должно быть что то аналогичное вычислительной фотографии. Выделить голос, отделить шумы, достроить слабые участки. Точно так же, как на смартфонах заменят фото луны на рендер, можно было бы и генерировать распознанные слова голосом говорящего.

Ну и, конечно, никуда без бизнес решений в неоднозначных ситуациях: если я звоню с концерта и молчу - нужно ли транслировать окружающие звуки или только голоса? А если я звоню с совещания, то нужно ли подавлять все голоса кроме моего? А если в автобусе? Короче, чистой универсальности техническим путём вряд ли можно достичь.

НЛО прилетело и опубликовало эту надпись здесь

Фокус на лице – классно, почти догнали разработку Apple двухгодичной давности. Что-что, а повторять наши инженеры всегда умели.

А вот звук действительно впечатлил.

А что плохого в том, что разработчик сделал СВОЮ версию фокуса на лице, для которого не нужны девайсы эпл?

Разработчик молодец. Проблема в идеях. Наши копируют чужие идеи после того, как они были реализованы и доказали свою успешность. Вечно в догоняющих. Бывает даже своя классная новаторская идея, но её не воплощают, боясь провала. Ждут пока сделают американцы, а потом такие «а мы это первыми придумали». Печально.

А как сейчас работает эхо подавление в TrueConf? Года 4 назад, именно из него мы отказались от TrueConf.

В вопросах звука за 4 года было проделано очень много работы, эхоподавление и автоматическая регулировка уровня громкости прокачиваются постоянно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории