Search
Write a publication
Pull to refresh
315
0
Alexander Veysov @snakers4

Machine Learning / Data Science

Send message

Поддерживается путём ресемплинга в 16к

8 и 16 в модели нативно поддерживается

32 и 48 приводятся в 16 тупо усреднением каждого 2 или 3 семпла

Только не на буфер, а на буфер, и всё, что было до него. В самом буфере, как правило, недостаточно информации для такого решения.

Отсюда, кстати, и проблема. Чтобы решить такую задачу, надо массово фармить музыку (скачать все те миллионы треков), выделить там timestamp-ы пения (тексты допустим можно спарсить), выделить инструменты, выделить нужные категории инструментов.

Звучит как приключение на 20 минут. Тем временем разработчики систем разбивки аудио-трека на партии как правило начинают с "нам дали тут всю базу музыки из стриминга, вот сделайте разбивалку".

Если принципиально решать задачу разделения музыки на партии, это сделать можно, имея исходники до сведения треков.

Но тут есть ряд проблем:

  • Реальная музыка, на которой будет применяться VAD, сильно отличается от идеальных отдельных инструментов в вакууме, банки которых можно найти для аугов

  • У нас, в отличие от "стартапов" с US$100m инвестиций нет доступа ко всей голливудской базе музыки, разделенной на треки (это всего где-то 100M файлов кстати)

  • Уже есть сносно работающие делилки на треки (они не свободные / бесплатные / публичные (на выбор), но мир такой уже давно, а "свободные" так себе работают)

  • Очередь из компаний, кто готов профинансировать появление такой фичи, почему-то не выстраивается

Просто приведу примеры:

  • Речь попугая - это другие звуки?

  • Рэп?

  • Речь на заднем фоне, которую невозможно понять?

  • Пение?

И ещё десяток таких примеров.

Ten-VAD

Мы снимали метрики и скорость этого VAD-а, и не были особо впечатлены. На ручных тестах триггерится просто на громкие звуки.

Сравнение по качеству на ~20 валидационных датасетах
Сравнение по качеству на ~20 валидационных датасетах

По скорости, он действительно быстрее, примерно на 20% и там на один уровень абстракции меньше. В теории это прикольно для компиляции на разные платформы, но тут с 99% вероятностью, это не будет поддерживаться как тот же onnx-runtime.

По качеству и валидации, мы, конечно, вскекнули. Там приведены в основном примеры супер-чистых датасетов и посчитаны метрики на … 30 аудио файлах.

Ну то есть на реальной датке оно очень странно работает, фейлится на очевидных стресс-тестах. Хорошо работает на идеально чистых аудио. Но … WebRTC тоже там работает (он быстрее в 3-4 раза). Будто бы челы просто дистиллировали на супер-чистых доменах какой-то публичный VAD, и такие оп, вот метрики на 30 файлах.

реагирует на звуки музыкальных инструментов струнной группы

Есть мнение, что струнные как раз по тембру и обертонам очень похожи на человеческий голос.

Не ужели ни кто не создал VAD, реагирующий только на человеческий голос, и не допускающий ложных срабатываний от других звуков?

Если отвечать не на вопрос в духе сделайте кнопку "всё классно", а, например, почему никто не заморачивается со струнными инструментами - ответ очевиден. Никто не готов финансировать такую нишевую разработку, такие данные это яркий краевой случай, такой же как например высокая и быстрая речь персонажей мультиков.

это работа только на частоте дискретизации 16000 Гц.

Ну это просто неправда. Цитата из документации:

    sampling_rate: int (default - 16000)
        Currently silero VAD models support 8000 and 16000 (or multiply of 16000) sample rates

Вад работает на 8к и 16к, плюс на 32к и 48к.

Нельзя ли интегрировать ресемплер в саму библиотеку, чтобы пользователь смог указать свою частоту дискретизации?

Наш VAD - это тулкит / инструмент, а не полноценный редактор аудио на все случаи жизни. Он выложен насколько это возможно для нас минималистично и без лишних зависимостей.

Если взглянуть в минимальный рудиментарный, выложенный для примера использования VAD-а, там есть вот такая строчка. То есть по факту, ресемплер по факту уже интегрирован.

Тут если у вас 100500 доменов, то каскад рисуется просто.

Почему-то отваливается N доменов, они по КД пытаются обновиться, и если ранее чем это КД истечёт новые домены добавятся (или старые не починятся), то начнётся каскад и аккаунт "навсегда" уйдёт в бан.

Но, наверное если у вас 100500 доменов, надо самому управлять обновлением.

Хотел сначала написать комментарий ниже, но потом увидел, что этот пост это просто завуалированная реклама ещё одного GPT-бота в Телеграме. Странно, что никто из комментаторов выше этого не заметил.

Использовать доступ к АПИ OpenAI для детекции спама в чате на 4К людей, это даже не из пушек по воробьям, а скорее термоядерной бомбой по тараканам.

В Телеграме есть уже готовые инструменты для модерации, например Rose или combot, которые закрывают все базовые кейсы массового спама. Там нет нейросеток, но как правило большая часть спама ими режется и так + встроенные фильтры самой телеги + фильтры по словам или кусочкам слов.

Заявленные в статье типы спама - типа вакансий - режутся уже на этапе запрета типов контента в Телеграме (например ссылки).

Реальная сложно решаемая без возни проблема - это массовые GPT порно-спам-боты (легко отличить по аватаркам с дамами в томных позах, иногда порно-гифки), которые пишут AI-slop реакции на каналы или прогнанные через GPT тексты в духе "залетай в личку и получи X". Их тексты реально сложно отличить от комментариев школоты … кроме того, что люди так не пишут. И что в интернете никто не пишет положительных комментариев.

Обход бана ссылки тут идёт через ссылку в био, или ссылку на личный канал в био.

300 сертификатов за 3 часа с одного аккаунта

Один раз переводя сервис на другой хостинг мы как-то умудрились натолкнуться на rate-limits от LE. Там была ошибка в конфигурации (или DNS почему-то не обновился, или банально ошибку допустили в нём, не помню), и кадди пытался выпустить энное количестве неверных сертификатов подряд.

И мне показалось, что там лимит сильно меньше чем 300 за 3 часа. Но, возможно, это относится только к неуспешным попыткам выпуска сертификата.

Но возможно это стоит тоже явно как-то отразить.

На x86 есть маломощные процессоры Intel N100, но там как правило нет коробочек с нужным числом сокетов. Новые поколения процессоров Intel и AMD с разными всякими чиплетами и интересные сборки мини-пк на их основе, но как правило там на кастомной плате 2 сокета под NVME, а хотелось бы штуки 4 минимум.

что-нибудь появится на x86 и чуть дешевле

Сама система на чипе тут довольно дешёвая, точно дешевле чем мини-пк.

Пока коробочка работает как NAS, торренто-качалка, файлопомойка, 95% времени кулер не крутится. Как начинаешь что-то делать, начинает шуршать. Кулер не очень приятный на слух, хоть и тихий (маленький очень).

По сети выбирает 100% скорости Wi-Fi (устройства у меня по меди не подключены), иногда перезагружаю.

Понимаю, но всё равно интересно. Лучше спросить, чем не спросить.

Открою вам небольшой, но неприятный секрет - это всё не имеет никакого отношения к реальному производству чипов.

А что они сделали, кстати? Просто R&D? Мне интересно, насколько мы реально близки к своему литографу. Информация везде либо ангажированная, либо шум.

Нет, без рофлов, мне интересно, где будут производить на каком техпроцессе. Про TOPS и прочее парой веток выше уже спросили.

Может я чего-то не понимаю, но разве Байкал не под санкциями?

Где-то мелькала информация, что полностью отечественный литограф для какого-то большого техпроцесса у нас освоили, мол собираются освоить следующий большой рубеж.

А можете дополнить, сколько выдаёт попугаев команда ./gpu_burn -tc 120?

По идее тензорные ядра тоже надо тестировать и они в игровых картах дают буст к вычислениям на оптимизированном коде.

Хотел бы дополнить свою табличку:

Вот бы пощупать и добавить такой дивайс в сравнение - https://habr.com/ru/articles/913174/!

Правда, конечно, будет сложно сравнивать с продовой моделькой, т.к. там сильно оптимизированная либа под Nvidia одна есть, а до AMD даже она не особо докатилась.

Да в принципе потыкать AMD хорошая идея.

Вот такие нюансы описаны тут:

Это про бояр
Это про бояр
Тут будто бы больше надежды
Тут будто бы больше надежды

А так конечно, можно снять просто попугаев просто, вроде тут такая фича есть даже от разработчика.

Ну в темноте дата центра в закрытом корпусе только полоски света будут вырываться из серверного шасси

1
23 ...

Information

Rating
2,413-th
Registered
Activity