Comments / Profile of izzyleet / Habr

@izzyleet

User

ProfileArticles1PostsNewsComments11

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 15 at 14:56

Здравствуйте, неа, не пробовали, пожалуйста поделитесь результатами если попробуете!)

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 4 at 06:51

сегодня гемма выпустили официальную q4 квантизацию

https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 3 at 08:39

Спасибо вам огромное за ваши вопросы и материалы, я был очень рад с вами пообщаться!) Сохранил материалы и обязательно к ним обращусь по возвращению к задаче!

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 3 at 08:38

у нас гемма пока не квантована, но если вам нужно квантовать быстро и вы используете vllm то вы можете указать параметр при запуске раннера --quantize=bitsandbytes таким образом размер самой модели будет ~7 gb но стоит учитывать что это 4 битное квантование, так же можете использовать --quantize=fp8 или воспользоваться фреймворком например llm_compressor

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 2 at 07:50

Эта задача у нас в беклоге мы к ней еще не приступали, пока даже не думал как ее выполнять, но предполагаю что это будет какой нибудь текстовый+акустический анализ, где будем анализировать изменение в речи+текст. Под триггерится я имел ввиду что мы анализировали кейсы на которых тематики определяются не верно и там не было проблемы именно в "эмоциональности" разговора.

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 2 at 07:31

Здравствуйте

Присоединяюсь к вопросу о разделении голосов. Whisper её не делает, хотя в тексте статьи в одном предложении написано про whisper и next speaker prediction. Зато это делает pyannote. Насколько помню Nvidia Nemo тоже умеет, но с наскока не завелась, поэтому не стал менять pyannote: лучшее - враг хорошего.

У whisper есть действительно хороший побочный эффект и это не столько NSP задача сколько возвращаемый whisper сегмент в большем кол-ве случаев содержит экземпляр только одного говорящего. Если у меня будет время я найду тест и дам вам воспроизвести, либо можете попробовать сами и поделиться тем что у вас получилось.

Ещё странно выглядит в начале про выделение инструментов из оркестра, а в конце мешает проблема проезжающей машины. Кажется у запрещённого Фейсбука есть модель, которая выделяет голоса из звука. Почему сразу не вытащить именно голос, а не инструмент, который все равно ничего человеческого не скажет?

Вот тут не совсем понял, можете уточнить пожалуйста что имеете ввиду?
Спасибо за вопросы. Мы просто выполнили задачу и поделились результатами, не было цели вводить кого то в заблуждение, надеюсь статья была полезной)
Кстати на скриншоте "Транскрибация" реальный результат этапа транскрибации и тут можно увидеть что возвращаемые сегменты действительно не являются NSP, но при этом содержат экземпляр одного говорящего.

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 2 at 07:14

Здравствуйте, спасибо за вопросы
wespeaker-voxceleb-resnet34-LM - модель войс эмбеддингов

По контексту, по моему личному опыту слишком большой контекст никогда не был хорошей идеей, много тестили на мистрале есть несколько причин

Здравствуйте, долго время использовали мистраль немо квантованную в W8A16. Сейчас перешли на gemma-3-12b-it для наших задач она нам показалась лучше

чем больше инпут контекст тем меньше перфоманс на задаче, мы используем токенайзер модели и смотрим сколько токенов у нас в тексте, мы используем чанки 4096-8192
2. в зависимости от кол-ва токенов инференс движки будут аллоцировать память под это, а это так же накладывается, сейчас у нас vllm инференс, там батчинг и ограничение в 16384 токена и это инпут+оутпут, если честно никогда не видел что бы использовали значимо больше, но мб не туда смотрел.

Если коротко то в целях экономии памяти + не нравится перфоманс модели на большом кол-ве токенов, возможно у геммы "эффективное контекстное окно" выше чем у мистраля, надо потыкать посмотреть

по rogue-n это конечно метрика сильно ситуативная и вы правильно подметили ее недостатки, но из более достоверных метрик я знаю только двойную генерацию и проверку человеком)

Спасибо за вопросы!

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 2 at 06:54

Здравствуйте, долго время использовали мистраль немо квантованную в W8A16. Сейчас перешли на gemma-3-12b-it для наших задач она нам показалась лучше

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 2 at 06:52

Для звонков, целевые метрики классификации, то есть в звонках мы просто анализируем кейсы где не правильно предсказали класс обращения и там нет акцентов на выше указанной проблеме, думаю это потому что человек в первое в начале звонка спокоен либо модель у нас на это не сильно триггериться либо же ллм+классификатор хорошо сглаживают это. У нас есть задача в беклоге на определение того был ли разговор "эмоциональным" может быть после перехода к этой задаче у меня получится лучше понять вашу боль.

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 1 at 11:35

Здравствуйте, спасибо за комментарий!

как вы подготавливали данные при передаче его в Whisper

Данные нарезаются на чанки до 30 секунд в момент тишины от 25-30 секунд + препроцессинг: шумодовление, улучшение качества (speechbrain), конвертация в wav с нужным sr.

со всеми описанными проблемами пробовали бороться с помощью общего пайплайна препроцессинга и настройкой гиперпараметров. Зум конференции обычно проходят в тишине и там нет особых проблем с ложными срабатываниями по VAD, а в звонках в поддержку действительно встречались фоновые разговоры, но в рамках анализа результатов насколько я знаю они значимо не отразились.
В пайплайне транскрибации звонков мы транскрибируем все, разделяем на n спикеров и потом с помощью llm вытягиваем именно часть текста с основной проблемой (транскрибируем только первую минуту разговора), а далее у нас уже обученный енкодер классификатор присваивает тематику.

Если есть проблема с быстрой речью то есть практики по замедлению аудио, на общем перфомансе они могут не сильно сказаться, а на конкретных кейсах при этом дать лучший результат.

Если коротко то подготовить хороший датасет из продовой среды, настроить препроцессинг и гиперпараметры на лучший перфоманс + ллм постпроцессинг. Модель используем large-v3 она показывала лучшие результаты (офк она их флагман)))) и она ложится в требования по скорости ответа, для скорости можно поэкспериментировать в large-v3 турбо или medium, large-v3 turbo показала себя не оч хорошо в русский на нешем пайплайне, мб что то не так делали. Спасибо за вопросы, надеюсь ответил.

Look

Как мы транскрибируем аудио с внутренних созвонов в текст

izzyleet Apr 1 at 11:18

Здравствуйте, спасибо за комментарий!

Опасаетесь, что zoom станет недоступным, но НЕ опасаетесь, что продукт услуга OpenAI станет недоступной

Whisper это open source модель, которая выгружена и независимо хостится на сервере компании, а соответственно в этом направлении у нас рисков нет.

Не пробовали silero?

неа

Look