
Комментарии 29
Это был настолько лучший результат
«вам дали гораздо лучший мех. Это шанхайские барсы». Да уж... И ведь ничего не ворохнулось...
что я смог передать его большой языковой модели (LLM) и получить глубокий анализ одной очень важной для меня личной ситуации - под таким углом, о котором я сам бы никогда не задумался.
...
Я понял, что их главная ценность «ИИ-диктофонов» - не в способности записывать каждый ваш шаг, а в умении превращать хаос человеческого общения в структурированные, машиночитаемые данные.
«Роскошь человеческого общения»... Да ну на... Еще пяток Docker'ов и вообще все ваши разговоры можно будет отдать на откуп LLM . Структурированно и машиночитаемо будет...
А вы не сталкивались при использовании Whisper с ситуацией, что он пропускает некоторые фрагменты (размером в 2-3 предложения)? На записи они есть, речь звучит точно также, а в расшифровке - даже намека нет.
При этом Whisper.cpp просто молча проходит мимо, а faster-whisper выдает в таких местах "Добрый день!", "Мы снова в эфире", "Подписывайтесь...". Выглядит так, словно модель чрезмерно настойчиво пытается быть умной, и если в какой-то момент у нее не получается построить связные (с ее точки зрения) предложения, она просто пропускает этот кусок речи.
Да, я тоже замечал такие моменты. Думаю, многое зависит от качества записи и фонового шума - иногда модель спотыкается и перескакивает. Но для моих задач это не критично: важнее сохранить общий смысл и структуру диалога, чем каждое отдельное слово
В больших записях часто бывает что целые абзацы пропадают. Приходится использовать джемини вместо виспера. У него тоже бывают ИИ глюки, но вроде поменьше чем у виспера.
Сталкивался, этот момент обычно на длинных аудио, в этом случае whisper делит на части и в итоге на стыке частей могут появляться проблемы. Настраивал его через ChatGPT, он мне это подсвечивал при настройке
Все классно в whisperx кроме pyanote с лицензией.
Вроде просто форму заполнить под логином?
Платная для коммерческого использования. Только если втихаря использовать. Кстати я крутил на 1080. Нормально работает митинги по 40 минут
а в тексте я пропустил это? или надо отдельно все что вы описали сделать, и потом получать лицензию?
Подготовка:
Docker и NVIDIA GPU: для работы требуется установленный Docker и видеокарта NVIDIA с актуальными драйверами.
Токен Hugging Face: для диаризации необходим токен доступа.
Получите его в настройках профиля Hugging Face.
Примите условия использования моделей pyannote/speaker-diarization-3.1 и pyannote/segmentation-3.0.
Из гитхаба: https://github.com/empenoso/offline-audio-transcriber
Смог запустить на CPU в wsl2: запись длиной две с половиной минуты обрабатывал 3 с половиной минуты на ryzen 5600x.
Начало серии КЯВВМ застенографировал неплохо. Единственное, что не хватает — это саммари по получившейся стенографии, пока что пришлось в чатгпт закинуть, но на больших совещаниях такое не прокатит.
Как я встретил вашу маму?
Почему не прокатит?
Как я встретил вашу маму?
Ага.
Почему не прокатит?
Потому что совещания обычно длятся сильно дольше трех с половиной минут. Хотя, если прикрепить текстовый файл, а не закинуть его содержимое, возможно и получится получить таким образом саммари длинного обсуждения, но хотелось бы конечно чтобы все локально уже генерировалось.
А так в целом результат очень даже хороший и получилось запустить почти без каких-либо проблем, спасибо за вашу работу!
А причём здесь три с половиной минуты?
Я скриптом расшифровывал 18 часов записи
Речь не про стенографирование аудио в текст, а про получение саммари (выжимки основных тем и резюмирования разговора) из полученного текста.
Получение саммари к Whisper никакого отношения не имеет, это модель для перевода аудио в текст.
Если хотите чтоб саммари локально генерировался, то придется рядом с whisper разворачивать LLM (делается просто через UI, при помощи LM Studio, например) и руками уже в чат закидывать файл стенограммы с нужной инструкцией.
Я не умею писать код, но получилось с помощью перплексити поставить whisperx на MacBook air M4. Запускаю через терминал medium модель. Распознает быстро, дольше идёт диаризация. Ругается, кстати, что pyannote у меня версии 3.1, а модель научена на 0.1.
Описанные "проблемы", а принципе не являются проблемами. Подход с докером весьма упрощает жизнь, если этот самый докер освоить. В случае нормальных образов, сразу есть описание того как образ использовать.
Начало статьи бы подправить. Речь всë же про использование нейросети а не ИИ .
для тех кому нужно простое и работающее решение под win (faster whisper, diarization) - https://github.com/Purfview/whisper-standalone-win
Зачем изобретать велосипед, если он уже создан другими изобретателями))))) @cognitivepro_bot- здесь и аудиотранскрибация и видео и текст и картинки
Пользуюсь уже почти 3 года, поднял сервер со своим gpu cuda, (на cpu обрабатывается несколько раз медленнее). Сделал клиенты на Linux, windows, web, через api. Также офлайн десктоп приложения на Linux, windows под разные машины: tiny - для старого железа(250mb gpu), small - для офисных машин(500mb gpu) среднее качество, medium - хорошее качество (1gb gpu), large - отличное качество (6-8gb gpu). Офлайн, если нужна конфиденциальность. Сервеное решение с солено хешированным шифрованием. Также грамматика, перевод на английский (перевод "на лету" Вкл, выкл) также с английского на русский. Основная фича это вставка текста в любое активное текстовое поле любого приложения, (диктуешь в микрофон и текст сразу же вставляется в поле с учетом грамматики, запятые, точки..). Идея пришла, когда начали болеть пальцы от клавиатуры, такое решение хорошая замена "привычной" клавиатуры. Удобно для общения с нейросетями, объясняешь, что ты хочешь "своими словами". И вторая основная фича, это обработка как аудио так и видео файлов(через ffmg) для получения текста, который можно обработать через сети для обработки текста(gpt, Gemini, deepseek, claude etc) или через свою сеть.
эх..вот бы еще это все на windows как то установить.. python есть- обычный whisper сделал и даже со скриптом- чтобы в окошечко аудио грузить- а вот с этим непонятно.. докер ставить только ради этого???

А вот и под Windows моя поделка)) с настройками.. без всяких докеров. Иногда может путать двух людей- поэтому можно настройки подкрутить, чтобы лучше распознавало
«Просто используй Docker» — мой путь от Whisper к WhisperX