А, понял. Да, таймстампы на каждое слово очень снижают производительность. Вот только нужны ли они? Там 3 режима: полотно текста, таймстамп для каждого слова и промежуточный "chunks". Чанки собираются примерно по паузам в речи, в 70% случаев в одном чанке как раз и будет цельное предложение (зависит от диктора). И для каждого чанка будет таймстамп, скорость обработки чуть хуже чем у сплошного текста
Подскажите, зачем именно нужен NLTK? Whisper же ставит знаки препинания и можно предложения разделить по точкам
И про разбиение аудио на куски можете пояснить? В виспере есть опция плавающего окна (вроде, 30 сек по дефолту), и он длинное аудио сам делит на перезлестывающиеся куски. Я дома через него прогонял аудио 1.5 часа на 8гб vram без проблем. По загрузке ресурсов - не заметил разницы между длинными и короткими файлами
Аренда здесь довольно дорогая, в т.ч. по европейским меркам. В последние пару лет цена на недвигу взлетела и найти жилье за адекватные деньги сложно. И да, на 1 квартиру сразу много претендентов и лендлорд выбирает, кто ему больше понравится/сделает лучше оффер
Про вузы не знаю, а вот с садиками и школами напряжёнка. Почти все наши знакомые смогли попасть только в частные сады/школы, что обходится ещё в 400-1000 евро в месяц на ребенка. При этом в стране не хватает педагогов (у нас в садике из-за этого учебный год начался на несколько недель позже - тупо не было воспитательницы). И у тех же педагогов в гос садах/школах регулярные забастовки, например, раз в неделю стабильнг (наш случай). Про качество не могу сказать, ибо мы пока в садике, но слышал от знакомых, что к программе обучения есть вопросы
А, понял. Да, таймстампы на каждое слово очень снижают производительность. Вот только нужны ли они? Там 3 режима: полотно текста, таймстамп для каждого слова и промежуточный "chunks". Чанки собираются примерно по паузам в речи, в 70% случаев в одном чанке как раз и будет цельное предложение (зависит от диктора). И для каждого чанка будет таймстамп, скорость обработки чуть хуже чем у сплошного текста
Тестил на whisperv3 large
Очень интересный проект!
Подскажите, зачем именно нужен NLTK? Whisper же ставит знаки препинания и можно предложения разделить по точкам
И про разбиение аудио на куски можете пояснить? В виспере есть опция плавающего окна (вроде, 30 сек по дефолту), и он длинное аудио сам делит на перезлестывающиеся куски. Я дома через него прогонял аудио 1.5 часа на 8гб vram без проблем. По загрузке ресурсов - не заметил разницы между длинными и короткими файлами
Или запускать все через python по очереди: whisper/whisperx, тут же тем же скриптом вызывать llm
Я даже зарегался, чтоб оставить коммент
Аренда здесь довольно дорогая, в т.ч. по европейским меркам. В последние пару лет цена на недвигу взлетела и найти жилье за адекватные деньги сложно. И да, на 1 квартиру сразу много претендентов и лендлорд выбирает, кто ему больше понравится/сделает лучше оффер
Про вузы не знаю, а вот с садиками и школами напряжёнка. Почти все наши знакомые смогли попасть только в частные сады/школы, что обходится ещё в 400-1000 евро в месяц на ребенка. При этом в стране не хватает педагогов (у нас в садике из-за этого учебный год начался на несколько недель позже - тупо не было воспитательницы). И у тех же педагогов в гос садах/школах регулярные забастовки, например, раз в неделю стабильнг (наш случай). Про качество не могу сказать, ибо мы пока в садике, но слышал от знакомых, что к программе обучения есть вопросы