Комментарии 13
Правильно ли я понял, что используются стандартные транскрипции YouTube? По-моему они очень не качественные. Может лучше использовать Whisper?
Кстати, ссылка на Github показывает 404.
Виспер не лучше.
У Гугла в бесплатной версии gemini размер окна 1млн токенов и лимит 1млн в минуту. Может отвечать на вопросы по текстам практически любого размера без танцев с бубном.

При чём тут Gemini? С чего Вы взяли, что Гугл использует его для генерации стандартных транкрипций на YouTube? Там какой-то быстрый и низкокачественный инструмент используется.
Спасибо, ссылку на GitHub поправил.
Да, верно транскрипции стандартные.
Транскрипции к некоторым роликам предоставляют авторы видео, думаю Whisper тогда будет хуже.
Было бы интересно увидеть сравнительные тесты Whisper и автогенератора YouTube и тогда можно было бы понять что лучше
Ну т.е. опять завязываемся на какой-то сервис, который может отвалиться или изменить условия в любой момент?
ffmpeg (извлечение audio) + whisper.cpp (генерация субтитров с таймингами) + llama.cpp (открытых моделей более чем навалом, например отличная llama3-70b но 8к контекст или mixtral8x22b с 64к контекст) = решаешь свои задачи полностью оффлайн
Там и Phi-3 от Майкрософта подъехала с контекстом 128k
Так это модели уровня 8b параметров, это другой класс задач, и с ними работать нужно по другому (если задавать им вопросы, то качество будет в лучшем случае 60%), чтобы их хорошо использовать их лучше тюнить на своих данных или форматов запросов
По lmsys llama3-8b значительно лучше чем все другие 8b модели, но да она так же 8к контекст.
Напоминаю, что большой контекст не значит что модель умеет его использовать, даже gpt4 с ростом информации все сильнее начинает глючить и к 64к контексту помнит 2 из 10 искомых факта.
Вот это была бы отличная статья. =)
Сервисы от Сбер, OpenAI или Yandex вполне можно считать надежными.
Офлайн моделей тоже хватает, вопрос только в бюджете.
Как ИИ расскажет о видео из YouTube: или RAG Telegram бот с langchain и докерами