Как стать автором
Обновить

Комментарии 13

Правильно ли я понял, что используются стандартные транскрипции YouTube? По-моему они очень не качественные. Может лучше использовать Whisper?
Кстати, ссылка на Github показывает 404.

Виспер не лучше.

У Гугла в бесплатной версии gemini размер окна 1млн токенов и лимит 1млн в минуту. Может отвечать на вопросы по текстам практически любого размера без танцев с бубном.

При чём тут Gemini? С чего Вы взяли, что Гугл использует его для генерации стандартных транкрипций на YouTube? Там какой-то быстрый и низкокачественный инструмент используется.

Gemini это к статье видимо. В статье рассказывается как из платного гигачада выдавить то что джемини дает бесплатно и без танцев с бубном.

Спасибо, ссылку на GitHub поправил.
Да, верно транскрипции стандартные.
Транскрипции к некоторым роликам предоставляют авторы видео, думаю Whisper тогда будет хуже.
Было бы интересно увидеть сравнительные тесты Whisper и автогенератора YouTube и тогда можно было бы понять что лучше

Я как-то раз сравнивал. Если авторы делают транскрипции, то да, качество лучше. Но стандартные автоматические транскрипции очень низкого качества.

Ну т.е. опять завязываемся на какой-то сервис, который может отвалиться или изменить условия в любой момент?

ffmpeg (извлечение audio) + whisper.cpp (генерация субтитров с таймингами) + llama.cpp (открытых моделей более чем навалом, например отличная llama3-70b но 8к контекст или mixtral8x22b с 64к контекст) = решаешь свои задачи полностью оффлайн

Там и Phi-3 от Майкрософта подъехала с контекстом 128k

Так это модели уровня 8b параметров, это другой класс задач, и с ними работать нужно по другому (если задавать им вопросы, то качество будет в лучшем случае 60%), чтобы их хорошо использовать их лучше тюнить на своих данных или форматов запросов

По lmsys llama3-8b значительно лучше чем все другие 8b модели, но да она так же 8к контекст.

Напоминаю, что большой контекст не значит что модель умеет его использовать, даже gpt4 с ростом информации все сильнее начинает глючить и к 64к контексту помнит 2 из 10 искомых факта.

Согласен, просто Phi-3 можно запустить практически на любом ноуте (llama.cpp кстати хорошо запускает её). Правда там уже придётся использовать модель с 4k контекста, а это уже не так уж и много

Вот это была бы отличная статья. =)

Сервисы от Сбер, OpenAI или Yandex вполне можно считать надежными.
Офлайн моделей тоже хватает, вопрос только в бюджете.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории