stepvg 17 мая 2024 в 18:16

Как ИИ расскажет о видео из YouTube: или RAG Telegram бот с langchain и докерами

11 мин

Комментарии 13

Andchir 17 мая 2024 в 18:33

Правильно ли я понял, что используются стандартные транскрипции YouTube? По-моему они очень не качественные. Может лучше использовать Whisper?
Кстати, ссылка на Github показывает 404.

theurus 17 мая 2024 в 19:07

Виспер не лучше.

У Гугла в бесплатной версии gemini размер окна 1млн токенов и лимит 1млн в минуту. Может отвечать на вопросы по текстам практически любого размера без танцев с бубном.

Andchir 18 мая 2024 в 02:30

При чём тут Gemini? С чего Вы взяли, что Гугл использует его для генерации стандартных транкрипций на YouTube? Там какой-то быстрый и низкокачественный инструмент используется.

jhas7 18 мая 2024 в 02:50

Gemini это к статье видимо. В статье рассказывается как из платного гигачада выдавить то что джемини дает бесплатно и без танцев с бубном.

stepvg 17 мая 2024 в 19:58

Спасибо, ссылку на GitHub поправил.
Да, верно транскрипции стандартные.
Транскрипции к некоторым роликам предоставляют авторы видео, думаю Whisper тогда будет хуже.
Было бы интересно увидеть сравнительные тесты Whisper и автогенератора YouTube и тогда можно было бы понять что лучше

Andchir 18 мая 2024 в 02:32

Я как-то раз сравнивал. Если авторы делают транскрипции, то да, качество лучше. Но стандартные автоматические транскрипции очень низкого качества.

Vindicar 17 мая 2024 в 18:49

Ну т.е. опять завязываемся на какой-то сервис, который может отвалиться или изменить условия в любой момент?

rPman 17 мая 2024 в 19:30

ffmpeg (извлечение audio) + whisper.cpp (генерация субтитров с таймингами) + llama.cpp (открытых моделей более чем навалом, например отличная llama3-70b но 8к контекст или mixtral8x22b с 64к контекст) = решаешь свои задачи полностью оффлайн

georgiyozhegov 17 мая 2024 в 19:35

Там и Phi-3 от Майкрософта подъехала с контекстом 128k

rPman 17 мая 2024 в 19:54

Так это модели уровня 8b параметров, это другой класс задач, и с ними работать нужно по другому (если задавать им вопросы, то качество будет в лучшем случае 60%), чтобы их хорошо использовать их лучше тюнить на своих данных или форматов запросов

По lmsys llama3-8b значительно лучше чем все другие 8b модели, но да она так же 8к контекст.

Напоминаю, что большой контекст не значит что модель умеет его использовать, даже gpt4 с ростом информации все сильнее начинает глючить и к 64к контексту помнит 2 из 10 искомых факта.

georgiyozhegov 17 мая 2024 в 22:39

Согласен, просто Phi-3 можно запустить практически на любом ноуте (llama.cpp кстати хорошо запускает её). Правда там уже придётся использовать модель с 4k контекста, а это уже не так уж и много

Vindicar 18 мая 2024 в 10:16

Вот это была бы отличная статья. =)

stepvg 17 мая 2024 в 20:16

Сервисы от Сбер, OpenAI или Yandex вполне можно считать надежными.
Офлайн моделей тоже хватает, вопрос только в бюджете.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий