Comments 10
Вспомнилась классика :)
<@insomnia> Нужно выполнить всего три команды, чтобы поставить Gentoo
<@insomnia> cfdisk /dev/hda && mkfs.xfs /dev/hda1 && mount /dev/hda1 /mnt/gentoo/ && chroot /mnt/gentoo/ && env-update && . /etc/profile && emerge sync && cd /usr/portage && scripts/bootsrap.sh && emerge system && emerge vim && vi /etc/fstab && emerge gentoo-dev-sources && cd /usr/src/linux && make menuconfig && make install modules_install && emerge gnome mozilla-firefox openoffice && emerge grub && cp /boot/grub/grub.conf.sample /boot/grub/grub.conf && vi /boot/grub/grub.conf && grub && init 6
<@insomnia> это первая
Кучу инфы о видео на ютубе в формате json можно получить командой yt-dlp -J URL
В питоне коде как то так
proc = subprocess.run(['yt-dlp', '--skip-download', '-J', video_url], stdout=subprocess.PIPE)
output = proc.stdout.decode('utf-8')
info = json.loads(output)
duration = info['duration']
В этом словаре есть почти всё, описание, теги, просмотры итп. Список субтитров тоже.
Работает и в линуксе и в венде одинаково если установлен yt-dlp.
зы Следующий бот - то же самое но вместо ютуб субтитров - файлы с любыми документами какие сможет перевести в текст универсальная открывашка (pandoc например). Кидаем в бота docx с договором и просим переписать третий параграф :)
с документами уже RAG начинается с базой данных и прочей пургой, кода будет слишком много
С документами надо Langchain и еще желательно гибридный поиск. Там проблема больше саму базу сгенерировать, сам поиск по ней небольшое число строк в код добавляет.
Используй gemini. Там до 4млн русских символов можно в запрос засунуть. И получить в ответ 30т русских символов. 1млн токенов в минуту бесплатно.
Попробуем это вариант, но больше хотелось версию бота с возможностью искать по поисковикам duckGo и google. В прошлой статье упоминали что планируете выложить код...
Как подружить Llama-3.1 и YouTube имея всего 40 строк кода