Как стать автором
Обновить

Комментарии 10

Вспомнилась классика :)

<@insomnia> Нужно выполнить всего три команды, чтобы поставить Gentoo

<@insomnia> cfdisk /dev/hda && mkfs.xfs /dev/hda1 && mount /dev/hda1 /mnt/gentoo/ && chroot /mnt/gentoo/ && env-update && . /etc/profile && emerge sync && cd /usr/portage && scripts/bootsrap.sh && emerge system && emerge vim && vi /etc/fstab && emerge gentoo-dev-sources && cd /usr/src/linux && make menuconfig && make install modules_install && emerge gnome mozilla-firefox openoffice && emerge grub && cp /boot/grub/grub.conf.sample /boot/grub/grub.conf && vi /boot/grub/grub.conf && grub && init 6

<@insomnia> это первая

Кучу инфы о видео на ютубе в формате json можно получить командой yt-dlp -J URL

В питоне коде как то так

    proc = subprocess.run(['yt-dlp', '--skip-download', '-J', video_url], stdout=subprocess.PIPE)
    output = proc.stdout.decode('utf-8')
    info = json.loads(output)
    duration = info['duration']

В этом словаре есть почти всё, описание, теги, просмотры итп. Список субтитров тоже.

Работает и в линуксе и в венде одинаково если установлен yt-dlp.

зы Следующий бот - то же самое но вместо ютуб субтитров - файлы с любыми документами какие сможет перевести в текст универсальная открывашка (pandoc например). Кидаем в бота docx с договором и просим переписать третий параграф :)

с документами уже RAG начинается с базой данных и прочей пургой, кода будет слишком много

С документами надо Langchain и еще желательно гибридный поиск. Там проблема больше саму базу сгенерировать, сам поиск по ней небольшое число строк в код добавляет.

Там больше проблема найти бесплатную нормальную базу для RAG найти.

Postgres умеет в vector store

ChromaDB отлично работает, хранит всё в SqLite3, никаких проблем.

qdrant сейчас вот юзаю. Полет нормальный. Self hosted, in memory, gRPC, UI dashboard, интеграция с langchain так еще легко поднялся через traefik и docker compose)

Используй gemini. Там до 4млн русских символов можно в запрос засунуть. И получить в ответ 30т русских символов. 1млн токенов в минуту бесплатно.

Попробуем это вариант, но больше хотелось версию бота с возможностью искать по поисковикам duckGo и google. В прошлой статье упоминали что планируете выложить код...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории