А это уже интересный подход! Вот теперь интересно посмотреть в сравнении, насколько точность падает от ускорения? Думаю, что в сложных участках разница будет существенна
Отличный подход, спасибо, что поделились своим опытом!) 👍
Для борьбы с галюцинациями стараюсь выставлять 0 температуру.
А с большими аудио пока выхода не нашёл другого варианта, кроме как нарезка на сегменты. Правда, у меня такие длинные записи попадаются нечасто, поэтому это не критично.
По поводу WhisperCPP, интересно посмотреть, спасибо!
Да, с телеграм ботом идея рабочая, особенно если нужна мобильность, но тогда теряется приватность (всё равно в цепочке передачи). И верно подметили с ограничениями по объёму
Про local bot api тоже согласен, оперативки он ест прилично. Вариант с внешним загрузчиком выглядит, как разумный компромисс, если данные не сверхсекретные. Я так понимаю, что тут важно где именно хостится этот загрузчик и как долго там хранятся файлы
Но тут уже каждый подбирает под свои приоритеты: либо удобство, либо полная автономия и приватность
Каждый подбирает под свои задачи и железо, можно сказать, надо найти золотую середину между скоростью и качеством. Главное, чтобы результат устраивал 🙌
А это уже интересный подход!
Вот теперь интересно посмотреть в сравнении, насколько точность падает от ускорения? Думаю, что в сложных участках разница будет существенна
Спасибо, что поделились! 🔥
Надо будет обязательно попробовать!)
Отличный подход, спасибо, что поделились своим опытом!) 👍
Для борьбы с галюцинациями стараюсь выставлять 0 температуру.
А с большими аудио пока выхода не нашёл другого варианта, кроме как нарезка на сегменты. Правда, у меня такие длинные записи попадаются нечасто, поэтому это не критично.
По поводу WhisperCPP, интересно посмотреть, спасибо!
Спасибо, рад, что статья понравилась!) 🙌
Спасибо за сайт, возьму на заметку 🙌
Сейчас посмотрел, действительно, у меня Gemma 27B Q4_K_M работает не через GPU, а полностью на CPU
@pavelshaТак что написал неточно: 12 ГБ видеопамяти действительно недостаточно, даже для квантизованной версии
@Akr0nСпасибо за уточнение!
Если речь о полноценном виде, то нет
Использую квантизированную версию - Q4_K_M
💯
Как раз у себя описал, как можно сделатьДобрый день, Вадим! Я живой системный аналитик, как и вы, но, возможно, мы в целом все в матрице, кто знает...
Да, с телеграм ботом идея рабочая, особенно если нужна мобильность, но тогда теряется приватность (всё равно в цепочке передачи). И верно подметили с ограничениями по объёму
Про local bot api тоже согласен, оперативки он ест прилично. Вариант с внешним загрузчиком выглядит, как разумный компромисс, если данные не сверхсекретные. Я так понимаю, что тут важно где именно хостится этот загрузчик и как долго там хранятся файлы
Но тут уже каждый подбирает под свои приоритеты: либо удобство, либо полная автономия и приватность
Круто, хороший вариант!)
Каждый подбирает под свои задачи и железо, можно сказать, надо найти золотую середину между скоростью и качеством. Главное, чтобы результат устраивал 🙌
С русским языком хорошо справляется)
Да, я вот тут описал свой опыт https://habr.com/ru/companies/alfa/articles/909498/
Отличная работа! 🙌
Было интересно почитать, редко встретишь такой подробный и одновременно доступный разбор под капотом библиотеки.
Было бы еще круто в будущем увидеть продолжение, например, сравнение Robolectric с другими подходами к UI‑тестам)
Спасибо за статью - сохранил в избранное!
Понимаю тебя
Сам тоже не фанат лишних англицизмов, но тут «саммари» как-то прижилось - вроде как короче и сразу понятно, о чём речь.
Иногда думаю заменить на «выжимку», но «саммари» всё равно чаще в ходу 🙃
Да, отличная идея, спасибо!) 👍
Я слышал, что можно просить LLM не только вычитать ошибки, но и адаптировать текст под контекст встречи, например задать жаргоны, термины и т.п.
Надо будет поэкперементировать, интересно сравнить итоговые варианты
@ru4pae Лично сам не искал такое решение, но слышал про Bark вроде как даёт довольно живое озвучивание, правда, требует ресурсов
А если говорить за формат FB2 - если готового решения не найдетет, то думаю, можно просто перегнать в txt и уже оттуда отправлять в TTS.
Спасибо большое, что поделились очень интересно!) 🙌🏽
У вас прямо мощный и продуманный стек, впечатляет. Особенно понравился подход с двухэтапной генерацией саммари для точности 👍🏼
Pyannote тоже хочу попробовать, пока использую NeMo, но интересно сравнить их по качеству
За Saiga и AnythingLLM спасибо - обязательно гляну, как раз собираю идеи для доработок и улучшений)
Интересная статья!
Я тоже сделал подобный кейс, но у меня был немного другой вектор - локально, безопасно и без подписок.
Для разбивки по спикерам взял NeMo
Спасибо большое!) 🙌🏽
Понял, спасибо - полезный инсайт! Я пока только присматриваюсь к стримингу, но выглядит интересным!)
💯 да, прям в точку! Я сам тоже об этом думаю)
Если все таки сделаешь, уверен, получится очень удобный сервис) 🙌🏽