Comments / Profile of lynikol / Habr

Николай Луняка@lynikol

Системный аналитик

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

А это уже интересный подход!
Вот теперь интересно посмотреть в сравнении, насколько точность падает от ускорения? Думаю, что в сложных участках разница будет существенна

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol Jul 31 at 06:09

Спасибо, что поделились! 🔥

Надо будет обязательно попробовать!)

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol Jun 18 at 11:43

Отличный подход, спасибо, что поделились своим опытом!) 👍

Для борьбы с галюцинациями стараюсь выставлять 0 температуру.

А с большими аудио пока выхода не нашёл другого варианта, кроме как нарезка на сегменты. Правда, у меня такие длинные записи попадаются нечасто, поэтому это не критично.

По поводу WhisperCPP, интересно посмотреть, спасибо!

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 28 at 06:04

Спасибо, рад, что статья понравилась!) 🙌

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 26 at 08:31

Спасибо за сайт, возьму на заметку 🙌

Сейчас посмотрел, действительно, у меня Gemma 27B Q4_K_M работает не через GPU, а полностью на CPU

@pavelshaТак что написал неточно: 12 ГБ видеопамяти действительно недостаточно, даже для квантизованной версии

@Akr0nСпасибо за уточнение!

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 26 at 05:11

Если речь о полноценном виде, то нет

Использую квантизированную версию - Q4_K_M

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

@lynikol May 22 at 13:56

💯Как раз у себя описал, как можно сделать

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 21 at 09:40

Добрый день, Вадим! Я живой системный аналитик, как и вы, но, возможно, мы в целом все в матрице, кто знает...

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 21 at 08:48

Да, с телеграм ботом идея рабочая, особенно если нужна мобильность, но тогда теряется приватность (всё равно в цепочке передачи). И верно подметили с ограничениями по объёму

Про local bot api тоже согласен, оперативки он ест прилично. Вариант с внешним загрузчиком выглядит, как разумный компромисс, если данные не сверхсекретные. Я так понимаю, что тут важно где именно хостится этот загрузчик и как долго там хранятся файлы

Но тут уже каждый подбирает под свои приоритеты: либо удобство, либо полная автономия и приватность

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 21 at 08:35

Круто, хороший вариант!)

Каждый подбирает под свои задачи и железо, можно сказать, надо найти золотую середину между скоростью и качеством. Главное, чтобы результат устраивал 🙌

Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только)

@lynikol May 20 at 17:46

С русским языком хорошо справляется)

Да, я вот тут описал свой опыт https://habr.com/ru/companies/alfa/articles/909498/

Мечтают ли андроиды о Robolectric? Разбираем фреймворк по косточкам

@lynikol May 20 at 14:17

Отличная работа! 🙌

Было интересно почитать, редко встретишь такой подробный и одновременно доступный разбор под капотом библиотеки.

Было бы еще круто в будущем увидеть продолжение, например, сравнение Robolectric с другими подходами к UI‑тестам)

Спасибо за статью - сохранил в избранное!

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 20 at 12:40

Понимаю тебя

Сам тоже не фанат лишних англицизмов, но тут «саммари» как-то прижилось - вроде как короче и сразу понятно, о чём речь.

Иногда думаю заменить на «выжимку», но «саммари» всё равно чаще в ходу 🙃

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 20 at 11:34

Да, отличная идея, спасибо!) 👍

Я слышал, что можно просить LLM не только вычитать ошибки, но и адаптировать текст под контекст встречи, например задать жаргоны, термины и т.п.

Надо будет поэкперементировать, интересно сравнить итоговые варианты

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 20 at 05:56

@ru4pae Лично сам не искал такое решение, но слышал про Bark вроде как даёт довольно живое озвучивание, правда, требует ресурсов

А если говорить за формат FB2 - если готового решения не найдетет, то думаю, можно просто перегнать в txt и уже оттуда отправлять в TTS.

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 20 at 05:40

Спасибо большое, что поделились очень интересно!) 🙌🏽

У вас прямо мощный и продуманный стек, впечатляет. Особенно понравился подход с двухэтапной генерацией саммари для точности 👍🏼

Pyannote тоже хочу попробовать, пока использую NeMo, но интересно сравнить их по качеству

За Saiga и AnythingLLM спасибо - обязательно гляну, как раз собираю идеи для доработок и улучшений)

@lynikol May 19 at 19:14

Интересная статья!

Я тоже сделал подобный кейс, но у меня был немного другой вектор - локально, безопасно и без подписок.

Для разбивки по спикерам взял NeMo

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 19:10

Спасибо большое!) 🙌🏽

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 18:46

Понял, спасибо - полезный инсайт! Я пока только присматриваюсь к стримингу, но выглядит интересным!)

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 18:37

💯 да, прям в точку! Я сам тоже об этом думаю)

Если все таки сделаешь, уверен, получится очень удобный сервис) 🙌🏽

Information

Specialization