All streams
Search
Write a publication
Pull to refresh

Comments 9

Тут можно взять почти безлимитный очень быстрый и стабильный whisper https://console.groq.com

Ему не нужно будет конвертировать звук, он поддерживает большинство форматов и так

Скрытый текст

Размер модели: Оптимизированная архитектура для скорости

Скорость: Фактор скорости 216x

Аудиоконтекст: Оптимизирован для 30-секундных аудиосегментов, с минимумом 10 секунд на сегмент

Поддерживаемое аудио: FLAC, MP3, M4A, MPEG, MPGA, OGG, WAV или WEBM

Язык: Поддерживается более 99 языков

И там же можно взять ллм что бы добавить немного магии, переписать полученный после транскрибации текст, добавить переносы строк итп.

Легким движением руки телебота можно сделать "асинхронным" так что бы долгое выполнение команды не блокировало бота и он мог делать несколько запросов одновременно

добавить декоратор перед хендлерами

def async_run_with_limit(max_threads: int):
    """
    Decorator to run a function in a separate thread asynchronously,
    with a limit on the number of concurrent threads.

    Args:
        max_threads: The maximum number of threads allowed to run concurrently.
    """
    semaphore = threading.Semaphore(max_threads)

    def decorator(func):
        @functools.wraps(func)
        def wrapper(*args, **kwargs):
            def task():
                try:
                    func(*args, **kwargs)
                finally:
                    semaphore.release()

            semaphore.acquire()
            thread = threading.Thread(target=task)
            thread.start()
            return thread  # Optionally return the thread object
        return wrapper
    return decorator

Спасибо за инфу, возьму на заметку.

А есть популярные LLM, которые можно будет развернуть на своем сервере и они будут транскрибировать аудио в текст? Точнее есть ли в этом смысл

Или это не выгодно (по затрате мощностей для железа сервера для поддержания LLM), и проще использовать внешний апи?

Делал пет проект, и пока использовал от Сбера salute-speech API, которая делает неплохую транскрибацию русских текстов за покупку токенов.

LLM нужна не для транскрибации, а редактирования ответа после нее

Whisper который выше упомянули можно установить локально. Для хорошей скорости gpu не помешает. Также на днях вышла NVIDIA Canary-1B-v2. Оба из докера можно по быстрому запустить
Локально это все имеет смысл или для приватности или для больших объемов.

Сохранять на диск скаченный файл не обязательно, можно скачать его в оперативку и так использовать.

Вообще штука удобная - получать таким образом текст. Спасибо за экономию времени.

как можно с вами связаться?

внизу страницы на Гитхабе есть ссылка на мой телеграмм

Блин крутяк. Я недавно своего бота сделал по учету финансов и хотел туда прикрутить голосовую расшифровку, чтобы ленивым как я юзерам не нужно было все делать ручками. В общем, хорошая статья, надо потестить)

Sign up to leave a comment.

Articles