Комментарии 33
Кто имеет доступ к моим голосовым
Какую максимальную длину может расшифровать? Мне как-то прислали 8 минутную голосовуху...
Какие языки поддерживаются?
Язык расшифровки русский. Я посчитал что стоит ограничиться им во имя уменьшения ошибок в распознавании. На данный момент, целевой пользователь бота - русскоговорящий человек.
Подскажите, у Вас есть потребность в распознавании английской или другой речи? Если это будет распространённая просьба, то я обязательно возьмусь за доработку этого момента.
Вообще-то да, но я не планирую пользоваться вашим ботом, ибо нет доверия, да и премиум есть.
Бот не собирает содержимое голосовых или кружков, соблюдая полную конфиденциальность. Исходный код бота открыт, любой может проанализировать каждую строчку работы бота
Сейчас максимальная длительность сообщений - 5 минут, но квота обязательно будет увеличена при ближайшем обновлении бота, благодаря переходу на другое API для распознавания текста
Спасибо за Ваш комментарий!
По п. 1, увы, пока бот без вариантов использует API Яндекса, про конфиденциальность говорить не приходится, и это не к боту вопрос.
Ну исходный код бота, и исполняемый код бота - разные вещи. Плюс он юзает яндекс, а это уже сразу нет.
Что же, убеждать я никого не собираюсь. Я лишь стараюсь создать бесплатный трушный сервис и не более)
Я довольно далёк от темы сервисов и буду рад, если вы проясните мне один неясный для меня момент.
Сервис вроде должен находиться на каком-то сервере (постоянно доступном), а в дальнейшем, если сервис расширяет клиентскую базу - и не на одном сервере. Сервера стоят денег: будь то реальное железо которое сначала нужно купить за деньги, а потом за деньги же оплачивать электричество и интернет, или облака, да которые просто нужно платить деньгами. А откуда брать деньги на поддержание сервиса, если сервис бесплатный?
Конечно поясню. Вы правильно описали схему приобретения и поддержания сервера, но уже давно существует множество сервисов, предоставляющих арендовать их сервера (или часть сервера, так как на одном физическом сервере можно запустить несколько машин и давать их в аренду). Стоимость аренды иногда начинается от 100р/м, а некоторые дают тестовый период в 1-2 месяца бесплатной аренды. Поэтому аренда простенького сервера для сервиса с небольшим количеством участников - не очень затратная вещь.
Конечно в стоимость поддержки сервиса входят и другие расходы. Поэтому я планирую в будущем либо предлагать людям добровольно задонатить на развитие сервиса, либо искать способы монетизации
8 минут? Слабак, рекорд присланного мне - час сорок.
Вот это подгон к новому году ! Автор красавчик
Вот у меня был опыт создания такого бота. Ботяра и сейчас живет.
Аудитория на пике: более 500 чатов в день, более 1200 чатов в месяц, около 28 часов аудио ежедневно (6k сообщений). Аудитория росла вирально где-то x1.3 ежемесячно.
Сначала бот не бил по карману, но потом распознавание голоса мне выходило 200-300$ в месяц, я потерпел несколько месяцев, и потом сдулся. Я ввел платную подписку, чтобы не закрывать проект. Отвалилось 95% пользователей. Было жалко, но еще обиднее было, все таки, по 300$ в месяц платить на "благотворительность".
Я вижу, что ты используешь яндекс клауд для speech-to-text. Что ты будешь делать, когда бот приобретет свою аудиторию? Спойлер: с большой вероятностью его начнут добавлять в разные группы помойки на 2-17k человек.
Я смотрел в сторону использования оупенсорнсых моделей, например, whisper от openai. Арендовывать железку с GPU - космических денег стоит. На CPU вычислять можно, но добиться адекватной скорости распознавания с норм качеством не получилось. Наврятли пользователь будет ждать 5 мин, чтобы распознать сообщение длинной в 2 мин.
Выход - покупать себе физическую железку и ставить домой, как самый адекватный вариант. Но опять таки, получается, это благотворительность, и рано или поздно, придется масштабироваться, и что тогда? Делать мини ДЦ у себя дома?
Вау...
Ваш комментарий я буду перечитывать ещё не один раз. Что же, судя по всему Вы меня заранее предупредили и у меня есть время решить проблему масштабируемости.
Блин, я буквально пока пишу это проверяю статистику бота и люди реально растут.. вообще-то я думал что этого я и хочу добиться, а теперь страшно.
Полагаю что для больших групп придётся ввести ограничения.
Сейчас я ищу альтернативу yandex speechkit (железку покупать не хочется, дома ставить действительно не вариант), а также способы будущей монетизации бота для окупаемости.
С любыми идеями, сотрудничеством и советом можно писать мне в тг (в профиле, либо в описании бота)
А варианта с монетизацией, по-факту, всего два:
а) подписка
б) продажа рекламы
Представь, насколько удивятся люди, однажды обнаружив, что бот начал в их личные и групповые чаты слать рекламу. А что если это рабочие чаты с клиентами?
Давай дальше раскрутим. Думая над вариантами монетизации, ты можешь предположить, что разумно сделать два варианты работы: бесплатно с рекламой, или без рекламы, но за деньги.
Какую стоимость подписки ты введешь? Тебе так или иначе придется конкурировать с подпиской Telegram Premium. Как рассчитать стоимость подписки, если бот может работать в группе на 10 человек, на 50 человек, и на 2k человек? При этом, нет абсолютно никакой корреляции между количеством человек и активности группы. У меня были примеры, когда группа на 18k человек мне тратила в месяц 50 центов, а группа на 9 человек высаживала мне 10$. В каких-то группах принято общаться голосом, в каких-то нет.
Вопрос с рекламой тоже очень щепетильный. Скорее всего, на такую маленькую аудиторию навряд ли ты найдешь хороших рекламодателей. Это будет всякий шлак, в стиле "ШОК! ПОСМОТРИ, ЧТО ОНА СДЕЛАЛА С СОБОЙ В 16 ЛЕТ!" или еще того хуже. Хочешь ли ты своим пользователям давать такое? Допустим, тебе ок, но тогда тебе придется, во первых, искать рекламодателей, а во вторых, делать какие-то инструменты аналитики, репорты для них, чтобы отчитаться, за что они заплатили деньги, и какой выхлоп они получили. Тебе придется начать собирать данные о группах, так или иначе, чтобы, возможно, делать какое-то сегментирование как рекламной площадки. А тут уже вся эта история попахивает тем, что "какие-то" данные все-же придется собирать. Я уже молчу про то, что работа с рекламодателями требует просто колоссальных трудозатрат и времени.
Не то, чтобы я хочу тебя задемотивировать, я просто шарю свой опыт, о чем я размышлял, и с чем я столкнулся. :)
Сообщения длиной до 1 минуты можно распознавать бесплатным Гуглом. Больше одной минуты - с помощью ключей openai которые продаются ператами по курсу близкому к 1к1.
Но для больших объемов все это не сработает, оно вам надо вообще?
У Сбера есть такой же бот. @smartspeech_sber_bot
Выход - покупать себе физическую железку и ставить домой, как самый адекватный вариант.
Тут кстати интересно. Вы не считали пропускную способность для разных видеокарт? Грубо говоря, rtx4090 тянет одновременно Х аудиопотоков, позволяя иметь определенную аудиторию в пике гарантируя определенную задержку распознавания, но в данном случае железка навсегда ваша и её можно потом продать.
Если проект для хобби то весьма неплохо выходит, даже если железки потом продать то с учетом приобретенных навыков всё равно в плюс выйдете.
У Сбера давно есть SaluteSpeech Bot. Я ему, правда, в основном из WhatsApp голосовые пересылаю (в Telegram премиум есть, а вот WhatsApp расшифровку голосовых почему-то на iOS выкатил, а на Android нет).
А вот за исходники большое спасибо! Но не помешало бы добавить к ним хоть какой-то документации... на первый взгляд, даже примера config.ini в репозитории нет. А если ещё и появится возможность прикручивать разные движки, в т.ч. локальные (Whisper) - можно будет завести бота у себя и использовать его и для чего-то более конфиденциального (в отличие от упомянутого выше сберовского бота).
Спасибо за комментарий. Честно говоря не ожидал что кому-то действительно будет полезен исходный код, хотя стоп, мы ведь на хабре, точно)
Постараюсь ввести документацию в проект в ближайшие сроки. Оправдаться могу лишь тем, что на всю разработку с деплоем я потратил около 15 часов практически подряд идущих.
Где в WhatsApp на iOS расшифровка голосовых?
Как использовать SaluteSpeech Bot в WhatsApp? Версию для WhatsApp я не нашёл, а когда пересылаешь голосовуху из WhatsApp в Telegram, бот отвечает «Извините, не удалось ничего распознать».
У самого яблочных устройств сейчас нет, но у знакомых видел, позавидовал. Просто расшифровывается сразу без всяких доп. настроек и телодвижений. Возможно, не для всех версий iOS и/или устройств это выкатили, не в курсе. Появление этой фичи в бета-версии WhatsApp гуглится в новостях от февраля сего года, а летом я уже совершенно точно видел это не в бете, а в обычном релизе.
Я пересылаю в Телеграм через "Share" и всё прекрасно работает. Чистый Android 13 (LineageOS), WhatsApp и Telegram, само собой, последние. Но совершенно не удивлюсь, что на другой ОС / версии ОС / реализации оной производителем телефона может и не работать, тут надо по месту разбираться.
В кои-то веки полезный бот и даже с исходниками... Правда ща налетят коршуны и поддержка его может влететь в копеечку.
Достойный бот, автор молодец ?
Бесплатный безлимитный Telegram-бот Спич для расшифровки голосовых и кружочков