Обновить
16K+
14
Дмитрий@amidexe

Пользователь

35,1
Рейтинг
3
Подписчики
Отправить сообщение

Отлично, спасибо, что проверили! Если все ок, завтра будет в RuStore. ​Кстати, есть и второй режим: просто тапните по значку (птичка замигает красным) и произносите текст. В настройках можно настроить темп, чтобы фразы не обрывались

Возвращаюсь к вашему отзыву. После него накопились похожие симптомы (птичка появляется и сразу пропадает) с других устройств на Snapdragon 8 Elite Gen 5 - OnePlus 15, iQOO 15. Honor Magic 8 Pro как раз на этом же чипе. Возможно, это из-за бага в библиотеке распознавания - sherpa-onnx с ONNX Runtime 1.23.2 имел баг с детекцией SME-инструкций на новых ARM-чипах. В новой версии библиотеки (ONNX Runtime 1.24.3) это исправлено. Подготовил тестовую сборку: https://github.com/amidexe/govorun-lite/releases/tag/v1.0.7-rc1-onnx

Если попробуете - буду благодарен за фидбек, помогло ли. APK подписан тем же сертификатом, обновится поверх установленной из RuStore.

По репортам с OnePlus 15, OnePlus 15R, iQOO 15 (и других на Snapdragon 8 Elite Gen 5) приложение крэшится из-за известного бага в библиотеке распознавания. Уже исправлено в новой версии библиотеки.Тестовая сборка: https://github.com/amidexe/govorun-lite/releases/tag/v1.0.7-rc1-onnxЕсли у вас крэш на этих устройствах - попробуйте, пожалуйста. Сообщите помог ли фикс. Если работает - выложу обновление в RuStore.

Стиль-промпты как в LazyTyper - это и есть планируемая Pro-фича. LLM-обработка распознанного текста - шаблоны стилей ("деловое письмо", "сообщение в чат" и т.п.). Это естественное дополнение к распознаванию. Модели, которые хотелось бы использовать, пока работают, к сожалению, слишком медленно на телефоне и требуют от 2.5gb ram, так что в данный момент это только облачный вариант. Точно одно: на горизонте от года до двух всё, что можно придумать по обработке текста, можно будет выполнять локально на телефоне без интернета. Говорун - пример этого направления.

Точно, 32-битная ОС, несмотря на возможности процессора (64). На текущий момент «Говорун» оптимизирован только под 64-битные системы (arm64-v8a).

Разработка 32-битной версии пока не планируется, так как алгоритмы распознавания речи требуют высокой производительности, приложение будет работать слишком медленно, что может испортить впечатление от использования.

Спасибо за отзыв и за идею! Лучшая поддержка проекта - оценка в RuStore/Github и рассказать о приложении другим. Если оно работает для вас, скорее всего и для других будет полезно!

Сама базовая возможность "голосовой ввод на русском" должна быть в любом Android из коробки, просто производители как обычно тормозят. Pro будет уже про другое - реальные сценарии под рабочие процессы: заметки голосом, задачи, события в календарь, диктофон. На тестовой версии Pixel 8a распознал 60 минут аудио за 14 минут - примерно в 7 раз медленнее чем через облачные сервера, но зато локально. По сути Lite остаётся легкой и доступной версией для всех, а Pro будет отдельным проектом .

Lite - это и есть основная цель проекта. Сделать наконец нормальный голосовой ввод на русском, выложить в RuStore, чтобы человек просто поставил и пользовался, без заморочек с очередным неработающим решением или подпиской за скромные 12 баксов в месяц, которые ещё надо как-то оплатить через неработающий Google Play. Обидно что для английского куча всего, а для русского толком ничего - вот эта боль и определила судьбу приложения. Pro - это отдельная история - другой продукт для тех кто хочет голосом организовать свои рабочие процессы: создание заметок, постановка задач, добавление в календарь, диктофон с распознаванием. Часть этих сценариев требует LLM-обработки текста - локальная LLM на телефоне это тема для отдельной статьи. Pro не для всех - это нормально, оно и не должно быть для всех. Планирую написать про Pro отдельную статью.

Спасибо за такой отзыв, очень приятно! Архитектурно ограничений на длительность нет. Каждый кусочек после паузы уходит на распознавание, аудио из памяти очищается, состояние стабильное. Память не накапливается. Можете диктовать хоть несколько страниц подряд. Для ориентира: в Pro есть функция распознавания загруженных аудиофайлов, я тестировал на 60-минутной записи на Pixel 8a - заняло около 14 минут. То есть само распознавание идёт быстрее реального времени. Похоже на нагрузку при видеозвонке - телефон будет тёплый, но не перегреется. За час диктовки батарея сядет заметно, но не критично.

Спасибо что отписались. На OnePlus accessibility-сервис явно работает со своими нюансами - вы сами заметили что пункты меню называются по-другому. У меня OnePlus нет, к сожалению, потестировать не могу. Кстати, у вас первый отзыв с OnePlus. Если появятся другие репорты по вашей модели - напишу здесь.

Скорее всего у вас 64-битный процессор - все варианты A13 были на 64-битах, тут проблем быть не должно. Уточните пожалуйста версию Android - Говоруну нужен 13 или новее. И сколько у вас ОЗУ - если 3 ГБ может быть впритык, на 4 ГБ+ возможно заработает. Самый простой вариант - попробуйте поставить из RuStore и напишите что получилось.

Спасибо за отзыв! Для нормального распознавания английского нужна другая модель. Английская модель хорошо распознаёт английский, русская хорошо распознаёт русский. Если взять универсальную, которая работает со всеми языками сразу - она хуже справится и с русским, и с английским по сравнению со специализированными. В Pro-версии можно будет опционально подключить Parakeet от NVIDIA - 25 европейских языков (русский, английский, украинский, немецкий, французский, итальянский и другие). Это для тех кто реально много говорит не на русском. Модель тяжелее (600 МБ против 300 МБ у текущей GigaAM), поэтому будет именно опцией - кому нужно, тот включит. В Lite для английских слов можно использовать свой словарь автозамен (добавил в 1.0.6). Туда можно добавить слова в виде "как слышит модель = правильно", например "джимэйл=Gmail".

Спасибо за отзыв! Дообучить модель под конкретный лексикон - действительно сложно: нужны датасеты, GPU, недели работы. В версии 1.0.6 появился свой словарь автозамен. В Настройках "Свой словарь" можно вручную добавить часто встречающиеся слова из вашего лексикона: правила вроде "как слышит модель = правильно". Можно попробовать сгенерировать словарь в нейронке. В планах для Pro - ИИ-постобработка распознанного текста.

Спасибо за подробный отзыв! В приложении два режима. В обычном (тап по птичке) приложение разбивает речь на части по паузам, и каждая часть уходит в GigaAM как отдельная фраза. Есть второй режим, если зажать птичку и говорить целиком - вся речь уйдёт в GigaAM одним блоком, и она сама разберётся где границы предложений, а где просто пауза для раздумий. Это, кстати, и объясняет разницу с Handy на десктопе - там, видимо, такой же подход. Можно ещё третий вариант: тап-тап без разбиения на паузах, НО текст появится только после второго тапа. Можно рассмотреть как опцию если будет интерес.

Спасибо за отзыв! В этой модели нет NPU, а значит работает всё на CPU. У меня были сомнения что скорость распознавания будет комфортная. Рад что у вас заработало.

Cпасибо за такой подробный отзыв! Про иностранные слова - модель GigaAM обучалась в основном на русском, английский знает только те слова что попадали в её обучающие данные, плюс качество зависит от акцента произношения. Добавил словарь автозамен в новом 1.0.6 - правила вроде "джимэйл=Gmail" или "вопросительный знак=?". В планах для Pro есть постобработка текста при помощи LLM, буду тестировать на своем Pixel 10.

Спасибо за отзыв! По спискам - в новом обновлении 1.0.6 появился свой словарь автозамен. Туда можно вручную добавить правила вроде первое=1., второе=2. - это первый шаг. Полное автоматическое распознавание структуры списков из речи - это уже отдельная задача обработки текста (понимание контекста, что "первое" - это начало пункта, а не порядковое числительное).

В Pro-версии в идеале: нужна LLM-обработка для стилей, форматирования. Это уже более верхний уровень и требует отдельной модели (с локальным запуском таких моделей много сложностей так как нужно топовое железо телефона) поверх распознавания голоса. Могу вам сказать совершенно точно, что через пару лет локальные LLM будут работать в наших телефонах офлайн (эта тема для отдельной статьи на habr).

По меню Samsung - спасибо, у Самсунга своя терминология, постараюсь учесть.

Скорее всего у вас включён "Быстрый запуск" в Спец. возможностях. Если он включен, рядом с птичкой Говоруна появляется второй маленький значок (это системная функция Android), и нажатие по нему выключает Говорун. Проверьте: Настройки - Спец. возможности - Быстрый запуск - выключить (включен должен быть только верхний тумблер самой службы).

Спасибо за отзыв, cправедливое замечание.

Чтобы сразу снять любые сомнения: ни сейчас, ни раньше Говорун не считывает информацию с экрана - кнопка там просто мозолила глаз без пользы. Раз концептуально ей там делать нечего, проще убрать совсем (в следующем обновлении 1.05 будет сделано)

Само разрешение «специальных возможностей» открывает системный API, который позволяет читать содержимое окон - поэтому Android и показывает большое предупреждение при включении. Это значит что не все приложения с такими возможностями безопасны.

Рабочий режим: 530 МБ

Если системе нужна память(открыли игру/тяжёлое приложение): Android сжимает в ZRAM, реальный расход падает до 140 МБ — там и держится, пока приложение снова не понадобится. Сейчас проверил еще раз, после ночи простоя — ZRAM (RSS 124 МБ, SWAP 362 МБ)

Сравнение на том же телефоне: Gboard 267 МБ, Pixel Launcher 275 МБ, Яндекс.Клавиатура 393МБ

На 4pda есть положительный отзыв от пользователя с Xiaomi 12t Pro, HyperOS 2.0. Не уверен, но думаю что он устанавливал с Rustore. Установка через apk тот еще квест.

1

Информация

В рейтинге
238-й
Откуда
Россия
Зарегистрирован
Активность

Специализация

Разработчик мобильных приложений