Comments 40
Надеюсь и вправду улучшиться. Потому что сейчас даже для английского языка, проговоренного роботом, на youtube субтитры получаются с невероятным количеством ошибок. (Я так понимаю, технология одна и та же).
-30
А после выдачи результата с неточным набором слов обратно отсылаются сведения о том, что выбрал пользователь для корректировки шаблонов? Всегда было интересно, сколько человеко-часов понадобятся, чтобы превратить распознавание слова «яблоко» в «тыкву». Хотя судя по всему на это уйдет вечность, даже если выбрать непопулярное слово, заменяемое на другое непопулярное слово с одинаковым количеством гласных и согласных.
0
Круто, как бы теперь изменить мозг, чтобы устроиться в Google.
-3
UFO just landed and posted this here
Моя фраза просто игра слов, а не призыв к чему-либо.
+3
Круто… Когда-нибудь, может быть уже скоро, в смартфонах появится фунцкия полноценного перевода речи на лету с одного языка на другой с использованием семантического анализа сказанного…
Кстати наконец-то всем этим гигагерцам современных смартфонов будет найдено применение достойнее, чем отрисовка интерфейсов:)
Кстати наконец-то всем этим гигагерцам современных смартфонов будет найдено применение достойнее, чем отрисовка интерфейсов:)
+2
Читаю первый абзац и думаю, а до последней версии они полным перебором семплов что ли распознавали?
0
Да, кстати не совсем понятно. Ведь оно изначально работало через «облако», отправлялся сэмпл — приходили варианты. Причем тут упоминание последней версии «ОС» ведь в случае облака — это может работать по новому и на старой версии, той же 2.3 например
+1
UFO just landed and posted this here
+14
Говорю: What time is it?
Получаю: What time is eat?
Да, возможно там используется «нейронная сеть», лучшие в мире алгоритмы и самый лучший движок распознавания. И тем не менее, получаю такой вот результат.
Dolphin также имеет распознавание голосом. И у него распознавание получается, на мой взгляд, лучше. По крайней мере, спрашивая про погоду, я получаю погоду, а не черт знает что.
Конечно, у меня не лучшее произношение. Но учитывая, что в рекламных проспектах времен выхода Желейки гордо заявлялось о том, что система будет адаптироваться под хозяина, запоминать запросы и т.д., а на выходе — ничего подобного, а очень жаль.
Получаю: What time is eat?
Да, возможно там используется «нейронная сеть», лучшие в мире алгоритмы и самый лучший движок распознавания. И тем не менее, получаю такой вот результат.
Dolphin также имеет распознавание голосом. И у него распознавание получается, на мой взгляд, лучше. По крайней мере, спрашивая про погоду, я получаю погоду, а не черт знает что.
Конечно, у меня не лучшее произношение. Но учитывая, что в рекламных проспектах времен выхода Желейки гордо заявлялось о том, что система будет адаптироваться под хозяина, запоминать запросы и т.д., а на выходе — ничего подобного, а очень жаль.
+1
«Конечно, у меня не лучшее произношение»
Ну дык, телефон слышит eat и получаете eat.
Ну дык, телефон слышит eat и получаете eat.
0
eat — [i:t]
it — [ɪt]
разница, конечно, есть, но несущественная.
К тому же, если начать писать предложение в word'е или поисковой строке будет предложено адекватное следующее слово, а вот подставить нужное слово в типовом предложении, которое ОДИН пользователь произносит ежедневно несколько раз на СВОЕМ устройстве — это никак, хотя и заявлялось.
www.youtube.com/watch?v=eYpLyrPKU78 — к примеру.
it — [ɪt]
разница, конечно, есть, но несущественная.
К тому же, если начать писать предложение в word'е или поисковой строке будет предложено адекватное следующее слово, а вот подставить нужное слово в типовом предложении, которое ОДИН пользователь произносит ежедневно несколько раз на СВОЕМ устройстве — это никак, хотя и заявлялось.
www.youtube.com/watch?v=eYpLyrPKU78 — к примеру.
+1
Это большая разница все же.
Распознавание должно распознавать, а не подстраивать свои варианты, вдруг владелец на самом деле спрашивает what time is eat?
Хотя все же согласен с вами, я просто говорю, что проблема все же в произношение наверное.
Распознавание должно распознавать, а не подстраивать свои варианты, вдруг владелец на самом деле спрашивает what time is eat?
Хотя все же согласен с вами, я просто говорю, что проблема все же в произношение наверное.
0
А вы не задумывались, когда в шумной обстановке к вам обращаются, вы слышите каждую букву, каждое слово? Конечно же нет. Если бы вы распознавали также как предлагаете чтобы машина делала, людям бы приходилось разговаривать только в тихих, специально отведеных местах.
Наш процесс распознавания речи собеседника происходит путем подбора текста согласно услышаным звукам от собеседника, контекста разговора (включая предыдущие разобранные слова), обстановки и пр. обстоятельств.
Я считаю что идеальный распознаватель голоса должен бытьименно такой как это делает человек.
Наш процесс распознавания речи собеседника происходит путем подбора текста согласно услышаным звукам от собеседника, контекста разговора (включая предыдущие разобранные слова), обстановки и пр. обстоятельств.
Я считаю что идеальный распознаватель голоса должен бытьименно такой как это делает человек.
+1
Да, я же не спорю про систему, я говорю про адекватность распознавания слов с акцентом.
Кстати, так и не получилось what time is eat получить, все время it.
Кстати, так и не получилось what time is eat получить, все время it.
0
Да, проверил, действительно, уже корректно определяет, поправили скорее всего большое им спасибо за это — у меня этот вопрос востребован в контексте разных городов, в которые часто приходится звонить.
Погода. Если говорить предложением (what is [the] weather today?), шансы на успех выше, если просто сказать weather — шансов на успех почти нет у Google.
В то время как Dolphin по слову weather сразу грузит weather.com.
И таких примеров уйма. Из цифр это 13, 8 (и-лэ-вэн, распознает нормально ^ ^).
Из дней недели — Tuesday, Thursday.
Примеров много.
Погода. Если говорить предложением (what is [the] weather today?), шансы на успех выше, если просто сказать weather — шансов на успех почти нет у Google.
В то время как Dolphin по слову weather сразу грузит weather.com.
И таких примеров уйма. Из цифр это 13, 8 (и-лэ-вэн, распознает нормально ^ ^).
Из дней недели — Tuesday, Thursday.
Примеров много.
0
У меня есть подозрение, что гугловская распознавалка использует триграммы для перевода фонетического представления распознаваемой речи в окончательный текст. Тогда подобное поведение легко объяснимо. Т.е. сначала распознается кусок What time is, а затем — time is eat вместо time is it (видимо из-за особенностей произношения). Как видите, во всех случаях мы имеем корректные фразы (или их фрагменты) на английском. А потом все объединяется и получается то, что получилось. Система распознавания даже не «понимает» полностью какую именно фразу вы произнесли. Ну и контекст она не учитывает. Были бы у гугла квадрограммы, то указанная фраза из четырех слов возможно распозналась бы правильно. Но это гораздо сложнее с вычислительной точки зрения.
0
+1
Откуда информация? Не могли бы дать ссылки на статьи? На каком именно этапе работает нейронная сеть? Для представления языковой модели, или для unsupervised извлечения фич, как с котиками? Было бы интересно, если последний вариант.
0
Когда вы говорите с системой распознавания голоса в Android, спектрограмма вашей речи урезается и отсылается к 8 разным компьютерам
Довольно странная формулировка, спектрограмма — это изображение, таким образом создается впечатление что гугл отсылает звук картинкой.
На практике же, Android кодирует звук (вроде используется кодек Speex или Flack, точно не знаю) и отправляет его на сервера для распознавания… Эффект «урезания» же происходит автоматом на этапе кодирования, как например mp3 «отрезает» некоторые менее значимые частоты, это и дает эффект компрессии.
0
Когда уже будет доступен синхронный перевод с интонацией? Либо полностью синхронный, либо говорит иностранец, делает паузу — мы слышим перевод, и так далее.
И второе — похоже Google использует GPU, вот это интересная новость.
И второе — похоже Google использует GPU, вот это интересная новость.
+1
А использует ли Гугл вейвлеты при анализе речи, есть ли об этом информация?
0
Sign up to leave a comment.
Как Google изменил Android при помощи вашего мозга