Pull to refresh

Comments 40

Надеюсь и вправду улучшиться. Потому что сейчас даже для английского языка, проговоренного роботом, на youtube субтитры получаются с невероятным количеством ошибок. (Я так понимаю, технология одна и та же).
Улучшайтесь, я верю в вас ;-)
Я думаю нет, потому что на телефоне андроид даже мой инглишь разбирает идеально, к тому же он отправляет семплы ваших голосов, семплы тишины. С видео такие трюки не возможны
А после выдачи результата с неточным набором слов обратно отсылаются сведения о том, что выбрал пользователь для корректировки шаблонов? Всегда было интересно, сколько человеко-часов понадобятся, чтобы превратить распознавание слова «яблоко» в «тыкву». Хотя судя по всему на это уйдет вечность, даже если выбрать непопулярное слово, заменяемое на другое непопулярное слово с одинаковым количеством гласных и согласных.
UFO just landed and posted this here
Круто, как бы теперь изменить мозг, чтобы устроиться в Google.
UFO just landed and posted this here
Моя фраза просто игра слов, а не призыв к чему-либо.
UFO just landed and posted this here
для кого-то работа в гугл — золото.
UFO just landed and posted this here
Странно, что у вас Google ассоциируется в первую очередь с горой золота, а не с интересными проектами.
UFO just landed and posted this here
Круто… Когда-нибудь, может быть уже скоро, в смартфонах появится фунцкия полноценного перевода речи на лету с одного языка на другой с использованием семантического анализа сказанного…
Кстати наконец-то всем этим гигагерцам современных смартфонов будет найдено применение достойнее, чем отрисовка интерфейсов:)
Распознавать и переводить пока будут на серверах. Так что — гигагерцы, гигагерцами, а канал связи — это наше все.
Ну переводить — понятно что на серверах, а сжимать голос для передачи и озвучивать перевод — вполе можно на самих смартфонах.
Отчего же? Андроид уже распознаёт речь оффлайн.
Читаю первый абзац и думаю, а до последней версии они полным перебором семплов что ли распознавали?
Да, кстати не совсем понятно. Ведь оно изначально работало через «облако», отправлялся сэмпл — приходили варианты. Причем тут упоминание последней версии «ОС» ведь в случае облака — это может работать по новому и на старой версии, той же 2.3 например
UFO just landed and posted this here
Тогда это значит, что они нейронную сеть в телефон перенесли частично или полностью. Но то что для этого и раньше использовалась НС я уверен процентов на 80%
Странно, а у меня русский оффлайн понимает на 5 с минусом, на порядок лучше того же Iphone. Может от акцента зависит?
UFO just landed and posted this here
Как что угодно. spoiler.
Говорю: What time is it?
Получаю: What time is eat?
Да, возможно там используется «нейронная сеть», лучшие в мире алгоритмы и самый лучший движок распознавания. И тем не менее, получаю такой вот результат.
Dolphin также имеет распознавание голосом. И у него распознавание получается, на мой взгляд, лучше. По крайней мере, спрашивая про погоду, я получаю погоду, а не черт знает что.

Конечно, у меня не лучшее произношение. Но учитывая, что в рекламных проспектах времен выхода Желейки гордо заявлялось о том, что система будет адаптироваться под хозяина, запоминать запросы и т.д., а на выходе — ничего подобного, а очень жаль.
«Конечно, у меня не лучшее произношение»
Ну дык, телефон слышит eat и получаете eat.
eat — [i:t]
it — [ɪt]
разница, конечно, есть, но несущественная.
К тому же, если начать писать предложение в word'е или поисковой строке будет предложено адекватное следующее слово, а вот подставить нужное слово в типовом предложении, которое ОДИН пользователь произносит ежедневно несколько раз на СВОЕМ устройстве — это никак, хотя и заявлялось.

www.youtube.com/watch?v=eYpLyrPKU78 — к примеру.
Это большая разница все же.
Распознавание должно распознавать, а не подстраивать свои варианты, вдруг владелец на самом деле спрашивает what time is eat?
Хотя все же согласен с вами, я просто говорю, что проблема все же в произношение наверное.
А вы не задумывались, когда в шумной обстановке к вам обращаются, вы слышите каждую букву, каждое слово? Конечно же нет. Если бы вы распознавали также как предлагаете чтобы машина делала, людям бы приходилось разговаривать только в тихих, специально отведеных местах.
Наш процесс распознавания речи собеседника происходит путем подбора текста согласно услышаным звукам от собеседника, контекста разговора (включая предыдущие разобранные слова), обстановки и пр. обстоятельств.
Я считаю что идеальный распознаватель голоса должен бытьименно такой как это делает человек.
Да, я же не спорю про систему, я говорю про адекватность распознавания слов с акцентом.

Кстати, так и не получилось what time is eat получить, все время it.
Да, проверил, действительно, уже корректно определяет, поправили скорее всего большое им спасибо за это — у меня этот вопрос востребован в контексте разных городов, в которые часто приходится звонить.
Погода. Если говорить предложением (what is [the] weather today?), шансы на успех выше, если просто сказать weather — шансов на успех почти нет у Google.
В то время как Dolphin по слову weather сразу грузит weather.com.
И таких примеров уйма. Из цифр это 13, 8 (и-лэ-вэн, распознает нормально ^ ^).
Из дней недели — Tuesday, Thursday.
Примеров много.
У меня есть подозрение, что гугловская распознавалка использует триграммы для перевода фонетического представления распознаваемой речи в окончательный текст. Тогда подобное поведение легко объяснимо. Т.е. сначала распознается кусок What time is, а затем — time is eat вместо time is it (видимо из-за особенностей произношения). Как видите, во всех случаях мы имеем корректные фразы (или их фрагменты) на английском. А потом все объединяется и получается то, что получилось. Система распознавания даже не «понимает» полностью какую именно фразу вы произнесли. Ну и контекст она не учитывает. Были бы у гугла квадрограммы, то указанная фраза из четырех слов возможно распозналась бы правильно. Но это гораздо сложнее с вычислительной точки зрения.
Откуда информация? Не могли бы дать ссылки на статьи? На каком именно этапе работает нейронная сеть? Для представления языковой модели, или для unsupervised извлечения фич, как с котиками? Было бы интересно, если последний вариант.
Когда вы говорите с системой распознавания голоса в Android, спектрограмма вашей речи урезается и отсылается к 8 разным компьютерам

Довольно странная формулировка, спектрограмма — это изображение, таким образом создается впечатление что гугл отсылает звук картинкой.
На практике же, Android кодирует звук (вроде используется кодек Speex или Flack, точно не знаю) и отправляет его на сервера для распознавания… Эффект «урезания» же происходит автоматом на этапе кодирования, как например mp3 «отрезает» некоторые менее значимые частоты, это и дает эффект компрессии.
Возможно, всё-таки, они отправляют коэффициенты спектрограммы, а не саму картинку. Если придумали какой-нибудь достойный алгоритм сжатия для таких коэффициентов :) А возможно и правда по картинке анализируют :)
Когда уже будет доступен синхронный перевод с интонацией? Либо полностью синхронный, либо говорит иностранец, делает паузу — мы слышим перевод, и так далее.
И второе — похоже Google использует GPU, вот это интересная новость.
Sign up to leave a comment.