Apps4All_post Feb 20 2013 at 22:36

Как Google изменил Android при помощи вашего мозга

4 min

57K

Apps4All corporate blog

Translation

+64

Comments 40

Xfrid Feb 20 2013 at 22:56

Надеюсь и вправду улучшиться. Потому что сейчас даже для английского языка, проговоренного роботом, на youtube субтитры получаются с невероятным количеством ошибок. (Я так понимаю, технология одна и та же).

-30

negodnik Feb 21 2013 at 00:43

Улучшайтесь, я верю в вас ;-)

+70

sneer Feb 21 2013 at 08:36

Я думаю нет, потому что на телефоне андроид даже мой инглишь разбирает идеально, к тому же он отправляет семплы ваших голосов, семплы тишины. С видео такие трюки не возможны

-1

romamix Feb 20 2013 at 23:00

А после выдачи результата с неточным набором слов обратно отсылаются сведения о том, что выбрал пользователь для корректировки шаблонов? Всегда было интересно, сколько человеко-часов понадобятся, чтобы превратить распознавание слова «яблоко» в «тыкву». Хотя судя по всему на это уйдет вечность, даже если выбрать непопулярное слово, заменяемое на другое непопулярное слово с одинаковым количеством гласных и согласных.

UFO just landed and posted this here

wrmax Feb 20 2013 at 23:22

Круто, как бы теперь изменить мозг, чтобы устроиться в Google.

-3

UFO just landed and posted this here

wrmax Feb 21 2013 at 00:06

Моя фраза просто игра слов, а не призыв к чему-либо.

UFO just landed and posted this here

HighQuality Feb 21 2013 at 01:25

для кого-то работа в гугл — золото.

UFO just landed and posted this here

wrmax Feb 21 2013 at 13:52

Странно, что у вас Google ассоциируется в первую очередь с горой золота, а не с интересными проектами.

Scrooge2 Feb 21 2013 at 16:15

Нужно больше золота!

UFO just landed and posted this here

NeoCode Feb 20 2013 at 23:51

Круто… Когда-нибудь, может быть уже скоро, в смартфонах появится фунцкия полноценного перевода речи на лету с одного языка на другой с использованием семантического анализа сказанного…
Кстати наконец-то всем этим гигагерцам современных смартфонов будет найдено применение достойнее, чем отрисовка интерфейсов:)

alexmay Feb 20 2013 at 23:56

Распознавать и переводить пока будут на серверах. Так что — гигагерцы, гигагерцами, а канал связи — это наше все.

NeoCode Feb 21 2013 at 00:07

Ну переводить — понятно что на серверах, а сжимать голос для передачи и озвучивать перевод — вполе можно на самих смартфонах.

ererer Feb 21 2013 at 14:10

Отчего же? Андроид уже распознаёт речь оффлайн.

ad1Dima Feb 21 2013 at 00:21

Читаю первый абзац и думаю, а до последней версии они полным перебором семплов что ли распознавали?

nelson Feb 21 2013 at 00:40

Да, кстати не совсем понятно. Ведь оно изначально работало через «облако», отправлялся сэмпл — приходили варианты. Причем тут упоминание последней версии «ОС» ведь в случае облака — это может работать по новому и на старой версии, той же 2.3 например

UFO just landed and posted this here

ad1Dima Feb 21 2013 at 08:02

Тогда это значит, что они нейронную сеть в телефон перенесли частично или полностью. Но то что для этого и раньше использовалась НС я уверен процентов на 80%

Mihrutkin Feb 21 2013 at 09:22

Странно, а у меня русский оффлайн понимает на 5 с минусом, на порядок лучше того же Iphone. Может от акцента зависит?

UFO just landed and posted this here

EndUser Feb 21 2013 at 04:01

abstrusegoose.com/496

P.S. Как картинки в коменте класть «под кат»?

+14

Syra Feb 21 2013 at 04:14

Как что угодно. spoiler.

Areso Feb 21 2013 at 07:53

Говорю: What time is it?
Получаю: What time is eat?
Да, возможно там используется «нейронная сеть», лучшие в мире алгоритмы и самый лучший движок распознавания. И тем не менее, получаю такой вот результат.
Dolphin также имеет распознавание голосом. И у него распознавание получается, на мой взгляд, лучше. По крайней мере, спрашивая про погоду, я получаю погоду, а не черт знает что.

Конечно, у меня не лучшее произношение. Но учитывая, что в рекламных проспектах времен выхода Желейки гордо заявлялось о том, что система будет адаптироваться под хозяина, запоминать запросы и т.д., а на выходе — ничего подобного, а очень жаль.

jaleel Feb 21 2013 at 10:18

«Конечно, у меня не лучшее произношение»
Ну дык, телефон слышит eat и получаете eat.

Areso Feb 21 2013 at 11:31

eat — [i:t]
it — [ɪt]
разница, конечно, есть, но несущественная.
К тому же, если начать писать предложение в word'е или поисковой строке будет предложено адекватное следующее слово, а вот подставить нужное слово в типовом предложении, которое ОДИН пользователь произносит ежедневно несколько раз на СВОЕМ устройстве — это никак, хотя и заявлялось.

www.youtube.com/watch?v=eYpLyrPKU78 — к примеру.

jaleel Feb 21 2013 at 11:35

Это большая разница все же.
Распознавание должно распознавать, а не подстраивать свои варианты, вдруг владелец на самом деле спрашивает what time is eat?
Хотя все же согласен с вами, я просто говорю, что проблема все же в произношение наверное.

serjx Feb 21 2013 at 12:00

А вы не задумывались, когда в шумной обстановке к вам обращаются, вы слышите каждую букву, каждое слово? Конечно же нет. Если бы вы распознавали также как предлагаете чтобы машина делала, людям бы приходилось разговаривать только в тихих, специально отведеных местах.
Наш процесс распознавания речи собеседника происходит путем подбора текста согласно услышаным звукам от собеседника, контекста разговора (включая предыдущие разобранные слова), обстановки и пр. обстоятельств.
Я считаю что идеальный распознаватель голоса должен бытьименно такой как это делает человек.

jaleel Feb 21 2013 at 12:04

Да, я же не спорю про систему, я говорю про адекватность распознавания слов с акцентом.

Кстати, так и не получилось what time is eat получить, все время it.

Areso Feb 22 2013 at 06:33

Да, проверил, действительно, уже корректно определяет, поправили скорее всего большое им спасибо за это — у меня этот вопрос востребован в контексте разных городов, в которые часто приходится звонить.
Погода. Если говорить предложением (what is [the] weather today?), шансы на успех выше, если просто сказать weather — шансов на успех почти нет у Google.
В то время как Dolphin по слову weather сразу грузит weather.com.
И таких примеров уйма. Из цифр это 13, 8 (и-лэ-вэн, распознает нормально ^ ^).
Из дней недели — Tuesday, Thursday.
Примеров много.

phoenix367 Feb 21 2013 at 12:25

У меня есть подозрение, что гугловская распознавалка использует триграммы для перевода фонетического представления распознаваемой речи в окончательный текст. Тогда подобное поведение легко объяснимо. Т.е. сначала распознается кусок What time is, а затем — time is eat вместо time is it (видимо из-за особенностей произношения). Как видите, во всех случаях мы имеем корректные фразы (или их фрагменты) на английском. А потом все объединяется и получается то, что получилось. Система распознавания даже не «понимает» полностью какую именно фразу вы произнесли. Ну и контекст она не учитывает. Были бы у гугла квадрограммы, то указанная фраза из четырех слов возможно распозналась бы правильно. Но это гораздо сложнее с вычислительной точки зрения.

SLY_G Feb 21 2013 at 23:41

Настоящий тест вот тут

www.youtube.com/watch?v=dABo_DCIdpM

lightcaster Feb 21 2013 at 08:01

Откуда информация? Не могли бы дать ссылки на статьи? На каком именно этапе работает нейронная сеть? Для представления языковой модели, или для unsupervised извлечения фич, как с котиками? Было бы интересно, если последний вариант.

djvu Feb 21 2013 at 12:35

Когда вы говорите с системой распознавания голоса в Android, спектрограмма вашей речи урезается и отсылается к 8 разным компьютерам

Довольно странная формулировка, спектрограмма — это изображение, таким образом создается впечатление что гугл отсылает звук картинкой.
На практике же, Android кодирует звук (вроде используется кодек Speex или Flack, точно не знаю) и отправляет его на сервера для распознавания… Эффект «урезания» же происходит автоматом на этапе кодирования, как например mp3 «отрезает» некоторые менее значимые частоты, это и дает эффект компрессии.

SEOVirus Feb 22 2013 at 06:35

Возможно, всё-таки, они отправляют коэффициенты спектрограммы, а не саму картинку. Если придумали какой-нибудь достойный алгоритм сжатия для таких коэффициентов :) А возможно и правда по картинке анализируют :)

DjOnline Feb 21 2013 at 17:42

Когда уже будет доступен синхронный перевод с интонацией? Либо полностью синхронный, либо говорит иностранец, делает паузу — мы слышим перевод, и так далее.
И второе — похоже Google использует GPU, вот это интересная новость.

SEOVirus Feb 22 2013 at 06:35

А использует ли Гугл вейвлеты при анализе речи, есть ли об этом информация?