Ясно! На самом деле у нас в команде тоже мнения разделились о том, какой должен быть голос. Возможно к моменту выхода первой партии с ним что-то сделаем. А уж про крупные партии и говорить нечего — наверняка там все будет иначе…
TTS можно было выбрать любой, поддерживаемый Android. Мы честно протестировали все, что можно достать (легальное и нелегальное :)) в этой области. «Красивых» женских голосов полно, но в итоге они начинают вызывать отторжение. Я думаю, что тут дело в «зловещей долине» — лучше быть похожим на робота, чем на зомби.
Набор прописанных реакций на стандартные ситуации по этому вопросу (нравится-не нравится-что такое-когда-куда-зачем-почему). То есть понятно, что ответы явно прописаны сценаристым, а вот распознавание того, что наступила ситуация, когда надо выдавать ответ на стороне алгоритма. Это не тупой шаблон вида «мне не нравится терминатор 1..N».
Мы и не скрываем, что используем Google-распознавание. Но оно работает и без интернета, так что дело не в этом.
Память нужна не флеш, а RAM, потому что обработка каждого запроса пользователей требует сканирования всех доступных знаний кубика.
Спасибо!
Сейчас только русский, но уже есть демо-версия на английском языке.
Движок используем один из опенсорсных, но пришлось много дорабатывать. В принципе можно использовать любой TTS, работающий на андроиде.
Кубик может включать онлайн радио, которое бывает до 512 мБит/сек. А простой разговор неплохо работает даже через EDGE, т.к. синтез выполняется на устройстве.
У нас не только сценарные. В случае, показанном на видео, в кубик заложены знания о фильме, но сценарий разговора нигде не прописан. Он сам выстроился, когда я задавал вопросы. Также есть чисто статистические алгоритмы ведения беседы, которым не нужны никакие сценарии.
Но в некоторых случаях от сценариев невозможно отказаться, особенно когда нужен строгий и хорошо работающий командный интерфейс.
Это более-менее реально. Когда кубик сталкивается с вопросом, на который не смог ответить, то у нас открывается тикет на доработку его базы знаний. Мы заполняем пробел и через пару дней он начинает отвечать. Более того, в планах сделать так, чтобы кубик сообщил об этом человеку, сказав, что теперь он знает ответ на вопрос.
А искать в википедии он умеет, более того, он должен был поискать :) На видео заснят баг.
Спасибо!
Для работы кубику не нужен никакой интерфейс, кроме голосового.
Но для разработки новых функций с помощью API интерфейс, конечно, будет (Доступ к API планируется уже после начала продаж).
Видов памяти у кубика два — длинная и короткая. В длинной хранятся накопленные знания о пользователе (где живет, что любит и т.п.), она не очищается. В короткой хранится контекст текущего разговора. Кубик забивает его в течении десятков минут.
Надеюсь, что никаких секретов я тут не выдал. Я хотел показать, что сегодня многие компании активно работают над внедрением голосовых интерфейсов в наш мир и мне кажется, что это очень хорошо.
Пока расшифровка у VOISE, это «voice operation intelligent system», но есть и другие варианты :) Надо выбрать.
80% спама, который мне приходит, это такси и ремонт компьютеров. Мне жалко, что они тратят мое время, поэтому я предлагаю такую месть.
1. Для такси: смотрим, где сейчас самая серьезная пробка и просим подать машину для клиента, который очень сильно хочет в аэропорт.
2. Ремонт компьютеров: отправляем ремонтника в район, удаленный от метро километров на 5. Чтобы не передумал, рассказываем про годовой отчет и винлокер.
При поступлении звонка о ложном вызове читаем короткую лекцию о том, почему нужно уважать чужое время.
Правда я пока ничего такого не сделал — жалко людей на местах. Но каждый раз, когда я получаю очередное смс, капелька из резервуара моего терпения тает…
Я думаю, что с помощью API можно будет делать практически все из вышеперечисленного. Люди смогу писать свои голосовые программы в дополнение к имеющимся. Если это пойдет, то вполне можно ожидать появления чего-то вроде магазина приложений.
На самом устройстве мы концентрируемся, но не очень сильно. Мы его ставим на все, что тянет андроид — часы, телефоны, автомобили, роботов. Но устройство тоже важно. Проблема всех сегодняшних систем распознавания речи в том, что они работают только когда человек держит устройства в руках. Даже для робота, который стоит рядом с человеком их не хватает. Поэтому нам пришлось разрабатывать свою систему микрофонов.
Спасибо! Я думаю, это вполне возможно будет сделать через API. Ну или мы напрямую подружимся — сейчас смотрим в сторону того, чтобы поддержать популярные проекты умных домов.
> Для чего нужна кофемолка?
< Кофемолка — устройство для размола зёрен кофе.
Память нужна не флеш, а RAM, потому что обработка каждого запроса пользователей требует сканирования всех доступных знаний кубика.
Сейчас только русский, но уже есть демо-версия на английском языке.
Движок используем один из опенсорсных, но пришлось много дорабатывать. В принципе можно использовать любой TTS, работающий на андроиде.
Но в некоторых случаях от сценариев невозможно отказаться, особенно когда нужен строгий и хорошо работающий командный интерфейс.
А искать в википедии он умеет, более того, он должен был поискать :) На видео заснят баг.
Для работы кубику не нужен никакой интерфейс, кроме голосового.
Но для разработки новых функций с помощью API интерфейс, конечно, будет (Доступ к API планируется уже после начала продаж).
Видов памяти у кубика два — длинная и короткая. В длинной хранятся накопленные знания о пользователе (где живет, что любит и т.п.), она не очищается. В короткой хранится контекст текущего разговора. Кубик забивает его в течении десятков минут.
Пока расшифровка у VOISE, это «voice operation intelligent system», но есть и другие варианты :) Надо выбрать.
1. Для такси: смотрим, где сейчас самая серьезная пробка и просим подать машину для клиента, который очень сильно хочет в аэропорт.
2. Ремонт компьютеров: отправляем ремонтника в район, удаленный от метро километров на 5. Чтобы не передумал, рассказываем про годовой отчет и винлокер.
При поступлении звонка о ложном вызове читаем короткую лекцию о том, почему нужно уважать чужое время.
Правда я пока ничего такого не сделал — жалко людей на местах. Но каждый раз, когда я получаю очередное смс, капелька из резервуара моего терпения тает…
Я думаю, что с помощью API можно будет делать практически все из вышеперечисленного. Люди смогу писать свои голосовые программы в дополнение к имеющимся. Если это пойдет, то вполне можно ожидать появления чего-то вроде магазина приложений.
На самом устройстве мы концентрируемся, но не очень сильно. Мы его ставим на все, что тянет андроид — часы, телефоны, автомобили, роботов. Но устройство тоже важно. Проблема всех сегодняшних систем распознавания речи в том, что они работают только когда человек держит устройства в руках. Даже для робота, который стоит рядом с человеком их не хватает. Поэтому нам пришлось разрабатывать свою систему микрофонов.
Клиент — Android нижнего уровня (NDK, свои сборки, свои драйвера).
Микрофоны — Sitara (Си).