a1ndrey18 мар 2012 в 17:13

Разработка русскоговорящего «аналога» Siri за 7 дней

6 мин

18K

iOS *

+98

Комментарии 67

soulburner 18 мар 2012 в 17:39

Судя по по чужому опыту, цензура не пропустит

a1ndrey 18 мар 2012 в 17:46

Надеюсь, что пропустят. Та программа, просто использует тот же движок, что и Siri. Да и американцы не сильны в русском.

soulburner 18 мар 2012 в 17:49

Ну да, может дело и в вольфраме. Желаю удачи!

waphyld 18 мар 2012 в 17:39

Вы упустили видео-демонстрацию.

a1ndrey 18 мар 2012 в 17:47

Сейчас попробую на айпаде запустить, а на айфон заснять. Если получится, выложу ссылку на youtube.

a1ndrey 18 мар 2012 в 18:55

Добавил видео, глядите.

Mear 18 мар 2012 в 18:57

Это видео c ограниченным доступом.

a1ndrey 18 мар 2012 в 18:58

Как его расшарить, подскажите?

Mear 18 мар 2012 в 19:00

ХЗ честно говоря. Сам не сталкивался ни разу.

a1ndrey 18 мар 2012 в 19:02

Все, уже исправил. Смотрите.

a1ndrey 19 мар 2012 в 08:26

Добавил еще одно видео

de1337ed 18 мар 2012 в 17:59

А как же чисто отечественное «Вы что, не видите, я занята!» и «Для обработки этого запроса возьмите талон в соседнем окне в пятницу утром после полнолуния»? По-моему, весьма оригинальные сообщения об ошибках выйдут

Gol 18 мар 2012 в 18:19

Тогда уж «у меня голова болит»

Shirixae 18 мар 2012 в 18:19

ganouver 18 мар 2012 в 18:01

Идея красивая. Когда ждать версию для дроида?

a1ndrey 18 мар 2012 в 18:04

Вначале надо, чтоб эту apple пропустил. А там посмотрим.

ganouver 18 мар 2012 в 18:06

Да даже если apple и не пропустит. Точнее — как раз если не пропустит, то будет особенно уместно выпустить для андроида. Дескать, не хотите конкуренции — так получите ;-).

a1ndrey 18 мар 2012 в 19:07

Выпущу. Просто буду решать проблемы по мере их возникновения. Сначала завершу эпопею с Apple, потом займусь андроидом. А там, глядишь, и да windows phone дело дойдет.

JaLoveAst1k 18 мар 2012 в 19:07

Могу помочь в портировании на Android )

a1ndrey 18 мар 2012 в 19:11

Не хочу загадывать наперед. Не уверен, что сервер выдержит реализацию под iPhone. Если не упадет, то буду думать про андроид.

Wo1f 18 мар 2012 в 19:10

Мм, на андроид маркет легче пролезть)

consalt 18 мар 2012 в 18:31

Под андроид могу порекомендовать play.google.com/store/apps/details?id=com.luitech.remindit&feature=search_result#?t=W251bGwsMSwxLDEsImNvbS5sdWl0ZWNoLnJlbWluZGl0Il0.

Записывает todo голосом и напоминает в нужное время. Супер программа. Вечером еду в авто — надиктовываю голосом задачи на следующий день. Она распознает и напоминает в нужное время.

ganouver 18 мар 2012 в 18:35

спасибо, завтра попробую!

Ctacok 19 мар 2012 в 06:58

Спасибо большое, офигеный софт :)

spaniard 19 мар 2012 в 19:27

Да, отличная вещь. Особенно если докупить функцию синхронизации с гугл-календарем.

Tomasina 18 мар 2012 в 19:02

под Андроид есть Кири (Kiri)

JaLoveAst1k 18 мар 2012 в 19:08

Под Android есть практически все, но это не значит, что разрабатывать для него не стоит.

achekalin 19 мар 2012 в 05:54

Вероятно, надо добавить «в том или ином виде». Много сталкивался, что программа «почти хороша», но — все же без блеска. В т.ч. и потому, что разработчик подчас — не многомиллиардная корпорация, а отдельный человек/группа, и у них нет дизайнера, нет (как в случае с голосовым движком) отряда лингвистов. С другой стороны, сравниваешь продукты одиночки и мегакорпорации, и порой обидно за корпорацию — «с такими-то ресурсами, и всего настолько лучше получилось?»

Xlab 18 мар 2012 в 18:31

Ох, классная реализация! Я полгода назад мучался со Sphinx4 (и его упрощённой версией), в итоге забил.
Попробую ispeech

diamant 18 мар 2012 в 18:51

Чат-бота прикрутите, чтобы можно было «просто поболтать» :)

a1ndrey 18 мар 2012 в 19:08

Прикручу, конечно. Вот как раз с просто поболтать нет проблем, а вот чтоб полезную информацию выдавала- это труднее.

achekalin 19 мар 2012 в 05:55

Ага, едешь в машине, в пробке скучаешь — есть с кем поговорить.

А еще можно ГИБДДнику в окно выставить, если что — пусть друг друга лечат.

Limosha 18 мар 2012 в 19:11

Для преобразования звука в другой формат попробуйте:
1) developer.apple.com/library/ios/#samplecode/iPhoneExtAudioFileConvertTest/Introduction/Intro.html#//apple_ref/doc/uid/DTS40009222

2) developer.apple.com/library/ios/#samplecode/iPhoneACFileConvertTest/Introduction/Intro.html#//apple_ref/doc/uid/DTS40010581

a1ndrey 18 мар 2012 в 19:12

О большое спасибо!!! Прочту обязательно.

Limosha 18 мар 2012 в 19:16

А чем вы записываете звук?

a1ndrey 18 мар 2012 в 19:19

Стандартно с микрофона обычный recorder.

Limosha 18 мар 2012 в 19:48

Может быть можно настроить формат звука при записи? Вроде как AVAudioRecorder это может. У него есть settings-словарь.

a1ndrey 18 мар 2012 в 19:52

Там вроде формат записи или WAVE или CAF

Limosha 18 мар 2012 в 22:42

developer.apple.com/library/ios/#documentation/AVFoundation/Reference/AVFoundationAudioSettings_Constants/Reference/reference.html#//apple_ref/doc/uid/TP40009937

смотрите «General Audio Format Settings»
Вас заинтересует AVSampleRateKey и AVNumberOfChannelsKey

Yakhnev 18 мар 2012 в 19:49

А во сколько обошлась лицензия на технологии ispeech.org?

a1ndrey 18 мар 2012 в 19:53

Для iphone бесплатно (хотя наверняка есть какие ограничения), но при использовании их SDK.

JagaJaga 18 мар 2012 в 19:59

Как раз сегодня по теме видел
Youtube
На 99% уверен, что фейк.

А вот Ваша работа впечетляет. Отлично! Продолжайте развиваться :)

a1ndrey 18 мар 2012 в 20:04

Может и не фейк, но путь ему в App Store закрыт. Они просто ломанули сири.

Dobrii 18 мар 2012 в 21:03

Слишком много думает)

a1ndrey 18 мар 2012 в 21:07

Да, есть такое. В процессе формирования ответа задействованы 3 сервера. Из за этого и «тормоза».

FanKiLL 18 мар 2012 в 21:15

Почему бы не попробывать ответы бота, отправлять cылку на translate.google.com, там можно вытянуть файлик с произношением.
Тобишь посылаем ответ на клиент текстом, а клиент уже формирует ссылку и забирает файлик с гугла. Конечно рано или поздно прикроют, но разгрузить свой сервер на время можно и повысить скорость ответа можно.

a1ndrey 18 мар 2012 в 21:24

Можно попробовать. Но (1) Там ограничение 100 символов. (2) Остается вопрос о лицензионной чистоте такой операции. Да и скорости такое решение не прибавит.
Нужно читать пользовательское соглашение с гуглом.
Но если уж развивать по серьзному то нужен свой выделенный сервер и покупка речевого движка под него. Тогда скорость существенно возрастет. Но это не малые затраты.

logka 18 мар 2012 в 23:05

«И если подключить к Siri все гаджеты Apple, сервера просто рухнут.»
— смеялся с этого до слез. Чего чего, а уж серверов думаю Эпл не жалко :)

de1337ed 19 мар 2012 в 06:30

Гуглу — может быть, у них отлаженная инфраструктура
А вот у Яббла специализация чуточку другая. Они вроде пока только собирались строить вычислительный центр к 2013 году. Да и вообще, пожизненное право пользование Siri при единовременной оплате — это весьма существенная уступка

Alter_Ego 19 мар 2012 в 07:11

А не подскажете, где словари для программ-болталок брали?

a1ndrey 19 мар 2012 в 07:26

Есть такой старый ресурс www.netnotes.narod.ru/talkerus/index.html
Кое что от туда.

iago 19 мар 2012 в 12:34

Вообще, в iOS 5.1 уже вроде встроили API speech-to-text, может так проще будет. Не уверен насчёт русского.

Limosha 19 мар 2012 в 15:59

Помоему, только на iPhone 4S эта фича будет работать (незнаю насчет The new iPad). В доке про это сказано.

Belkin 19 мар 2012 в 15:20

Может стоило к ней еще wikipedia прикрутить?

namikiri 19 мар 2012 в 17:08

Попробуйте для синтезации голоса VitalVoice, у него более вменяемое произношение, а то у Кати оно немного походит на дислексичку.

namikiri 19 мар 2012 в 17:09

api.voicefabric.ru/

a1ndrey 19 мар 2012 в 18:47

Спасибо, отправил им запрос. А какие у них расценки?

GeorgeR 20 мар 2012 в 08:46

Расценки у нас простые: 1 доллар = 1 минута речи.
Этот тариф подходит для наших основных клиентов — call-центров.
Но поскольку к нам сейчас обращается множество стартапов, объем трафика которых не всегда предсказуем, — общаемся в индивидуальном порядке, что конечно не есть хорошо…

Типичный пример коммуникации выглядит следующим образом:
— Дайте ключ API!
— Для каких целей?
— Хочу озвучивать свое шоу/видео/аналог siri/переводчик и т.п. Я даже готов платить. Сколько стоит?
— Есть стандартный тариф — доллар минута. Но в зависимости от ваших нагрузок, мы можем сделать для вас индивидуальный тариф.
— Вы офигели?! Для меня это дорого.
— Спрогнозируйте ваши приблизительные месячные нагрузки.
— …

обычно на этом этапе коммуникация обрывается.

Мы, понятно, не Google, и о нагрузках на сервер беспокоимся в первую очередь. Понятно, что о наших затратах на сервера молодой и активный стартапщик, готовый прям сейчас захватить мир, и которому мешают всякие поставщики технологий, которые зажимают товар, — не думает по определению.

Стараемся разрулить…

a1ndrey 19 мар 2012 в 17:31

Спасибо большое сейчас протестирую.
Надо просто скорость речи увеличить немного.

namikiri 19 мар 2012 в 18:49

Знаете, я попал впросак. Около трёх месяцев назад там была тестовая страничка, где можно было набрать текст не более 250 символов длиной. Думаю, вам бы сгодилось, дал ссылку, а там, оказывается, уже API для разработчиков без теста.

a1ndrey 19 мар 2012 в 18:52

Ничего, я им запрос отправил.

gunya 19 мар 2012 в 21:28

rssradio.ru/ же

a1ndrey 19 мар 2012 в 21:31

Спасибо. И им отпишусь

GeorgeR 20 мар 2012 в 08:49

Произвольный текст можно ввести на сервисе открыток. Используется обязательная музыкальная подложка и ограничение по количеству символов… уж извините.

a1ndrey 25 мар 2012 в 16:16

Спасибо все хабражителям за помощь.
Предрелизная версия программы тут:
www.youtube.com/watch?v=JlkJva-TGfY

a1ndrey 29 апр 2012 в 10:00

Наконец то Apple пропустил приложение (с четвертого раза!!!)
Ссылка на приложение:
itunes.apple.com/ru/app/sobesednik/id511330987?l=ru&ls=1&mt=8

lightcaster 13 мая 2012 в 09:54

>> Я прекрасно понимаю, что для создания действительно чего то похожего на Siri, нужны гигантские ресурсы и много средств.

Ресурсы на что? Вообще, что у сири уникального, своего? Распознавание — ньюанс. Парсинг — вольфрам. Поиск — гугл, бинг и еще кто-то там. Не знаю, правда, на счет генерации, но не удивлюсь если тоже не их. Так что в них такого инновационного? :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий