Комментарии 67
Судя по по чужому опыту, цензура не пропустит
Вы упустили видео-демонстрацию.
А как же чисто отечественное «Вы что, не видите, я занята!» и «Для обработки этого запроса возьмите талон в соседнем окне в пятницу утром после полнолуния»? По-моему, весьма оригинальные сообщения об ошибках выйдут
Идея красивая. Когда ждать версию для дроида?
Вначале надо, чтоб эту apple пропустил. А там посмотрим.
Да даже если apple и не пропустит. Точнее — как раз если не пропустит, то будет особенно уместно выпустить для андроида. Дескать, не хотите конкуренции — так получите ;-).
Могу помочь в портировании на Android )
Мм, на андроид маркет легче пролезть)
Под андроид могу порекомендовать play.google.com/store/apps/details?id=com.luitech.remindit&feature=search_result#?t=W251bGwsMSwxLDEsImNvbS5sdWl0ZWNoLnJlbWluZGl0Il0.
Записывает todo голосом и напоминает в нужное время. Супер программа. Вечером еду в авто — надиктовываю голосом задачи на следующий день. Она распознает и напоминает в нужное время.
Записывает todo голосом и напоминает в нужное время. Супер программа. Вечером еду в авто — надиктовываю голосом задачи на следующий день. Она распознает и напоминает в нужное время.
под Андроид есть Кири (Kiri)
Под Android есть практически все, но это не значит, что разрабатывать для него не стоит.
Вероятно, надо добавить «в том или ином виде». Много сталкивался, что программа «почти хороша», но — все же без блеска. В т.ч. и потому, что разработчик подчас — не многомиллиардная корпорация, а отдельный человек/группа, и у них нет дизайнера, нет (как в случае с голосовым движком) отряда лингвистов. С другой стороны, сравниваешь продукты одиночки и мегакорпорации, и порой обидно за корпорацию — «с такими-то ресурсами, и всего настолько лучше получилось?»
Ох, классная реализация! Я полгода назад мучался со Sphinx4 (и его упрощённой версией), в итоге забил.
Попробую ispeech
Попробую ispeech
Чат-бота прикрутите, чтобы можно было «просто поболтать» :)
Для преобразования звука в другой формат попробуйте:
1) developer.apple.com/library/ios/#samplecode/iPhoneExtAudioFileConvertTest/Introduction/Intro.html#//apple_ref/doc/uid/DTS40009222
2) developer.apple.com/library/ios/#samplecode/iPhoneACFileConvertTest/Introduction/Intro.html#//apple_ref/doc/uid/DTS40010581
1) developer.apple.com/library/ios/#samplecode/iPhoneExtAudioFileConvertTest/Introduction/Intro.html#//apple_ref/doc/uid/DTS40009222
2) developer.apple.com/library/ios/#samplecode/iPhoneACFileConvertTest/Introduction/Intro.html#//apple_ref/doc/uid/DTS40010581
О большое спасибо!!! Прочту обязательно.
А чем вы записываете звук?
Стандартно с микрофона обычный recorder.
Может быть можно настроить формат звука при записи? Вроде как AVAudioRecorder это может. У него есть settings-словарь.
Там вроде формат записи или WAVE или CAF
developer.apple.com/library/ios/#documentation/AVFoundation/Reference/AVFoundationAudioSettings_Constants/Reference/reference.html#//apple_ref/doc/uid/TP40009937
смотрите «General Audio Format Settings»
Вас заинтересует AVSampleRateKey и AVNumberOfChannelsKey
смотрите «General Audio Format Settings»
Вас заинтересует AVSampleRateKey и AVNumberOfChannelsKey
А во сколько обошлась лицензия на технологии ispeech.org?
Слишком много думает)
Почему бы не попробывать ответы бота, отправлять cылку на translate.google.com, там можно вытянуть файлик с произношением.
Тобишь посылаем ответ на клиент текстом, а клиент уже формирует ссылку и забирает файлик с гугла. Конечно рано или поздно прикроют, но разгрузить свой сервер на время можно и повысить скорость ответа можно.
Тобишь посылаем ответ на клиент текстом, а клиент уже формирует ссылку и забирает файлик с гугла. Конечно рано или поздно прикроют, но разгрузить свой сервер на время можно и повысить скорость ответа можно.
Можно попробовать. Но (1) Там ограничение 100 символов. (2) Остается вопрос о лицензионной чистоте такой операции. Да и скорости такое решение не прибавит.
Нужно читать пользовательское соглашение с гуглом.
Но если уж развивать по серьзному то нужен свой выделенный сервер и покупка речевого движка под него. Тогда скорость существенно возрастет. Но это не малые затраты.
Нужно читать пользовательское соглашение с гуглом.
Но если уж развивать по серьзному то нужен свой выделенный сервер и покупка речевого движка под него. Тогда скорость существенно возрастет. Но это не малые затраты.
«И если подключить к Siri все гаджеты Apple, сервера просто рухнут.»
— смеялся с этого до слез. Чего чего, а уж серверов думаю Эпл не жалко :)
— смеялся с этого до слез. Чего чего, а уж серверов думаю Эпл не жалко :)
А не подскажете, где словари для программ-болталок брали?
Есть такой старый ресурс www.netnotes.narod.ru/talkerus/index.html
Кое что от туда.
Кое что от туда.
Вообще, в iOS 5.1 уже вроде встроили API speech-to-text, может так проще будет. Не уверен насчёт русского.
Может стоило к ней еще wikipedia прикрутить?
Попробуйте для синтезации голоса VitalVoice, у него более вменяемое произношение, а то у Кати оно немного походит на дислексичку.
Спасибо, отправил им запрос. А какие у них расценки?
Расценки у нас простые: 1 доллар = 1 минута речи.
Этот тариф подходит для наших основных клиентов — call-центров.
Но поскольку к нам сейчас обращается множество стартапов, объем трафика которых не всегда предсказуем, — общаемся в индивидуальном порядке, что конечно не есть хорошо…
Типичный пример коммуникации выглядит следующим образом:
— Дайте ключ API!
— Для каких целей?
— Хочу озвучивать свое шоу/видео/аналог siri/переводчик и т.п. Я даже готов платить. Сколько стоит?
— Есть стандартный тариф — доллар минута. Но в зависимости от ваших нагрузок, мы можем сделать для вас индивидуальный тариф.
— Вы офигели?! Для меня это дорого.
— Спрогнозируйте ваши приблизительные месячные нагрузки.
— …
обычно на этом этапе коммуникация обрывается.
Мы, понятно, не Google, и о нагрузках на сервер беспокоимся в первую очередь. Понятно, что о наших затратах на сервера молодой и активный стартапщик, готовый прям сейчас захватить мир, и которому мешают всякие поставщики технологий, которые зажимают товар, — не думает по определению.
Стараемся разрулить…
Этот тариф подходит для наших основных клиентов — call-центров.
Но поскольку к нам сейчас обращается множество стартапов, объем трафика которых не всегда предсказуем, — общаемся в индивидуальном порядке, что конечно не есть хорошо…
Типичный пример коммуникации выглядит следующим образом:
— Дайте ключ API!
— Для каких целей?
— Хочу озвучивать свое шоу/видео/аналог siri/переводчик и т.п. Я даже готов платить. Сколько стоит?
— Есть стандартный тариф — доллар минута. Но в зависимости от ваших нагрузок, мы можем сделать для вас индивидуальный тариф.
— Вы офигели?! Для меня это дорого.
— Спрогнозируйте ваши приблизительные месячные нагрузки.
— …
обычно на этом этапе коммуникация обрывается.
Мы, понятно, не Google, и о нагрузках на сервер беспокоимся в первую очередь. Понятно, что о наших затратах на сервера молодой и активный стартапщик, готовый прям сейчас захватить мир, и которому мешают всякие поставщики технологий, которые зажимают товар, — не думает по определению.
Стараемся разрулить…
Спасибо большое сейчас протестирую.
Надо просто скорость речи увеличить немного.
Надо просто скорость речи увеличить немного.
Знаете, я попал впросак. Около трёх месяцев назад там была тестовая страничка, где можно было набрать текст не более 250 символов длиной. Думаю, вам бы сгодилось, дал ссылку, а там, оказывается, уже API для разработчиков без теста.
Ничего, я им запрос отправил.
Произвольный текст можно ввести на сервисе открыток. Используется обязательная музыкальная подложка и ограничение по количеству символов… уж извините.
Спасибо все хабражителям за помощь.
Предрелизная версия программы тут:
www.youtube.com/watch?v=JlkJva-TGfY
Предрелизная версия программы тут:
www.youtube.com/watch?v=JlkJva-TGfY
Наконец то Apple пропустил приложение (с четвертого раза!!!)
Ссылка на приложение:
itunes.apple.com/ru/app/sobesednik/id511330987?l=ru&ls=1&mt=8
Ссылка на приложение:
itunes.apple.com/ru/app/sobesednik/id511330987?l=ru&ls=1&mt=8
>> Я прекрасно понимаю, что для создания действительно чего то похожего на Siri, нужны гигантские ресурсы и много средств.
Ресурсы на что? Вообще, что у сири уникального, своего? Распознавание — ньюанс. Парсинг — вольфрам. Поиск — гугл, бинг и еще кто-то там. Не знаю, правда, на счет генерации, но не удивлюсь если тоже не их. Так что в них такого инновационного? :)
Ресурсы на что? Вообще, что у сири уникального, своего? Распознавание — ньюанс. Парсинг — вольфрам. Поиск — гугл, бинг и еще кто-то там. Не знаю, правда, на счет генерации, но не удивлюсь если тоже не их. Так что в них такого инновационного? :)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Разработка русскоговорящего «аналога» Siri за 7 дней