GeorgeR6 окт 2011 в 08:47

Синтез точка всё. Хабрахабр в прямом эфире

2 мин

1.4K

Я пиарюсь

+76

Комментарии 72

silvansky 6 окт 2011 в 08:56

Идея — супер! Теперь одновременно работаю и слушаю хабр…

DuDlik 6 окт 2011 в 09:08

Да, но есть, что доделывать.

1. Иконка тусклая
2. Тока ландшфтный режим
3. Крутить не удобно кругл кнопку
4. Не видно лого сайтов из-за кол-ва не прослушеного на них
5. Настройки… хочу тока мужской голос например слушать.
6. Хочу отметить, какие посты мне читать.
7. Нет возможности свои потоки добавлять
8. При старте программы, когда включается че за метроном… пусть гвоорит я Rss читалка лялляялял могу то и се.

silvansky 6 окт 2011 в 09:10

Ещё английские слова произносятся плохо.

osj 6 окт 2011 в 09:14

7. Нет возможности свои потоки добавлять

Ну тут же написано: Через две недели мы открываем сервис для коммерческого использования.
1 минута — 1 доллар.
Что же вы хотели от Free приложения?

randoom 6 окт 2011 в 09:41

дороговатенько за простое произношение текста. Сложно представить область где это так востребовано чтобы платить бакс за минуту.
Девушки по телефону вроде примерно столько же берут )) проще их переманить на зачитывание будет ;)

GeorgeR 6 окт 2011 в 09:52

Девушки берут дороже. И с девушками своя история. Процесс подбора персонала должен быть отлажен.
Понимаем, цена — доллар/минута — не для всех.

dab512 6 окт 2011 в 09:58

я за 60 центов в минуту готов работать :)

GeorgeR 6 окт 2011 в 10:09

Только придется круглые сутки. И иногда вас будут дебажить.
Приходите.

dab512 6 окт 2011 в 10:31

Не не не — я найду 4х единомышленников и будем по 6 часов в день работать.
6,5 тысяч рублей за 6-и часовой рабочий день меня вполне устроят

GeorgeR 6 окт 2011 в 10:44

многоканальную систему и нагружать будем многоканально. всех будем дебажить.

randoom 6 окт 2011 в 11:18

Небольшая логическая ошибка — у вас один клиент платит за 1 минуту прочтения ему текста 1 доллар, а значит никакой многоканальности и нагруженности за 1 доллар не предполагается.
Итого один зачитыватель должен получать 6,5 тысяч рублей за 6-и часовой рабочий день (если он целиком заполнен чтением) без угроз нагрузки и многоканальности. Я думаю что желающих найдется уйма.
А дебажить — это сколько угодно — только психоаналитик должен входить в соцпакет ;)

mit_idv 6 окт 2011 в 22:09

Простите, это правда не совсем так. Мы честно проводили исследования, а не называли цену «с потолка». Вы можете исследовать free-lance.ru или любое другое сообщество фрилансеров, чтобы узнать, за какие деньги можно озвучить текст человеческим голосом. Это в несколько раз дороже 1 доллара в минуту. Тонкость в том, что человек редко может читать текст быстро, точно и с ровным выржением долго и с первого раза. Получаются дубли, монтаж и совсем не 1 минута записанной реч за одну минуту работы.

Впрочем, если Вы чувствуете в себе силы стать профессиональным диктором — поработайте на этом поле, поконкурируйте с нашим синтезом и профессиональными дикторами. Глядишь, мы вас пригласим стать очередным голосом нашего синтеза! :)

kvabr 6 окт 2011 в 23:08

>> Вы можете исследовать free-lance.ru или любое другое сообщество фрилансеров, чтобы узнать, за какие деньги можно озвучить текст человеческим голосом. Это в несколько раз дороже 1 доллара в минуту.

Зато будет небольшой плюс: это будет озвучено человеческим голосом.

Абстрагируемся от качества — идея «поминутной» монетизации интересна. Идея брать доллар за минуту — бредовая. Не представляю кто кроме госпредприятий будет это покупать по такой цене. Всё таки не сравнивайте пожалуйста напрямую цену работы человека и цену работы машины. Понятно — что хочется суперприбылей. Но если ваш инвестор поверил в план продаж по 1USD/min — он или сильно непрофильный или не сильно умный.

Меняйте подход — берите массовостью. Даже без особых денег. Будет у вас 100000 постоянных пользователей — продавайтесь гуглу или яндексу. Хоть что-то отобьёте.

mit_idv 7 окт 2011 в 07:58

Большое спасибо за советы, и к массовости мы придём.

Но если даже траву тянуть руками, она быстрее не вырастет. К сожалению, мы не можем разрушать наши целевые рынки, в данном случае рынок систем голосового самообслуживания, демпингом. Так что всему своё время. Если для Вас лично наши цены дороги, а уговорить нас предоставить лично Вам сервис дешевле у вас нет — значит, время не пришло для нашего с Вами лично партнёрства.

У нас нет внешнего инвестора и веб-сервис является внутренним стартапом довольно большой компании, готорая работает с компаниями масштаба Гугла и Яндекса в партнёрских отношениях.

randoom 7 окт 2011 в 06:07

При такой цене может дойти то абсурда как это было с телеграммами. Когда человек пишет поздравительную телеграмму — дабы, типа, поздравить добрыми словами, но пытается их всячески сокращать. Вот и вам будут отдавать на озвучку «Здрствте уважмые абннты.»

И еще один вопрос — как можно будет определить за какое время может быть прочитан текст? Т.е. у заказчика есть допустим 500 000 000 долларов на запись аудио-книги «Войны и мир» — а вдруг не хватит? ;)

Еще как вариант — для сокращения расходов — будут просить ускорить голос — а то как то слишком медленно он у вас говорит… больно дорого получается в соотношении мысль/цена

mit_idv 7 окт 2011 в 09:03

1. Ускорять и замедлять голос можно через стандартные возможности API — язык разметки SSML.

2. Тарификация посекундная, так что минуты хватит на несколько «телеграмм».

Чем просто ругать, возьмите бесплатный промо-ключ на 20 минут, попробуйте для конкретной задачи и предложите другое ценообразование, исходя из цены изделия/сервиса, которое вы хотите предложить конечному пользователю.

randoom 7 окт 2011 в 17:28

Что ж Вы так близко к сердцу принимаете невинный троллинг? ;)
Я кстати к Вам думал устраиваться работать, хвалили вас сильно инсаайдеры, но опередили предложением…

mit_idv 7 окт 2011 в 21:00

А Вы приходите всё равно, у нас много и очень разного! :)

randoom 7 окт 2011 в 21:52

Цитирую: «Да в Питере у нас интересные проекты, но реально придется работать» ;)
з.ы. Про программеров не знаю, но манагерам вам срочно нужно поднимать зп ;)

Ryotsuke 6 окт 2011 в 12:30

1 минута озвучки 1 доллар это конская цена. Даже если эту минуту можно одновременно в тыщу потоков раздавать — всё равно конская. В конце концов 1 кусок текста на минуту озвучивается однократно, а дальше уже просто плата за трафик.

Как ниже уже заметили, дешевле для озвучки студентов нанять — у них хоть голос не роботизированный.

Мне интересно что именно включено в эту минуту за доллар? Особенно у тех девушек которые «берут дороже» :) час — 60 долларов, день — 240 долларов, месяц — почти 5 тыщ.

kvabr 6 окт 2011 в 16:30

1 минута — 1 доллар. Вот так. Просто и удобно.

Теперь ещё вам надо пролоббировать на законодательном уровне замену технологии голосового меню у всех мобильных операторов. Чтобы вместо заранее начитаных диктором пунктов — обязать их пользоваться вашим сервисом. А от вас — 7% в пенсионный фонд.

Вам — денюжкка.
Операторам удобство.
Пенсионерам пенсию.
Чиновникам откаты.
Абонентам — наконец-то чтобы «связаться с оператором» не надо будет 5 минут слушать слоупоковские речи «Акции — наааажмиииите аааадин».

Всеобщий профит ;-)

dab512 7 окт 2011 в 06:49

будут слушать то же самое только с металлическим отзвуком в голосе

GeorgeR 6 окт 2011 в 09:20

1. Принято.
2. Не было идей, как радио сделать вертикально. Ну и вообщем приложение-то для слуха; у нас тут все время раздвоение сознания — либо вообще отказаться от интерфесов (мы же на слух ориентируемся), но эстетика красивых приложений не дает расслабиться.
3. Кнопку можно не крутить. в видео показано как.
4. Придумаем во второй версии.
5-7. Вторая версия.
8. Метроном вообщем-то замолкает через 30 сек. сам собой или при включении канала. Но если будет раздражать — уберем. Поток кстати какой-нибудь до конца дослушайте. Там сюрприз ;) ну или просто сразу последнюю новость до конца. В следующей версии вынесем звуки в настройки. Можно будет отключить разом все.

DuDlik 6 окт 2011 в 09:22

2. Ну айфон обычно держат вертикально.
8. Через 30 секунд… это вечность.

Ждем версию 2

GeorgeR 6 окт 2011 в 09:23

да. надо было выставить 5 сек

kvabr 6 окт 2011 в 16:32

>> Не было идей, как радио сделать вертикально

GeorgeR 6 окт 2011 в 16:38

т.е. на боку оно такое как у нас, а держишь прямо — такое?

kvabr 6 окт 2011 в 16:50

Не возражаю.

А если серьёзно, вы же пишете сервис, вы и пробуйте.
Это вопрос дизайна и юзабилити. Можно поставить на голосование, а можно просто потратить час и попробовать как оно. А можно и чекбокс добавить, или вообще скины.

Вот я вам сейчас отвечу — ДА. А вы мне потом счёт предъявите — «сделали с переворотом — продали 18 минут речи за месяц».

Такие решения принимать только вам.

BUSHA 6 окт 2011 в 09:01

Стилизация — просто прелесть. Добавьте еще колорита по типу «По сводке московского информ-бюро!»

randoom 6 окт 2011 в 11:20

Стилизация — не от хорошей жизни — она отвлекает от ошибок произношения

d1m4 6 окт 2011 в 09:05

Мелкий кегль шрифта в iPhone напомнил картинку www.netlore.ru/files/uploads/2007/05/word1.jpg

Hemul 6 окт 2011 в 09:06

Был же сервис, который накладывал звуки вувузел на видео в youtube. Аналогичным образом можно и голос накладывать, наверное. Главное — научиться в .js выковыривать субтитры из ролика и отправлять их в реальном времени на сервер. Поскольку популярных роликов мало, результаты преобразования можно легко кэшировать на сервере и большинству раздавать уже готовое.

seo2z 6 окт 2011 в 09:10

Установил, понравилось! Особенно доставляет удовольствие — ретро стиль, который мне небезразличен. Так держать!

Saenco 6 окт 2011 в 09:12

А название «хабраБабр» это бага или фича?

Ryotsuke 6 окт 2011 в 09:13

Отличный проект. Под Андроид планируется?

GeorgeR 6 окт 2011 в 10:11

да. пока вот

Ryotsuke 6 окт 2011 в 10:17

Оно только заголовки читает что ли? Под кат не заходит?
Автоматически слушать новости _полностью_ нельзя?

GeorgeR 6 окт 2011 в 10:43

Он читает rss. под кат не заходит.
если заинтересовала новость — нажмите на текстовое окошко (переход на новость целиком)

Ryotsuke 6 окт 2011 в 10:47

Как-то смысл теряется. Если надо держать приложение перед глазами, чтобы была возможность развернуть новость, анонс я и так прочитать могу.

А вот так, чтобы просто непрерывно прослушать всё, пропуская что-то аппаратными(!) кнопками с гарнитуры, например — это было бы то, что я давно ищу.

and7ey 6 окт 2011 в 17:05

Если бы свои ленты можно было бы задавать, то можно было бы полную ленту хабра скормить :).

Agent_Smith 6 окт 2011 в 09:29

Выглядит красиво, звучит ужасно, дольше 2х минут слушать хабр я не смог. На ролике с фокусом звучит раз в 100 лучше, почему так? Специально что-ли текст под озвучку подгоняли?

Agent_Smith 6 окт 2011 в 09:31

При этом мужской голос звучит ниче-так, а вот женский жует половину слов.

GeorgeR 6 окт 2011 в 09:35

специально ничего не делали, устали бы.

это роботы. кто-то к ним уже привык.

Arion 6 окт 2011 в 09:33

напомнило радио в fallout, антураж просто супер

bsideup 6 окт 2011 в 09:38

Блин, да половина «домашних» любительских переводов фильмов на rutracker.org звучит хуже!)

Хорошая работа!

Klang 6 окт 2011 в 09:43

только вчера задумался о необходимости такого приложения а вы уже реализовали. молодцы!
когда едешь в метро приятно почитать свои подписки с экрана смартфона слушая музыку.а когда еду на работу за рулем глаза заняты другим делом, а новости по радио не соответствуют моим интересам. успешного и интенсивного развития вам. а также на других платформах ;)

GeorgeR 6 окт 2011 в 09:53

В следующей версии поддерживаем кэш, чтобы новости можно было бы скачать на телефон с домашнего вайфая.

GeorgeR 6 окт 2011 в 09:56

… и кстати веб-версия не работает только на iOS (Apple не жалует автостарт проигрывателя). А так — велкам с любого устройства rssradio.ru/

puffofsmoke 8 окт 2011 в 07:37

Перехода по топикам нет?

freeznah 6 окт 2011 в 17:15

«Ещё одна интересная особенность, также не обремененная практическим смыслом, — это умение телефона зачитывать вслух SMS. Телефон умеет „читать“ как по-английски, так и по-русски. В последнем случае лучше воспроизводятся сообщения, набранные кириллицей, хотя и с транслитом аппарат справляется неплохо»
полагаю, технически это мало отличается от зачитывания заголовков рсс, так ведь?
www.mobiset.ru/articles/text/?id=437
обратите внимания на дату написания статьи
или киллер-фича приложения именно в «человечности» синтеза?

mit_idv 6 окт 2011 в 22:19

Киллер-фичи тут нет. Синтез речи уже давно не новость. Но вот к его качеству были и будут претензии. Мы стараемся сделать его лучше и лучше. Мы просто технологическая компания, разработавшая технологию русского синтеза с массой тонкостей и претендующая на лидерство в этой технологии. Долгое время держали разработку при себе и на очень узком рынке автоматических систем голосового самообслуживания, а вот сейчас решили расширить аудиторию. Будем рады, если вы воспользуетесь приложением или открыточным сервисом, дадите ваши отзывы, порадуетесь вместе с нами. Если запустите собственный стартап в партнёрстве с нами — вообще отлично! :)

shifttstas 6 окт 2011 в 09:51

Вам бы вместе начать работать с Home-Sapiens — habrahabr.ru/blogs/startup/128756/ и было бы счастье у пользователей

shifttstas 6 окт 2011 в 09:58

Проотестировал, голос хороший, но некоторые фразы всетаки еще «с железным оттенком» будете ли улучшать синтез?

GeorgeR 6 окт 2011 в 10:07

а как же! постоянно.

mit_idv 6 окт 2011 в 22:22

Если появляются конкретные задачи, мы всегда «подпиливаем» синтез для идеального произнесения наиболее характерных для этой задачи фраз. Кроме того, можно размечать текст, чтобы помогать роботу читать его лучше. Просто новости читаются безо всякой помощи человека — это самый сложный случай для робота.

0xZ 6 окт 2011 в 10:49

Интегрировать бы данный сервис с turbofilm…

GeorgeR 6 окт 2011 в 11:07

Есть идеи — пишите: voicefabric@speechpro.com

Hemul 6 окт 2011 в 11:25

при переключении каналов сделайте отбивку, чтобы как на настоящем радио при перенастройке — «свист и улюлюкание», перебиваемое обрывками фраз с других каналов :)

GeorgeR 6 окт 2011 в 11:28

сделали, потом подумали и отказались. может вернем. если реально пользоваться, а не играться — немного отвлекает.
во второй версии вынесем в настройки — «отключить все лишние звуки».

Finom 6 окт 2011 в 12:46

Вы псих. В хорошем смысле :)

НЛО прилетело и опубликовало эту надпись здесь

saintfr3ak 6 окт 2011 в 13:24

Йолки, охренеть!
Я так давно не интересовался синтезом речи, что просто ошеломлен насколько плавно компьютер научился читать на данный момент. Сейчас включил колонки и дал послушать коллегам (последний ролик), никто сразу не поверил, что это не живой человек читает.
Спасибо!
Будущее прекрасно.

зы. да, идея для приложения тоже хороша, надо опробовать.

Neuronix 6 окт 2011 в 13:30

Выдали ключ. Опробовал. На слух — по качеству синтеза речи (женские голоса) приблизительно, как гугловский. Только один женский голос (Мария) смог произнести фразу с адекватно расставленными ударениями и учетом знаков препинания. Мужские голоса не тестил.

GeorgeR 6 окт 2011 в 13:36

потестите ;) Мужские голоса кстати звучат, например, вот в этом ролике
а нужные ударения при желании расставляются при помощи языка разметки SSML.

Neuronix 6 окт 2011 в 13:53

Все бы хорошо, если было бы бесплатно хотя-бы для некоммерческого использования…

mit_idv 6 окт 2011 в 22:33

Пишите вашу идею, рассказывайте. Всё обсуждаемо. Просто «некоммерческих» использований на самом деле довольно мало :) Если докажете, что у вас именно такое — дадим. Только не обижайтесь, если мы будем медленно и неохотно отвечать, потому что на самом деле мы делаем суровые «изделия», и у команды довольно немного свободного времени :)

Neuronix 7 окт 2011 в 13:21

Собственно, далеко ходить не надо — все есть на хабре ;) Для чего бы я использовал ваши технологии можно посмотреть из моих топиков.
Я строю систему «умный дом» на базе разрабатываемого open source ПО.

mit_idv 7 окт 2011 в 21:38

Ну тогда Вам сюда: htk.eng.cam.ac.uk/ :)
На самом деле, распознавание и синтез Гугла — это не Open Source, а использование уязвимости.
По идее, Вам бы использовать движки синтеза и распознавания с открытым кодом для чистоты идеи.

Кстати, проблема с распознаванием в умном доме — это как раз микрофоны. Вам надо либо носить микрофон с собой, либо строить в помещении дорогую систему микрофонов.

Опубликуем наш сервис распознавания — попробуете.
Но без коммерческих предпосылок никто конечно не даст коммерческие движки синтеза и распознавания надолго. Пока что это слишком дорогостоящие в разработке штуки.

bydunai 6 окт 2011 в 14:22

Здоровская штука.

and7ey 6 окт 2011 в 17:07

Еще б голосовое управление (встроенными средствами ipad) прикрутить. Только тогда на app store не пустят.

GeorgeR 6 окт 2011 в 17:11

свое прикрутим ;)

graycrow 8 ноя 2011 в 14:05

Особенно спасибо за музыку в конце.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий