GeorgeR9 июн 2011 в 06:16

Русский голос TED

1 мин

1.5K

Я пиарюсь

+78

Комментарии 64

madmaxcorp 9 июн 2011 в 06:21

Таки надо оригинальную звуковую дорожу делать тише, а то треш какой-то получился.

GeorgeR 9 июн 2011 в 06:29

Заменил ролик на более правильный по звуку. Остальные ролики здесь.

madmaxcorp 9 июн 2011 в 06:32

О, теперь хорошо.

FuN_ViT 9 июн 2011 в 06:41

очень недурно!

kimi44 9 июн 2011 в 06:59

Мне очень понравилось слушать эти переводы и они очень хорошо отражают научный подход TED. Очень иронично показалось слушать историю о человеке потерявшем голос таким переводом. Теперь на работе удобно слушать TED, я хотел бы, чтобы вся переведенная на русский база TED была озвучена подобным образом.

iambot 9 июн 2011 в 07:05

Вы специально строите свои предложения, чтобы они были похожи на машинный перевод?

GeorgeR 9 июн 2011 в 07:13

Переводы берутся из субтитров, созданных усилиями сообщества TED.
Все процессы представленного проекта предельно автоматизированы.

buger 9 июн 2011 в 07:29

Я так понимаю все равно какой то тюнинг проводится. Потому что в демо на сайте vitalvoice.ru/demo/ далеко не так хорошо с интонациями и знаками препинания.

GeorgeR 9 июн 2011 в 07:31

Новая версия движка на совершенно иных принципах. На демо еще не обновили.

kimi44 9 июн 2011 в 08:44

Ага, писал сразу после просмотра видео, втянулся видимо. Сейчас перечитал и правда похоже на машинный перевод. Иронично, что мне это заметил человек с Вашим никнеймом. =)

egavrin 9 июн 2011 в 07:00

Это синтезируемая речь? Я не верю!

hx0 9 июн 2011 в 13:27

Да, неплохо, но прослушиваются «провалы» в голосе подобно таким как в festival.

Roler 9 июн 2011 в 19:10

Или мне кажется, или иногда голос прямо посередине слов как будто реверберирует.

Demir0 9 июн 2011 в 23:36

А я не верю, что можно принять ее за настоящую. Да, очень круто, иногда даже похоже. Но давайте без пафоса.

Fatal_Error 9 июн 2011 в 07:01

Хорошая реклама от Dodge на эту тему ) www.youtube.com/watch?v=Qw7_UTk0d6Y

sp1se 9 июн 2011 в 07:01

А технология может работать real time? Я уже представил как это толкнет IT стран СНГ вперед...:)

GeorgeR 9 июн 2011 в 07:03

Может.

Antigluk 9 июн 2011 в 07:06

Это просто невероятно.
А субтитры делаются вручную или генерируются системой распознавания голоса?

LiDeBr 9 июн 2011 в 10:32

Вручную, конечно.

НЛО прилетело и опубликовало эту надпись здесь

ckkpss 9 июн 2011 в 14:19

ну да, очень неплохо изучить два-три десятка языков. ну и умереть потом спокойно, ощущая себя интеллектуалом

НЛО прилетело и опубликовало эту надпись здесь

Reey 9 июн 2011 в 19:13

А все серии рабыни Изауры — на португальском.

Demir0 9 июн 2011 в 23:40

Зная два-три десятка языков, человек уже не просто знает два-три десятка языков. Странно это объяснять [вроде бы] образованному человеку.

kuber 9 июн 2011 в 07:09

Хорошо, даже очень Хорошо.

sp1se 9 июн 2011 в 07:12

Насчет голоса скажу вам, что после американских фильмов 90-ых годов, нас жителей постсоветского пространства не испугаешь приятным голосом и дикцией робота))

Shark 9 июн 2011 в 07:14

VoiceFabric — это скорее материя речи, чем фабрика речи.

Aracon 9 июн 2011 в 19:41

Но на логотипе буквы I оформлены в виде труб, из которых валит дым (в форме «комиксного облачка»), что тоже намекает на «фабрику».

Elijah 9 июн 2011 в 07:17

Робоголос действительно хорош, как и идея русской озвучки TED.
Единственное, что «резануло» по глазам — название («Фабрика речи» VoiceFabric), fabric в английском языке — это ткань, материал, а никак не фабрика.

darkolorin 9 июн 2011 в 07:18

На уровне, иногда бывают огрехи, но очень приятно что теперь я могу послушать выступления известных специалистов по космологии и квантовой физике. Жду продолжения.

GeorgeR 9 июн 2011 в 07:25

Каждый четверг — 10 новых роликов.

darkolorin 9 июн 2011 в 07:26

Теперь буду ждать как сериал :)

kimi44 9 июн 2011 в 08:47

А чем обусловлено такое ограничение? Просто очень интересно. Ресурсоемкость технологии, лицензионные ограничения, необходимость ручной доводки материала или желание растянуть интерес зрителя сериальной моделью?

GeorgeR 9 июн 2011 в 09:08

сериальная модель, отчасти :)
С другой стороны — залить 10 роликов на vimeo + их оформить (ввести описание, поставить ссылки) + оформить на сайте, продумать, где оставить, чтобы заметили :) вообщем ресурсоемко.
сам процесс озвучки занимает где-то на 1 час видео — 5 минут работы движка.

Dr_Logic 9 июн 2011 в 07:18

Очень интересно — интонация в голосе выбирается автоматически основываясь только на пунктуации или каким-то образом используется оригинальная звуковая дорожка? Может быть вообще ее правил редактор?

GeorgeR 9 июн 2011 в 07:26

Редактор ничего не правил :)

diomas 9 июн 2011 в 07:22

Здорово! осталось только «булькание» убрать и будет не отличить

ckkpss 9 июн 2011 в 14:23

насколько я понял, бульканье появляется, когда робот торопится. когда медленно говорит — вообще незаметно, что это не человеческий диктор.

всплывает проблема английского языка с его словами, более короткими, чем наши. думаю, в случае с немецким будет проще.

eRaider 9 июн 2011 в 07:23

Клево, но как убрать английскую дорожку?

GeorgeR 9 июн 2011 в 07:34

С оригинальной дорожкой двойственная история. С одной стороны — она конечно мешает. С другой — помогает, так как из нее слушателем подсознательно берется оригинальное интонирование и эмоциональная окраска. А как известно, роботы хуже всего справляются с эмоциями.

eRaider 9 июн 2011 в 07:45

Согласен, но может быть, ее сильнее приглушить? Приходится вслушиваться в русский текст.
Показалось, что русская речь немного отстает от английской, из-за этого интонации и акценты смещаются. Вы не подгоняли перевод так, чтобы он примерно попадал в английский темп?

GeorgeR 9 июн 2011 в 07:56

Это самая интересная с точки зрения реализации задача.
Проблема ведь в том, что английская речь и русская разная по длительности звучания отдельных предложений. Английская короче. Поэтому синтез должен успеть произнести русское предложение и еще успеть его «привязать» (по смыслу и месту) к оригинальному звучанию. Профессиональный перевод (человеческий) справляется с этой задачей тем, что просто не все что говорится озвучивается. Плюс к этому человек-дублер работает на различных темпах. У синтеза тоже есть разные темпы, но звучит это неприятно для уха, когда одна фраза спокойная по темпу, а другая — с места в карьер.

GeorgeR 9 июн 2011 в 09:50

И есть еще небольшая хитрость. Начало каждой фразы роботосинтеза смещено по отношению к оригиналу во всех роликах на 1,5 сек. Для достижения «эффекта Володарского», так сказать :)

Dr_Logic 9 июн 2011 в 07:26

Кстати, то ли технология другая то ли синтезированный голос «подтюнили», но на сайте продукт «RSS-радио» синтезирует голос на порядок «роботизированней» speechpro.ru/techno/synthesis -> rssradio.ru/

GeorgeR 9 июн 2011 в 07:30

Новая версия движка на совершенно иных принципах. На демо еще не обновили.

stasxp 9 июн 2011 в 07:33

Google уже хочет вас купить =)

Antares19 9 июн 2011 в 07:47

2:55 «Понимаете ли вы что все они [аварии] стали следствием человеческой ошибки, а не ошибки машины… И могут быть предотвращены с помощью той же машины.»

Когда ситнезированный голос, говорит про ошибки человека и предлагает заменить человека на машину — это как-то очень напоминает GladOS из Portal :)

ps: Проект отличный! Будущее здесь.

osmirnov 9 июн 2011 в 07:52

Спасибо. Очень интересно, как IT специалисту. Немного неинтересно, как человеку, изучающему английский язык с помощью TED.

Levsha100 9 июн 2011 в 08:01

Неужели мы дожили до этого момента?
Просто суперовая технология!
Будущее здесь!

mkevac 9 июн 2011 в 09:18

> Всегда приятно, когда видео с какого-нибудь мероприятия переводят на русский язык.

Почему приятно? Вы не знаете английский язык? Вы, пишуший на Хабрахабре. Сайте об IT. Ужас…

fp71g 9 июн 2011 в 09:57

Поверьте, не все знают английский настолько хорошо, чтобы нормально понимать разговорную речь

mkevac 9 июн 2011 в 10:00

Я верю. Поэтому надо не переводить и тормозить процесс обучения, а изучать долбанный английский язык!

webhamster 9 июн 2011 в 10:42

Интонирование речи приятно удивило. Как это достигается? Расставить правильные интонации — это очень сложная задача.

С синтезом, конечно, косяки вылазят. Форманты плохо стыкуются. Не пойму, в чем проблема добиться гладкой стыковки?

Shuisky 9 июн 2011 в 11:05

Птица Говорун)

Alexsey 9 июн 2011 в 12:08

Очень впечатляет

ckkpss 9 июн 2011 в 14:27

я понял, что это не человек, только когда он начал заикаться в середине.

и голос очень приятный, бархатистый. надеюсь, диктор, отдавший его бездушной машине, не будет распят какой-нибудь актёрской гильдией ;)

GreenAngel 9 июн 2011 в 15:24

Очень впечатляет! А скоро у простых юзеров появится возможность использовать Вашу технологию?

RedWorker 9 июн 2011 в 15:33

У меня на базе ЦРТ работает автоматическое радио — bot.fm
Просто выделяешь любой текст, выбираешь голос, жмешь внопку — оно озвучивается и вставляется тебе в боткаст.