Как стать автором
Обновить

Facebook показала систему преобразования текста в речь в реальном времени на CPU

Машинное обучение *Искусственный интеллект Звук Natural Language Processing *
image

Facebook создала и развернула нейронную систему преобразования текста в речь на серверах ЦП. Компания заявила, что система обеспечивает высокую эффективность вычислений и качество звука на уровне человеческой речи.
Читать дальше →
Всего голосов 18: ↑16 и ↓2 +14
Просмотры 8.7K
Комментарии 8

DeepMind представила состязательную систему преобразования текста в речь EATS

Машинное обучение *Звук Natural Language Processing *
imageФото: deepmind.com

Британская компания DeepMind показала новую систему преобразования текста в речь (TTS) под названием EATS. Она принимает входные данные в виде текста и переводит их в синтетическую речь, похожую на человеческую.
Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 1.9K
Комментарии 2

Пишем скрипт под линукс, прочитывающий свежие статьи с хабра в мп3 файл.

Чулан
Многие из нас хотели бы еще немного сэкономить свое время. Одна из технологий, позволяющих сделать это — tts (text to speech): Когда компьютер читает вслух какой-либо текст. Согласитесь, как приятно было бы прослушать все свежие статьи с хабра, пока вы готовите еду, убираете квартиру, одеваетесь или завязываете шнурки т.е. в те моменты когда ваши глаза и руки заняты, а мозг и уши почти свободны.
Недавно я написал скрипт, позволяющий перевести в мп3 все свежие статьи с хабра для того чтобы можно было их прослушать. Немного изменив его вы сможете получать статьи и с других сайтов, вместо записи в мп3 можно будет проговорить статьи на компьютере немедленно, также в скрипте реализован достаточно простой способ работы с rss через консоль linux.
Читать дальше →
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 508
Комментарии 10

Слушать сайты в любое время и в любом месте

Чулан
С ростом популярности интернет-СМИ, блогов и тематических сообществ объем генерируемого контента увеличивается в геометрической прогрессии. Уже сейчас многие пользователи физически не успевают обрабатывать свою подписку, то и дело нажимая на «красную кнопку», удаляющую все непрочитанные статьи возрастом более 48 часов. Признаться, для меня, как очень активного — как в онлайне, так и в офлайне человека, полностью прочитанные каналы — в буквальном смысле непозволительная роскошь.

Обладатели мобильных устройств с RSS-ридером могут читать статьи, находясь вдалеке от стационарного компьютера или ноутбука. Но сложнее, если вы сидите за рулем автомобиля, занимаетесь спортом или просто находитесь в пешей прогулке. С экрана в эти моменты читать текст неудобно, хотя это время можно было бы также использовать для получения информации.

Вполне логичным, на мой взгляд, здесь является решение получать материалы своей подписки в формате аудио: преобразовывать текст в речь, загружать файлы в КПК, плеер или мобильный телефон и слушать статьи почти в любое время и в любом месте.

Читать дальше →
Всего голосов 28: ↑25 и ↓3 +22
Просмотры 1.5K
Комментарии 32

Голосовой движок Acapela Alyona

Чулан

В июле этого года, компания Acapela, разработчики популярного русскоязычного голосового модуля Николай, выпустили новый русский, женский голосовой движок, который получил название Алёна. Работает с частотой 22 кГц. По качеству синтезируемой речи Алёна намного опережает Николая, тембр голоса и интонация, по мнению пользователей приятней, чем у движка Катерина от ScanSoft RealSpeak.
читать дальше
Всего голосов 11: ↑8 и ↓3 +5
Просмотры 3.7K
Комментарии 10

Синтез русской речи в Linux

Настройка Linux *
Прочитал статью про SAPI и Powershell (Учим PowerShell разговаривать), и мне стало интересно как же с синтезом русскоязычной речи в родной для меня операционке, Linux'e. Как выяснилось все далеко не так радужно, да и качество синтеза далеко до голоса Алены, но все же.
Узнать что было дальше
Всего голосов 55: ↑53 и ↓2 +51
Просмотры 51K
Комментарии 58

Используем Text To Speech от Google

Чулан
Набираем в браузере:
translate.google.com/translate_tts?tl=en&q=some short english text

или пишем скрипт google-tts.sh:
#!/bin/sh
text=`echo $@|tr ' ' '+'`
file=`echo $@|tr ' ' '-'`.mp3
wget -U Opera "http://translate.google.com/translate_tts?tl=en&q=$text" -O "$file"

использовать так: ./google-tts.sh some short english text
Всего голосов 25: ↑21 и ↓4 +17
Просмотры 1.7K
Комментарии 14

Wikistream — всемирный аудио-путеводитель на основе статей Wikipedia

Чулан
image
Мы выпустили в свет аудио-гид, который основан на Википедии.

В Wikipedia примерно миллион статей имеют координатную привязку к определенным точкам на планете. 172 тысячи из них — на английском языке. На русском — 17 тысяч. Мы преобразовали все это богатство в разумный аудио-гид.
Он доступен вам, если у вас есть смартфон с GPS и Java или iPhone 3G. Вы платите только за интернет трафик.

В этом топике хочу рассказать о некоторых проблемах, с которыми мы сталкивались в процессе реализации проекта.
Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 376
Комментарии 5

TTS — Text To Speech

Чулан
В силу служебной необходимости разбирался с рынком промышленных движков по преобразованию текста в речь.
Рынок не сказать, что бы огромен, но достаточно стар.
В России собственные разработки представлены в Центре Речевых Технологий (они же ЦРТ).
Среди популярных Nuance (TTS Milena). Бюджетный проект 09 (комерческий проект 099) реализован на базе Nuance. Интегратором выступила компания Logictel , которая на самом деле это Сател.
В России данный продукт представляют Open Communication, Voxcom и многие другие.

Ещё один менее качественный продукт от компании ScanSoft (TTS Katerina), признаться так себе.

Другой продукт представлен компанией Loquendo (TTS Olga). В России на данный момент по моим сведения пока никто не представляет. Если ошибаюсь, буду приятно удивлён.

С наладкой TTS всё относительно просто. Разработчик должен оперировать с фонемами конкретного языка. А уже потом происходит нормализация, когда произнесение отдельных слов докручивают до идеала. Для это существуют Speech API, VoiceXML, SML и т.п.
Всего голосов 3: ↑1 и ↓2 -1
Просмотры 879
Комментарии 5

Требуется небольшое бета-тестирование от уникальных специалистов

Разработка веб-сайтов *
Уважаемые хабражители,
Мы уверены, что среди вас есть хотя бы по одному человеку, который знает некоторые не очень распространенные языки.

Дело в том, что мы добавили к нашему сервису Text-to-Speech движки для нескольких новых языков. Они пока доступны только для Википедии, в режиме бета-теста.

Просьба простая — выберите на странице в списке слева язык, который Вы знаете, и послушайте хотя бы одну статью Википедии на карте.
Читать дальше →
Всего голосов 15: ↑8 и ↓7 +1
Просмотры 479
Комментарии 17

Синтез речи в Chrome

Google Chrome
Google внедрил в браузер интерфейсы Text-to-Speech API, так что теперь любое приложение или расширение Chrome способно читать текст вслух. Синтез речи из расширения осуществляется элементарной командой

chrome.tts.speak('Hello, world!');

(предварительно требуется добавить tts в список разрешений для данного расширения).

С помощью модуля chrome.ttsEngine можно прикрутить к браузеру свой собственный движок синтеза речи, например, для русского языка.
Читать дальше →
Всего голосов 55: ↑45 и ↓10 +35
Просмотры 19K
Комментарии 19

Синтезатор речи. Теперь и на русском

Разработка под Android *
Меня всегда огорчало, что в Android не было синтезатора речи на русском. Изначально выбор языков был ограничен английским, испанским, французским, немецким и итальянским. Существовали отдельные коммерческие движки, а также производители могли добавить в свои устройства какой-нибудь движок с нужным языком, видимо договорившись с разработчиком. Но хотелось поддержки из коробки от самой «корпорации добра».
Читать дальше →
Всего голосов 28: ↑26 и ↓2 +24
Просмотры 100K
Комментарии 15

Android Планшет вместо Авто магнитолы

DIY или Сделай сам
Сейчас многие владельцы автотранспорта сталкиваются с проблемой убогости штатных и космической дороговизны хороших магнитол с современными функциями. Вот и я купив машину 2010 года не смог ужиться с CD проигрывателем и поспешил поставить вместо него таблетку — Планшет. В статье описаны аспекты не освещённые в остальных источниках информации. В частности не как физически врезать планшет в машину, а как всё настроить так чтобы было приятно и удобно пользоваться.
image
Читать дальше →
Всего голосов 92: ↑81 и ↓11 +70
Просмотры 297K
Комментарии 105

yandex-speech — wrapper к речевым технологиям Яндекса

JavaScript *Node.JS *
Ознакомившись с обзором движков для распознавания речи, заметил там API от Яндекса. И на выходных написал небольшую обертку для Node.js для распознавания речи с целью поиска мата в своих телефонных разговорах. По мотивам топика на Хабре.

Список нецензурных слов выкладывать не буду, а сам npm устанавливается командой.
npm install yandex-speech


Исходники и примеры использования:
github: www.github.com/antirek/yandex-speech

Немного деталей:
Читать дальше →
Всего голосов 23: ↑22 и ↓1 +21
Просмотры 14K
Комментарии 6

Вышла новая версия мобильного приложения «Читатель» для iOS

Блог компании Центр речевых технологий (ЦРТ)


Немного предыстории
Два года назад мы выпустили для iOS первую версию «Читателя» (Ссылка на iTunes). Это мобильное приложение, которое читает вслух загруженные в него книги и текстовые документы с помощью технологии синтеза русской речи. По сути дела, он позволяет озвучить в реальном времени любую книгу (.txt, .doc, .fb2). Книги озвучиваются прямо в мобильном устройстве, постоянный доступ в интернет при этом не нужен. За это время «Читатель» установили порядка 100 тысяч пользователей.
Читать дальше →
Всего голосов 23: ↑21 и ↓2 +19
Просмотры 20K
Комментарии 20

Интерактивное голосовое редактирование текста с помощью новых речевых технологий от Яндекса

Блог компании Яндекс API *Яндекс API *
Сегодня наше приложение Диктовка для интерактивного написания и редактирования текста голосом появилось в AppStore и Google Play. Его главная задача — продемонстрировать часть новых возможностей комплекса речевых технологий Яндекса. Именно о том, чем интересны и уникальны наши технологии распознавания и синтеза речи, я хочу рассказать в этом посте.



Пара слов, чтобы вы понимали, о чём пойдёт речь. Яндекс уже давно предоставляет бесплатное мобильное API, которое можно использовать, например, для распознавания адресов и голосовых запросов к поиску. За этот год мы смогли довести его качество почти до того же уровня, на котором такие запросы и реплики понимают сами люди. И теперь мы делаем следующий шаг — модель для распознавания свободной речи на любую тему.

Кроме этого, наш синтез речи поддерживает эмоции в голосе. И, насколько нам известно, это пока первый коммерчески доступный синтез речи с такой возможностью.

Обо всём этом, а также о некоторых других возможностях SpeechKit: об активации голосом, автоматической расстановке пунктуационных знаков и распознавании смысловых объектов в тексте — читайте ниже.
Читать дальше →
Всего голосов 116: ↑113 и ↓3 +110
Просмотры 94K
Комментарии 104

VoiceFabric: технология синтеза речи из облака

Блог компании Центр речевых технологий (ЦРТ) Интерфейсы *Звук


Сегодня поговорим про перспективы и возможности облачного сервиса VoiceFabric для разработчиков и пользователей. Сервис озвучивает любую текстовую информацию синтезированным голосом в режиме реального времени. Под катом мы подробно расскажем о нашем синтезе, сценариях его использования (стандартных и не очень) и как подключить его к своим проектам, а так же о том, чем он уникален.
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 20K
Комментарии 20

Технологии ASR и TTS для прикладного программиста: теоретический минимум

Программирование *C++ *API *
Tutorial

Введение


В последние несколько лет голосовые интерфейсы окружают нас все плотнее. То, что когда-то демонстрировалось только в фильмах о далеком будущем, оказалось вполне реальным. Дело дошло уже до встраивания движков для синтеза (Text To Speech — TTS) и распознавания (Automatic Speech Recognition — ASR) речи в мобильные телефоны. Более того, появились вполне доступные API для встраивания ASR и TTS в приложения.

Ныне создавать программы с голосовым интерфейсом может любой желающий (не поскупившийся заплатить за движок). Наш обзор будет посвящен именно использованию имеющихся движков (на примере Nuance) а не созданию таковых. Также будут даны общие сведения необходимые каждому программисту впервые сталкивающемуся с речевыми интерфейсами. Статья также может быть полезна руководителям проектов, пытающимся оценить целесообразность интеграции голосовых технологий в их продукты.
Итак, начнем…

Но для затравки — анекдот:
Урок русского языка в грузинской школе.
Учитель говорит: «Дети, запомните: слова сол, фасол и вермишел пишутся с мягким знаком, а слова вилька, булька, тарелька – без мягкого знака. Дети, запомните, потому что понять это невозможно!»

Раньше этот анекдот казался мне смешным. Теперь — скорее жизненным. Почему так? Сейчас постараюсь объяснить…
Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Просмотры 24K
Комментарии 8

Как мы научили 1С генерировать IVR меню для Asterisk

Asterisk *Разработка систем связи *
Последние годы проникновение IP телефонии в бизнес происходит семимильными шагами. С каждым днем появляется все больше и больше возможностей. Сотрудники могут работать не только в офисе, но и вообще в любой точке мира. Для того чтобы подключить телефонию сотруднику достаточно несколько кликов, никаких проводов и отдельных розеток. Компании используют запись разговоров, интеграцию телефонии с CRM системами. Каждая уважающая себя компания подключает многоканальный номер или даже платит за каждый звонок клиента, используя номер 8 800.

Давать клиенту свой сотовый телефон становится плохим тоном, ведь обращение клиента должно быть зарегистрировано в CRM и гарантированно обработано. Каждому сотруднику назначается внутренний добавочный номер, и чаще всего, зная добавочный номер, можно быстро связаться с нужным сотрудником. АТС знает, где сейчас находится сотрудник, и сможет связать клиента с нужным IP телефоном в офисе или мобильным телефоном, или даже SIP софтфоном, установленным на ноутбуке или смартфоне.

Но у прогресса есть и другая сторона. Многоканальный номер становится похожим на файрвол. Он защищает сотрудников внутри компании от звонков клиентов. На пути клиента появляется IVR меню, или даже многоуровневое IVR меню, и только не говорите, что мой звонок очень важен для вас :)
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 12K
Комментарии 6

go-скрипт который делает аудиокнигу из текстового файла используя один из лучших синтезаторов речи — Ivona от Amazon

Amazon Web Services *API *Go *
Указываем в скрипте путь на книгу в txt — на выходе получаем папку с озвучкой хорошим синтезом.
Читать дальше →
Всего голосов 42: ↑34 и ↓8 +26
Просмотры 39K
Комментарии 36