Pull to refresh
  • by relevance
  • by date
  • by rating

Facebook показала систему преобразования текста в речь в реальном времени на CPU

Machine learning *Artificial Intelligence Sound Natural Language Processing *
image

Facebook создала и развернула нейронную систему преобразования текста в речь на серверах ЦП. Компания заявила, что система обеспечивает высокую эффективность вычислений и качество звука на уровне человеческой речи.
Читать дальше →
Total votes 18: ↑16 and ↓2 +14
Views 8.6K
Comments 8

DeepMind представила состязательную систему преобразования текста в речь EATS

Machine learning *Sound Natural Language Processing *
imageФото: deepmind.com

Британская компания DeepMind показала новую систему преобразования текста в речь (TTS) под названием EATS. Она принимает входные данные в виде текста и переводит их в синтетическую речь, похожую на человеческую.
Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Views 1.8K
Comments 2

Пишем скрипт под линукс, прочитывающий свежие статьи с хабра в мп3 файл.

Lumber room
Многие из нас хотели бы еще немного сэкономить свое время. Одна из технологий, позволяющих сделать это — tts (text to speech): Когда компьютер читает вслух какой-либо текст. Согласитесь, как приятно было бы прослушать все свежие статьи с хабра, пока вы готовите еду, убираете квартиру, одеваетесь или завязываете шнурки т.е. в те моменты когда ваши глаза и руки заняты, а мозг и уши почти свободны.
Недавно я написал скрипт, позволяющий перевести в мп3 все свежие статьи с хабра для того чтобы можно было их прослушать. Немного изменив его вы сможете получать статьи и с других сайтов, вместо записи в мп3 можно будет проговорить статьи на компьютере немедленно, также в скрипте реализован достаточно простой способ работы с rss через консоль linux.
Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Views 508
Comments 10

Слушать сайты в любое время и в любом месте

Lumber room
С ростом популярности интернет-СМИ, блогов и тематических сообществ объем генерируемого контента увеличивается в геометрической прогрессии. Уже сейчас многие пользователи физически не успевают обрабатывать свою подписку, то и дело нажимая на «красную кнопку», удаляющую все непрочитанные статьи возрастом более 48 часов. Признаться, для меня, как очень активного — как в онлайне, так и в офлайне человека, полностью прочитанные каналы — в буквальном смысле непозволительная роскошь.

Обладатели мобильных устройств с RSS-ридером могут читать статьи, находясь вдалеке от стационарного компьютера или ноутбука. Но сложнее, если вы сидите за рулем автомобиля, занимаетесь спортом или просто находитесь в пешей прогулке. С экрана в эти моменты читать текст неудобно, хотя это время можно было бы также использовать для получения информации.

Вполне логичным, на мой взгляд, здесь является решение получать материалы своей подписки в формате аудио: преобразовывать текст в речь, загружать файлы в КПК, плеер или мобильный телефон и слушать статьи почти в любое время и в любом месте.

Читать дальше →
Total votes 28: ↑25 and ↓3 +22
Views 1.2K
Comments 32

Голосовой движок Acapela Alyona

Lumber room

В июле этого года, компания Acapela, разработчики популярного русскоязычного голосового модуля Николай, выпустили новый русский, женский голосовой движок, который получил название Алёна. Работает с частотой 22 кГц. По качеству синтезируемой речи Алёна намного опережает Николая, тембр голоса и интонация, по мнению пользователей приятней, чем у движка Катерина от ScanSoft RealSpeak.
читать дальше
Total votes 11: ↑8 and ↓3 +5
Views 3.1K
Comments 10

Синтез русской речи в Linux

Configuring Linux *
Прочитал статью про SAPI и Powershell (Учим PowerShell разговаривать), и мне стало интересно как же с синтезом русскоязычной речи в родной для меня операционке, Linux'e. Как выяснилось все далеко не так радужно, да и качество синтеза далеко до голоса Алены, но все же.
Узнать что было дальше
Total votes 55: ↑53 and ↓2 +51
Views 50K
Comments 58

Используем Text To Speech от Google

Lumber room
Набираем в браузере:
translate.google.com/translate_tts?tl=en&q=some short english text

или пишем скрипт google-tts.sh:
#!/bin/sh
text=`echo $@|tr ' ' '+'`
file=`echo $@|tr ' ' '-'`.mp3
wget -U Opera "http://translate.google.com/translate_tts?tl=en&q=$text" -O "$file"

использовать так: ./google-tts.sh some short english text
Total votes 25: ↑21 and ↓4 +17
Views 1.6K
Comments 14

Wikistream — всемирный аудио-путеводитель на основе статей Wikipedia

Lumber room
image
Мы выпустили в свет аудио-гид, который основан на Википедии.

В Wikipedia примерно миллион статей имеют координатную привязку к определенным точкам на планете. 172 тысячи из них — на английском языке. На русском — 17 тысяч. Мы преобразовали все это богатство в разумный аудио-гид.
Он доступен вам, если у вас есть смартфон с GPS и Java или iPhone 3G. Вы платите только за интернет трафик.

В этом топике хочу рассказать о некоторых проблемах, с которыми мы сталкивались в процессе реализации проекта.
Читать дальше →
Total votes 9: ↑8 and ↓1 +7
Views 334
Comments 5

TTS — Text To Speech

Lumber room
В силу служебной необходимости разбирался с рынком промышленных движков по преобразованию текста в речь.
Рынок не сказать, что бы огромен, но достаточно стар.
В России собственные разработки представлены в Центре Речевых Технологий (они же ЦРТ).
Среди популярных Nuance (TTS Milena). Бюджетный проект 09 (комерческий проект 099) реализован на базе Nuance. Интегратором выступила компания Logictel , которая на самом деле это Сател.
В России данный продукт представляют Open Communication, Voxcom и многие другие.

Ещё один менее качественный продукт от компании ScanSoft (TTS Katerina), признаться так себе.

Другой продукт представлен компанией Loquendo (TTS Olga). В России на данный момент по моим сведения пока никто не представляет. Если ошибаюсь, буду приятно удивлён.

С наладкой TTS всё относительно просто. Разработчик должен оперировать с фонемами конкретного языка. А уже потом происходит нормализация, когда произнесение отдельных слов докручивают до идеала. Для это существуют Speech API, VoiceXML, SML и т.п.
Total votes 3: ↑1 and ↓2 -1
Views 787
Comments 5

QtSpeech, доступ к text-to-speech

Qt *
Хочу представить небольшой но удобный модуль для кросс-платформенного использования TTS(text-to-speech). На данный момент поддерживаются основные платформы:
* Windows, используя SAPI,
* Unixes, используя Festival проект,
* MacOSX, используя SpeechSynthesis

Так как для Windows и Mac используются родныe API то все голосовые движки установленные в систему будут автоматически вам доступны. Для Unix всё не так радужно, нет какой-то общей системы, апи, поэтому был просто выбран проект Festival который даёт неплохое качество для английского языка и лицензию LGPL. На Mac вы всегда можете расчитывать на отличный голос Alex.

Использование библиотеки очень простое — итак ваше приложение наконец скажет «Hello World!».
Читать дальше →
Total votes 24: ↑21 and ↓3 +18
Views 4.7K
Comments 8

Требуется небольшое бета-тестирование от уникальных специалистов

Website development *
Уважаемые хабражители,
Мы уверены, что среди вас есть хотя бы по одному человеку, который знает некоторые не очень распространенные языки.

Дело в том, что мы добавили к нашему сервису Text-to-Speech движки для нескольких новых языков. Они пока доступны только для Википедии, в режиме бета-теста.

Просьба простая — выберите на странице в списке слева язык, который Вы знаете, и послушайте хотя бы одну статью Википедии на карте.
Читать дальше →
Total votes 15: ↑8 and ↓7 +1
Views 439
Comments 17

Синтез речи в Chrome

Google Chrome
Google внедрил в браузер интерфейсы Text-to-Speech API, так что теперь любое приложение или расширение Chrome способно читать текст вслух. Синтез речи из расширения осуществляется элементарной командой

chrome.tts.speak('Hello, world!');

(предварительно требуется добавить tts в список разрешений для данного расширения).

С помощью модуля chrome.ttsEngine можно прикрутить к браузеру свой собственный движок синтеза речи, например, для русского языка.
Читать дальше →
Total votes 55: ↑45 and ↓10 +35
Views 19K
Comments 19

Синтезатор речи. Теперь и на русском

Development for Android *
Меня всегда огорчало, что в Android не было синтезатора речи на русском. Изначально выбор языков был ограничен английским, испанским, французским, немецким и итальянским. Существовали отдельные коммерческие движки, а также производители могли добавить в свои устройства какой-нибудь движок с нужным языком, видимо договорившись с разработчиком. Но хотелось поддержки из коробки от самой «корпорации добра».
Читать дальше →
Total votes 28: ↑26 and ↓2 +24
Views 100K
Comments 15

Android Планшет вместо Авто магнитолы

DIY
Сейчас многие владельцы автотранспорта сталкиваются с проблемой убогости штатных и космической дороговизны хороших магнитол с современными функциями. Вот и я купив машину 2010 года не смог ужиться с CD проигрывателем и поспешил поставить вместо него таблетку — Планшет. В статье описаны аспекты не освещённые в остальных источниках информации. В частности не как физически врезать планшет в машину, а как всё настроить так чтобы было приятно и удобно пользоваться.
image
Читать дальше →
Total votes 92: ↑81 and ↓11 +70
Views 297K
Comments 105

yandex-speech — wrapper к речевым технологиям Яндекса

JavaScript *Node.JS *
Ознакомившись с обзором движков для распознавания речи, заметил там API от Яндекса. И на выходных написал небольшую обертку для Node.js для распознавания речи с целью поиска мата в своих телефонных разговорах. По мотивам топика на Хабре.

Список нецензурных слов выкладывать не буду, а сам npm устанавливается командой.
npm install yandex-speech


Исходники и примеры использования:
github: www.github.com/antirek/yandex-speech

Немного деталей:
Читать дальше →
Total votes 23: ↑22 and ↓1 +21
Views 14K
Comments 6

Вышла новая версия мобильного приложения «Читатель» для iOS

Центр речевых технологий (ЦРТ) corporate blog


Немного предыстории
Два года назад мы выпустили для iOS первую версию «Читателя» (Ссылка на iTunes). Это мобильное приложение, которое читает вслух загруженные в него книги и текстовые документы с помощью технологии синтеза русской речи. По сути дела, он позволяет озвучить в реальном времени любую книгу (.txt, .doc, .fb2). Книги озвучиваются прямо в мобильном устройстве, постоянный доступ в интернет при этом не нужен. За это время «Читатель» установили порядка 100 тысяч пользователей.
Читать дальше →
Total votes 23: ↑21 and ↓2 +19
Views 20K
Comments 20

Интерактивное голосовое редактирование текста с помощью новых речевых технологий от Яндекса

Яндекс corporate blog API *Yandex API *
Сегодня наше приложение Диктовка для интерактивного написания и редактирования текста голосом появилось в AppStore и Google Play. Его главная задача — продемонстрировать часть новых возможностей комплекса речевых технологий Яндекса. Именно о том, чем интересны и уникальны наши технологии распознавания и синтеза речи, я хочу рассказать в этом посте.



Пара слов, чтобы вы понимали, о чём пойдёт речь. Яндекс уже давно предоставляет бесплатное мобильное API, которое можно использовать, например, для распознавания адресов и голосовых запросов к поиску. За этот год мы смогли довести его качество почти до того же уровня, на котором такие запросы и реплики понимают сами люди. И теперь мы делаем следующий шаг — модель для распознавания свободной речи на любую тему.

Кроме этого, наш синтез речи поддерживает эмоции в голосе. И, насколько нам известно, это пока первый коммерчески доступный синтез речи с такой возможностью.

Обо всём этом, а также о некоторых других возможностях SpeechKit: об активации голосом, автоматической расстановке пунктуационных знаков и распознавании смысловых объектов в тексте — читайте ниже.
Читать дальше →
Total votes 116: ↑113 and ↓3 +110
Views 93K
Comments 104

VoiceFabric: технология синтеза речи из облака

Центр речевых технологий (ЦРТ) corporate blog Interfaces *Sound


Сегодня поговорим про перспективы и возможности облачного сервиса VoiceFabric для разработчиков и пользователей. Сервис озвучивает любую текстовую информацию синтезированным голосом в режиме реального времени. Под катом мы подробно расскажем о нашем синтезе, сценариях его использования (стандартных и не очень) и как подключить его к своим проектам, а так же о том, чем он уникален.
Читать дальше →
Total votes 12: ↑12 and ↓0 +12
Views 19K
Comments 20

Технологии ASR и TTS для прикладного программиста: теоретический минимум

Programming *C++ *API *
Tutorial

Введение


В последние несколько лет голосовые интерфейсы окружают нас все плотнее. То, что когда-то демонстрировалось только в фильмах о далеком будущем, оказалось вполне реальным. Дело дошло уже до встраивания движков для синтеза (Text To Speech — TTS) и распознавания (Automatic Speech Recognition — ASR) речи в мобильные телефоны. Более того, появились вполне доступные API для встраивания ASR и TTS в приложения.

Ныне создавать программы с голосовым интерфейсом может любой желающий (не поскупившийся заплатить за движок). Наш обзор будет посвящен именно использованию имеющихся движков (на примере Nuance) а не созданию таковых. Также будут даны общие сведения необходимые каждому программисту впервые сталкивающемуся с речевыми интерфейсами. Статья также может быть полезна руководителям проектов, пытающимся оценить целесообразность интеграции голосовых технологий в их продукты.
Итак, начнем…

Но для затравки — анекдот:
Урок русского языка в грузинской школе.
Учитель говорит: «Дети, запомните: слова сол, фасол и вермишел пишутся с мягким знаком, а слова вилька, булька, тарелька – без мягкого знака. Дети, запомните, потому что понять это невозможно!»

Раньше этот анекдот казался мне смешным. Теперь — скорее жизненным. Почему так? Сейчас постараюсь объяснить…
Читать дальше →
Total votes 27: ↑25 and ↓2 +23
Views 22K
Comments 8

Как мы научили 1С генерировать IVR меню для Asterisk

Asterisk *Development of communication systems *
Последние годы проникновение IP телефонии в бизнес происходит семимильными шагами. С каждым днем появляется все больше и больше возможностей. Сотрудники могут работать не только в офисе, но и вообще в любой точке мира. Для того чтобы подключить телефонию сотруднику достаточно несколько кликов, никаких проводов и отдельных розеток. Компании используют запись разговоров, интеграцию телефонии с CRM системами. Каждая уважающая себя компания подключает многоканальный номер или даже платит за каждый звонок клиента, используя номер 8 800.

Давать клиенту свой сотовый телефон становится плохим тоном, ведь обращение клиента должно быть зарегистрировано в CRM и гарантированно обработано. Каждому сотруднику назначается внутренний добавочный номер, и чаще всего, зная добавочный номер, можно быстро связаться с нужным сотрудником. АТС знает, где сейчас находится сотрудник, и сможет связать клиента с нужным IP телефоном в офисе или мобильным телефоном, или даже SIP софтфоном, установленным на ноутбуке или смартфоне.

Но у прогресса есть и другая сторона. Многоканальный номер становится похожим на файрвол. Он защищает сотрудников внутри компании от звонков клиентов. На пути клиента появляется IVR меню, или даже многоуровневое IVR меню, и только не говорите, что мой звонок очень важен для вас :)
Читать дальше →
Total votes 11: ↑11 and ↓0 +11
Views 12K
Comments 6
1