Pull to refresh
  • by relevance
  • by date
  • by rating

Wikistream — всемирный аудио-путеводитель на основе статей Wikipedia

Lumber room
image
Мы выпустили в свет аудио-гид, который основан на Википедии.

В Wikipedia примерно миллион статей имеют координатную привязку к определенным точкам на планете. 172 тысячи из них — на английском языке. На русском — 17 тысяч. Мы преобразовали все это богатство в разумный аудио-гид.
Он доступен вам, если у вас есть смартфон с GPS и Java или iPhone 3G. Вы платите только за интернет трафик.

В этом топике хочу рассказать о некоторых проблемах, с которыми мы сталкивались в процессе реализации проекта.
Читать дальше →
Total votes 9: ↑8 and ↓1 +7
Views 334
Comments 5

Синтез речи в Chrome

Google Chrome
Google внедрил в браузер интерфейсы Text-to-Speech API, так что теперь любое приложение или расширение Chrome способно читать текст вслух. Синтез речи из расширения осуществляется элементарной командой

chrome.tts.speak('Hello, world!');

(предварительно требуется добавить tts в список разрешений для данного расширения).

С помощью модуля chrome.ttsEngine можно прикрутить к браузеру свой собственный движок синтеза речи, например, для русского языка.
Читать дальше →
Total votes 55: ↑45 and ↓10 +35
Views 19K
Comments 19

Почему у украинских ребят не получится эффективный жестовый переводчик?

Brainfuck *
После интересной публикации об изобретении для глухо-немых (См. «Украинские студенты создали перчатки, переводящие язык жестов в речь»), за авторов которых был искренне рад, я выразил в комментариях своё сомнение о практической пользе такого новшества на текущий момент, будучи уверен в том, что на сегодня вряд ли получится какой-либо действенный инструмент, способный реально помочь понимать язык жестов.

А не получится он ровно по той же самой причине, которая препятствует созданию качественного естественно-язычного машинного переводчика. И причина эта кроется ровно в том, что компьютер, как мы знаем, не обучен понимать СМЫСЛ языкового сообщения, будь оно представлено, хоть, в вербальном виде, хоть, в эпистолярном (текстовом) виде, или даже в виде жестов.
Читать дальше →
Total votes 24: ↑9 and ↓15 -6
Views 4.2K
Comments 58

Дорогой «Читатель», тебе исполнился год. Поздравляем!

Центр речевых технологий (ЦРТ) corporate blog


Друзья! Нашему приложению «Читатель» на iPhone и iPad исполнился год!
Скачать в iTunes: itunes.apple.com/ru/app/id533851555 В конце поста — подарок.

За год мы приобрели 100 тыс. пользователей и их количество продолжает расти. Спасибо вам, друзья!
Читать дальше →
Total votes 17: ↑7 and ↓10 -3
Views 4.2K
Comments 8

Синтезатор речи в iOS7

Touch Instinct corporate blog Development for iOS *Development of mobile applications *
В iOS7 встроили синтезатор речи, теперь заставить свое приложение говорить вопрос пары строчек кода.

За синтез речи отвечает класс AVSpeechSynthesizer Достаточно передать ему текст обернутый в класс AVSpeechUtterance и текст будет прочитан смартфоном.

Голос зависит от локали, в том числе поддерживается русский. Речь звучит четко и приятно.

var speechSynthesizer = new AVSpeechSynthesizer ();
var speechUtterance =
  new AVSpeechUtterance ("Shall we play a game?");
speechSynthesizer.SpeakUtterance (speechUtterance);


узнать подробности и послушать как говорит iPhone
Total votes 30: ↑25 and ↓5 +20
Views 12K
Comments 32

yandex-speech — wrapper к речевым технологиям Яндекса

JavaScript *Node.JS *
Ознакомившись с обзором движков для распознавания речи, заметил там API от Яндекса. И на выходных написал небольшую обертку для Node.js для распознавания речи с целью поиска мата в своих телефонных разговорах. По мотивам топика на Хабре.

Список нецензурных слов выкладывать не буду, а сам npm устанавливается командой.
npm install yandex-speech


Исходники и примеры использования:
github: www.github.com/antirek/yandex-speech

Немного деталей:
Читать дальше →
Total votes 23: ↑22 and ↓1 +21
Views 14K
Comments 6

go-скрипт который делает аудиокнигу из текстового файла используя один из лучших синтезаторов речи — Ivona от Amazon

Amazon Web Services *API *Go *
Указываем в скрипте путь на книгу в txt — на выходе получаем папку с озвучкой хорошим синтезом.
Читать дальше →
Total votes 42: ↑34 and ↓8 +26
Views 39K
Comments 36

WaveNet: новая модель для генерации человеческой речи и музыки

Voximplant corporate blog Mathematics *Machine learning *
Translation
Наша облачная платформа Voximplant — это не только телефонные и видео звонки. Это еще и набор «батареек», которые мы постоянно улучшаем и расширяем. Одна из самых популярных функций: возможность синтезировать речь, просто вызвав JavaScript метод say во время звонка. Разрабатывать свой синтезатор речи — на самая лучшая идея, мы все-таки специализируемся на телеком бэкенде, написанном на плюсах и способном обрабатывать тысячи одновременных звонков и снабжать каждый из них JavaScript логикой в реальном времени. Мы используем решения партнеров и внимательно следим за всем новым, что появляется в индустрии. Хочется через несколько лет отойти от мема «Железная Женщина» :) Статья, адаптированный перевод которой мы сделали за эти выходные, рассказывает про WaveNet, модель для генерации звука (звуковых волн). В ней мы рассмотрим как WaveNet может генерировать речь, которая похожа на голос любого человека, а также звучать гораздо натуральнее любых существующих Text-to-Speech систем, улучшив качество более чем на 50%.

Мы также продемонстрируем, что та же самая сеть может использоваться для создания других звуков, включая музыку, и покажем несколько автоматически сгенерированных примеров музыкальных композиций (пианино).
Очень много интересного
Total votes 47: ↑47 and ↓0 +47
Views 30K
Comments 20

Чем грозит преждевременная автоматизация

UIS corporate blog Project management *Sales management *

image

 

Оды автоматизации на основе технологий перевода речи в текст и обратно не утихают. Кто только не хвалится тем, как оптимизировал бизнес и сократил издержки. Да взять хотя бы нас самих: не только автоматизируем собственные процессы, а еще и другим помогаем. Но важно понимать, что автоматизация не только полезна, но и вредна. Под катом пара примеров второго вида (без имен, разумеется) плюс чек-лист, с помощью которого удастся не превратить первое во второе.


Читать дальше →
Total votes 8: ↑7 and ↓1 +6
Views 7.8K
Comments 20

Как я год строил расширениe для браузера которое читает статьи голосом (с синхронизацией в подкаст)

Amazon Web Services *Browser extensions
Не один раз я пробовал использовать сторонние API для получения голоса из текста который мне интересно прочитать — можно переключить чтение на уши когда глаза устали, или слушать во время комьюта. Знаю я такой не один, даже люди далекие от айти бывает загружают куда-то текст и скачивают mp3. И подкасты/аудиокниги становятся все популярнее, и голосовые интерфейсы. Очевидно что аудитория есть, топовые экстеншены в маркете Хрома на эту тематику имеют сотни тысяч пользователей. Но голоса от Амазона обычно у них нет (лучший из доступных, лучше нового от Гугла), а где есть нет чего-то другого, например возможности слушать в экстеншене — а не только добавлять в свой подкаст. Предложил идею проекта внутри компании — был получен апрув — пошла разработка.
image
Total votes 19: ↑17 and ↓2 +15
Views 6.3K
Comments 25

Расширение для браузера Intelligent Speaker, которое читает статьи: добавили голоса из Microsoft Azure

Amazon Web Services *Microsoft Azure Browser extensions
image

Теперь стало больше голосов и языков. Раньше был голос только через AWS Polly.

А еще статьи синхронизируются в ваш личный подкаст, но это уже было.
Total votes 15: ↑8 and ↓7 +1
Views 1.3K
Comments 1

Многоязычный синтез речи с клонированием

Machine learning *
Sandbox

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнать классические подходы и с каждым годам испытывают на себе всё новые и новый задачи.


Например, пару месяцев назад появилась реализация синтеза речи с голосовым клонированием Real-Time-Voice-Cloning. Давайте попробуем разобраться из чего она состоит и реализуем свою многоязычную (русско-английскую) фонемную модель.


Строение



Наша модель будет состоять из четырёх нейронных сетей. Первая будет преобразовывать текст в фонемы (g2p), вторая — преобразовывать речь, которую мы хотим клонировать, в вектор признаков (чисел). Третья — будет на основе выходов первых двух синтезировать Mel спектрограммы. И, наконец, четвертая будет из спектрограмм получать звук.

Total votes 33: ↑31 and ↓2 +29
Views 22K
Comments 7

Security Week 02: взлом reCAPTCHA v3 через распознавание голоса

«Лаборатория Касперского» corporate blog Information Security *
Первый рабочий день после новогодних каникул — это тот самый момент, когда сложно доказать компьютеру, что ты не робот. Проще машине притвориться человеком, и одна из свежих публикаций посвящена как раз этому. Очередную победу в дисциплине «взлом капчи» одержал исследователь Николай Шачер (Nikolai Tschacher): он показал, как можно обойти самую свежую версию reCAPTCHA v3 с помощью сервиса Text-to-Speech, разработанного, как и сама капча, компанией Google.


Взломали не основную капчу с изображениями, а альтернативный метод верификации с использованием голосового сообщения. В аудиосообщении отправляется код, который нужно ввести в соответствующее поле. Николай усовершенствовал метод, разработанный ранее против предыдущей версии reCAPTCHA v2: скрипт перехватывает аудиофайл с голосовым сообщением и отправляет его в сервис Text-to-Speech. Код распознается должным образом более чем в 90% случаев. Исследователь подтвердил, что против reCAPTCHA v3 метод также работает: судя по всему, альтернативный метод авторизации перекочевал прямиком из предыдущей версии, хотя апгрейд капчи до третьей версии также сломал опубликованный два года назад Proof-of-Concept. В своем репозитории на Github Николай выложил обновленную версию.
Total votes 6: ↑6 and ↓0 +6
Views 3.1K
Comments 4

Пишем расширение-читалку для Habr

Opera Habr JavaScript *Browser extensions Lifehacks for geeks
Tutorial

Теперь посты на Habr будут читаться за вас!

В данной статье я хочу показать, как можно совместить утренние сборы на работу с прочтением статей на Habr. Для этого мы напишем простое расширение для браузеров на базе chromium (в частности, Chrome и Opera), которое будет зачитывать для нас вслух открытый во вкладке пост на Habr.

Расширение может быть использовано для чтения статей как на русском языке, так и на английском.

Читать далее
Total votes 18: ↑16 and ↓2 +14
Views 4.2K
Comments 14

Мы Опубликовали Качественный, Простой, Доступный и Быстрый Синтез Речи

Machine learning *Sound Natural Language Processing *

fiona


Вторая частьhttps://habr.com/ru/post/563484/


Вокруг темы синтеза речи сейчас много движения: на рынке есть огромное число тулкитов для синтеза, большое число закрытых коммерческих решений за АПИ (как на современных технологиях, так и на более старых, т.е. "говорилки") от условных GAFA компаний, большое количество американских стартапов, пытающихся сделать очередные аудио дипфейки (voice transfer).


Но мы не видели открытых решений, которые бы удовлетворяли одновременно следующим критериям:


  • Приемлемый уровень естественности речи;
  • Большая библиотека готовых голосов на разных языках;
  • Поддержка синтеза как в 16kHz так и в 8kHz из коробки;
  • Наличие своих собственных голосов у авторов решения, не нарушающих чужие права и лицензии;
  • Высокая скорость работы на "слабом" железе. Достаточная скорость работы на 1 потоке / ядре процессора;
  • Не требует GPU, команды ML инженеров или какой-либо дополнительной тренировки или для использования;
  • Минимализм и отсутствие зависимостей / использование в 1 строчку / не надо ничего собирать или чинить;
  • Позиционируется именно как готовое решение, а не очередной фреймворк / компиляция чужих скриптов / тулкитов для сбора плюсиков;
  • Решение никак не связано и не аффилировано с закрытыми экосистемами и продуктами Гугла / Сбера / Яндекса / вставить нужное;

Мы попытались учесть все эти пункты и представить комьюнити свое открытое некоммерческое решение, удовлетворяющее этим критериям. По причине его публичности мы не заостряем внимание на архитектуре и не фокусируемся на каких-то cherry picked примерах — вы можете оценить все сами, пройдя по ссылке.

Total votes 205: ↑205 and ↓0 +205
Views 38K
Comments 226

High-Quality Text-to-Speech Made Accessible, Simple and Fast

Machine learning *Sound Natural Language Processing *

image


There is a lot of commotion in text-to-speech now. There is a great variety of toolkits, a plethora of commercial APIs from GAFA companies (based both on new and older technologies). There are also a lot of Silicon Valley startups trying to ship products akin to "deep fakes" in speech.


But despite all this ruckus we have not yet seen open solutions that would fulfill all of these criteria:


  • Naturally sounding speech;
  • A large library of voices in many languages;
  • Support for 16kHz and 8kHz out of the box;
  • No GPUs / ML engineering team / training required;
  • Unique voices not infringing upon third-party licenses;
  • High throughput on slow hardware. Decent performance on one CPU thread;
  • Minimalism and lack of dependencies. One-line usage, no builds or coding in C++ required;
  • Positioned as a solution, not yet another toolkit / compilation of models developed by other people;
  • Not affiliated by any means with ecosystems of Google / Yandex / Sberbank;

We decided to share our open non-commercial solution that fits all of these criteria with the community. Since we have published the whole pipeline we do not focus much on cherry picked examples and we encourage you to visit our project GitHub repo to test our TTS for yourself.

Total votes 5: ↑5 and ↓0 +5
Views 3.4K
Comments 8

Веб-клиент Google Cloud Text to Speech за завтраком в бастионе Сен-Жерве

Ruby *Ruby on Rails *Google Cloud Platform *

С самых юных лет, с самого первого прочтения залпом "Трех мушкетеров" автор неколебимо убежден, что оптимальный способ обучения чему-либо - практика. Теорию в дальнейшем можно подучить и подточить, друзья-мушкетеры "покажут несколько славных приемов", не проблема. Но, если верить досточтимому мэтру Дюма (а автор ему верит), оптимальный способ интеграции в любую новую для себя сущность - сходу погрузиться в нее с головой, а там как пойдет. Где наша не пропадала, да и, как известно, любой гасконец с детства академик.

Вообще, если интерес возникнет, то это всегда 90% успеха, поверьте... ну, а если не возникнет, что ж. Сэкономите время: стало быть, не ваше. Сейчас, таким образом, самонадеянный и скорый на подъем аффтор, всегда готовый выхватить шпагу при виде гнусного тролля на любом интернет-форуме - предлагает всем débutants потратить всего лишь полчаса-час на то, чтобы заинтересоваться сразу несколькими технологиями, в числе которых язык программирования Ruby, API Google Cloud Text to Speech, облачная PaaS-платформа Heroku и git.

К слову. Предвидя сделанные на языке растреклятых англичан, исконных врагов любого истинного француза комментарии в стиле "Is ruby dead?", в том смысле, а есть ли смысл вообще этим заниматься... автор предлагает всем любителям потрепаться-ни-о-чем-в-инете временно оставить эту животрепещущую тематику, сменив ее на рекомендации по изготовлению чудодейственного бальзама, наподобие того, что дала в путь-дорогу д`Артаньяну любящая его матушка, и который помог бы, в духе дня, раз и навсегда избавиться от спама за подписью того или иного эйчара, русскоговорящего или европейца/американца, несколько раз в неделю присылающих абсолютно ненужные автору инвайты на позицию Ruby Developer. Ненужные не потому, что автор, вволю напрактиковавшись и слегка "подточив" теорию, привык получать приглашения исключительно и самолично из рук аж самого CTO Armand-Jean du Plessis, duc de Richelieu... а потому, что за все годы работы - ни одного проекта, ни одной должности от HR он не получил, так уж сложилось.

Читать далее
Total votes 2: ↑1 and ↓1 0
Views 2.2K
Comments 0

Мы сделали наш публичный синтез речи еще лучше

Machine learning *Sound Natural Language Processing *Voice user interfaces

6cc6e0011d4d26aeded6f052080b1890


Обновление — забыл ссылку на репозиторий и на колаб с примерами.


Мы были очень рады, что наша прошлая статья понравилась Хабру. Мы получили много позитивной и негативной обратной связи. Также в ней мы сделали ряд обещаний по развитию нашего синтеза.


Мы достигли существенного прогресса по этим пунктам, но ультимативный релиз со всеми новыми фичами и спикерами может занять относительно много времени, поэтому не хотелось бы уходить в радиомолчание надолго. В этой статье мы ответим на справедливую и не очень критику и поделимся хорошими новостями про развитие нашего синтеза.


Если коротко:


  • Мы сделали наш вокодер в 4 раза быстрее;
  • Мы сделали пакетирование моделей более удобным;
  • Мы сделали мультиспикерную / мультязычную модель и "заставили" спикеров говорить на "чужих" языках;
  • Мы добавили в наши русские модели возможность автопростановки ударений и буквы ё с некоторыми ограничениями;
  • Теперь мы можем сделать голос с нормальным качеством на 15 минутах — 1 часе (с теплого старта в принципе заводилось даже на 3-7 минутах) или на 5 часах аудио (с холодного старта). Но тут все очень сильно зависит от качества самого аудио и ряда деталей;
  • Мы привлекли коммьюнити к работе, и нам помогли сделать удобный интерфейс для записи. Мы начали работу над голосами на языках народностей СНГ (украинский, татарский, башкирский, узбекский, таджикский). Если вы хотите увидеть свой язык в числе спикеров — пишите нам;
  • Мы продолжаем собирать обратную связь по применимости нашей системы для экранных интерфейсов чтения, и пока кажется, что нужно где-то еще всё ускорить в 5-10 раз, чтобы наши модели закрывали и этот кейс;
Total votes 63: ↑63 and ↓0 +63
Views 9.7K
Comments 35
1