Как стать автором
Обновить

Компания Центр речевых технологий (ЦРТ) временно не ведёт блог на Хабре

Сначала показывать

Нейросетевой синтез речи своими руками

Время на прочтение12 мин
Количество просмотров92K
Синтез речи на сегодняшний день применяется в самых разных областях. Это и голосовые ассистенты, и IVR-системы, и умные дома, и еще много чего. Сама по себе задача, на мой вкус, очень наглядная и понятная: написанный текст должен произноситься так, как это бы сделал человек.

Некоторое время назад в область синтеза речи, как и во многие другие области, пришло машинное обучение. Выяснилось, что целый ряд компонентов всей системы можно заменить на нейронные сети, что позволит не просто приблизиться по качеству к существующим алгоритмам, а даже значительно их превзойти.



Я решил попробовать сделать полностью нейросетевой синтез своими руками, а заодно и поделиться с сообществом своим опытом. Что из этого получилось, можно узнать, заглянув под кат.
Всего голосов 62: ↑61 и ↓1+60
Комментарии22

Asterisk + UniMRCP + VoiceNavigator. Синтез и распознавание речи в Asterisk. Часть 1

Время на прочтение9 мин
Количество просмотров30K
Часть 2
Часть 3
Часть 4

Учитывая, возросший интерес сообщества к Asterisk решил внести и свою лепту и рассказать о построении голосовых меню с использованием синтеза и распознавания речи.

Статья рассчитана на специалистов, имеющих опыт работы с построением IVR в Asterisk и имеющих представление о системах голосового самообслуживания.

СГС (системы голосового самообслуживания) значительно расширяют возможности по созданию голосовых приложений и позволяют пользователю получать информацию и заказывать услуги самостоятельно, без участия оператора. Это может быть маршрутизация вызовов, запрос и выдача информации по расписанию авиарейсов, состояние банковского счета, заказ такси, запись на прием к врачу и пр.
Распознавание позволяет отказаться от линейных меню, создаваемых с помощью DTMF, разговаривать с системой человеческим языком и легко создавать меню с множественным выбором.
Синтез значительно упрощает работу с динамически меняющейся информацией и большими объемами текстовых данных.


Читать дальше →
Всего голосов 26: ↑25 и ↓1+24
Комментарии22

Asterisk + UniMRCP + VoiceNavigator. Синтез и распознавание речи в Asterisk. Часть 2

Время на прочтение7 мин
Количество просмотров8.4K
Часть 1
Часть 3
Часть 4

В предыдущей статье была описана общая схема работы, установлен UniMRCP, Asterisk подключен к VoiceNavigator и создано простое голосовое приложение.
Остановимся подробнее на возможностях синтеза и распознавания. Первая часть статьи будет посвящена языку разметки SSML, вторая — построению грамматик.

Использование языка разметки SSML


Управление синтезом речи на лингвистическом и акустическом уровне, происходит с помощью управляющих тегов в формате SSML.
С помощью тегов можно определить произношение, управлять интонацией, скоростью и громкостью звучания и т.д.
Опишу только наиболее используемые теги.
Подробную информацию по всем тегам можно получит в описании стандарта .
Читать дальше →
Всего голосов 22: ↑21 и ↓1+20
Комментарии8

Учим компьютер различать звуки: знакомство с конкурсом DCASE и сборка своего аудио классификатора за 30 минут

Время на прочтение8 мин
Количество просмотров6.5K

Статья написана совместно с ananaskelly.


Введение


Всем привет, хабр! Работая в Центре Речевых Технологий в Санкт-Петербурге, мы накопили немного опыта в решении задач классификации и детектирования акустических событий и решили, что готовы им с вами поделиться. Цель этой статьи — познакомить вас с некоторыми задачами и рассказать о соревновании по автоматической обработке звука “DCASE 2018”. Рассказывая вам о конкурсе, мы обойдемся без сложных формул и определений, связанных с машинным обучением, таким образом общий смысл статьи будет понятен широкой аудитории.


Для тех, кого в названии привлекла именно сборка классификатора, мы подготовили небольшой код на python, и по ссылке на гитхабе вы можете найти notebook, где мы на примере второго трека конкурса DCASE создаем простую сверточную сеть на keras для классификации аудиофайлов. Там мы немного рассказываем о сети и признаках, используемых для обучения, и как с помощью простой архитектуры получить близкий к baseline результат (MAP@3 = 0.6).



Дополнительно здесь будут описаны базовые подходы для решения задач (baseline), предложенные организаторами. Также в будущем появится несколько статей, где мы будем более подробно и в деталях рассказывать как о нашем опыте участия в соревновании, так и о решениях, предложенных другими участниками конкурса. Ссылки на эти статьи будут постепенно появляться здесь.

Читать дальше →
Всего голосов 19: ↑19 и ↓0+19
Комментарии0

Вышла новая версия мобильного приложения «Читатель» для iOS

Время на прочтение2 мин
Количество просмотров21K


Немного предыстории
Два года назад мы выпустили для iOS первую версию «Читателя» (Ссылка на iTunes). Это мобильное приложение, которое читает вслух загруженные в него книги и текстовые документы с помощью технологии синтеза русской речи. По сути дела, он позволяет озвучить в реальном времени любую книгу (.txt, .doc, .fb2). Книги озвучиваются прямо в мобильном устройстве, постоянный доступ в интернет при этом не нужен. За это время «Читатель» установили порядка 100 тысяч пользователей.
Читать дальше →
Всего голосов 23: ↑21 и ↓2+19
Комментарии20

ЦРТ объявляет конкурс по синтезу речи

Время на прочтение1 мин
Количество просмотров3.4K
image

Приглашаем поучаствовать в конкурсе по синтезу живой русской речи на основе технологий глубоких нейронных сетей. Конкурс рассчитан на студентов старших курсов, молодых специалистов и всех желающих, интересующихся машинным обучением и речевыми технологиями. Победитель получит 100 000 рублей!

Участникам TTS challenge предстоит создать и обучить систему синтеза и озвучить с её помощью несколько десятков предложений русского текста. Базу голоса для обучения предоставляет ЦРТ, методы достижения результата участники выбирают самостоятельно. О том, как сделать нейросетевой синтез своими руками, мы недавно рассказывали в этой статье.
Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии1

Антиспуфинг: как системы распознавания лиц противостоят мошенникам?

Время на прочтение9 мин
Количество просмотров14K
В этой статье попробую обобщить информацию о существующих методах liveness detection, которые применяются для защиты от взлома систем распознавания лиц.

facial biometrics

От чего защищаем?


С развитием облачных технологий и веб-сервисов все больше транзакций перемещается в онлайн-среду. При этом более 50% онлайн транзакций (ритейл) совершаются с мобильных устройств.

Рост популярности мобильных транзакций не может не сопровождаться активным ростом киберпреступности.
Случаи онлайн-мошенничества на 81% вероятнее, чем мошенничество в точках продаж.

16,7 млн. личных данных американцев были украдены только за 2017 год (Javelin Strategy and Research). Ущерб от мошенничества с захватом аккаунтов составил $5,1 млрд.

В России, по данным Group-IB, за 2017 год хакеры украли у владельцев Android-смартфонов более миллиарда рублей, что на 136% больше, чем годом ранее.
Читать дальше →
Всего голосов 16: ↑15 и ↓1+14
Комментарии5

Речевые технологии. Распознавание слитной речи для чайников на примере IVR систем

Время на прочтение9 мин
Количество просмотров38K
Всем привет.
По роду своей профессиональной деятельности я занимаюсь внедрением проектов на основе речевых технологий. Это синтез и распознавание речи, голосовая биометрия и анализ речи.
Мало кто задумывается, насколько эти технологии уже присутствуют в нашей жизни, хоть и далеко не всегда – явно.
Постараюсь популярно объяснить вам, как это работает и зачем это вообще нужно.
Подробно начну с распознавания речи, т.к. это более близкая к повседневной жизни штука, с которой многие из нас встречались, а некоторые уже постоянно пользуются.
Читать дальше →
Всего голосов 18: ↑16 и ↓2+14
Комментарии15

Мобильное приложение «Читатель» теперь для Android

Время на прочтение2 мин
Количество просмотров26K


Три года назад мы выпустили мобильное приложение «Читатель» для iOS и от многих пользователей нам стали приходить письма с вопросом, собираемся ли мы выпустить версию под Android. Разработка завершена, и состоялся официальный запуск «Читателя» в Google Play.
Читать дальше →
Всего голосов 17: ↑15 и ↓2+13
Комментарии32

Asterisk + UniMRCP + VoiceNavigator. Синтез и распознавание речи в Asterisk. Часть 3

Время на прочтение13 мин
Количество просмотров5.9K
Часть 1
Часть 2
Часть 4

В предыдущей статье было рассказано о тегах синтеза и о построении грамматик распознавания.
В этой части мне хотелось бы показать построение конкретного голосового приложения в Asterisk. Чтобы не придумывать голосовое меню для магазина «Рога и копыта», решил поступить проще и найти на Хабре ранее реализованный пример, на котором можно наглядно показать преимущества использования синтеза и распознавания.

На Хабре нашелся вот этот пост, который когда-то довольно активно обсуждался. Автор предлагает прослушивать прогноз погоды по телефону, используя множество предзаписанных файлов и xml-информеры с сайта Gismeteo. Мне хотелось бы усовершенствовать данное приложение и показать, как синтез и распознавание облегчают жизнь при построении IVR и получении динамической информации.

Приложение будет запрашивать город, погоду в котором хотелось бы узнать, затем спрашивать время (сегодня днем, завтра вечером и т.д.) и сообщать необходимую информацию.
Читать дальше →
Всего голосов 15: ↑14 и ↓1+13
Комментарии2

VoiceFabric: технология синтеза речи из облака

Время на прочтение4 мин
Количество просмотров21K


Сегодня поговорим про перспективы и возможности облачного сервиса VoiceFabric для разработчиков и пользователей. Сервис озвучивает любую текстовую информацию синтезированным голосом в режиме реального времени. Под катом мы подробно расскажем о нашем синтезе, сценариях его использования (стандартных и не очень) и как подключить его к своим проектам, а так же о том, чем он уникален.
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии20

Пиши голосом правильно

Время на прочтение8 мин
Количество просмотров11K

Всем привет!


У многих из нас мало опыта в так называемом голосовом письме – на диктофон свои мысли раньше записывали разве что психоаналитики. Теперь диктовка становится привычнее – к ней приучил сервис голосового набора в смартфонах. Участвуя как product owner в процессе создания продукта для распознавания русской слитной речи, общаясь с разработчиками алгоритмов и с клиентами, проводя различные тесты систем распознавания, наблюдая за тем, как пользователи диктуют свои тексты и имея свой большой опыт ввода текста в компьютер с помощью голоса, я набрал много интересных наблюдений. Чтобы лучше понимать, как правильно пользоваться автоматическим распознаванием речи давайте посмотрим, как устроено распознавание речи. Описание будет очень упрощенным, но зато поможет понять, какие ошибки люди совершают при диктовке. И еще: данную статью я буду писать с помощью диктовки, внося правки с клавиатуры только в тех местах, где без этого будет не обойтись.
Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии13

Разработка акустического датасета для обучения нейронной сети

Время на прочтение13 мин
Количество просмотров6.5K


Однажды в интервью один всем известный российский музыкант сказал: “Мы работаем над тем, чтобы лежать и плевать в потолок”. Не могу не согласиться с этим утверждением, ведь то, что именно лень является движущей силой в развитии технологий, спору никакого быть не может. И действительно, только за последнее столетие мы перешли от паровых машин к цифровой индустриализации, и теперь искусственный интеллект, о котором писали фантасты и футурологи прошлого столетия, с каждым днём становится всё большей реальностью нашего мира. Компьютерные игры, мобильные устройства, умные часы и многое другое

Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии0

Голосовая биометрия в контакт-центре банка. Кейс внедрения

Время на прочтение5 мин
Количество просмотров8.7K


Всем привет! В прошлом году мы внедрили свое решение для голосовой верификации пользователей контакт-центров VoiceKey.Agent в Приорбанк (это один из крупнейших коммерческих банков Беларуси, входящий в австрийскую группу «Райффайзен») и теперь хотим рассказать вам о том, как мы это сделали и зачем это все понадобилось банку. На территории России и СНГ это второе внедрение голосовой биометрии в КЦ банка, поэтому мы стали практически первопроходцами.

Зачем банку биометрия


Не будем в очередной раз рассказывать, что традиционные технологии верификации пользователя (то есть подтверждение личности по знаниям: паролям, пин-кодам, кодовым словам и пр.) громоздки и не дают гарантированного результата. Крайне сложно удостовериться, действительно ли на другом конце провода находится тот самый человек, за которого он себя выдает. Оператор контакт-центра может лишь задавать уточняющие вопросы и сопоставлять голос человека с его полом, возрастом и другими особенностями. Достаточно очевидно, что для защиты финансовой информации этого мало.
Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии13

Битва титанов наших дней: спор В. Вапника и Л. Джейкела о будущем SVM и нейронных сетей

Время на прочтение3 мин
Количество просмотров3.9K

Воспоминания о том, как спорили Нильс Бор с Альбертом Эйнштейном, а Джордж Вестингауз и Никола Тесла с Томасом Эдисоном, давно превратились в легенды. Эти научные дискуссии не забыты до сих, потому что, с одной стороны, разрешить их смогло только время. С другой стороны, их исход определил развитие технологий на десятилетия вперед. Существуют ли подобные дискуссии в наши дни? Существуют. И они столь же горячи и интересны, как и сто лет назад.


Пожалуй, самым интересным спором современности является спор Владимира Вапника (изобретателя метода опорных векторов или SVM — support vector machine), с Ларри Джейкелом, его боссом в компании “Bell Labs” и сторонником сверточных нейронных сетей.

Читать дальше →
Всего голосов 12: ↑10 и ↓2+8
Комментарии0

Речевая аналитика как инструмент управления KPI контакт-центра. Кейс «Ростелеком»

Время на прочтение7 мин
Количество просмотров16K


Сегодня мы расскажем о том, как «Ростелеком Северо-Запад» повысил бизнес-показатели своего Единого Контакт-центра (ЕКЦ) с помощью инновационных технологий речевой аналитики. Подведены итоги консалтингового проекта, в рамках которого специалисты ЦРТ с помощью инструментов речевой аналитики Speech Analytics Lab проанализировали обращения клиентов в ЕКЦ «Ростелеком» и предложили методику улучшения качества обслуживания.

Зачем в КЦ нужна речевая аналитика?


ЕКЦ Северо-Западного филиала «Ростелеком» — огромная система, которая ежедневно обрабатывает тысячи обращений. При контроле качества супервизоры могут проанализировать только случайную выборку звонков, которая, как правило, составляет до 2% от общего числа обращений. А это не всегда даёт объективную картину.

С помощью инструментов речевой аналитики специалисты могут работать со 100% обращений. Для этого все диалоги ЕКЦ переводятся в текст и анализируются с помощью системы Speech Analytics Lab. Благодаря инструментам поиска в массивах неструктурированной речевой информации аналитик может отработать гипотезы (найти ключевые слова) на выборках в сотни тысяч фонограмм за несколько секунд.

На основе такого анализа можно разработать программу изменений для действующих в ЕКЦ процедур и процессов и оптимизировать системы самообслуживания (IVR, Личный кабинет, сайт).
Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии7

Патентные исследования в IT. Курс молодого бойца. Часть I. Как понять требования заказчика и подготовить шаблон отчет

Время на прочтение6 мин
Количество просмотров13K
Перед вами первая статья из цикла для тех, кто хочет узнать, как правильно делать и оформлять патентные исследования и отчитываться с их помощью перед заказчиком. Разбираемся в терминах, готовим шаблон отчета о патентных исследованиях.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии3

Речевая аналитика для колл-центров на основе SOLR

Время на прочтение7 мин
Количество просмотров3.2K
Хочу рассказать о нашем опыте разработки приложений на основе платформы полнотекстового поиска Apache Solr.

Перед нами стояла задача разработать систему речевой аналитики для контактных центров. В основе системы две базовых технологии: распознавание речи и индексированный поиск. Для распознавания мы использовали свои движки, а для индексации и поиска выбрали Solr.

Почему именно Solr? Собственных сравнительных исследований движков индексированного поиска мы не проводили, но внимательно ознакомились с мнением коллег. Конечно, выбор мог состояться и в пользу Elasticsearch или Sphinx, но, видимо, звезды в нашем проекте сложились в пользу Solr, его мы и “пилили”. Уже по ходу проекта мы определили, что имеющихся в Solr настроек достаточно для конфигурирования под наши задачи.
Читать дальше →
Всего голосов 9: ↑8 и ↓1+7
Комментарии3

«Родная речь-2014» — шанс заявить о себе для молодых разработчиков

Время на прочтение2 мин
Количество просмотров2.6K
Победители получат ценные призы и работу мечты!


image

Весной 2014 года пройдет второй открытый конкурс по разработке речевых систем для молодых ученых – «Родная речь». Победитель получит 120 000 рублей или участие в международной летней школе по речевым технологиям, серебряный призер – iPhone 5, а финалист, занявший третье место, – iPad 4.

График проведения конкурса:

15 января 2014 — начало регистрации участников
15 февраля 2014 —открытие доступа к конкурсной базе, начало работы
1-3 апреля 2014 — полуфинал
26-28 апреля — финал, который состоится в Санкт-Петербурге

Ознакомиться с условиями участия и получить всю необходимую информацию можно на странице конкурса на сайте ЦРТ spch.pro/x1fm2
Обязательным условием участия является вступление в группу ЦРТ ВКонтакте vk.com/speechpro

Для того чтобы принять участие, достаточно иметь навыки программирования, живое, творческое мышление и желание решать интересные, нестандартные задачи на стыке нескольких дисциплин, таких, как динамическое программирование, статистическое моделирование и др.

Организатор «Родной речи» – компания «Центр речевых технологий», абсолютный лидер российского и значимый игрок международного рынка речевых технологий и мультимодальной биометрии, ведущий разработчик речевых систем в России. Всем трем лауреатам конкурса будет предложено присоединиться к команде ЦРТ.

Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии0

Radio RSS для iPhone и iPad: все актуальные новости за рулем. Уже два года!

Время на прочтение1 мин
Количество просмотров4.7K


Друзья, уже ровно два года мы озвучиваем все самые актуальные новости всех самых популярных российских новостных порталов (Хабр в том числе!) при помощи бесплатного мобильного приложения Radio RSS для iPhone и iPad.

Расширенная версия приложения дает доступ к более чем 50-ти популярным новостным порталам, а теплый ламповый проигрыватель помогает переключаться между каналами.

Читать дальше →
Всего голосов 16: ↑11 и ↓5+6
Комментарии9
1