Как стать автором
Обновить

«Тинькофф банк» разработал голосового помощника-мужчину по имени Олег или Иван

Искусственный интеллект Голосовые интерфейсы *
Вчера на корпоративе сотрудников «Тинькофф банка» основатель и председатель совета директоров банка Олег Тиньков объявил, что компания разработала голосового помощника, который может общаться с пользователями на естественном языке, почти как Алиса от «Яндекса», пишут «Ведомости». Официальная презентация состоится через неделю.

«Пока очень скромно, мы решили назвать „Олег”. Но может быть, ещё поменяем, может, „Иван” назовём», — сказал Тиньков на корпоративе, отвечая на вопрос Ивана Урганта.
Читать дальше →
Всего голосов 16: ↑9 и ↓7 +2
Просмотры 5.2K
Комментарии 21

Нейросеть Facebook заговорила голосом Билла Гейтса

Искусственный интеллект Будущее здесь


Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.
Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 5.4K
Комментарии 11

Российский стартап клонирования голоса Vera Voice выходит на американский рынок

Развитие стартапа Искусственный интеллект Звук
image

Российский сервис Vera Voice объявил о запуске технологии в США. В приложения клонирования голоса Parodist теперь есть возможность создавать контент на английском языке. Пока доступны голоса 32 знаменитых личностей, в том числе Дональда Трампа, Джо Байдена, Уилла Смита и Билли Айлиш.
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 3K
Комментарии 2

Nvidia представила нейромодель генерации выразительной речи

Искусственный интеллект Звук

Nvidia на конференции Interspeech показала модель диалогового ИИ для выразительного синтеза речи, чтобы генерировать голоса для персонажей, виртуальных помощников и персонализированных аватаров. Технология позволяет имитировать ритм, интонации и тембры голосов людей.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 2.7K
Комментарии 6

One Day Offer для Data Scientists: приглашаем экспертов в команду SberDevices

Блог компании SberDevices Машинное обучение *Карьера в IT-индустрии Искусственный интеллект Natural Language Processing *


Мы продолжаем встречи с соискателями в формате “One Day Offer”, в результате которых можно получить предложение работы за один день. В этот раз приглашаем датасайентистов уровня Middle+/Senior.

Всё будет происходить онлайн, 4 декабря (это выходной) с 11:00 до 20:00. Для участия нужно зарегистрироваться, отправив заявку по адресу: 1dayoffer@sberdevices.ru.

Несколько слов о SberDevices. Наша команда создаёт современные модели обработки естественного языка (Natural Language Processing), речевые технологии, алгоритмы компьютерного зрения, разрабатывает системы биометрии, модели для генерации медиаконтента и даже нейроинтерфейсы. Мы используем последние разработки в области искусственного интеллекта и машинного обучения и очень любим работать с большими генеративными моделями. Впереди у нас ещё много интересных задач!

Итак, какие же команды нанимают в этот раз:

SmartNLP Team— выстраивает core-систему обработки естественного языка. Все запросы к виртуальным ассистентам Салют проходят через неё. Наш сервис реализует весь стек технологий NLP: от предобработки текста и выделения сущностей до определения намерения пользователя и вызова соответствующего навыка. В этом нам помогают собственные разработки в области Representation Learning, Metric Learning и Natural Language Understanding. О некоторых наших подходах можно почитать здесь, здесь и здесь.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 3.5K
Комментарии 2

Just AI представит технологию гибридного синтеза речи на вебинаре 17 марта

Блог компании Just AI Машинное обучение *Искусственный интеллект Natural Language Processing *Голосовые интерфейсы *

Разработчик технологий разговорного ИИ Just AI выводит в продакшн гибридный синтез речи и представит технологию на бесплатном вебинаре 17 марта. Гибридный синтез позволяет быстро заменять любые фразы в аудиодорожках, записанных диктором для голосового бота, требуется только отредактировать текст. При этом синтезированная речь будет в точности сохранять интонацию, с которой диктор произносил неизмененные части реплики, и экстраполировать ее на новый текст так, чтобы он звучал естественно и не выделялся из контекста. 

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 624
Комментарии 0

Энтузиаст создал умную говорящую голову терминатора T-800 на Raspberry Pi 4

Машинное обучение *Разработка на Raspberry Pi *Робототехника DIY или Сделай сам

Энтузиаст Майкл Дарби представил свой проект на базе Raspberry Pi 4. Ему удалось воссоздать голову терминатора T-800.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 4.9K
Комментарии 3

Подкастинг меняет традиционные СМИ

Чулан
Французская газета International Herald Tribune (IHT) стала, наверное, первой в мире, которая полностью интегрировала подкастинг в систему публикации материалов. Теперь у них на каждой веб-странице имеется кнопка «Нажмите здесь, чтобы прослушать эту страницу».
Читать дальше →
Рейтинг 0
Просмотры 331
Комментарии 20

Озвучка закрытия и открытия крышки ноутбука и синтез речи в Ubuntu

Чулан
Можно заставить ноутбук разговаривать при открытии и закрытии крышки, это поднимет настроение вам и повеселит ваших друзей.

Выглядеть это будет примерно так: видео на youtube.

Причем речь мы будем синтезировать, то есть, вы пишите текст, а ноутбук будет это произносить. Естественно, таким образом вы сможете настроить, что именно будет произносить ваш ноутбук, когда вы закрываете крышку.

Читать дальше →
Всего голосов 30: ↑27 и ↓3 +24
Просмотры 624
Комментарии 16

Обзор мобильных Text-To-Speech движков

Разработка мобильных приложений *
imageЕсли Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.

В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.
Читать дальше →
Всего голосов 35: ↑32 и ↓3 +29
Просмотры 46K
Комментарии 23

YouTube Create, или разговор роботов

IT-компании
На YouTube запущен новый раздел — www.youtube.com/create

Теперь можно создавать анимированные ролики, озвученные синтезированными голосами и размещать их на видеохостинге.

Идея реализована при помощи партнеров YouTube, которые сейчас не всегда справляются с нагрузками. Мне не удалось разместить ролик на канале после его создания и preview-просмотра.

Но как итог — возможно создание вот таких видео:



*доступен ли русский язык, так и не смог разобраться.
… видимо, ожидается бурное рождение новых мемов.

Заявлены следующие возможности:
  • запись собственного голоса;
  • загрузка собственной музыки;
  • сочетание выражений лица и движений;
  • создание собственных персонажей;
  • наложение различных спецэффектов.
Всего голосов 91: ↑79 и ↓12 +67
Просмотры 633
Комментарии 49

Русский голос TED

Я пиарюсь


Всегда приятно, когда видео с какого-нибудь мероприятия переводят на русский язык. Вдвойне приятно, когда делают качественную озвучку. Но если в этом замешаны высокие технологии — тогда вообще замечательно.

Недавно Центр речевых технологий — компания, одна из немногих имеющая собственные системы синтеза и распознавания речи, — начала озвучивание на русский язык материалов конференции TED, используя технологию синтеза русской речи. Озвученные роботом материалы размещаются в блоге «Фабрика речи» (VoiceFabric).
Читать дальше →
Всего голосов 85: ↑82 и ↓3 +79
Просмотры 1.1K
Комментарии 64

Робот Милена исполняет желания в Twitter

Блог компании Самый Нужный ТЕЛЕФОН
Привет, Хабр!

У нас для вас очередная радостная новость. Голосовой сервис заказа услуг и товаров «Самый нужный телефон» обзавелся собственным ботом. Одно сообщение роботу Милене — и желание осуществится.


Читать дальше →
Всего голосов 10: ↑6 и ↓4 +2
Просмотры 1.1K
Комментарии 9

Asterisk + UniMRCP + VoiceNavigator. Синтез и распознавание речи в Asterisk. Часть 1

Блог компании Центр речевых технологий (ЦРТ) Asterisk *Разработка систем связи *
Часть 2
Часть 3
Часть 4

Учитывая, возросший интерес сообщества к Asterisk решил внести и свою лепту и рассказать о построении голосовых меню с использованием синтеза и распознавания речи.

Статья рассчитана на специалистов, имеющих опыт работы с построением IVR в Asterisk и имеющих представление о системах голосового самообслуживания.

СГС (системы голосового самообслуживания) значительно расширяют возможности по созданию голосовых приложений и позволяют пользователю получать информацию и заказывать услуги самостоятельно, без участия оператора. Это может быть маршрутизация вызовов, запрос и выдача информации по расписанию авиарейсов, состояние банковского счета, заказ такси, запись на прием к врачу и пр.
Распознавание позволяет отказаться от линейных меню, создаваемых с помощью DTMF, разговаривать с системой человеческим языком и легко создавать меню с множественным выбором.
Синтез значительно упрощает работу с динамически меняющейся информацией и большими объемами текстовых данных.


Читать дальше →
Всего голосов 26: ↑25 и ↓1 +24
Просмотры 28K
Комментарии 22

Asterisk + UniMRCP + VoiceNavigator. Синтез и распознавание речи в Asterisk. Часть 2

Блог компании Центр речевых технологий (ЦРТ) Asterisk *Разработка систем связи *
Часть 1
Часть 3
Часть 4

В предыдущей статье была описана общая схема работы, установлен UniMRCP, Asterisk подключен к VoiceNavigator и создано простое голосовое приложение.
Остановимся подробнее на возможностях синтеза и распознавания. Первая часть статьи будет посвящена языку разметки SSML, вторая — построению грамматик.

Использование языка разметки SSML


Управление синтезом речи на лингвистическом и акустическом уровне, происходит с помощью управляющих тегов в формате SSML.
С помощью тегов можно определить произношение, управлять интонацией, скоростью и громкостью звучания и т.д.
Опишу только наиболее используемые теги.
Подробную информацию по всем тегам можно получит в описании стандарта .
Читать дальше →
Всего голосов 22: ↑21 и ↓1 +20
Просмотры 7.8K
Комментарии 8

Asterisk + UniMRCP + VoiceNavigator. Синтез и распознавание речи в Asterisk. Часть 3

Блог компании Центр речевых технологий (ЦРТ) Asterisk *Разработка систем связи *
Часть 1
Часть 2
Часть 4

В предыдущей статье было рассказано о тегах синтеза и о построении грамматик распознавания.
В этой части мне хотелось бы показать построение конкретного голосового приложения в Asterisk. Чтобы не придумывать голосовое меню для магазина «Рога и копыта», решил поступить проще и найти на Хабре ранее реализованный пример, на котором можно наглядно показать преимущества использования синтеза и распознавания.

На Хабре нашелся вот этот пост, который когда-то довольно активно обсуждался. Автор предлагает прослушивать прогноз погоды по телефону, используя множество предзаписанных файлов и xml-информеры с сайта Gismeteo. Мне хотелось бы усовершенствовать данное приложение и показать, как синтез и распознавание облегчают жизнь при построении IVR и получении динамической информации.

Приложение будет запрашивать город, погоду в котором хотелось бы узнать, затем спрашивать время (сегодня днем, завтра вечером и т.д.) и сообщать необходимую информацию.
Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Просмотры 5.6K
Комментарии 2

Asterisk + UniMRCP + VoiceNavigator. Синтез и распознавание речи в Asterisk. Часть 4

Блог компании Центр речевых технологий (ЦРТ) Asterisk *Разработка систем связи *
VoiceNavigator Asterisk UniMRCP

Часть 1
Часть 2
Часть 3

В четвертой части, как и было обещано, рассмотрим ограничения и недостатки Asterisk как голосовой платформы и особенности его взаимодействия с VoiceNavigator.
Голосовая платформа – это программно-аппаратный комплекс с функциями синтеза и распознавания речи, позволяющий создавать решения, направленные на оптимизацию работы контакт-центра, усовершенствование работы с клиентами и построение систем голосового самообслуживания.

Asterisk голосовой платформой в чистом виде не является, т.к. работа с серверами синтеза и распознавания не является его основной задачей и реализуется посредством UniMRCP. Поэтому часть недостатков и ограничений связана именно с реализацией работы в UniMRCP.

Среди больших и известных голосовых платформ, использующихся в колл-центрах для построения СГС, стоит отметить Avaya Voice Portal, Genesys Voice Platform, Siemens OpenScape CCVP, Cisco Unified CCX, Voxeo, Voxpilot.
Информации в Рунете очень не много, как и специалистов по данным продуктам с соответствующим уровнем компетенции. Используются в больших колл-центрах, стоимость соответствующая, и доступна она только для больших компаний.
Если будет интерес к какой-то из платформ, готов написать о них отдельно.

Два основных недостатка, существующие в Asterisk+UniMRCP — это отсутствие поддержки VoiceXML и неработающий barge-in для синтеза речи.
Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 7.5K
Комментарии 3

«Умный дом» собственными руками

Компьютерное железо
Из песочницы
Представьте картину: вы входите домой, автоматически включается свет и приятный женский (мужской, впрочем — кому как) голос приветствует вас. Вы небрежно бросаете фразу в сторону микрофона: «Дом, включи мой компьютер». Через несколько секунд слышите привычный шелест кулеров своего родного железного коня.

Фантастика? Под хабракатом я хочу поделиться своими успехами в построении подобной системы у себя дома.
Читать дальше →
Всего голосов 88: ↑68 и ↓20 +48
Просмотры 70K
Комментарии 47

FreeSWITCH + mod_unimrcp + VoiceNavigator. Синтез и распознавание русской речи во FreeSWITCH

Блог компании Центр речевых технологий (ЦРТ) Разработка систем связи *
VoiceNavigator FreeSWITCH UniMRCP

В продолжение серии статей об интеграции Asterisk и VoiceNavigator опишу интеграцию VoiceNavigator с FreeSWITCH.

На Хабре имеется несколько статей и упоминаний об FS, но с популярностью Asterisk он не сравнится))

FreeSWITCH, являясь продолжением и развитием идей заложенных в Asterisk, имеет действительно модульную архитектуру, где весь основной функционал, на сколько это возможно, вынесен в отдельные модули. Это позволяет обеспечить большую гибкость создаваемых решений, масштабируемых от софтфона до софтсвича. FreeSWITCH может быть использован в качестве коммутатора, АТС, медиа-шлюза или медиа-сервера для приложений IVR, использующих XML-файлы для управления алгоритмом обработки звонка.

Для FreeSWITCH в отличие от Asterisk нет необходимости отдельно компилировать UniMRCP. Поддержка UniMRCP уже добавлена и работает «из коробки» в виде модуля asr_tts/mod_unimrcp.

Ниже описывается установка FreeSWITCH, подключение к нему VoiceNavigator и создание тестового голосового приложения.
Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 8.7K
Комментарии 4