Search results for «[voice recognition]» / Habr

Publications Hubs Companies Users Comments

antirek Aug 11 2014 at 19:25

yandex-speech — wrapper к речевым технологиям Яндекса

1 min

15K

Ознакомившись с обзором движков для распознавания речи, заметил там API от Яндекса. И на выходных написал небольшую обертку для Node.js для распознавания речи с целью поиска мата в своих телефонных разговорах. По мотивам топика на Хабре.

Список нецензурных слов выкладывать не буду, а сам npm устанавливается командой.

npm install yandex-speech

Исходники и примеры использования:
github: www.github.com/antirek/yandex-speech

Немного деталей:

Читать дальше →

+21

antirek Jan 19 2015 at 18:46

Быстрый голосовой набор на Asterisk

3 min

25K

JavaScript*Node.JS*Asterisk*Development of communication systems*

Статей по использованию сервисов распознавания речи в asterisk от Google и Яндекса на Хабре уже есть несколько. Но всегда хочется сделать что-нибудь свое и как-нибудь по-своему.

Так вот, хотелось сделать быстрый голосовой вызов абонентов из адресной книжки. Когда в организации работаешь с несколькими десятками человек, каждый день иногда забываешь и путаешь внутренние номера абонентов (а кнопок быстрого набора на всех не хватает). Поэтому просто надо, чтобы нажал кнопочку, сказал «Зина из третьего мобильный» и тебе отвечает Зина из третьего на своем мобильном.

Короткое видео с демонстрацией работы:

Читать дальше →

+23

GeorgeR Jul 20 2009 at 17:57

Опыт построения GOOG-411 [от первого лица]

11 min

1.3K

IT-companies

Translation

M. Bacchiani, F. Beaufays, J. Schalkwyk, M. Schuster, B. Strope

АННОТАЦИЯ
Мы описываем наш первый опыт разработки и оптимизации GOOG-411, полностью автоматизированного бизнес-поиска при помощи голоса. Мы показываем, каким образом принятие итеративного подхода к разработке системы позволяет оптимизировать различные компоненты системы, таким образом постепенно улучшая показатели, с которыми взаимодействуют пользователи. Мы показываем, вклад различных источников данных в точность распознавания. Для языковой модели, построенной на списке бизнес-объектов, мы видим почти линейное увеличение производительности с суммарным логарифмом тренировочных данных. На сегодняшний день, мы повысили показатель правильного распознавания на 25% и увеличили показатель успешных соединений на 35%.

Читать дальше →

ahriman Aug 7 2015 at 13:08

Как Microsoft Project Oxford может сделать ваши приложения умнее

8 min

14K

Microsoft corporate blogAlgorithms*Microsoft Azure*Machine learning*

Выражаем большое спасибо за подготовку статьи Евгению Григоренко, Microsoft Student Partner, за помощь в написании данной статьи. Остальные наши статьи по теме Azure можно найти по тегу azureweek

Дайте я угадаю, Вы, как и я, уже пару месяцев горите идеей гениального приложения. Помимо своей основной функциональности, в идеальном мире оно просто обязано обладать множеством дополнительных возможностей, например, идентифицировать пользователя (или кота) по его фотографии с фронтальной камеры или понимать команды на естественном языке. Или сделать второй How-Old (который был сделан как раз на Оксфорде).

Но все мы знаем печальную истину. Многое возможно только с пользованием сложных алгоритмов машинного обучения, которых у нас совершенно нет времени изучать. И именно это останавливает от разработки, так как без таких инноваций мы совершенно затеряемся среди аналогов. Но решение этой проблемы есть, и имя ему Microsoft Project Oxford. Если вы хотите узнать, как Microsoft Project Oxford может упростить Вашу жизнь и сделать Ваши приложения по-настоящему интеллектуальными, то добро пожаловать под кат.

Читать дальше →

+15

Atreides07 Nov 18 2009 at 16:54

Pliq.me крошка…поговори со мной!

2 min

681

Self Promo

Лучший способ набрать текст на телефоне – это сказать его.

С прошлой недели доступен в закрытом тестировании новый проект Pliq.me, позволяющий с помощью небольшого приложения и большой серверной части создавать голосом короткие текстовые сообщения на вашем телефоне для SMS, E-mail, напоминаний, записей в Twitter, Evernote или просто быстрых заметок.

Читать дальше →

+33

Faight Sep 21 2016 at 17:04

Использование Google Cloud Speech API v2 в Asterisk для распознавания русской речи

6 min

45K

API*Google API*Yandex API*Asterisk*

From sandbox

Добрый вечер, коллеги. Недавно возникла необходимость добавить систему голосовых заявок в нашу ticket-систему. Но не всегда удобно каждый раз прослушивать голосовой файл, поэтому возникла идея добавить к этому систему автоматического распознавания голоса, к тому же в будущем она бы пригодилась в других проектах. В ходе этой работы были испробованы два варианта API наиболее популярных систем распознавания речи от google и yandex. В конечном итоге выбор пал на первый вариант. К сожалению, не нашел подробной информации об этом в интернете, поэтому решил поделиться полученным опытом. Если интересно, что из этого получилось добро пожаловать под кат.

Читать дальше →

+20

just_ai Jun 3 2020 at 16:28

Голосовые навыки с нуля: как Алиса учила песни Цоя, не давала уснуть за рулем и принесла мне шесть наград от Яндекса

10 min

Just AI corporate blogGame development*Yandex API*DIYVoice user interfaces*

Необязательно посвящать годы изучению разговорных интерфейсов, чтобы у тебя получился крутой голосовой навык. Меня зовут Сергей Кул, и я считаю, что каждый навык – это маленький стартап: либо выстрелит, либо нет. Я создал первый голосовой скилл меньше года назад, ничего не зная о разработке ботов и голосовом UX. Теперь у меня пять Премий Алисы и специальный приз от Яндекса. Рассказываю, как так вышло и чему я научился, осваивая вместе с Алисой JavaScript, формулу Видмарка и песни «Кино».

Как создавать навыки без специальных навыков

1 июля 2019 года я начал активно искать какое-то новое направление для бизнеса в интернете. Работа в IT приелась, хотелось сменить деятельность. И вдруг наткнулся на статью, что для голосового ассистента Алисы сторонние разработчики могут делать свои навыки. Это было озарение! Понял, что хочу освоить такую разработку и закрепиться в этой нише. Что на тот момент я знал про голосовые интерфейсы или разработку ботов? НИЧЕГО! Совершенно! Но решил в течение одного месяца всё изучить и сделать первый навык.

+10

elena_zz Feb 3 2021 at 13:31

Speech Analytics: Benefits and its New Importance in Telecommunication Technology

3 min

1.2K

Zadarma corporate blogSales management*Cloud services*

Speech analytics is the process of analysing recorded speech, such as phone calls, to gather customer information to improve communication and future customer interaction. Speech analytics as a technology has been evolving especially rapidly over the last few years. It gives the ability to structure and analyse previously lost streams of insight-rich data, such as phone conversations. Empowered with this technology, operations can gather incredibly valuable business intelligence to drive call delivery performance improvements. It’s smart in that it automatically identifies focus areas in which customer service or sales teams may need additional call training which then, in turn, improves the call’s successful outcome. Speech analytics, as a process, can isolate buzzwords and phrases used most frequently within a given time period, plus indicate usage is trending up or down. This data is highly useful to call managers to spot changes in consumer behaviour so that action can be taken to improve customer satisfaction.

Zadarma is a leading global VoIP provider and offers a smart speech analytics feature as part of their incredibly easy to use telecommunications offering. The tool is free as part of the wider PBX phone system bundles, included in the free recognition minutes. Zadarma’s analytics feature allows data access to every internal or external call conversation. The benefits of speech analytics include:

ArtemE Sep 8 2013 at 15:06

Простой, но эффективный Voice Activity Detection алгоритм реального времени

7 min

30K

Programming*Algorithms*

Ниже дан перевод статьи
A SIMPLE BUT EFFICIENT REAL-TIME VOICE ACTIVITY DETECTION ALGORITHM
М.H. Moattar and M.M. Homayonpour
Laboratory for Intelligent Sound and Speech Processing (LISSP), Computer Engineering and Information Technology Dept., Amirkabir University of Technology, Tehran, Iran
Оригинал по ссылке

РЕЗЮМЕ

Алгоритм обнаружения активности голоса (Voice Activity Detection, далее VAD) очень важный метод в приложениях обработки речи и аудио. Эффективность большинства, если не всех методов обработки речи/аудио сильно зависит от эффективности применяемого алгоритма VAD. Идеальный детектор активности голоса должен быть независимым от области применения приложения, от уровня шума и быть наименее зависимым от максимума параметров приложения, в котором его используют. В этой статье предлагается близкий к идеальному алгоритм VAD, который одновременно легок в реализации и устойчив к шуму. Предложенный метод использует такие кратковременные характеристики как Spectral Flatness (SF) (спектральная плоскостность, ровность) и Short-term Energy, что делает метод целесообразным для применения в реальном времени. Этот метод был проверен на нескольких записях с разным уровнем шума и сравнивался с недавно преложенными методами. Эксперименты показали удовлетворительные результаты при разных уровнях шума.

Читать дальше →

+29

ArtemE Sep 27 2013 at 11:12

Использование краткосрочных характеристик в обработке речи

4 min

9.4K

Programming*Algorithms*

Ниже дан вольный перевод записи с сайта Sakshat Virtual Labs
Need for Short Term Processing of Speech
В статье содержится информация об одном из методов сбора характеристик речевого сигнала и о трех основных характеристиках, которые лежат в основе многих алгоритмов обработки звуковых сигналов и речи.

Большинство средств обработки сигналов работают в стационарных системах, т.е. подразумевают стационарный сигнал. Речь воспроизводится системой речевого тракта и потому она по своей природе нестационарна. Следовательно, обычные средства, которые применяются для обработки сигналов не подходят для обработки речи. Использование их напрямую нарушает лежащие в их основе предположения. И даже если слепо использовать их, результат все равно не будет иметь практического значения. Например, средство вычисление общей энергии фундаментальное в области обработки сигналов:

Предположим, что можно использовать эту формулу для вычисления энергии речи. Несомненно, это даст нам энергию, присутствующую в речевом сигнале. Однако, полученное значение ничего нам не даст. Причина в природе речи — мы знаем что она имеет меняющуюся во времени амплитуду и энергию, потому необходим инструмент, который предоставил бы информацию об изменениях энергии во времени.

Было предложено решение для обработки речи, которое заключалось в использовании уже известных методов из области обработки сигналов с их небольшой модификацией. То-есть используемые средства обработки все так же предполагали стационарный сигнал. Стационарным речевой сигнал получается, когда рассматривается небольшими блоками по 10-30мс. Следовательно, для обработки речи разными средствами обработки сигналов, она рассматривается в блоках по 10-30мс (дальше такой участок будем называть речевым сигналом). Такая обработка называется Краткосрочной Обработкой (Short Term Processing (STP)).

Читать дальше →

+24

IgorLevin Nov 9 2017 at 19:06

Одноканальный разделитель голосов: на пути к продукту (превью)

4 min

3.2K

Neurodata Lab corporate blogSystem Analysis and Design*Algorithms*Machine learning*

Голос, звук, анализ звуковой волны: акустика — один из наиболее интересных и сложных каналов сбора данных в мультимодальной логике детекции и распознавания эмоций человека. Помимо прочего, обращение к этому источнику информации ставит перед исследователями задачи разного порядка, решение которых открывает новые научные и технологические перспективы. Мы в Neurodata Lab, занимаясь темой эмоций, сумели попутно разобраться с фундаментальной проблемой: одноканальным разделением голосов, достигнув точности, превышающей 91-93%, для английского, русского и некоторых других ключевых языков (по ним продолжаются эксперименты, приоритет отдан двум первым).

Читать дальше →

premjithbpk Mar 30 2019 at 11:29

A Simple Way to Talk To Your Website

5 min

Website development*CSS*API*

From sandbox

Technology and markets are going hand in hand today. It's going so close that any whiff of a tech headway and social media is going up in a frenzy about it. Writers are filling pages after pages as if it's already here. Shares ride bull or bear, and newspapers print a string of capital letters.

+14

MaximML Jun 27 2021 at 15:49

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

4 min

13K

Python*MongoDB*Voice user interfaces*

From sandbox

Как (и зачем?) написать голосовой дневник, используя open source инструменты.

just_ai Aug 25 2019 at 14:49

Гайд по голосовому UX: ситуации, паттерны, инструменты (и немного моральной поддержки)

12 min

9.9K

Just AI corporate blogInterfaces*Usability*Artificial IntelligenceVoice user interfaces*

UX и UI-дизайнеры всё ещё со скепсисом смотрят в сторону голосовых интерфейсов. Одним кажется, что это маркетинговый хайп, который скоро сойдёт на нет. Другие не пользуются голосовыми ассистентами и поэтому уверены, что голос — это неудобно и неестественно. Но пока они сомневались, сложилась самостоятельная профессиональная сфера — со своими секретами, паттернами и механиками (и даже рынком труда). Вместе с UX-архитектором Just AI Екатериной Юлиной разбираемся, как подступиться к голосовым технологиям и что в своем мышлении должен изменить UX-дизайнер традиционных интерфейсов, берясь за голосовые.

+17

just_ai Nov 2 2019 at 13:32

Конференция Conversations: 8 часов теории и практики разговорного AI

3 min

2.3K

Just AI corporate blogConferencesArtificial IntelligenceSmart HouseNatural Language Processing*

26 ноября в Москве пройдет Conversations – конференция по разговорному искусственному интеллекту для разработчиков и бизнеса. Про инструменты, кейсы, фейлы, модели монетизации, перспективы и ограничения рынка будут говорить МТС, МегаФон, Билайн, Tikkurila, Банк Открытие, Яндекс.Облако, Speech Analytics, Cardif, iPavlov, «ДоДо пицца», МФТИ и другие интересные компании (например, международное аналитическое агентство Canalys!).

В общем, если вы неравнодушны к речевой аналитике и NLU, разрабатываете скиллы для голосовых ассистентов или чатботов, изучаете диалоговые платформы, хотите прокачать себя в voice UX/UI (или просто интересуетесь индустрией conversational AI), добро пожаловать под кат! Там подробнее про хедлайнеров и промокод на покупку билета.

morfeusys Dec 30 2019 at 12:55

Заменяем Google Assistant на нейросеть Порфирьевич и троллим Алису

4 min

51K

Programming*Development for Android*Artificial IntelligenceDIYVoice user interfaces*

Tutorial

Вы уже видели, что вытворяет нейросеть Порфирьевич? Она дописывает текст к любой вашей фразе. И действительно забавные штуки получаются, потому что обучена она на книгах Достоевского, Толстого, Пушкина, Булгакова, Гоголя и Пелевина.

«Озвучить все это дело голосом Левитана — получился бы отличный заменитель гугловского ассистента к новогоднему застолью...» — подумал я. И решил не откладывать это мероприятие на посленовогогода (а то ведь сами понимаете).

Под катом — весь процесс создания опенсорсного голосового ассистента Порфирьевич на исключительно опенсорсном фреймворке Aimybox, и его запуск вместо штатного Google ассистента. Ну и заодно Алису потроллить можно.

+41

ready_for_sky_team Mar 20 2020 at 11:00

Трудности воспитания голосового помощника. Взгляд лингвиста и разработчика

11 min

2.7K

Ready for Sky corporate blogManufacture and development of electronics*Voice user interfaces*

Работу с голосовым помощником часто сравнивают с воспитанием ребёнка. Он постоянно чему-то обучается, повторяя за «старшими». Постепенно овладевает языком и способностью выстраивать общение. Иногда он понимает всё слишком буквально или просто выдаёт что-то несуразное. Всё потому, что обработка языка — сложный и длительный процесс, требующий внимания не одного специалиста. Мы попросили наших коллег лингвиста-разработчика Ивана и ведущего инженера Бассела поделиться интересными случаями из опыта работы с Sky Voice Assistant. Мы задали двум специалистам одинаковые вопросы, чтобы узнать, почему одна математика не может победить при обработке языка, как голосовые помощники учатся шутить и зачем это нужно.

За что ты отвечаешь? Что входит в зону твоей ответственности?

Лингвист

Я отвечаю за всё, что связано с лингвистическим аспектом работы голосового ассистента. Это и анализ вопросов пользователя, и планирование логики ответа, и поиск или создание текста для него. Кроме того, я разрабатывал некоторые сервисы, сильно завязанные на тексте (в том числе погоды, напоминаний, новостей, тостов, словесных игр), и собирал контент для обучения. К нему относится, например, запись различных голосов для активации колонки.

Разработчик

Я отвечаю за мозг нашего чат-бота. Пишу его логику: то, как он принимает вопросы, как отвечает, откуда берет данные, какие сервисы внутри него будут работать. Это сервис для общения и база знаний, чтобы он мог ответить на какие-то вопросы. Он может к ней обратиться и сказать, какая погода, каков курс доллара, заказать тебе такси, установить будильник и т.д.

Читать дальше →

itNews Mar 25 2020 at 14:45

Будущее уже здесь: как работают голосовые роботы и что они умеют делать

7 min

7.8K

Neuro.net corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*Voice user interfaces*

Роботизация рутинных операций, когда для решения простых и одновременно трудоемких задач используются роботы, а не люди — весьма активный тренд. Автоматизируется многое, включая телефонные разговоры с клиентами. Компания Neuro.net занимается созданием технологий, которые дают возможность улучшить возможности роботов.

В этой статье разработчики рассказывают о технологиях и нюансах распознавания пола собеседника по голосу и работе над важными элементами диалога.

+12

Digimatics Oct 22 2022 at 15:05

Как нейронные сети экономят бизнесу время и деньги

11 min

Development for AR and VR*Artificial Intelligence

From sandbox

Нейронные сети занимают все больше и больше бизнес-ниш: они считают посетителей, контролируют качество и соблюдение техники безопасности, считывают автомобильные номера и проверяют, не забыли ли вы надеть маску. Даже этот текст мог бы быть написан нейронной сетью.

Искусственная нейронная сеть (ИНС) — математическая модель, имеющая программное или аппаратное воплощение. Название пришло от сравнения с принципом работы биологических нейронных сетей. Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами,так как нейросети позволяют прогнозировать сразу несколько величин (и даже одновременно решать задачи классификации и прогнозирования) одной моделью. При этом нейросети требуют значительно большего количества ресурсов — как аппаратных, так и подготовленных данных, необходимых для обучения.

Развитие нейронных сетей связано как с развитием технологий, так и с вкладом глобального IT-сообщества в обучение различных моделей на большом количестве различных наборов данных.

Пожалуй, самая популярная область применения нейросетей сегодня — распознавание визуальных образов, аудио и видео. Они используются везде — от робота-автоответчика в банке и спецэффектов в TikTok до анализа состояния нефтепроводов и подсчета брака на заводе. Нейросети существенно облегчают труд человека и экономят бизнесу миллионы человеко-часов в год.

В этой статье мы расскажем о нейросетях, которые использовали при разработке программной платформы Digital Sense — собственного продукта Цифроматики, который позволяет строить бизнес-процессы на обработке искусственным интеллектом графических и аудиоканалов в режиме реального времени, обрабатывать данные, представлять результаты анализа в графической форме и запускать программные сценарии.