Pull to refresh

Компьютер IBM сыграет против двух чемпионов Jeopardy!

Artificial Intelligence
Система обработки натуральной речи и ответов на вопросы IBM DeepQA/Watson сыграет против двух чемпионов интеллектуальной телевикторины Jeopardy! (в России викторина производится по лицензии под названием «Своя игра»). Трансляция битвы умов состоится 14, 15 и 16 февраля 2011 года на канале CBS. Будет сыграно две игры.

Викторина пройдёт по стандартным правилам. Три участника соревнуются между собой в борьбе за право первым ответить на заданный вопрос. Вопросы сформулированы, как правило, в виде утверждений, где искомое слово заменено местоимением. Игроки должны догадаться, о чём идёт речь, и дать ответ.
Читать дальше →
Total votes 27: ↑25 and ↓2 +23
Views 8.5K
Comments 41

Предварительная обработка речевых сигналов с помощью Matlab

Algorithms *Mathematics *Matlab *
Tutorial
Sandbox
Результатом предварительной обработки речевых сигналов является получение множества спектральных векторов, характеризующих этот сигнал и используются для дальнейшего распознавания.

Принципиальное предположение, которое делается в современных распознавателях является то, что речевой сигнал рассматривается как стационарный (т.е. его спектральные характеристики относительно постоянные) на интервале в несколько десятков миллисекунд. Поэтому основной функцией предварительной обработки является разбить входной речевой сигнал на интервалы и для каждого интервала получить сглаженные спектральные оценки.

Типичная величина одного интервала — 25,6 мс. Соседние интервалы берутся со смещением относительно предыдущего интервала. Применяемая величина перекрытия интервалов равна 10 мс. В результате предварительной проработки каждого из указанных интервалов получаем вектор из нескольких десятков спектральных значений.
Читать дальше →
Total votes 11: ↑11 and ↓0 +11
Views 25K
Comments 6

Задача изменения голоса. Часть 3. Прикладные модели представления речевого сигнала: LPC

i-Free Group corporate blog Sound
image

Продолжаем цикл статей, посвященных задаче изменения человеческого голоса, над решением которой мы работаем в компании i-Free. В предыдущей статье я попытался кратко рассказать о математическом аппарате, применяемом для описания сложных физических процессов, происходящих в речевом тракте человека при произнесении звуков. Были затронуты вопросы, связанные с моделированием акустики речевого тракта. Были описаны допустимые во многих случаях упрощения и аппроксимации. Итогом статьи было приведение физической модели распространения звука в речевом тракте к простому дискретному фильтру.

В данной статье хочется с одной стороны продолжить предыдущие начинания, а с другой — немного отойти от фундаментальной теории и поговорить о более практических (более «инженерных») вещах. Кратко будет рассмотрена одна из прикладных моделей, часто применяемая при работе с речевым сигналом. Математическая база этого подхода, как это часто бывает, изначально была заложена в рамках исследований совершенно другой направленности. Тем не менее физические особенности речевого сигнала позволили применить данные идеи именно для его эффективного анализа и модификации.

Предыдущая статья, в силу специфики рассматриваемого вопроса, была перенасыщена научными терминами и формулами. В данной — мы постараемся вместо детального описания математических построений сделать акцент на идеологическую концепцию и качественные характеристики описываемой модели.

Далее будет более подробно рассмотрена теория модели LPC (Linear Prediction Coding) – замечательный стройных подход к описанию речевого сигнала, в прошлом определивший направление развития речевых технологий на несколько десятилетий и до сих пор часто применяемый, как один из базовых инструментов при анализе и описании речевого сигнала.

Читать дальше →
Total votes 25: ↑25 and ↓0 +25
Views 16K
Comments 15

Голосовое управление компьютером и Python

Python *
Sandbox
Начитавшись разных постов о Google Voice и его использовании, решил написать что-то свое. А именно — голосовое управление компьютером. Сразу оговорюсь, что ОС — Windows.

Нам понадобится:

— Python 2.7
— библиотеки:
pyaudio
pycurl
pywin32
+ набор стандартных библиотек
— какой-либо аудиоконвертер поддерживающий flac и wav, а также работу из командной строки, я использовал этот.
Читать дальше →
Total votes 15: ↑11 and ↓4 +7
Views 40K
Comments 9

17 прогнозов на 2017 год: исследователи корпорации Microsoft — о том, чего ожидать в 2017 году и через десять лет

Microsoft corporate blog Research and forecasts in IT *
Translation
Мы решили пофантазировать и заглянуть в будущее на 1 год, на 10 и на 69 лет вперед. Под катом вы найдете 17 прогнозов от женщин-исследователей из подразделения Microsoft Research на 2017 и на 2027 годы, а также поздравительную открытку, которая перенесёт вас в 2086 год.


Читать дальше →
Total votes 20: ↑17 and ↓3 +14
Views 15K
Comments 14

Дмитрий Муромцев (ИТМО) — об онтологическом моделировании и формировании разговорного интеллекта

Smile-Expo corporate blog Artificial Intelligence Interview
Дмитрий Муромцев, руководитель международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии» ИТМО и заведующий кафедрой ИПМ, рассказал о сущности онтологического моделирования, об использовании графов знаний в бизнес-процессах и о работе по созданию разговорного интеллекта.

Читать дальше →
Total votes 12: ↑11 and ↓1 +10
Views 6.4K
Comments 14