Как стать автором
Обновить

Ученые разработали прототип устройства, переводящего электрические сигналы мозга в речь

Медгаджеты Мозг Будущее здесь
image

Людей, которые по той либо иной причине потеряли способность говорить довольно много. Современные технологии позволяют частично решить эту проблему при помощи разных инструментов, от обычной клавиатуры до распознавания движения глазного яблока. К сожалению, чем сильнее степень обездвиженности человека, тем ниже его возможность общаться с окружающими.

Идеальным вариантом могло бы быть устройство, которое способно анализировать активность головного мозга и переводить электрические сигналы в речь. Ранний прототип такого устройства уже создан учеными из Калифорнийского университета в Сан-Франциско.
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 5.5K
Комментарии 17

Языковая модель SberDevices признана лучшей по пониманию текстов на русском языке

Блог компании Сбер Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *

Энкодерная языковая модель ruRoberta-large (355 млн параметров, finetune), разработанная SberDevices, признана лучшей по оценке главного русскоязычного бенчмарка Russian SuperGLUE, уступив место только человеку. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными языковыми моделями. 

Также на сегодняшний день в топ-10 входят ещё 5 моделей SberDevices: ruT5-large-finetune, ruBert-large finetune, ruT5-base-finetune, ruBert-base finetune, RuGPT3XL few-shot.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 2.6K
Комментарии 2

Google представила голосового помощника Relate для людей с нарушениями речи

Искусственный интеллект Natural Language Processing *Голосовые интерфейсы *

Google запустила бета-версию приложения, которое люди с нарушениями речи могут использовать в качестве голосового помощника. Цель тестирования состоит в том, чтобы сделать Google Assistant и другие голосовые функции более доступными для пользователей с неврологическими заболеваниями, влияющими на их речь.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 687
Комментарии 0

One Day Offer для Data Scientists: приглашаем экспертов в команду SberDevices

Блог компании SberDevices Машинное обучение *Карьера в IT-индустрии Искусственный интеллект Natural Language Processing *


Мы продолжаем встречи с соискателями в формате “One Day Offer”, в результате которых можно получить предложение работы за один день. В этот раз приглашаем датасайентистов уровня Middle+/Senior.

Всё будет происходить онлайн, 4 декабря (это выходной) с 11:00 до 20:00. Для участия нужно зарегистрироваться, отправив заявку по адресу: 1dayoffer@sberdevices.ru.

Несколько слов о SberDevices. Наша команда создаёт современные модели обработки естественного языка (Natural Language Processing), речевые технологии, алгоритмы компьютерного зрения, разрабатывает системы биометрии, модели для генерации медиаконтента и даже нейроинтерфейсы. Мы используем последние разработки в области искусственного интеллекта и машинного обучения и очень любим работать с большими генеративными моделями. Впереди у нас ещё много интересных задач!

Итак, какие же команды нанимают в этот раз:

SmartNLP Team— выстраивает core-систему обработки естественного языка. Все запросы к виртуальным ассистентам Салют проходят через неё. Наш сервис реализует весь стек технологий NLP: от предобработки текста и выделения сущностей до определения намерения пользователя и вызова соответствующего навыка. В этом нам помогают собственные разработки в области Representation Learning, Metric Learning и Natural Language Understanding. О некоторых наших подходах можно почитать здесь, здесь и здесь.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 3.7K
Комментарии 2

Продолжаем большой проект по эмоциям

Блог компании VS Robotics

VS Robotics учит робота распознавать эмоции онлайн.

В прошлом году команда проекта была сосредоточена на разработке системы распознавания эмоций в режиме реального времени в диалоге между людьми. В профессиональной коммуникации это помогает правильно реагировать на ситуации, возникающие в разговоре и предугадывать дальнейший ход диалога.

Технология VS Robotics «чувствует» семь эмоциональных состояний человека по голосу: нейтральную эмоцию, злость, радость, раздражение, удивление, страх и печаль.

Это стало возможным благодаря тому, что, специалисты компании использовали специальные тэги для выделения каждой эмоции при разметке реальных разговоров собственного call-центра, использовали более 1000 часов диалогов. Отличительная особенность нашей модели в том, что она работает с мел-спектрограммой и определяет эмоцию не по ключевым словам, а собственно по голосу абонента!

Теперь компания  разрабатывает аналогичную технологию  с возможностью   распознавать эмоции в режиме онлайн только для робота. В активной фазе находится пилотный проект, где в режиме онлайн  робот распознаёт все 7 эмоций, но область реагирования робота ограничена тремя: злость, раздражение и удивление. Так, всплески этих эмоций синхронизируются с полученной от абонента фразой и, на основе заданных условий и порогов срабатывания, осуществляется корректировка диалога. Например, робот выбирает более подходящую фразу, чтобы продолжить конструктивный диалог.

В перспективе мы планируем расширить сценарии скриптов робота и научить его реагировать на весь спектр эмоций абонента. Эти разработки могут быть полезны в разных сферах от маркетинга до медицинских консультаций.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 448
Комментарии 0

Хакатон «GameDev + AI»

Блог компании Наносемантика Программирование *Разработка игр *Хакатоны Искусственный интеллект

Всем привет! 18-20 ноября 2022 года в Российском Технологическом Университете МИРЭА при поддержке нашей компании «Наносемантика» пройдет (снова) студенческий хакатон.

У студентов МИРЭА будет возможность испытать свои силы в разработке игры или виртуального мира, использующих технологии распознавания речи, синтеза речи и голосовых роботов.

Под катом — задача, правила, ссылка на регистрацию и расписание хакатона.

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Просмотры 674
Комментарии 0

Итоги хакатона «GameDev + AI»

Блог компании Наносемантика Программирование *Разработка игр *Хакатоны Искусственный интеллект

18–20 ноября 2022 года в Российском технологическом университете (РТУ) МИРЭА при поддержке нашей компании «Наносемантика» прошёл студенческий хакатон. В течение 3 дней 9 команд соревновались в разработке видеоигр и виртуальных миров с применением голосовых технологий.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 428
Комментарии 0

Майкл Коэн «Дизайн голосового пользовательского интерфейса». 2004 [Перевод. Фрагмент]

Интерфейсы *
Бурный расцвет западной индустрии голосовых приложений повлек за собой многочисленные исследования в области usability голосовых интерфейсов.

Классическим исследованием в этой области считается книга Майка Коэна (Michael Cohen) «Voice User Interface Design» (2004).

Под habracut'ом перевод одной главы этой книги, посвященной необходимости учета определенных факторов при проектировании VUI. Представляет интерес для разработчиков мобильных приложений и структур голосовых меню, оптимизаторов интерфейсов, а также всех интересующихся голосовыми технологиями и usability.

Майк Коэн признанный авторитет в области речевых технологий, автор более 70 работ и многих патентов; профессор Стенфордского университета.
В 1994 году он стал одним из основателей компании Nuance, на сегодняшней день ведущей западной компании, предлагающей решения в области речи.
С 2004 года Коэн штатный научный сотрудник компании Google, в которой он возглавляет отдел Speech Technology Group.


Итак, — глава «Уменьшение мыслительных усилий»
*Осторожно: большой и серьезный текст

PS. Если у вас нет времени читать — можете скачать и прослушать этот текст в виде синтезированного подкаста.

Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 3.4K
Комментарии 7

Семинар Natural Language Processing — открытие сезона 2010/11

Я пиарюсь
image

В субботу 25-ого сентября 2010 в 17.00 мы открываем новый сезон семинара по автоматической обработке естественного языка. На первом заcедании этого учебного года выступит Эдуард Клышинский (Институт прикладной математики им. М.В. Келдыша РАН. Москва) с рассказом о принципах построения программного модуля морфологического анализа и синтеза для русского языка. Доклад называется «Давайте напишем морфологию».
Семинар будет транслироваться в он-лайне, позже мы выложим презентацию и видеозапись на сайт семинара.

Читать дальше →
Всего голосов 40: ↑38 и ↓2 +36
Просмотры 741
Комментарии 13

10 лучших вузов в области речевых технологий и искусственного интеллекта

Искусственный интеллект


За последние несколько лет в России вновь пробудился интерес к речевым интерфейсам. Западная научная традиция, в отличие от русской, в этом направлении имеет непрерывный более чем полувековой опыт.
Наш обзор посвящен ведущим вузам, дающим образование в области речевых технологий — автоматической обработки речи, голосовых интерфейсов, биофизики, искусственного интеллекта, нейронных сетей и т.д.
Учимся говорить...
Всего голосов 39: ↑29 и ↓10 +19
Просмотры 23K
Комментарии 21

Распознавание и синтез речи в любое приложение под iOS за час

Разработка под iOS *
Вводная часть:

Сам инструментарий называется NDEV. Чтоб получить необходимый код (его мало) и документацию (её много), надо зарегиться на сайте в «программе сотрудничества». Сайт:

dragonmobile.nuancemobiledeveloper.com/public/index.php

Это весь «геморрой», если клиентов вашего приложения менее полумиллиона и они пользуются сервисами менее 20 раз в день. Сразу после регистрации вы получите членство «Silver», которое позволит вам бесплатно пользоваться данными сервисами.
Разработчикам предлагается пошаговая инструкция по внедрению в свое приложение на iOS сервисов распознавания и синтеза речи:

Читать дальше →
Всего голосов 49: ↑43 и ↓6 +37
Просмотры 11K
Комментарии 18

Способы оценки субъективного качества речи

Алгоритмы *Разработка систем связи *
Из песочницы
Так или иначе наиболее важным ресурсом в сетях передачи данных является пропускная способность каналов связи. Помимо увеличения максимальной пропускной способности каналов связи и их числа очевидно, что имеет смысл оптимизировать использование уже имеющихся. Например, применяя алгоритмы сжатия. Для каждого случая наиболее оптимальный алгоритм (с точки зрения вычислительной сложности, коэффициента сжатия и т.п.) может быть своим.
Особенностью сжатия звука является субъективность её восприятия человеком. Это одновременно даёт возможность исключать незначительную информацию из сигнала, но и усложняет алгоритм сжатия.
Для того, чтобы достичь наибольшего коэффициента сжатия при минимальных потерях субъективного качества необходимо знать законы его восприятия. Этим занимается Психоакустика.
При использовании психоакустических свойств для сжатия традиционные способы оценки качества уже не подходят. Так, например, соотношение сигнал/шум становится практически бесполезным, т.к. сжатие происходит без учёта тех частей, которые человек не воспринимает. Таким образом, оценка качества так же должна учитывать свойства слухового аппарата человека.

Под катом будут рассмотрены некоторые свойства речевых сигналов и особенностей их восприятия человеком, объективные и субъективные способы оценки качества этих сигналов.

P.S. В данной статье использована моя дипломная работа, защищённая в 2011 году в Московском Авиационном Институте на факультете Радиоэлектроники Летательных Аппаратов каф. 402. Ранее работа нигде не публиковалась.
Читать дальше →
Всего голосов 35: ↑32 и ↓3 +29
Просмотры 38K
Комментарии 5

Речевые технологии. Распознавание слитной речи для чайников на примере IVR систем

Блог компании Центр речевых технологий (ЦРТ) Звук
Туториал
Всем привет.
По роду своей профессиональной деятельности я занимаюсь внедрением проектов на основе речевых технологий. Это синтез и распознавание речи, голосовая биометрия и анализ речи.
Мало кто задумывается, насколько эти технологии уже присутствуют в нашей жизни, хоть и далеко не всегда – явно.
Постараюсь популярно объяснить вам, как это работает и зачем это вообще нужно.
Подробно начну с распознавания речи, т.к. это более близкая к повседневной жизни штука, с которой многие из нас встречались, а некоторые уже постоянно пользуются.
Читать дальше →
Всего голосов 18: ↑16 и ↓2 +14
Просмотры 36K
Комментарии 15

Риски использования распознавания речи от Google в своих бизнес проектах

Блог компании Центр речевых технологий (ЦРТ) Asterisk *Разработка систем связи *
Всем привет.

По мотивам статьи «Самообслуживание клиентов с помощью google ASR»
Хотел бы вам рассказать, какие есть риски для бизнеса при использовании распознавания речи от Google для своего call-центра.

Я представляю компанию «Центр речевых технологий» (ЦРТ) и мы занимаемся технологиями синтеза и распознавания русской речи и в первую очередь, как раз делаем решения по автоматизации call-центров.
Речевыми технологиями мы занимаемся уже на протяжении 20 лет. Сейчас над этим трудится порядка 70-80 ученых и программистов, плюс нам помогают речевые кафедры ведущих ВУЗов страны, плюс у нас есть собственная кафедра речевых технологий в ИТМО — растим своих молодых ученых.

И в этом посте я проведу параллели между распознаванием речи от ЦРТ и Google, относительно применения его в корпоративном секторе (call — центры).
Читать дальше →
Всего голосов 37: ↑18 и ↓19 -1
Просмотры 21K
Комментарии 15

Речевые технологии. Голосовая биометрия для чайников на примере работы в контактном центре

Блог компании Центр речевых технологий (ЦРТ) Разработка систем связи *
Туториал
image

Всем привет.
Недавно я написал вот такую статью про распознавание слитной речи, а сейчас хотел бы написать про голосовую биометрию, т.е. подтверждение личности человека по голосу и узнавание человека по голосу.
Читать дальше →
Всего голосов 8: ↑6 и ↓2 +4
Просмотры 24K
Комментарии 7

«Родная речь-2014» — шанс заявить о себе для молодых разработчиков

Блог компании Центр речевых технологий (ЦРТ)
Победители получат ценные призы и работу мечты!


image

Весной 2014 года пройдет второй открытый конкурс по разработке речевых систем для молодых ученых – «Родная речь». Победитель получит 120 000 рублей или участие в международной летней школе по речевым технологиям, серебряный призер – iPhone 5, а финалист, занявший третье место, – iPad 4.

График проведения конкурса:

15 января 2014 — начало регистрации участников
15 февраля 2014 —открытие доступа к конкурсной базе, начало работы
1-3 апреля 2014 — полуфинал
26-28 апреля — финал, который состоится в Санкт-Петербурге

Ознакомиться с условиями участия и получить всю необходимую информацию можно на странице конкурса на сайте ЦРТ spch.pro/x1fm2
Обязательным условием участия является вступление в группу ЦРТ ВКонтакте vk.com/speechpro

Для того чтобы принять участие, достаточно иметь навыки программирования, живое, творческое мышление и желание решать интересные, нестандартные задачи на стыке нескольких дисциплин, таких, как динамическое программирование, статистическое моделирование и др.

Организатор «Родной речи» – компания «Центр речевых технологий», абсолютный лидер российского и значимый игрок международного рынка речевых технологий и мультимодальной биометрии, ведущий разработчик речевых систем в России. Всем трем лауреатам конкурса будет предложено присоединиться к команде ЦРТ.

Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 2.5K
Комментарии 0

Станиславский для робота. Как использовать возможности эмоционального синтеза

Блог компании Центр речевых технологий (ЦРТ) Звук
Поздравляем всех с наступающими праздниками! Этот пост будет не столько технический, сколько сказочно-новогодний. По традиции, накануне Нового года мы придумываем подарки для наших партнеров и клиентов. Но также нам хочется сделать что-то приятное для более широкой аудитории. Самый лучший подарок – сделанный своими руками. А дарить подарки приятнее всего детям. Поэтому в этом году мы придумали проект «Робот читает сказки детям». Мы взяли 12 новогодних сказок, озвучили их с помощью синтеза речи и разместили на нашем портале Voice Fabric.

image

Как известно, Центр речевых технологий создал несколько голосов TTS (text-to-speech), которые используются в системах IVR контакт-центров, системах голосового оповещения, мобильных приложениях — «Radio RSS» и «Читатель».

Как подбирались голоса

Всего в команде «голосовых роботов» на данный момент 5 женских и 2 мужских голоса. У каждого голоса свое имя. Преобладание женских голосов объясняется тем, что в информационных системах именно женские голоса комфортнее для восприятия пользователями.
Индивидуальность каждого голоса обеспечивается несколькими факторами. Во-первых, тембр голоса сохраняется при студийной записи диктора, голос которого используется в качестве прототипа. Во-вторых, мы сохраняем интонационные особенности голоса диктора, применяя статистически рассчитанную модель голоса, которая создается именно по студийным фонограммам этого диктора.В итоге, для озвучивания сказок мы отобрали 6 голосов: Владимира, Анну, Юлию, Марию, Викторию и Александра.Выбирая сказки, мы руководствовались, конечно, новогодне-рождественской темой, отсутствием копирайтов, а также личными предпочтениями. Коллекция получилась пестрая: это и известные русские народные сказки («Два Мороза», «Лисичка-сестричка», «Снегурочка»), и европейская классика братьев Гримм и Г.Х. Андерсена. Также мы нашли менее известные у нас, но очаровательные рождественские сказки «Портной из Глостера» и «Мышонок Твикли». И, конечно, не могли обойти стороной замечательную притчу О. Генри «Дары волхвов», которая не совсем сказка, но очень трогательная история о настоящей любви.



Читать дальше →
Всего голосов 6: ↑4 и ↓2 +2
Просмотры 5.7K
Комментарии 1

Конкурс «Родная речь-2014»: на старт, внимание, марш!

Блог компании Центр речевых технологий (ЦРТ) Алгоритмы *
Родная речь 2014
Всем привет!

15 января открылась регистрация участников ежегодного конкурса разработчиков – «Родная речь-2014». Победитель получит 120 000 рублей, серебряный призер – iPhone 5, а финалист, занявший третье место, – iPad 4.

Заполнить заявку самостоятельно или от имени команды можно на сайте деловой сети Marketing to Innovation, Education, Science, оказывающей конкурсу техническую поддержку.

Процедура регистрации подробно описана в инструкции.
Читать дальше →
Всего голосов 9: ↑4 и ↓5 -1
Просмотры 3.3K
Комментарии 9

Распознай это! Конкурс «Родная речь» 2014

Блог компании Центр речевых технологий (ЦРТ) Алгоритмы *

Всем привет!

В прошлом посте мы анонсировали конкурс разработчиков «Родная речь-2014», участники которого должны будут создать работоспособный алгоритм преобразования распознанной последовательности фонем в текст, соответствующий нормам русского языка.
Регистрация уже началась, и чтобы помочь сомневающимся определиться с решением: принимать ли участие, я попробую объяснить, что же нужно сделать в рамках конкурса.
Читать дальше →
Всего голосов 12: ↑8 и ↓4 +4
Просмотры 7.7K
Комментарии 1

Конкурс разработчиков «Родная речь» — начинаем обратный отсчет!

Блог компании Центр речевых технологий (ЦРТ) Алгоритмы *
Важная информация для всех участников.

15 февраля в общий доступ выложена конкурсная база, с которой вам предстоит работать. Пароль для скачивания: SKT38G9MC28

image

Задание нужно выполнить до конца марта. Дедлайн отправки готового задания организаторам – 2 апреля. 3 апреля состоится полуфинал.

Напоминаем, что участники должны будут создать работоспособный алгоритм преобразования распознанной последовательности фонем в текст, соответствующий нормам русского языка. Подробнее о задаче в одном из предыдущих постов.
Читать дальше →
Всего голосов 10: ↑4 и ↓6 -2
Просмотры 2.2K
Комментарии 3
1