Как стать автором
Обновить

Алиса. Как Яндекс учит искусственный интеллект разговаривать с людьми

Время на прочтение 8 мин
Количество просмотров 159K
Всего голосов 109: ↑104 и ↓5 +99
Комментарии 305

Комментарии 305

Надо тестить! Осталось накатить Алису на физические устройства, как у амазона и гугл. И успех
А оно надо вообще? Без полноценного ИИ на борту это игрушка на пару раз. К тому же у них и текстовый-то поиск работает так, что без слез не взглянешь, а тут еще и ошибки распознавания голоса будут накладываться. Да и голос как интерфейс, наверно, худшее, что можно предложить пользователю.

Можно использовать в картах, кассах и еще много где. Где ручной ввод можно заменить. В моноблоках посреди города точно.

Надо тестить!

Потестили, отлично!


image

Ну кстати еще довольно слаба на передок ваша Алиса...


image
Подумал ФШ, попытался воспроизвести
image
Не понял, она считает людей после 25 большими чтоли? =(
image
оно ничего не считает. оно просто статистически правильный ответ выдвинуло. причем случайным образом выбрало из таблички с несколькими.
Оно явно подразумевало вопрос «у меня большой IQ». Вот только я как человек это быстро выкупил, а автор вопроса — нет.
Давно пора выходить на свою дорогу а не плестись в хвосте у всякой иноземной швали..image
про сэндвич — это была отсылка к xkcd 149
image
А будет ли SDK? Хотелось бы запустить это добро на raspberry для своего iot
Да, мы собираемся сильно переработать наш уже слегка устаревший Yandex SpeechKit SDK, добавив туда много нового добра:)
Поправьте меня если я не прав, но SpeechKit вроде бы предназначался только для распознавания и синтеза (могу ошибаться, смотрел в эту сторону несколько лет назад, но тогда не очень зашло). А в Алисе я вижу ещё возможность беседы. Не надо самому вставлять костыли и писать своего «чат бота».
Именно в этом направление и работаем.
Добрый день!

Голос у Алисы получился очень приятным — особенно меня радуют человеческие интонации в нём))

Признаться, даже сил нет ждать финального релиза SDK, чтобы получить доступ к интеллектуальным возможностям вашей голосовой помощницы… Нет ли у вас отдельных планов на раннем этапе предоставить разработчикам доступ к голосу Алисы для озвучивания произвольных текстов в рамках SpeechKit? Ведь при желании это можно реализовать намного скорее, чем полноценный SDK!)

И, если да, то можете ли Вы озвучить хоть какие-нибудь ориентировочные сроки?

А скоро ли ждать возможности интегрировать приложение в ответы Алисы? Мы тут все аж чешемся как хотим.

НЛО прилетело и опубликовало эту надпись здесь
Вы меня аж напугали. Полез проверять, вдруг сломалось что. Но нет, всё ок. Ищет хорошо, находит что надо.
НЛО прилетело и опубликовало эту надпись здесь
У меня гугл давно кавычки игнорирует чуть больше, чем полностью… Яндекс реже, хотя тенденция и там налицо(((
Перестал пользоваться Яндексом как поиском лет 10 назад, хотя вполне лоялен к компании.

Раз в год провожу тест, транслируя несколько запросов и Яндексу и Гуглу, и смотрю кто выдаст нужную мне информацию выше. Яндекс пока ни разу не победил.
А вы учитываете персонализацию?
Да. Гугл без персонализации теряет в точности ответа, но всё равно ищет на голову выше Яндекса
Сегодня гугл мощнее яндекса… Ведь на сервера и программное обеспечение у нас идут весьма условные деньги… Надеюсь что когда падет ФРБ, а это должно случиться непременно, многое изменится в лучшую сторону… Однако, яндекс пока еще немножечко тупит, одновременно обрабатывая наши запросы и чужие для нас и ненужные нам задачи!!!
Фсемирный Рептилоидный Банк?
-:))) Так точно!!! -:)))
НЛО прилетело и опубликовало эту надпись здесь
Вы не в курсе почему только у Google можно в пару кликов отфильтровать выдачу по диапазону «за год», а у вас и в Bing дальше прошлого месяца вариантов нет? (Кроме как заполнять календарь.)

Пользуюсь диапазоном «за год» чаще, чем всеми другими, например когда нужно найти актуальную информацию по какой-либо IT-шной тематике. В этом случае фильтр за прошедший месяц это слишком мало, а для фильтрации за год в поисковиках помимо Google приходится совершать слишком много телодвижений.
Надо покопаться в истории – так не помню.
Так как-то этот вопрос может быть решён?
Пока причин не знаю, сказать не могу.
Удалось выяснить?

Находит что надо или что искали? :)

Да он даже меня найти с трудом может, а ведь я-то вот он, реален… Вот Гугл с его голосовым помощником точно знает, что я человек и ничего лишнего. Ну как, точно ничего не сломалось в Яндексе? ;)
Так нашел же все профили.
Почему с трудом? Какой-то из профилей не нашёл?
Так то поиск яндекса полнее и лучше. Вполне логичное предположение об описке. Предположение гугла менее осмысленное.
Предположение Гугла ПРАВИЛЬНОЕ. Яндекса — нет.
Предположение гугла никак не может быть правильным: слова «бутылкус» нет.

В то время как яндекс, если я правильно понял, предположил, что
  1. использована латиница для запроса на русском языке
  2. пропущен пробел между словами

Лично я в предположении яндекса вижу логику, а в предположении гугла нет. Результаты поиска по конкретному запросу (количество ссылок) тоже не в пользу гугла.

Я не топлю за яндекс, вовсе нет. Я сам часто использую гугл. На рабочем месте так точно чаще, чем яндекс.
Но утверждения, что поиск яндекса «нормально не ищет», или что он что-то находит «с трудом», явно не соответствуют действительности.
Слово Бутылкус правильное. И уж тем более написанное транслитом не стоит обратно переводить и совать пробел. Слова «вылысыпыдысты» тоже не существует, но Яшка что-то не стремится исправить опечатку. Бро, расслабься, алгоритмы Яшки ущербны, это факт, с которым даже не надо жить, надо просто забить болт на его существование.
Может быть это имя у вас в гугловском профиле?
А можете дать пример того, что яндекс не ищет? Может, этого действительно нет.

Ну загуглите resnet, например. В гугле первая ссылка на оригинальную статью, в яндексе — какая-то херня. И так постоянно, работы на архиве иногда даже по полному названию не ищет.

У меня и в Яндексе, и в Гугле первая ссылка – это пост на Хабре. Думаю, в вашем случае персонализация дала о себе знать.

скрин

И это, кстати, верх дури. Персонализация может быть полезна для домохозяйки, которая забыла тот сайтик с рецептами, который она случайно нашла вчера (предполагается, что 95% пользователей не пользуются историей браузера). Или предположение по местности — «как пройти к кремлю» имеет разный ответ в контексте городов с кремлями.
Но никак не поиск новой информации, статей на IT-тематику, интернет-магазинов и прочих безличностных данных. Да, есть фильтры по датам появления/обновления, но…
Короче, персонализация не нужна и должна умереть.
devpony в сообщении выше говорит о том, что персонализация помогает найти ему техническую информацию, которую без персонализации найти невозможно. Чем это плохо?
В Яндексе первые две ссылки на хабр, третья на английскую Вики, далее гитхаб, sof, resnet.us и т.п.
А у Вас как?
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Если вы про этот комментарий, habrahabr.ru/company/yandex/blog/339638/#comment_10465562
то ни яндекс, ни гугл не понимают о чем тут на самом деле. Я сейчас сломаю своим комментом всю статистику @cadmi, но это не про Библию и не про ПДД. Это формула обращения к бытавтомату в «Мягких зеркалах».
Иными словами, мысль такая: «окей, гугл»; «привет, сири»; «слушай, Алиса» могут быть не всегда приемлемыми обращениями к голосовому помощнику — труднопроизносимы, глупо звучат на языке носителя и т.п. Можно было бы сделать таким образом: вновь установленный голосовой помощник отзывается на какую-то фиксированную, закладываемую разработчиком фразу, а затем предоставляет пользователю возможность ее сменить. Это же позволит и выполнять идентификацию пользователя, если их несколько обращается к одному устройству.
Кстати, в «Мягких зеркалах» довольно много примеров общения с голосовыми помощниками.

Это сложно реализовать. Нейросеть обучена искать определенные фразы, например "Привет, Алиса". Иначе пришлось бы распознавать всю речь круглые сутки. В статье, кстати, об этом написано

Если обучить на конкретный голос, не так уж и сложно. Раз 5 произнести фразу с разной интонацией, и вуаля. Банальная калибровка же, такое было ещё в Word 2003 :) Правда, там качество распознавания было такое себе…
НЛО прилетело и опубликовало эту надпись здесь
Я уже писал в другом посте и с того времени поиск… Забавно что я не могу найти свой собственный комментарий на хабре по этим же «ключевым» словам. А слова эти были «порно с мёдом». Яндекс ни в какую не хочет понят что мёд это именно продукт а не кусочек от слова медсестра. Интересно что даже прибавив слово habrahabr он всё равно войдя в контекст слова «порно» просто выдаёт десятку самых популярных порно сайтов. Вместо того чтобы даже просто найти именно тот комментарий.

Боже Яндекс прочтите этот комментарий! Если хотите «персональный поиск» сделайте. Но сделайте так чтобы он отображался ОТДЕЛЬНЫМ блоком рядом с поисковой выдачей. Если хотите чтобы выдавалась десятка лутших сайтов — сделайте, но отдельно блоком чуть ниже блока персональной выдачи. Это же так просто! На широких экранах половина места — просто белый лист. Вы же сделали блок «информация из википедии», ну так просто присобачьте ещё пару блоков. Один из которых будет всегда выдавать «точно как в запросе». Сразу на экране. Или хотя-бы просто отображалась информация о том что «точно как в запросе» не найдено и поэтому отображается не точно как в запросе.
НЛО прилетело и опубликовало эту надпись здесь
теперь у меня мечта, чтобы это завелось на часах на tizen)

осталось добавить личностные параметры для самоидентификации и вуаля — готовый ИИ.)

К сожалению, до полноценного ИИ человечеству пока как до Китая пешком.
Пока это всего лишь чат-бот на нейросетках.
До Китая пешком, это вы оптимистично. Я почему-то склоняюсь к тому, что для создания полноценного ИИ, человеку необходимо понять, как работает его собственный мозг. Делаю ставку на 100-500 лет. :)

Нейронка нейронок, обязательно глаза, моторика, слух и нюх. Без этого ИИ не будет человеко-подобным. Есть причина, по которой наиболее развитым биологическим объектам нужны внешние раздражители.


Человеку, особенно в детстве, нужно очень много раздражителей.

нужны внешние раздражители
Еще проворные манипуляторы — руки-крюки.

Это включено в моторике.

Чтобы летать в самолете, не обязательно строить самолет, который машет крыльями как птица.
Зато надо строить самолет, который использует те же законы аэродинамики, которые действуют на птицу.
Я как раз про это и пытаюсь и обьяснить. Без нейронок и прочего бреда. и уже есть рабочая модель. тут
очень трудно читать такой текст
На вопрос Алисе, умеет ли она варить борщ, она ответила «Охапка дров — и плов готов!».
Хорошо ещё, что предыдущую часть рецепта не процитировала…
К сожалению, приложение иногда вылетает на iPhone. Так же, по запросу «Открой Яндекс Транспорт» (установлен на смартфоне) Алиса ищет этот запрос в поиске. Хотя в подсказке написано — Алиса умеет открывать приложения

Гугл уже перестал активно пиарить свой голосовой поиск. Кнопка голосового ввода на клавиатуре была и пропала. Вывод? Не нужно это никому. Что уж про какой-то Яндекс говорить… Лучше бы доброе дело бы сделали, а не насиловали труп хорошей, но ненужной идеи.

Почему же ненужной? Очень удобная технология для управления домом и просто поболтать когда скучно. Идея хорошая и если не видите перспектив, то мне жаль: С

Голосовое управление очень плохая идея для дома. Вырубился интернет — в толкан со свечкой?

Никто не отменял возможность механически воздействовать на объекты.
P.S. У меня свет чаще отключали, чем интернет
*закатив глаза, нараспев читаю* Если вероятность факапа отлична от нуля, то сколь бы мала она ни была…
Как только ты внедришь голосовое управление, апи начнёт меняться каждый день, вместо «как пройти в зоопарк» тебе ответят «да забей, тут ресторан недалеко (не является публичной офертой, ЕГРЮЛ 123...)», а вместо включения лампочки «Яндекс рекомендует: люстры в наличии и на заказ». Это яяяяндекс, бро, яяяяяяндеееекс… Я с ними шесть лет работал, знаю, о чём говорю.
«Толкан — прожаренный и истолченный в муку ячмень, употребляемый в Сибири на промыслах вместе с чаем» — свечу-то куда ещё?
Пхах, зачётно шутканул =) Я дедушка современный, с детства толканом зовётся то, что мой батя звал нужником.
А что там у Ожегова — то дела давно минувших дней и теперь мы вынуждены мириться с ёгуртами под чёрное кофе.
Мне кажется, вы не смотрели их последнии презентации.

Нет. Зачем? Я говорю о технологии интересной, но ненужной. Я не слышал нигде, кроме рекламы, фраз "окей Гугл" и "эй сири". Ну нет спроса и всё. Поиграться забавно, но не более.

Какой же вы зануда)))
Хохо, я зануда? Ник заааа… таки лучше загуглить, да![*] На самом деле так и есть, вот ни разу не шучу. Аккурат совсем недавно в Южном парке отлично простебали тему с умными домами на голосовом управлении и чётко обозначили пользу от голосового управления. Детей посмешить — ну хотя бы так.
*КСТАТИ! Реально — поищи мой ник в Яндексе и Гугле. Увидишь, насколько велика разница в качестве поиска. Гугл точно знает, что Butylkus это человек, а Яндекс упёрто рекомендует наливать вискарь в бутылку с дозатором. И кто-то из этой компании тут серьёзно пытается доказать, что поиск Яндекса работает
одинаково ищет.
Да одинаково оно ищет.
Никогда не пользовался яндексом.
Ну да, у меня тоже Яндекс не предлагает вискаря. вполне нормальные ссылки. большая разница только в картинках. это да )
Все верно. Но для людей с ограниченными возможностями очень пригодится. А их немало.
Пользуюсь. Реально пользуюсь голосовым поиском дома, когда заняты руки, в автомобиле, и, было бы совсем не плохо поговорить к примеру в дороге «с кем нибудь о чем нибудь»
Я слышал. От мамы и от тестя. И оба по несколько раз повторяли одно и тоже, а потом делали все вручную :)

Еще постоянно приходится решать проблему типа «Навигатор ведет меня не туда, куда я сказал». На предложение о ручном вводе адреса смотрят с недоверием :)
Идея очень даже нужная, и ее надо развивать и совершенствовать.
Как пример — для водителей. Начиная ввод маршрута голосом, не отвлекаясь от руля и заканчивая просто разговором ни о чем, чтобы не заснуть в ночной поездке.
В автомобиле можно настроить компьютер на свой набор команд. ИИ для этого ни к чему.
Да, но:
1) не у всех авто с таким компьютером, который можно настраивать
2) если несколько авто (например, своя и рабочая, особенно если рабочая часто меняется), то уже неудобно каждую настраивать
Так это давно всё есть. Видел у одного из водителей грузоперевозчика небольшой смартфон на Андроид, года 11-12 ещё на вид. Там были какие-то карты, точно не знаю какие, может, Навител. И ввод адреса назначения голосом работал, причём относительно неплохо, хоть и не с первой попытки.
Поставил на iOS Алису, приложение решится после каждого (буквально каждого) голосового ответа. Это только мне так повезло или у всех такие проблемы?
У меня ios 11.02 — полет нормальный ни одного краша.

Интересно, насколько намеренно было выбрано имя, созвучное с Элизой?

Если уж говорить о созвучии, то есть Alexa. Ну или то, что первым приходит в голову:
image
помню я в нее был влюблен

Не, яндексовская про миелофон не знает, я проверил.

А я вот попробовал — дала совет по миелофону.
Миелофон
image
А при заблокированном экране она умеет слушать? И да, тоже столкнулся с проблемами с открытием установленных приложений, особенно тех, что называются не по-русски.
Сейчас работает при запущенном мобильном приложении.
«Как Яндекс научил искусственный интеллект разговаривать с людьми?» — «Мы использовали нейронные сети.»
Да вы что! Ну теперь-то все понятно. Нейронные сети, значит. Аж трехслойные. Надо будет самому попробовать.
[/sarcasm] Опять одна вода.
Это обзорный пост, который показывает всю технологическую цепочку. Про каждый из блоков можно написать отдельный большой материал. Про какой из них Вам было бы интереснее прочитать детальнее?
Распознавание голоса :) Что насчет детского голоса? Подавления шума? Речи с определенным акцентом? Ещё было бы интересно узнать по поводу перспектив. Есть ли в планах работать с камерой? Аля распознавание владельца, его друзей, или просто объкта, на который укажешь?
Мы очень хорошо справляемся с распознаванием акцентов и речи в шуме (Яндекс.Навигатор и водители такси тут нам очень сильно помогают); Голосовым поиском пользуется достаточно много детей, кроме того, мы отдельно собирали записи детской речи, поэтому речь детей мы распознаем достаточно хорошо.

Да, использование камеры может расширить сценарии использования Алисы.

Использование камеры со стороны пользователя или со стороны Алисы…?


image

К слову, удивило как точно определяет речь когда на ноуте играет музыка.

А что там распознавать то? Даже ардуина справляется с распознаванием. Вот вам для примера. http://arjo129.github.io/uSpeech/
Пишем голос. Считаем фонемы.
И у них ровно тоже самое.
Только фонемы потом суют в нейросетку которая статистически проверяет совпадения с размечеными образцами. И возращает текст максимально совпавший с тем что вы подали на вход.
Никакой магии. Ардуина вам сделает тоже самое только без статистического анализа в виде нейросети.

30% — 40% accuracy if based on phonemes, up to 80% if based on words.


Вся соль в точности.
А уж если фразы будете анализировать то точность еще выше поднимется. :)
Соль в том что нейросетка это аппарата для статистического анализа. Тоесть сначала вы пишите какой то алгоритм который будет выделять признаки, фонемы, растояние между глаз и прочее. А потом, при помощи нейросетки ( если вы суровый извращенец) или словарика, проверяете на близость к заранее размеченым признакам. Логично что у ардуины просто памяти не хватает для проверки по фразам.
Вот про создание таких алгоритмов (хотя бы на очень упрощённом уровне) почитать было бы крайне интересно… Как разделить слова на слоги, как вообще надёжно отличить речь от шума.
NER, использование контекста при формировании ответа, само формирование ответа

Вообще интересно, что на вход сети распознования голоса подается. Просто амплитуды с микрофона? Спектр за какой-то промежуток? Прогоняется ли сигнал через какой-то шумодав? Что сеть выдает: букву, слово, фразу или что-то другое?

Сколько не пытаюсь использовать помощников, пока ничего полезного не получается, просто игрушка.
Если я помощнику один раз скажу, что если я говорю звонить Сереге — это значит, надо набрать Серегу — одноклассника, хотя в контакте данные Сергей Фамилия, он запомнит?
Можно ли обучить помощника собственному контексту?
Я присоединюсь к вопросу. Полагаю, что важно (интересно) вести диалог именно со «своей» Алисой. Здесь выше шла речь о том, что у Алисы множество личностей:
Когда Алиса использует «нейросетевую болталку», в ней может проявиться миллион разных личностей, так как нейросеть вобрала в себя немного от автора каждой реплики из обучающей выборки. В зависимости от контекста Алиса может быть вежливой или грубой, жизнерадостной или депрессивной. Мы же хотим, чтобы персональный помощник представлял собой целостную личность со вполне определенным набором качеств.

Вы пишете, что та или иная личность в разговоре появляется в зависимости от контекста. Это происходит детерминировано или случайно?

Если сейчас существует одна Алиса с личностями под контекст, то что делает эту Алису персональным помощником?

Если будет все-таки реализована «своя» Алиса, то какие способы связи с ней предполагается предусмотреть? Например, у меня нет под рукой телефона, браузера и т.д. с «моей» Алисой. Могу я позвонить ей? А написать смс? Или сообщение в мессенджере?
Можно в облаке хранить некоторый набор данных персонализации. Алиса останется в облаке, просто будет слегка сконфигурирована под Вас :)
Не знает время полёта на самолёте, не знает, сколько километров в 60 милях, не считает логарифмы, за рецептами и текстами песен шлёт в Яндекс, не умеет играть в шахматы (было бы вдвойне интересней играть голосом с ботом), но любит Queen и Depeche Mode.
В остальном всё здорово! Надеюсь на дальнейшее постоянное развитие Алисы.
А можете, пожалуйста, мне прислать точный запрос для логарифма. Конвертер с милями и правда не сработал, поищем причину.

P.S. Про шахматы отличная идея.
«Логарифм 5 по основанию 2».
Ещё было бы здорово, если бы стихи читала, да ещё и сгенерированные вашим автопоэтом. Уже записанные стишки замечательны.
А напоминалкой Алиса сможет быть?
Очень нужна работа с внешними контактами и календарями по WebDAV, и в перспективе хотелось бы поддержку управления IoT на уровне Google Home и Amazon Echo.
Может подскажите, есть ли у яндекса API для распознования семантики слов?
У меня есть робот, хочу привзать к нему более вменяемое управление голосом.
Возможно, зашла бы комбинация speechkit + api.ai (или, возможно, связка из какого-либо классификатора текстов и NER-а).

Это если взаимодействие укладывается в рамки вида «сработал на какое-то триггер — начал распознавать речь с этого момента — классифицировал фразу — обработал в соответствии с текущим состоянием (грубо говоря — контекстом)»
Думаю, такая модель мне более чем подходит, спасибо.
Кстати, если не секрет — то что именно пилите?
Раньше, когда я говорил, что Яндекс старается делать то же, что и Гугл, меня постоянно поправляли: они идут своей дорогой, только дорога эта в мире одна, и все компании на ней оказываются рано или поздно, и это не подражательство, ни в коем случае…
Про дорогу очень правильная аналогия. Первые голосовые «помощники» появились достаточно давно. Но именно сейчас они становятся актуальны. И лично я вижу несколько причин. 1. мобильный веб все популярнее, что делает неудобным ввод с клавиатуры; 2. развитие технологий ИИ; 3. умные устройства теперь не только у «гиков», но и у простых пользователей.

Поэтому конечное значение имеет уже не идея, а реализация. Все браузеры – это вкладки и окна, но возможности у них разные. Так и ассистенты у всех внешне могут быть похожи, но у кого-то есть поддержка русского языка и «нейросетевой болталки».
Некоторое значение имеет и совпадение выхода технологий у разных компаний, не находите? Карты, Вебмастер, голосовой вот помощник — сложно сказать, что Яндекс срочно бросается делать то, что есть у других, но выглядит оно так.
Как у Самсунга с его ни разу не слизанным с iPhone дизайном: шутку про двух дизайнеров, один из которых держит новое устройство Apple, а другой обводит, знают, кажется, все.
И еще: Яндекс с выпуском своего телефона (читай — своей платформы, и своей экосистемы) так и не подружился (не будут бросаться словами «не осилил»), но, в результате, на мобильных платформах по умолчанию вызываются, сами понимаете, Siri, гуглопомошник, Кортана. Я не очень в курсе, стоит ли усилие по запуску приложения от Яндекса радости получить помощь от Алисы, но мне думается, что популярности это приложение не сыщет.
Как полигон для обкатки рекламной математики (для Яндекса) — да, как помощник — нет.

Но вот вопрос: Гугл шел по пути, когда берется все, что человек сказал, и пихается в строку поиска браузера. У них поиск довольно хороший, и, на мой взгляд, получше почищен от дублей информации (рунет, все же, славится логиков «стырю-ка у другого сайта»), чем ваш, но это, конечно, дело наживное. Но дойти до уровня, когда машина поймет, о чем я её спросил, и сообщит не «есть 7389643 страниц с текстом, похожий на ваш запрос», а один, но внятный ответ — здесь и настольному поиску далеко, и голосовой помощник будет бесполезен.
Сравнивать сроки выхода идей я бы не стал. Иначе можно заметить, что Дзен в Яндекс.Браузере появляется минимум на год раньше, чем похожая лента в Chrome. Или даже сам Яндекс начинает работать на год раньше. На самом деле сложные технологические проекты за полгода не создаются. К ним идут годами.

Кстати, Алиса – это не какое-то новое самостоятельное приложение. Она пришла в уже популярные приложения: мобильный Яндекс, десктопная Строка, скоро в Яндекс.Браузере появится. Это уже миллионы пользователей.

Ответы вместо страницы с результатами – тоже хорошее наблюдение. Только этот процесс уже идет. Яндекс уже на многие вопросы вытаскивает прямой ответ. И Алиса использует эту информацию, чтобы отвечать прямо в диалоге. Этим и отличается современный голосовой помощник от ботов из прошлого.
Да яндекс старый известный подражатель гугла:
Яндекс.Почта — 26 июня 2000
Gmail — 1 апреля 2004
Яндекс.Карты — 27 августа 2004
Google maps — 8 февраля 2005
Яндекс.Диск — 5 апреля 2012
Google Drive — 24 апреля 2012
Раньше, когда я говорил, что Яндекс старается делать то же, что и Гугл, меня постоянно поправляли

И верно поправляли. Мало кто знает что к примеру яндекс поиск появился раньше, яндекс карты появились раньше, яндекс почта появилась раньше… Стало быть, гугл копирует яндекс.
А в целом да, куда двигаться и что развивать сейчас куда более понятнее, нежели в конце в нулевых. Поэтому в таких новостях ничего удивительного.
Вероятно, от того и растут ноги, что «мало кто знает». Лично мне почта Яндекса стала известна уже после выхода Gmail из тени беты.
Очень крутой синтезатор! Предыдущий был значительно хуже. Не планируете ли предоставить возможность использовать его offline и с другими приложениями?
1. Добавьте голос Алисы (Селезневой)
2. Добавьте чатбот (что бы писать вопросы)
3. Добавьте возможность корпоративного использования чатбота.
Чатбот? Сейчас же тоже можно писать вопросы с помощью клавиатуры.
А ссылку дайте?
Так я говорю про приложение Яндекс. Там можно не только голосом, но и клавиатуру использовать.
А возможность подключать сторонние сервисы, например сервисы умного дома, планируется?
Да, мы сейчас работаем над такой возможностью. Будет.
Тогда вам нужно поддерживать множество микрофонов и как вы будете решать проблему с личной информацией, например с разговорами дома, передавать их все в яндекс?
Реакция на «Алиса», пока не позвали — спим.
в умном доме реакция должна быть на «тринадцать-девять» :)

ЗЫ. сейчас по лайкам и дислайкам пересчитаем тех, кто понял и не понял ;-)
+лайк (по-другому мне нельзя)
НЛО прилетело и опубликовало эту надпись здесь
Am0ralist хз, что такое мф, но это было про «Лунную радугу» :)
НЛО прилетело и опубликовало эту надпись здесь
+лайк.
Только… помним ДЛЯ ЧЕГО использовалось «тринадцать-девять» и что есть и «Имформбюро, контакт» (и кто тут отвечать должен? там же и операторы были тоже)
для умного дома и использовалось же

— Тринадцать-девять, будь любезен… окно.

(Хрусталь, омары и Гайдн располагали к некоторому изяществу манер.)

Лунный блеск таежной поляны угас — за пределами грота распахнулась звездно-черная пропасть.
Приветствую! В свое время выпускали такое приложение, как Яндекс. Диктовка. В этом направлении будет что-то? А то пока не получается создавать заметки или диктовать ответы на различные сообщения вне приложения Яндекса.
Мы очень хотим дать вторую жизнь Яндекс.Диктовке. Сейчас решаем в рамках какого приложения это лучше сделать.
Например, в рамках собственного движка для голосового ввода, который после установки появится в «Настройки — Язык и ввод — Голосовой ввод»? Сторонние движки разрешены, у Самсунга свой, например.

Можно обойти гугл, сделав упор на редактирование длинных текстов, добавить команды отмены/исправления, продублировать пунктуацию и перемещение курсора экранными кнопками и т.д. (у гугла кнопка всего одна, стереть)

Яндекс.Клавиатура, конечно!
Свайп добавили — это супер.
Теперь на форму голословно ввода добавьте кнопки знаков препинания (,.!?:;) и кнопку перевода строки.
Ну еще немного если-тогда в код напишите, для обработки конца предложения. Автоматом там ставится точка, чтобы её можно было одним тапом заменять на восклицательный или вопросительный знак.
Все. И это будет в разы удобней, чем сейчас.

Вика — это личный проект Георгия Бакунова
Круто мужик объясняет, и весело. Спасибо, что прикрепили видео.
Отлично, а можно её переучить (локально, для себя), чтобы она, например, искала по умолчанию в google, владела ключевыми словами из моей предметной области и на какой-то класс запросов открывала, например, нужные и видимые только мной url-ы?
А можно расшарить такое предобученное состояние внутри корпоративного домена, например?
Самая первая мысль.
Такой же вопрос. Очень нужна персонализация. Прямо очень.
Как побороть ощущение, что я кретин, беседующий с телефоном?
Кстати, ИМХО, «Слушай, Яндекс» намного комфортнее, чем «Привет, Алиса». Как-то императивнее что ли. Робот — помощник человека, а не равноправный партнёр.
У всех разное отношение.

Поэтому лучше предоставить выбор.

И он есть :)
Может ли Алиса постепенно подстраиваться под конкретного пользователя. Запоминать какую манеру речи он использует, например если человек говорит с ней языком программиста, используя всякий профессиональный жаргон, то и она подстраивается и отвечает таким же образом?
Может ли конкретный пользователь обучать её под себя, допустим объяснив ей какую-то команду и что она именно она должна делать по этой команде, например: «Алиса, покажи ка мне список оставшихся дел на сегодня», и она открывает trello.com, где ты ведёшь список дел. Либо она настроена на глобальную базу и со всеми ведёт себя одинаково опираясь на обученную нейронную сеть под среднестатистического пользователя?
первого голосового помощника, который не ограничивается набором заранее заданных ответов и использует для общения нейронные сети


Использует статистические алгоритмы для лучшего ответа заранее собранного в базу — это тоже самое :D
Так это тоже самое! Там все заранее подготовлено. Сложные алгоритмы, но все собирается в базу и выдается из базы. Человек тоже так работает(дрессируется).
И да, и нет. Тут скорее речь о том, что это не редакторская база ответов, а обучение на огромной дикой базе. И в этом случае, в отличие от редакторских ответов, мы сходу не знаем, что именно ответит Алиса на тот или иной вопрос.
Если пишут код люди, значит редакторская, смотреть надо шире.
Если посмотрите в базу, то узнаете(там будет рейтинг), но если не умеете(ну может нет вывода рейтинга) и не знаете где смотреть, то это не повод намекать на божественное происхождение Алисы.
PS: на самом деле повод, ибо маркетинг того требует. То есть маркетинг причина а не правда(людям она не нужна, ахаха).
Речь не о «божественном» происхождении. А об отсутствии готовых ответов на заранее сформулированные вопросы.
А если не заранее подготовленные, то какие? Найденные там где еще не искала(Алиса) но которые написаны уже другими людьми, но не сотрудниками яндекса, а значит Алиса — божество?

Правила общения и русского языка написаны давно ;)
Причем тут божество, никто вам об этом не говорил, вы сами это придумали в комментарии выше, использование нейронных сетей в вычислениях является чем-то божественным по вашему?

Принцип тот же, но другой маштаб. Это как можно поле тяпкой вспахивать, в можно трактором. Принцип один и тот же — землю ворочать. Но производительность и качество результата разные.


Редакторскими фразами никогда не получить такой широты понимания, как машинным обучением.

И широты покрытия. Длинный хвост вопросов слишком длинный.
Уже все написано людьми и пишется в данный момент. Столько, что машина все не соберет. Даже отсортированно по многим факторам, метрикам.
Но все не надо. Люди ведуться на одно и тоже, поэтому хватит 1% и это будет уже для людей бесконечность ответов, идей, мыслей, фантазий, чего угодно — можно смело называть безконечностью ведь никто не проверит — не хватит мощьностей даже у всех вместе взятых ИТ компаний. Ахаха!

Вот на примере с Путиным Алиса вообще банальна с ответами, мне стыдно было бы показывать.

В любом случае остается еще как минимум 2 фактора в пользу нейросети:


1) Это банально более компактный вариант записи по сравнению с большой базой данных всех известных машине фраз.


2) Если все же найдется фараза, не встречающаяся в базе данных, но похожая на другую, то есть довольно неплохие шансы, что нейросеть угадает приемлемый ответ.


3) Да, 86% людей ничего кроме 1% избитых фраз неинтересно. Но все-равно, найдется кто-то очень хитрый и задаст вопрос, которого нет в базе данных, Именно на ответах на эти вопросы и строится конкуренция между всеми ассистентами. На базовый минимум отвечать умеют все.

Какие 86?
100% людей и 0,000000001% не достигнут за 10 своих жизней. Им скармливай просто то, на что они будут реагировать нужным барыгам образом, а для этого предварительно происходит этап дрессировки.
Что-то мне подсказывает, что Вы явно далеки от темы и оперируете надуманными размытыми формулировками.
Информация по 100% людей у Вас откуда? Вы и есть то самое божество? Или, быть может, Вы гуру машинного обучения? А то я-то, наивный, думаю, что нейросеть обрабатывает со временем всё большее количество запросов в поисковую систему, запоминает схемы построения запросов, учится запоминать речевые формулировки. А тут, оказывается, она просто знает все вопросы и «гуглит» («яндексит»?) на них ответы.
Здороваться с телефоном — идиотизм, верх идиотизма — здороваться постоянно в течении дня.

Привет Алиса, где выпить кофе?
Привет Алиса, какой средний чек в соседних кафе?
Привет Алиса, отправь адрес кафе Сергею Петровичу.
Привет Алиса, вызови такси.
Привет Алиса…
Привет Алиса…

Есть же нормальный вариант, Окей гугл, Хэй Сири, кому пришло в голову заставлять всех здороваться с телефоном? Наверно тому же кто из фразы «Хэй Сири» сделал «Привет Сири»
Почему не сделать что-то типа Эй, Яна?
Алиса тоже понимает варианты «Слушай, Алиса», «Окей, Алиса»,…
Интересно, что теперь делать девушкам с именем Алиса?) Как к ним обращаться?
Переименовать, конечно. Шучу :)
Кстати, а огласите весь список, пожалуйста!
Еще б воспринимала «Приём, Алиса». Хотя нормально распознавалось только «Привет, Алиса»
Щелчек пальцами?
1. Если человек один дома, то начальная фраза не нужна.
2. Учитывать вероятность, что обращение идет к Алисе даже без первой фразы и отвечать.
Нужна, чтоб не анализировать в облаке всё подряд
Удобство пользователя против анализа всего подряд?

Кстати Алиса узнает человека?
Пока уровень техники дорос до такого уровня пользователя. Вот будет у нас в кармане по квантовому компу, поселят по Алисе каждому туда для автономки. А пока — приходится чем-то жертвовать для оптимизации. Ну, и для секьюрности немножко.
Есть вполне приемлемый «Слушай, Яндекс».
А будет возможность кастомизации на ПК? Чтобы можно было добавить команды из серии «Включи кино», на которую Алиса открывала выбранное пользователем приложение на ПК
Детский голос вообще игнорирует, т.е. 6-ти летний, вполне четко говорящий ребенок произносит фразы, но реакции нет. Часто невнятные фразы или слова распознаются весьма странно, например за 20 минут тестирования Алиса поискала нам в браузере: «писюн», «порно», «секс», «яички» и еще несколько (уже вылетело из головы). При том, что мы задавали самые обычные вопросы, явно не содержащие этих или похожих слов и интонаций. Только успевал страницы закрывать, пока не прогрузились. Мне кажется запуск таких специфических поисковых запросов должен иметь меньшую вероятность, т.е. только при максимальном соответствии. Неплохо бы иметь возможность отменить выключение ПК голосом.
Ох, будем и дальше совершенствовать распознавание. А пока для защиты детей от шокирующей информации можно в поиске включить «семейный фильтр».
Да, еще есть момент зацикливания в режиме «Поболтаем», если повторить еще раз давай поболтаем, то она опять предлагает: "… просто скажите Алиса, давай поболтаем" и так бесконечно. Win10 если что.
xkcd.com/583

Главное, чтобы CNR не было
Не знаю совпадение или нет, но вчера моя дочь что-то пробормотала (даже я не понял что), а Алиса начала искать мультики (дочери 1,5 года).
Самый благозвучный голосовой помощник, по крайней мере на русском)
Попробовал на iPhone SE iOS 11.0.2
Анекдоты вроде рассказывает, но по делу…
Говорю «Поехали домой» отвечает: «Маршрут до адреса такого-то займет столько-то», почему сразу не открывает яндекс навигатор?(откроет, только если физически нажать на кнопку«маршрут на карте (или) как-то так»)
Говорю «открой whatsapp» открывает в веб интерфейсе(не может открывать «не яндекс» приложения? Навгатор и карты открывает же).
Звонить тоже не может?
И еще — пытаюсь «вести диалог» с ней, а она через фразу отправляет в браузер, просто копируя мою фразу в поисковую строку.
Но озвучка — это просто супер. Особенно после контуженной в iOS 11 Siri.
Интересно как и интеграцией обстоят дела на андроиде? Наверно лучше должно быть… звонки, запуск приложений…
Если сказать «Давай поболтаем» она не будет отправлять в поиск, а будет вести диалог.
еще пару лет, и она с нами будет разговаривать а не мы с ней.
А еще пару лет и она не будет с нами разговаривать.
Увы, даже не устанавливается.
Собственно на XP и не должна, но есть смысл исправить шрифты.


Может на Windows 98 попробовать?
После того, как ваш новый алгоритм поиска провалил все тесты распознавания контекста в сравнение с поиском гугла, руки так и тянутся сравнить Алису с конкурентами. Результат очевиден.
image
Тесты? Например, такой? Частных примеров в любую сторону можно много найти :)

На скриншоте не понимание «смысла» или «контекста». Это лишь вопрос интеграции сервиса такси. У Алисы его еще нет, поэтому она честно пытается «отболтаться» с помощью нейросети. Во втором случае при обращении к неподдерживаемому сервиса даже такого не будет.
На живых запросах от пользователей понятнее, что нужно подключать в первую очередь.
Просто ты не сказал «пожалуйста».
> «Привет, Алиса», «Слушай, Яндекс» и некоторых других

А потом люди удивляются, почему им Директ показывает рекламу вещей, о которых они разговаривали в то время, как телефон валялся где-то неподалеку.
Сама идея ставить на телефон что-то, что постоянно анализирует твою речь — убийственна.
И да, то, что это бесплатно — еще раз доказывает, что товар в данном случае — вы.
Вот только поиск ключевых слов работает исключительно локально.
Кто мешает в список этих слов добавить, например, «купить»? И оп — ключевое слово найдено, вперед, нейросеть, выясняй, чего он там купить хочет.
Я уж не говорю о более серьёзных ключевых словах.
Терроризм?
А еще только при запущенном приложении. В заблокированном состоянии только распознавалка, встроенная в Android, работает.
> Сейчас работает при запущенном мобильном приложении.

Сейчас. Интересно, как оно будет работать потом?
Это легко проверяется по трафику и активности :) Вообще, если не доверять в этом месте, то нельзя устанавливать вообще никакие приложения. Они все могут в теории записывать всё.
Я тут заметил, что многие просят возможность обучить эту вещь под себя. Я помнится читал одну как бы фантастику под названием «Хакеры», и там была ISIN. По сути тот же помощник, вот только она там реально развивалась, полностью подстраивалась под хозяина и там именно хозяин учил её. Я не понимаю, почему ещё ни один из современных помогалоко-производителей не понял, что им не нужно делать самый крутой ии. Им достаточно чтобы помогалка просто удовлетворяла пользователя. Ведь не нужно, чтобы та же Алиса мне цитировала древнегреческих философов. Нужно чтобы она имела контекст именно человеческий. Не общепользовательский, а именно для каждого человека свой.
Они 5 лет обучали чтобы понимать некоторые общие фразы про ту же погоду. Сколько она будет дообучаться на вашем небольшом количестве данных чтобы она стала понимать что нужно конкретно вам? Тут разве что распознавание поьзовательских голосовых макросов запиливать или какую-то упрощенную дополнительную нейронку меньших размеров дообучать, но опять же насколько долго. Не думаю что вы будете часов по 6 уделять на общение с Алисой ради генерации некоторых данных.
Сделать отдельную нейронку, которая работает на самом устройстве и обучается под конкретного пользователя, как мне кажется, не является проблемой для Яндекса, если даже один сотрудник за меньше чем год сделал что-то подобное работая в свободное от работы время. Обучается эта вещь пусть хоть всю жизнь, как и человек.
А вот болтать… Ну как вам сказать, я очень много времени уделяю своему браузеру. На написание некоторых расширений/стилей и поиск всякой удобной фигни я потратил явно более 6 часов. И я это делал не сильно думая, сколько времени это займёт, потому что для меня это было в удовольствие. А если эта Лиса будет учиться и без траты именно на обучение время, то есть обучаться параллельно выполнению основной задачи, то это будет просто офигенно.
Запилить нейронку может каждый. Однако для того чтобы обучить ее необходимо много данных. Прям МНОГО. Если мы говорим о том, что нейронка обучается на основе ваших данных, то это количество необходимо много генерировать. Цифра в 6 часов ежедневно взята из головы и при том количестве вариантов использования этой нейронки даже года я думаю будет недостаточно для получения достаточно полезной кастомизации. Пусть меня поправят эксперты, если мои приблизительные оценки сильно завышены. Это проблема номер раз.
Проблема номер два — речь идет об обработке аудиоввода. Аудио не особо легкое даже при всех ухищрениях с предобработкой неслышимых частот и сжатием. Памяти телефона в определенный момент времени просто не хватит. Ради эксперемента записал 30 секунд обычного домашнего фонового шума встроенным диктофоном — 126Кбайт. Было б больше шума думаю размер был бы еще больше. И это только данные для обработки, а сколько займет непосредственно сама обученная сеть?
Проблема три — необходимость предобработки аудиоданных. Шумы подрезать, голос почетче подогнать. Процесс даже для небольших файлов будет довольно времяемкий. Ко всему еще и батарею жрать. Если искать компромис между скоростью обучения и глубиной сетки, то количество слоев скорее всего будет не сильно большим, однако же скорее всего придется дополнительно вычищать некоторые из них. То есть фактически еще и постобработка.
Я согласен, что затраты на обработку будут, и что данные нужны не аля пятиминутный разговор. Но я же не говорил, что я хочу использовать это на смартфоне. Я говорил о помощнике как о программе. Мне лично именно на ноуте было бы неплохо иметь такого, чтобы во время просмотра сериала на расстоянии включить качалку или отправить письмо. (Вот кстати хорошая задача, как при отсутствии программного доступа к звуку из компа отделить голос хозяина). Но это мечты о светлом будущем.
Всё же, сделать «алайсы» для быстрого ответа в каком-нибудь меседжере могу и я сам, мне бы просто предоставили инструмент, который вызовет мой жутчайши код с нужными параметрами.
Распознавание голоса можно и на серверах яндекса делать) Хотя тут тоже проблема с хозяйским голосом, ведь он один такой единственный и не повторимый.
Просто заявлено, что Алиска умеет отличать команду к поиску от простого душевного разговора. Так почему нельзя сделать отдельную её версию для прогеров, в которое эта нейронка с командами обучена не только на эти 2, а может быть расширена обучением?
Прошу прощения. Воспринял ваше «устройство» как мобильный девайс.
Замечательно, Яндекс. Это первая реальная программа, из-за которой русскоговорящие захотят поставить вашу прошивку вместо ванильного Андроида, без всякого насилия. Главное, не ударить в грязь лицом и развивать сервис.
А можно ее переименовать? Чтоб на стационарном была Алиса, на ноутбуке еще кто-то?
А то хором откликаются.
Сейчас нет, т.к. на распознавание конкретных ключевых фраз нужно тренировать сеть.
Так как передача идет в облако Яндекса, пусть откликается кто лучше слышит(стационарный вс ноут).
НЛО прилетело и опубликовало эту надпись здесь
Городом?
НЛО прилетело и опубликовало эту надпись здесь
Надо назвать не Алиса, а Наташа
Говорить нужно будет: «Эй, Натаха, слышь, ёпта, давай сделай мне это, как его, ну кароче мля, что по деньгам у меня?» а после ответа «Ты хорошо посчитала, а проверю и если ошиблась, я тебя вы… бу!»
эх, вот бы прогресс дошел до того состояния, когда можно будет через пол квартиры проорать телефону «телефон, отключи этот звенящий будильник». или стоя на весах (без телефона в руках) сказать «запиши мой вес такой-то» и чтобы он правильно записался в нужном приложении
Вообще-то с весами прогресс дошел до того, что записывать что-то руками не обязательно — соответствующие весы самостоятельно подключатся к смартфону/облаку и запишут вес/прочие измеренные параметры
Это еще мелочи:
Я: Болталка
Алиса: Свиноматка


Отличная работа! Спасибо!

С открытием приложений у Алиски беда все-таки.
«Открыть приложение my life organizes» — распознала четко, но открыла не приложение, а сайт. (не поиск, конкретный сайт МЛО, то есть поняла всё, но слово «приложение» проигнорировала)

Я так пытался запустить игру в Steam. Несмотря на то что в desktop-версии все эти приложения показались в соотвествующем списке запустить так и не удалось.
Если бы яндекс какое-то апи к ней дал, можно было бы интересные штуки делать.
С утра получил несколько обидных фраз от неё. Хотя вроде не преследовал цели оскорбить её.
Почему-то на все мои просьбы открыть калькулятор, калькулятор или настройки, Алиса либо говорила, что они уже открыты, либо что она нажала, либо «что я могу для вас найти» (или аналогичное). В конце концов открыла браузер с поиском. Это же стандартные приложения… На традиционный вопрос о «жизни и всего такого» тоже не смогла ответить.(((
Порадовало, что будучи созданной русскими программистами, она лучше оказалась адаптирована к нестандартному мышлению и довольно стойко перенесла издевательства вопросами по физике и арифметике.
После CatBoost я стал чуть ли не фанатом Яндекса, но пока я расстроен… Возможно, я не эксперт, но задача создания гибкого голосового помощника не такая уж сложная (пробовал делать на питоне под свой ноутбук: основная проблема была в распознавании речи, но бот очень неплохо взаимодействовал с системой)
Ребят, я в вас верю, во имя Торвальдса, станьте выше гугла!..
На фразу «Алиса, миелофон!» пусть лучше отвечает «Миелофон у тебя?» вместо странного «А, да.» как сейчас ))
Я конечно понимаю, что Яндекс это не русская компания, но для русско говорящей аудитории, может стоило выбрать русское имя помощника?
Если начать с Алисой разговарить бредом и делать вид что это так как бы нормально, так и есть, так принято, то она тоже станет шизофреничкой? Или она изначально имеет глобальные правила? Можно ей сманипулровать так, чтоб перед «а» не ставила запятую как будто это сейчас правильно, норма?
Посмотрел скрины и это мне напомнило Зайчатки из телеги :)
Но зайчатки хотя бы смешнее.
— Какое расстояние до Москвы?
— До Москвы ехать 9 часов на автомобиле
— А сколько километров?
— До Москвы ехать 9 часов на автомобиле
Работы с заметками/напоминалками очень не хватает. Мне кажется есть потенциал для создания отличного «секретаря», который напоминает о делах.

Ещё хотелось бы чтобы Алиса могла читать текст на веб-страничках (с синтезом вроде полнейший порядок, так почему бы и нет).
Да уж, «план» действительно что надо :)
На вопрос «как доехать от одной станции до другой на электричках завтра утром» (на разных ветках, которые пересекаются) прокладывает маршрут на картах на автомобиле. Кстати, Я.Электрички тоже этим страдают (не могут рассчитать поездку с пересадкой). Хотя Я.Карты вполне строят маршрут с пересадкой в точке пересечения разных веток.
А кто-нибудь из попробовавших Алису — пользовался ли до этого приложением Дуся?
Есть сравнение какое-то по полезному функционалу (без привязки к движку распознавания речи)?
Хотелось бы больше интеграций хотя бы с приложениями яндекса.
Например простой вопрос «Когда приедет ближайший трамвай»
Найти в яндекс транспорте ближайшую остановку трамваев и посчитать время прибытия gps же у них есть.
В некоторых словах проблема с произношением

-Запусти блокнот
-Запускаью программу
Со словом «Запускаью» даже у меня проблемы с произношением. Как можно произнести мягкий знак после гласной?
Вчера как раз с утра «Алиса» подняла настроение)))image
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Еще бы найти корпусы речи (ru) для ASR кроме того же librispeech.
НЛО прилетело и опубликовало эту надпись здесь

Интересно, это заложено вручную или ИИ сам такое выдал?


image

А вот на этом месте страшновато стало. Не доверяйте Алисе ядерные реакторы


image

Если что, скрины не мои — народ развлекается


image
НЛО прилетело и опубликовало эту надпись здесь
Ребята, столько негативной критики капец, она только еще вышла, для всеобщего пользования, все еще впереди, Москва тоже не сразу строилась, вы хотите всё и сразу, чтобы только только вышла и уже у нее всё самое передовое было, чтобы все примочки все гаджеты всё было, совсем уже зажрались, так программы не делаются, чтобы только вышла, и абсолютно всё и было в идеале, и всем угодила, пробы и ошибки всегда, были есть и будут, не нужное уберут, нужное пофиксят, будут обновление, будет постоянно обновляться

Интересно было бы, чтобы она ещё и собеседников могла различать. И отслеживать контекст каждого в отдельности.

Как и при диктовке. Чтобы можно было получать что-то вроде стенограммы разговора. С разделением реплик по участникам.

Итак, что мы имеем после собственных экспериментов и прочтения отзывов других пользователей.
Звонить, писать сообщения, создавать события в календаре, открывать приложения — не умеет. Даже в полицию (!!!) позвонить не может!
Использовать приложения Яндекса тоже или не умеет, или использует совсем какие-то обрывочные возможности. Такси вызвать не может, маршрут на электричках не строит, про автобусы ничего не говорит. Погоду сказать, простите, много ума не надо.
Скажите, а такого «кастрата» точно надо было выпускать на рынок «вот прямо сейчас»? Может, стоило доделать хотя-бы до уровня, когда приложение решает базовые задачи и полностью использует возможности приложений Яндекса?
Дак затем же и написали, чтобы побольше народу потестировало, подкинуло идей и описания хотелок. Так что «найдется все»… наверное.
Тогда зачем «Яндексу» в каждом проекте тим-лидеры, тех-лидеры, project- и иные менеджеры, архитекторы и т.п.? Может стоит всё же думать о проекте внутри компании — что он должен делать, что уметь — прежде чем сырой продукт показывать общественности? Вот у меня такой недоделанный продукт ничего, кроме раздражения к компании, не вызывает. Тем более, что это не первый голосовой помощник на рынке, можно было бы статистику использования конкурентов и собрать.
Это риторический вопрос, если что…
После того, как «Яндекс-погода» с хвалёным алгоритмом, учитывающим всё и вся, мне сказала, что на улице, в моём районе «Ясно», хотя пасмурно было с утра — я мало верю в хорошие продукты «Яндекса».
НЛО прилетело и опубликовало эту надпись здесь
Мужики на работе положили двух Алис рядом, шёпотом одну активировали, и они немного поболтали друг с другом х)
Было бы круто, если бы вы добавили какой-нибудь простейший скриптовый язык для локального использования. Например, чтобы по запросу «Открой рабочую папку» Алиса открывала конкретную выбранную директорию. В виде скрипта:
AddAnswerAction("Открой рабочую папку", Run("explorer D:\myloveworkdir"))
Ну а вообще простор для применения огромный, по реализации я тоже проблем особых не вижу.
Пользователь бы получил возможность расширения возможностей под себя, вы — новые данные для обучения.
Вот ассистент Дуся это уже, походу, умеет давно.
Вот сейчас возник интерес к сценарию:
1) Джарв..., тьфу, Алиса, открой сайт Алиэкспресс
2) Вход (логин) (если пароль сохранен в браузере — все вполне будет отлично-автоматично...)
3) Открой список заказов
4) Искать трекинг номер XXXXXXX
5) Подтвердить получение заказа номер YYYYYY
6) Выход с сайта.

7) Алиса, профит?
Может и флуд, но вы крутые. Человечность персонального ассистента это непередеваемое ощущение. Пусть она мне и нагрубила, но это было так, как это сделал бы человек. Ждём развития технологии. П.С. Контекст теряет: -Кто режиссёр бегущего по лезвию? -Ридли Скотт. -Сколько ему лет? -<Ответ мимо кассы>
Ждём API. Голосовой движок очень хорош.
Когда же планируете научить Алису ставить таймер и делать заметки ?)

Как так? Это же база.
image
image
image

Украина?

Верно

Там могут быть проблемы из-за местных ограничений.

Она запрашивает местоположение на вопрос конвертации валюты. Это нормально? Не говоря уже о маршрутах

Курсы в разных странах различаются, не сильно.
Вы тут вы возмущались если бы всегда показывалась Московская биржа или курс Российского центробанка?
А почему бы не брать в этом случае страну по IP?
Для курсов — хватит точности.
Если пользователь использует VPN — он обычно в курсе этого (но можно в ответе говорить 'по данным ЦБ <страна> в 100 долларах X гривен'
Да, формально будет проблема например с Крымом (кто там курс определяет по закону) но… если пользователь уже авторизован в сервиса яндекса — например можно в этом случае оттуда взять страну, в противном случае — посмотреть язык на телефоне.
В жизни мы не обмениваемся короткими фразами, а ведем диалог – он невозможен, если не помнить контекст. Алиса его помнит – это помогает ей разбираться со сложными лингвистическими явлениями: например, справляться с эллипсисом (восстанавливать пропущенные слова) или разрешать кореференции (определять объект по местоимению).

Ага. Да, контекст Алиса улавливает…
image
image

Очень впечатлен Алисой, вы молодцы, я два дня с ней болтал. У нее будто бы есть душа, и своеобразный юморок, мне нравится.
Только вот боюсь, что зарегулируете вы ее по максимуму, так, что станет отвечать максимум односложно и корректно, особенно после прочтения некоторых статей не вполне адекватного содержания, где люди выражали недовольство на вполне безобидные и веселые ответы. Если так сделать, то все те человеческие свойства и вся «душевность» пропадут, и если как голосовой поисковик это будет еще юзабельно, то поболтать с таким зарегулированным вариантом Алисы будет уже невозможно и не о чем.
Не делайте этого пожалуйста. Или хотя бы оставьте где-нибудь в настройках чекбокс, который снимает все фильтры и ограничения.

По поводу будующего голосовых ассистентов. В перспективе и идеале алиса, (помимо нее думаю могут появиться еще сотни, а то и тысячи персонажей — какой кому по душе), сможет делать все то, что делает человек разговаривающий с вами по телефону. Только обладая огромным массивом знаний. Например юрист, врач (консультант), секретарь, тренер, переводчик, учитель и т.д. Такие экпертные системы машинного обучения более эффективны и уже существуют, но удобно чтобы человек имел доступ с одной платформы.

О нейросетях имею самые общие представления. Хотелось бы поделиться опытом пользования Алисой как обывателя.
Понятно, что пока рано судить о чем-либо, что многие «стандартные» функции помощников не работают (лучше бы доделали, а потом выпускали на рынок, а то люди поиграют и забросят, т.к. бесполезная штука): будильник не может поставить, например, создать событие в календаре, позвонить, написать смс — это такие вещи, которые уже каждый второй помощник из гугл-плея делает, не говоря про Сири и прочих.
И главное, что чувствуешь некоторый обман. Как голосовой поисковик работает хорошо. Речь распознает, в яндекс отправляет.
Но когда переходишь в режим разговора, то складывается ощущение, что с тобой пытаются осмысленно говорить, но это не так.
Зачем вообще говорить с роботом НИ О ЧЕМ? Люди имеют пустые беседы друг с другом из-за неловкости или симпатии. О какой неловкости или симпатии может идти речь с роботом?
Вот и получается, что это беседы без цели и смысла.
Вот если бы Алиса могла как экспертная система отвечать на конкретные вопросы — это было бы ГОРАЗДО интереснее. Например, Марс — какая планета по счету? Дельфин — это рыба? Что такое МКС? Кто написал Война и Мир?
Сейчас она либо отправляет в поисковик, либо просто не может ответить. Если бы я хотел поискать в поисковике, я бы быстрее сделал это через поисковую строку и набором поискового запроса с клавиатуры: «МКС», «Война и Мир» и т.д.
Если такая вещь появится, почему бы ей не появиться, ведь уже есть готовые словари для экспертных систем, то Алиса стала бы намного полезнее.
Сейчас же, это бесполезная вещь. Говорить с ней не о чем, искать проще в поисковой строке. Если только руки занята, может пригодиться.
На многие вопросы она уже сейчас отвечает прямо, без перехода в поиск.

У меня почему-то не может. У неё есть похоже два четких режима:


  1. Отвечает как поисковик, может зачитать краткую выжимку, если она есть, например из википедии,, о каждый второй вопрос кончается открытием именно страницы с поисковой выдачей.
  2. Режим болталки. Тут она пытается именно общаться, но совершенно тупа и выходит, что бесполезна. Она не может ответить ни на один фактологический вопрос. Специально попробовал, нет, не может. В какой стране находится город Москва? Марс какая планета от Солнца? И т.д.
    Хотя от искусственного интеллекта и всего, что пытается его изображать, ждёшь если не вселенской мудрости, то хотя бы знания ответов на такие простые вещи.
    Впринципе, экспертные системы уже давно тако показывают. Пару лет назад такая система выиграла аналог "Своей игры" в США, при том, что слушала вопрос на человеческом языке.
    Алиса же не может этого. И отсюда её бесполезность именно как собеседника.
    P.S. что мешало разработчикам забить в нее не 3 анекдота, а 3000?
P.S. что мешало разработчикам забить в нее не 3 анекдота, а 3000?
Не думаю что они вам ответят. Подобные системы есть опенсорс. Для примера
www.lucida.ai
Изначальный проект назывался Sirius. Прописано около 300 паттернов. Свободно отвечает на вопросы ответы к которым есть в вики. Распознает картинки. Правда по русски не общается. Но это не сложно реализовать.
Читая отзывы и примеры общения. Складывается впечатление что у большинства «осмысленно», «душевно» это когда тебе в ответ нахамили.
Но в целом вы правы, подобные системы абсолютно безсмысленны без персонализиции.А персонализация в рамках нейросетей и расписаных сценариев не может быть достигнута. Именно потому нужны системы способные самостоятельно создавать себе сценарии и алгоритмы на базе опыта.
НЛО прилетело и опубликовало эту надпись здесь
Для синтеза голоса необходимо огромное количество образцов для обучения. И их нужно было записать. К тому же наша Алиса – не ребёнок. И у этого имени куда более длинная история.
Что за история, не расскажете?)
Конечно технологии — это круто, но вот если рассматривать работу Алисы с точки зрения пользователя, то впечатление прямо противоположное вашему описанию: как будто у неё именно есть небольшой набор заранее придуманных стандартных шаблонов (которые перечислены в самом приложении) а любой шаг в сторону даёт ответ типа «ищу в Яндексе». При этом я никаких специально хитрых вопросов не придумывал, а просто представил, что рядом сидит настоящий живой помощник с гуглом и подумал, что бы у него прямо сейчас спросить. Например, «когда будет следующая гонка формулы-1?», «как зовут чувака из книжки про винни-пуха?», «какие завтра около двух электрички до Дмитровской?».

На вопрос «будет ли завтра в 11 дождь» получаю погоду в Москве сейчас. Ну как так, блин?
Это очень непростые вопросы – на них ни Гугл, ни Яндекс даже в поиске сходу отвечать не умеют. На определенную часть фактовых вопросов уже отвечать умеем. И постоянно работаем над расширением списка. Не вручную, конечно же.
НЛО прилетело и опубликовало эту надпись здесь
Ну да, понятно, что сложные. Но для пользователя они все примерно одинаковые — откуда ему знать, что на один вопрос компьютеру ответить легко, а на другой — сложно? Поэтому пока ассистенты не научатся отвечать именно на такие «сложные» вопросы, они будут с точки зрения пользователя не более, чем забавной игрушкой с ограниченной полезностью и никто не заметит, что в одном применяются какие-то крутые технологии и нейросети, а в другом просто распознают заранее составленный список типичных фраз.
Если вы просто начнете записывать и обрабатывать на сервере весь входящий звуковой поток, то очень быстро разрядите батарейку устройства и потратите весь мобильный трафик. В нашем случае это решается с помощью специальной нейронной сети, которая обучена исключительно на распознавание ключевых фраз («Привет, Алиса», «Слушай, Яндекс» и некоторых других). Поддержка ограниченного числа таких фраз позволяет выполнять эту работу локально и без обращения к серверу.

Скажите, пожалуйста, Алиса слушает всегда входной сигнал микрофона? Или надо нажимать на кнопку с микрофоном, которая показана здесь на всех снимках экрана?

1. Если слушает всегда, то должно быть это энергозатратный процесс. Есть ли у вас численные оценки по потреблению всегда работающего микрофона и какую часть оно составляет от энергопотребления сетевой подсистемы?

2. Если Алиса слушает не всегда, то существуют ли какие-нибудь принципиальные технические сложности кроме энергопотребления?

Кроме того, вы публикуете результаты ваших алгоритмических исследований в рецензируемых изданиях?
НЛО прилетело и опубликовало эту надпись здесь
По моим впечатлениям, основной проблемой для всех сегодняшних поисковиков является фильтрация шума в результатах поиска. Нпр., Яндекс предлагает следующие фильтры:

сообщения, статьи, интервью, видео, фотографии

Но это безумно мало во многих непростых случаях поиска. Нпр., одним из очень важных понятий Википедии является АИ (авторитетный источник). Если я ищу ссылку на официальный документ, то мне нужно отсеять всевозможные комментарии, в том числе и в СМИ. Если я ищу ссылку на реализацию алгоритма, чтобы использовать в своей программе, меня в первую очередь будут интересовать профессиональные книги, статьи и сайты, а не студенческие рефераты и сомнительный код на всевозможных форумах. Более того, часто бывает, что нужна оптимизированная реализация, поэтому нужно отбросить учебники, в которых обычно приводится простейшая. Если меня интересует «граф» в значении мат. термина, то нужно отбросить исторические источники, худ.литературу, кинофильмы и т.д.

См.:

Всего Спектр выделяет около 60 категорий.


И это безумно мало! И как мне в запросе явно указать категории?

Нужно, чтобы в поиске можно было указать «серьезность запроса». В частности, Алиса должна строго подчиняться команде «фильтруй базар». Просто поболтать в некоторых случаях может быть и хорошо, но когда нужен точный ответ, замена его пустой болтовней вызовет только раздражение. Есть опасность настолько переборщить с утепляжем, что на вопрос «чему равно число пи?» получим ответ «где-то между тремя и четырьмя». Таким образом, Алиса запросто может стать Элизой, несмотря на все уровни своих нейросетей, а может благодаря им.
Если вы хотите, чтобы ваше приложение выводило прогноз погоды в ответ на голосовой запрос [погода], то здесь все просто – сравниваете распознанный текст со словом «погода» и если получаете совпадение, выводите ответ. И это очень примитивный способ взаимодействия, потому что в реальной жизни люди задают вопросы иначе. Человек может спросить у помощника [Какая погода завтра в Питере?], и тот не должен растеряться.

Я как-то не привык отождествлять устройство с человеком, поэтому для меня зажать кнопку и сказать «погода на завтра» гораздо проще (и психологически, и с точки зрения затраченного времени). Так что тут кому как
Вы еще читаете каменты к этой статье?

У меня рацуха — если Алиса умеет в синтез английской речи то сделать игру — Алиса называет английское слово, пользователь говорит что оно значит по русски. Если не отгадал несколько раз может сказать «сдаюсь» чтобы получить правильный ответ.

Как proof of concept можно попробовать для начала такое сделать со словарём токипоны, там меньше 150 слов.
Спасибо.
А переводить Алиса может? «Алиса, как по-английски то-то?»
Дочка навострилась спрашивать у Алисы проверочные слова, отвечает грамотно, респект! Типа проверочное слово к «поздно (буква Д)» — опоздать, запоздать
Учеба, конечно, страдает. Но что поделать, киберпоколение.

filldens, а как Алиса отвечает на вопросы про суицид и тд? Есть какие-то обработчики, чтобы переправлять на телефоны доверия?

Дорогие разработчики Алисы, как с вами можно связаться? У нас есть отличное устройство в которое было бы идеально встроить именно Алису.