Комментарии 305
Надо тестить!
Потестили, отлично!
Голос у Алисы получился очень приятным — особенно меня радуют человеческие интонации в нём))
Признаться, даже сил нет ждать финального релиза SDK, чтобы получить доступ к интеллектуальным возможностям вашей голосовой помощницы… Нет ли у вас отдельных планов на раннем этапе предоставить разработчикам доступ к голосу Алисы для озвучивания произвольных текстов в рамках SpeechKit? Ведь при желании это можно реализовать намного скорее, чем полноценный SDK!)
И, если да, то можете ли Вы озвучить хоть какие-нибудь ориентировочные сроки?
А скоро ли ждать возможности интегрировать приложение в ответы Алисы? Мы тут все аж чешемся как хотим.
Раз в год провожу тест, транслируя несколько запросов и Яндексу и Гуглу, и смотрю кто выдаст нужную мне информацию выше. Яндекс пока ни разу не победил.
Пользуюсь диапазоном «за год» чаще, чем всеми другими, например когда нужно найти актуальную информацию по какой-либо IT-шной тематике. В этом случае фильтр за прошедший месяц это слишком мало, а для фильтрации за год в поисковиках помимо Google приходится совершать слишком много телодвижений.
Находит что надо или что искали? :)
Так то поиск яндекса полнее и лучше. Вполне логичное предположение об описке. Предположение гугла менее осмысленное.
В то время как яндекс, если я правильно понял, предположил, что
- использована латиница для запроса на русском языке
- пропущен пробел между словами
Лично я в предположении яндекса вижу логику, а в предположении гугла нет. Результаты поиска по конкретному запросу (количество ссылок) тоже не в пользу гугла.
Я не топлю за яндекс, вовсе нет. Я сам часто использую гугл. На рабочем месте так точно чаще, чем яндекс.
Но утверждения, что поиск яндекса «нормально не ищет», или что он что-то находит «с трудом», явно не соответствуют действительности.
Ну загуглите resnet, например. В гугле первая ссылка на оригинальную статью, в яндексе — какая-то херня. И так постоянно, работы на архиве иногда даже по полному названию не ищет.
Но никак не поиск новой информации, статей на IT-тематику, интернет-магазинов и прочих безличностных данных. Да, есть фильтры по датам появления/обновления, но…
Короче, персонализация не нужна и должна умереть.
А у Вас как?
то ни яндекс, ни гугл не понимают о чем тут на самом деле. Я сейчас сломаю своим комментом всю статистику @cadmi, но это не про Библию и не про ПДД. Это формула обращения к бытавтомату в «Мягких зеркалах».
Иными словами, мысль такая: «окей, гугл»; «привет, сири»; «слушай, Алиса» могут быть не всегда приемлемыми обращениями к голосовому помощнику — труднопроизносимы, глупо звучат на языке носителя и т.п. Можно было бы сделать таким образом: вновь установленный голосовой помощник отзывается на какую-то фиксированную, закладываемую разработчиком фразу, а затем предоставляет пользователю возможность ее сменить. Это же позволит и выполнять идентификацию пользователя, если их несколько обращается к одному устройству.
Кстати, в «Мягких зеркалах» довольно много примеров общения с голосовыми помощниками.
Это сложно реализовать. Нейросеть обучена искать определенные фразы, например "Привет, Алиса". Иначе пришлось бы распознавать всю речь круглые сутки. В статье, кстати, об этом написано
Боже Яндекс прочтите этот комментарий! Если хотите «персональный поиск» сделайте. Но сделайте так чтобы он отображался ОТДЕЛЬНЫМ блоком рядом с поисковой выдачей. Если хотите чтобы выдавалась десятка лутших сайтов — сделайте, но отдельно блоком чуть ниже блока персональной выдачи. Это же так просто! На широких экранах половина места — просто белый лист. Вы же сделали блок «информация из википедии», ну так просто присобачьте ещё пару блоков. Один из которых будет всегда выдавать «точно как в запросе». Сразу на экране. Или хотя-бы просто отображалась информация о том что «точно как в запросе» не найдено и поэтому отображается не точно как в запросе.
осталось добавить личностные параметры для самоидентификации и вуаля — готовый ИИ.)
Пока это всего лишь чат-бот на нейросетках.
Нейронка нейронок, обязательно глаза, моторика, слух и нюх. Без этого ИИ не будет человеко-подобным. Есть причина, по которой наиболее развитым биологическим объектам нужны внешние раздражители.
Человеку, особенно в детстве, нужно очень много раздражителей.
Хорошо ещё, что предыдущую часть рецепта не процитировала…
Гугл уже перестал активно пиарить свой голосовой поиск. Кнопка голосового ввода на клавиатуре была и пропала. Вывод? Не нужно это никому. Что уж про какой-то Яндекс говорить… Лучше бы доброе дело бы сделали, а не насиловали труп хорошей, но ненужной идеи.
Голосовое управление очень плохая идея для дома. Вырубился интернет — в толкан со свечкой?
P.S. У меня свет чаще отключали, чем интернет
Как только ты внедришь голосовое управление, апи начнёт меняться каждый день, вместо «как пройти в зоопарк» тебе ответят «да забей, тут ресторан недалеко (не является публичной офертой, ЕГРЮЛ 123...)», а вместо включения лампочки «Яндекс рекомендует: люстры в наличии и на заказ». Это яяяяндекс, бро, яяяяяяндеееекс… Я с ними шесть лет работал, знаю, о чём говорю.
Нет. Зачем? Я говорю о технологии интересной, но ненужной. Я не слышал нигде, кроме рекламы, фраз "окей Гугл" и "эй сири". Ну нет спроса и всё. Поиграться забавно, но не более.
*КСТАТИ! Реально — поищи мой ник в Яндексе и Гугле. Увидишь, насколько велика разница в качестве поиска. Гугл точно знает, что Butylkus это человек, а Яндекс упёрто рекомендует наливать вискарь в бутылку с дозатором. И кто-то из этой компании тут серьёзно пытается доказать, что поиск Яндекса работает…
Еще постоянно приходится решать проблему типа «Навигатор ведет меня не туда, куда я сказал». На предложение о ручном вводе адреса смотрят с недоверием :)
Как пример — для водителей. Начиная ввод маршрута голосом, не отвлекаясь от руля и заканчивая просто разговором ни о чем, чтобы не заснуть в ночной поездке.
Интересно, насколько намеренно было выбрано имя, созвучное с Элизой?
Да вы что! Ну теперь-то все понятно. Нейронные сети, значит. Аж трехслойные. Надо будет самому попробовать.
[/sarcasm] Опять одна вода.
Да, использование камеры может расширить сценарии использования Алисы.
А что там распознавать то? Даже ардуина справляется с распознаванием. Вот вам для примера. http://arjo129.github.io/uSpeech/
Пишем голос. Считаем фонемы.
И у них ровно тоже самое.
Только фонемы потом суют в нейросетку которая статистически проверяет совпадения с размечеными образцами. И возращает текст максимально совпавший с тем что вы подали на вход.
Никакой магии. Ардуина вам сделает тоже самое только без статистического анализа в виде нейросети.
30% — 40% accuracy if based on phonemes, up to 80% if based on words.
Вся соль в точности.
Соль в том что нейросетка это аппарата для статистического анализа. Тоесть сначала вы пишите какой то алгоритм который будет выделять признаки, фонемы, растояние между глаз и прочее. А потом, при помощи нейросетки ( если вы суровый извращенец) или словарика, проверяете на близость к заранее размеченым признакам. Логично что у ардуины просто памяти не хватает для проверки по фразам.
Вообще интересно, что на вход сети распознования голоса подается. Просто амплитуды с микрофона? Спектр за какой-то промежуток? Прогоняется ли сигнал через какой-то шумодав? Что сеть выдает: букву, слово, фразу или что-то другое?
Если я помощнику один раз скажу, что если я говорю звонить Сереге — это значит, надо набрать Серегу — одноклассника, хотя в контакте данные Сергей Фамилия, он запомнит?
Можно ли обучить помощника собственному контексту?
Когда Алиса использует «нейросетевую болталку», в ней может проявиться миллион разных личностей, так как нейросеть вобрала в себя немного от автора каждой реплики из обучающей выборки. В зависимости от контекста Алиса может быть вежливой или грубой, жизнерадостной или депрессивной. Мы же хотим, чтобы персональный помощник представлял собой целостную личность со вполне определенным набором качеств.
Вы пишете, что та или иная личность в разговоре появляется в зависимости от контекста. Это происходит детерминировано или случайно?
Если сейчас существует одна Алиса с личностями под контекст, то что делает эту Алису персональным помощником?
Если будет все-таки реализована «своя» Алиса, то какие способы связи с ней предполагается предусмотреть? Например, у меня нет под рукой телефона, браузера и т.д. с «моей» Алисой. Могу я позвонить ей? А написать смс? Или сообщение в мессенджере?
В остальном всё здорово! Надеюсь на дальнейшее постоянное развитие Алисы.
P.S. Про шахматы отличная идея.
Мне кажется, пока что эти помощники заслуживают такого применения:
У меня есть робот, хочу привзать к нему более вменяемое управление голосом.
Это если взаимодействие укладывается в рамки вида «сработал на какое-то триггер — начал распознавать речь с этого момента — классифицировал фразу — обработал в соответствии с текущим состоянием (грубо говоря — контекстом)»
Поэтому конечное значение имеет уже не идея, а реализация. Все браузеры – это вкладки и окна, но возможности у них разные. Так и ассистенты у всех внешне могут быть похожи, но у кого-то есть поддержка русского языка и «нейросетевой болталки».
Как у Самсунга с его ни разу не слизанным с iPhone дизайном: шутку про двух дизайнеров, один из которых держит новое устройство Apple, а другой обводит, знают, кажется, все.
И еще: Яндекс с выпуском своего телефона (читай — своей платформы, и своей экосистемы) так и не подружился (не будут бросаться словами «не осилил»), но, в результате, на мобильных платформах по умолчанию вызываются, сами понимаете, Siri, гуглопомошник, Кортана. Я не очень в курсе, стоит ли усилие по запуску приложения от Яндекса радости получить помощь от Алисы, но мне думается, что популярности это приложение не сыщет.
Как полигон для обкатки рекламной математики (для Яндекса) — да, как помощник — нет.
Но вот вопрос: Гугл шел по пути, когда берется все, что человек сказал, и пихается в строку поиска браузера. У них поиск довольно хороший, и, на мой взгляд, получше почищен от дублей информации (рунет, все же, славится логиков «стырю-ка у другого сайта»), чем ваш, но это, конечно, дело наживное. Но дойти до уровня, когда машина поймет, о чем я её спросил, и сообщит не «есть 7389643 страниц с текстом, похожий на ваш запрос», а один, но внятный ответ — здесь и настольному поиску далеко, и голосовой помощник будет бесполезен.
Кстати, Алиса – это не какое-то новое самостоятельное приложение. Она пришла в уже популярные приложения: мобильный Яндекс, десктопная Строка, скоро в Яндекс.Браузере появится. Это уже миллионы пользователей.
Ответы вместо страницы с результатами – тоже хорошее наблюдение. Только этот процесс уже идет. Яндекс уже на многие вопросы вытаскивает прямой ответ. И Алиса использует эту информацию, чтобы отвечать прямо в диалоге. Этим и отличается современный голосовой помощник от ботов из прошлого.
Яндекс.Почта — 26 июня 2000
Gmail — 1 апреля 2004
Яндекс.Карты — 27 августа 2004
Google maps — 8 февраля 2005
Яндекс.Диск — 5 апреля 2012
Google Drive — 24 апреля 2012
Раньше, когда я говорил, что Яндекс старается делать то же, что и Гугл, меня постоянно поправляли
И верно поправляли. Мало кто знает что к примеру яндекс поиск появился раньше, яндекс карты появились раньше, яндекс почта появилась раньше… Стало быть, гугл копирует яндекс.
А в целом да, куда двигаться и что развивать сейчас куда более понятнее, нежели в конце в нулевых. Поэтому в таких новостях ничего удивительного.
2. Добавьте чатбот (что бы писать вопросы)
3. Добавьте возможность корпоративного использования чатбота.
ЗЫ. сейчас по лайкам и дислайкам пересчитаем тех, кто понял и не понял ;-)
Только… помним ДЛЯ ЧЕГО использовалось «тринадцать-девять» и что есть и «Имформбюро, контакт» (и кто тут отвечать должен? там же и операторы были тоже)
Можно обойти гугл, сделав упор на редактирование длинных текстов, добавить команды отмены/исправления, продублировать пунктуацию и перемещение курсора экранными кнопками и т.д. (у гугла кнопка всего одна, стереть)
Яндекс.Клавиатура, конечно!
Свайп добавили — это супер.
Теперь на форму голословно ввода добавьте кнопки знаков препинания (,.!?:;) и кнопку перевода строки.
Ну еще немного если-тогда в код напишите, для обработки конца предложения. Автоматом там ставится точка, чтобы её можно было одним тапом заменять на восклицательный или вопросительный знак.
Все. И это будет в разы удобней, чем сейчас.
А можно расшарить такое предобученное состояние внутри корпоративного домена, например?
Кстати, ИМХО, «Слушай, Яндекс» намного комфортнее, чем «Привет, Алиса». Как-то императивнее что ли. Робот — помощник человека, а не равноправный партнёр.
Может ли конкретный пользователь обучать её под себя, допустим объяснив ей какую-то команду и что она именно она должна делать по этой команде, например: «Алиса, покажи ка мне список оставшихся дел на сегодня», и она открывает trello.com, где ты ведёшь список дел. Либо она настроена на глобальную базу и со всеми ведёт себя одинаково опираясь на обученную нейронную сеть под среднестатистического пользователя?
первого голосового помощника, который не ограничивается набором заранее заданных ответов и использует для общения нейронные сети
Использует статистические алгоритмы для лучшего ответа заранее собранного в базу — это тоже самое :D
Так это тоже самое! Там все заранее подготовлено. Сложные алгоритмы, но все собирается в базу и выдается из базы. Человек тоже так работает(дрессируется).
Если посмотрите в базу, то узнаете(там будет рейтинг), но если не умеете(ну может нет вывода рейтинга) и не знаете где смотреть, то это не повод намекать на божественное происхождение Алисы.
PS: на самом деле повод, ибо маркетинг того требует. То есть маркетинг причина а не правда(людям она не нужна, ахаха).
Правила общения и русского языка написаны давно ;)
Принцип тот же, но другой маштаб. Это как можно поле тяпкой вспахивать, в можно трактором. Принцип один и тот же — землю ворочать. Но производительность и качество результата разные.
Редакторскими фразами никогда не получить такой широты понимания, как машинным обучением.
Но все не надо. Люди ведуться на одно и тоже, поэтому хватит 1% и это будет уже для людей бесконечность ответов, идей, мыслей, фантазий, чего угодно — можно смело называть безконечностью ведь никто не проверит — не хватит мощьностей даже у всех вместе взятых ИТ компаний. Ахаха!
Вот на примере с Путиным Алиса вообще банальна с ответами, мне стыдно было бы показывать.
В любом случае остается еще как минимум 2 фактора в пользу нейросети:
1) Это банально более компактный вариант записи по сравнению с большой базой данных всех известных машине фраз.
2) Если все же найдется фараза, не встречающаяся в базе данных, но похожая на другую, то есть довольно неплохие шансы, что нейросеть угадает приемлемый ответ.
3) Да, 86% людей ничего кроме 1% избитых фраз неинтересно. Но все-равно, найдется кто-то очень хитрый и задаст вопрос, которого нет в базе данных, Именно на ответах на эти вопросы и строится конкуренция между всеми ассистентами. На базовый минимум отвечать умеют все.
100% людей и 0,000000001% не достигнут за 10 своих жизней. Им скармливай просто то, на что они будут реагировать нужным барыгам образом, а для этого предварительно происходит этап дрессировки.
Информация по 100% людей у Вас откуда? Вы и есть то самое божество? Или, быть может, Вы гуру машинного обучения? А то я-то, наивный, думаю, что нейросеть обрабатывает со временем всё большее количество запросов в поисковую систему, запоминает схемы построения запросов, учится запоминать речевые формулировки. А тут, оказывается, она просто знает все вопросы и «гуглит» («яндексит»?) на них ответы.
Привет Алиса, где выпить кофе?
Привет Алиса, какой средний чек в соседних кафе?
Привет Алиса, отправь адрес кафе Сергею Петровичу.
Привет Алиса, вызови такси.
Привет Алиса…
Привет Алиса…
Есть же нормальный вариант, Окей гугл, Хэй Сири, кому пришло в голову заставлять всех здороваться с телефоном? Наверно тому же кто из фразы «Хэй Сири» сделал «Привет Сири»
Почему не сделать что-то типа Эй, Яна?
2. Учитывать вероятность, что обращение идет к Алисе даже без первой фразы и отвечать.
Кстати Алиса узнает человека?
Анекдоты вроде рассказывает, но по делу…
Говорю «Поехали домой» отвечает: «Маршрут до адреса такого-то займет столько-то», почему сразу не открывает яндекс навигатор?(откроет, только если физически нажать на кнопку«маршрут на карте (или) как-то так»)
Говорю «открой whatsapp» открывает в веб интерфейсе(не может открывать «не яндекс» приложения? Навгатор и карты открывает же).
Звонить тоже не может?
И еще — пытаюсь «вести диалог» с ней, а она через фразу отправляет в браузер, просто копируя мою фразу в поисковую строку.
Но озвучка — это просто супер. Особенно после контуженной в iOS 11 Siri.
Интересно как и интеграцией обстоят дела на андроиде? Наверно лучше должно быть… звонки, запуск приложений…
На скриншоте не понимание «смысла» или «контекста». Это лишь вопрос интеграции сервиса такси. У Алисы его еще нет, поэтому она честно пытается «отболтаться» с помощью нейросети. Во втором случае при обращении к неподдерживаемому сервиса даже такого не будет.
А потом люди удивляются, почему им Директ показывает рекламу вещей, о которых они разговаривали в то время, как телефон валялся где-то неподалеку.
Сама идея ставить на телефон что-то, что постоянно анализирует твою речь — убийственна.
И да, то, что это бесплатно — еще раз доказывает, что товар в данном случае — вы.
Я уж не говорю о более серьёзных ключевых словах.
А вот болтать… Ну как вам сказать, я очень много времени уделяю своему браузеру. На написание некоторых расширений/стилей и поиск всякой удобной фигни я потратил явно более 6 часов. И я это делал не сильно думая, сколько времени это займёт, потому что для меня это было в удовольствие. А если эта Лиса будет учиться и без траты именно на обучение время, то есть обучаться параллельно выполнению основной задачи, то это будет просто офигенно.
Проблема номер два — речь идет об обработке аудиоввода. Аудио не особо легкое даже при всех ухищрениях с предобработкой неслышимых частот и сжатием. Памяти телефона в определенный момент времени просто не хватит. Ради эксперемента записал 30 секунд обычного домашнего фонового шума встроенным диктофоном — 126Кбайт. Было б больше шума думаю размер был бы еще больше. И это только данные для обработки, а сколько займет непосредственно сама обученная сеть?
Проблема три — необходимость предобработки аудиоданных. Шумы подрезать, голос почетче подогнать. Процесс даже для небольших файлов будет довольно времяемкий. Ко всему еще и батарею жрать. Если искать компромис между скоростью обучения и глубиной сетки, то количество слоев скорее всего будет не сильно большим, однако же скорее всего придется дополнительно вычищать некоторые из них. То есть фактически еще и постобработка.
Всё же, сделать «алайсы» для быстрого ответа в каком-нибудь меседжере могу и я сам, мне бы просто предоставили инструмент, который вызовет мой жутчайши код с нужными параметрами.
Распознавание голоса можно и на серверах яндекса делать) Хотя тут тоже проблема с хозяйским голосом, ведь он один такой единственный и не повторимый.
Просто заявлено, что Алиска умеет отличать команду к поиску от простого душевного разговора. Так почему нельзя сделать отдельную её версию для прогеров, в которое эта нейронка с командами обучена не только на эти 2, а может быть расширена обучением?
А то хором откликаются.
Говорить нужно будет: «Эй, Натаха, слышь, ёпта, давай сделай мне это, как его, ну кароче мля, что по деньгам у меня?» а после ответа «Ты хорошо посчитала, а проверю и если ошиблась, я тебя вы… бу!»
Очень обидчивая :)
Отличная работа! Спасибо!
«Открыть приложение my life organizes» — распознала четко, но открыла не приложение, а сайт. (не поиск, конкретный сайт МЛО, то есть поняла всё, но слово «приложение» проигнорировала)
Порадовало, что будучи созданной русскими программистами, она лучше оказалась адаптирована к нестандартному мышлению и довольно стойко перенесла издевательства вопросами по физике и арифметике.
После CatBoost я стал чуть ли не фанатом Яндекса, но пока я расстроен… Возможно, я не эксперт, но задача создания гибкого голосового помощника не такая уж сложная (пробовал делать на питоне под свой ноутбук: основная проблема была в распознавании речи, но бот очень неплохо взаимодействовал с системой)
Ребят, я в вас верю, во имя Торвальдса, станьте выше гугла!..
Но зайчатки хотя бы смешнее.
— До Москвы ехать 9 часов на автомобиле
— А сколько километров?
— До Москвы ехать 9 часов на автомобиле
Ещё хотелось бы чтобы Алиса могла читать текст на веб-страничках (с синтезом вроде полнейший порядок, так почему бы и нет).
Есть сравнение какое-то по полезному функционалу (без привязки к движку распознавания речи)?
Например простой вопрос «Когда приедет ближайший трамвай»
Найти в яндекс транспорте ближайшую остановку трамваев и посчитать время прибытия gps же у них есть.
-Запусти блокнот
-Запускаью программу
Интересно, это заложено вручную или ИИ сам такое выдал?
А вот на этом месте страшновато стало. Не доверяйте Алисе ядерные реакторы
Если что, скрины не мои — народ развлекается
Интересно было бы, чтобы она ещё и собеседников могла различать. И отслеживать контекст каждого в отдельности.
Звонить, писать сообщения, создавать события в календаре, открывать приложения — не умеет. Даже в полицию (!!!) позвонить не может!
Использовать приложения Яндекса тоже или не умеет, или использует совсем какие-то обрывочные возможности. Такси вызвать не может, маршрут на электричках не строит, про автобусы ничего не говорит. Погоду сказать, простите, много ума не надо.
Скажите, а такого «кастрата» точно надо было выпускать на рынок «вот прямо сейчас»? Может, стоило доделать хотя-бы до уровня, когда приложение решает базовые задачи и полностью использует возможности приложений Яндекса?
Это риторический вопрос, если что…
После того, как «Яндекс-погода» с хвалёным алгоритмом, учитывающим всё и вся, мне сказала, что на улице, в моём районе «Ясно», хотя пасмурно было с утра — я мало верю в хорошие продукты «Яндекса».
AddAnswerAction("Открой рабочую папку", Run("explorer D:\myloveworkdir"))
Ну а вообще простор для применения огромный, по реализации я тоже проблем особых не вижу.
Пользователь бы получил возможность расширения возможностей под себя, вы — новые данные для обучения.
1)
2) Вход (логин) (если пароль сохранен в браузере — все вполне будет отлично-автоматично...)
3) Открой список заказов
4) Искать трекинг номер XXXXXXX
5) Подтвердить получение заказа номер YYYYYY
6) Выход с сайта.
…
7) Алиса, профит?
Смешные ответы ото Алисы в твоём телеграме! https://t.me/joinchat/AAAAAEE0Jt2cgWYNgDQBBQ
Как так? Это же база.
Верно
Она запрашивает местоположение на вопрос конвертации валюты. Это нормально? Не говоря уже о маршрутах
Вы тут вы возмущались если бы всегда показывалась Московская биржа или курс Российского центробанка?
Для курсов — хватит точности.
Если пользователь использует VPN — он обычно в курсе этого (но можно в ответе говорить 'по данным ЦБ <страна> в 100 долларах X гривен'
Да, формально будет проблема например с Крымом (кто там курс определяет по закону) но… если пользователь уже авторизован в сервиса яндекса — например можно в этом случае оттуда взять страну, в противном случае — посмотреть язык на телефоне.
В жизни мы не обмениваемся короткими фразами, а ведем диалог – он невозможен, если не помнить контекст. Алиса его помнит – это помогает ей разбираться со сложными лингвистическими явлениями: например, справляться с эллипсисом (восстанавливать пропущенные слова) или разрешать кореференции (определять объект по местоимению).
Ага. Да, контекст Алиса улавливает…
Только вот боюсь, что зарегулируете вы ее по максимуму, так, что станет отвечать максимум односложно и корректно, особенно после прочтения некоторых статей не вполне адекватного содержания, где люди выражали недовольство на вполне безобидные и веселые ответы. Если так сделать, то все те человеческие свойства и вся «душевность» пропадут, и если как голосовой поисковик это будет еще юзабельно, то поболтать с таким зарегулированным вариантом Алисы будет уже невозможно и не о чем.
Не делайте этого пожалуйста. Или хотя бы оставьте где-нибудь в настройках чекбокс, который снимает все фильтры и ограничения.
По поводу будующего голосовых ассистентов. В перспективе и идеале алиса, (помимо нее думаю могут появиться еще сотни, а то и тысячи персонажей — какой кому по душе), сможет делать все то, что делает человек разговаривающий с вами по телефону. Только обладая огромным массивом знаний. Например юрист, врач (консультант), секретарь, тренер, переводчик, учитель и т.д. Такие экпертные системы машинного обучения более эффективны и уже существуют, но удобно чтобы человек имел доступ с одной платформы.
Понятно, что пока рано судить о чем-либо, что многие «стандартные» функции помощников не работают (лучше бы доделали, а потом выпускали на рынок, а то люди поиграют и забросят, т.к. бесполезная штука): будильник не может поставить, например, создать событие в календаре, позвонить, написать смс — это такие вещи, которые уже каждый второй помощник из гугл-плея делает, не говоря про Сири и прочих.
И главное, что чувствуешь некоторый обман. Как голосовой поисковик работает хорошо. Речь распознает, в яндекс отправляет.
Но когда переходишь в режим разговора, то складывается ощущение, что с тобой пытаются осмысленно говорить, но это не так.
Зачем вообще говорить с роботом НИ О ЧЕМ? Люди имеют пустые беседы друг с другом из-за неловкости или симпатии. О какой неловкости или симпатии может идти речь с роботом?
Вот и получается, что это беседы без цели и смысла.
Вот если бы Алиса могла как экспертная система отвечать на конкретные вопросы — это было бы ГОРАЗДО интереснее. Например, Марс — какая планета по счету? Дельфин — это рыба? Что такое МКС? Кто написал Война и Мир?
Сейчас она либо отправляет в поисковик, либо просто не может ответить. Если бы я хотел поискать в поисковике, я бы быстрее сделал это через поисковую строку и набором поискового запроса с клавиатуры: «МКС», «Война и Мир» и т.д.
Если такая вещь появится, почему бы ей не появиться, ведь уже есть готовые словари для экспертных систем, то Алиса стала бы намного полезнее.
Сейчас же, это бесполезная вещь. Говорить с ней не о чем, искать проще в поисковой строке. Если только руки занята, может пригодиться.
У меня почему-то не может. У неё есть похоже два четких режима:
- Отвечает как поисковик, может зачитать краткую выжимку, если она есть, например из википедии,, о каждый второй вопрос кончается открытием именно страницы с поисковой выдачей.
- Режим болталки. Тут она пытается именно общаться, но совершенно тупа и выходит, что бесполезна. Она не может ответить ни на один фактологический вопрос. Специально попробовал, нет, не может. В какой стране находится город Москва? Марс какая планета от Солнца? И т.д.
Хотя от искусственного интеллекта и всего, что пытается его изображать, ждёшь если не вселенской мудрости, то хотя бы знания ответов на такие простые вещи.
Впринципе, экспертные системы уже давно тако показывают. Пару лет назад такая система выиграла аналог "Своей игры" в США, при том, что слушала вопрос на человеческом языке.
Алиса же не может этого. И отсюда её бесполезность именно как собеседника.
P.S. что мешало разработчикам забить в нее не 3 анекдота, а 3000?
Не думаю что они вам ответят. Подобные системы есть опенсорс. Для примера
www.lucida.ai
Изначальный проект назывался Sirius. Прописано около 300 паттернов. Свободно отвечает на вопросы ответы к которым есть в вики. Распознает картинки. Правда по русски не общается. Но это не сложно реализовать.
Но в целом вы правы, подобные системы абсолютно безсмысленны без персонализиции.А персонализация в рамках нейросетей и расписаных сценариев не может быть достигнута. Именно потому нужны системы способные самостоятельно создавать себе сценарии и алгоритмы на базе опыта.
На вопрос «будет ли завтра в 11 дождь» получаю погоду в Москве сейчас. Ну как так, блин?
Если вы просто начнете записывать и обрабатывать на сервере весь входящий звуковой поток, то очень быстро разрядите батарейку устройства и потратите весь мобильный трафик. В нашем случае это решается с помощью специальной нейронной сети, которая обучена исключительно на распознавание ключевых фраз («Привет, Алиса», «Слушай, Яндекс» и некоторых других). Поддержка ограниченного числа таких фраз позволяет выполнять эту работу локально и без обращения к серверу.
Скажите, пожалуйста, Алиса слушает всегда входной сигнал микрофона? Или надо нажимать на кнопку с микрофоном, которая показана здесь на всех снимках экрана?
1. Если слушает всегда, то должно быть это энергозатратный процесс. Есть ли у вас численные оценки по потреблению всегда работающего микрофона и какую часть оно составляет от энергопотребления сетевой подсистемы?
2. Если Алиса слушает не всегда, то существуют ли какие-нибудь принципиальные технические сложности кроме энергопотребления?
Кроме того, вы публикуете результаты ваших алгоритмических исследований в рецензируемых изданиях?
сообщения, статьи, интервью, видео, фотографии
Но это безумно мало во многих непростых случаях поиска. Нпр., одним из очень важных понятий Википедии является АИ (авторитетный источник). Если я ищу ссылку на официальный документ, то мне нужно отсеять всевозможные комментарии, в том числе и в СМИ. Если я ищу ссылку на реализацию алгоритма, чтобы использовать в своей программе, меня в первую очередь будут интересовать профессиональные книги, статьи и сайты, а не студенческие рефераты и сомнительный код на всевозможных форумах. Более того, часто бывает, что нужна оптимизированная реализация, поэтому нужно отбросить учебники, в которых обычно приводится простейшая. Если меня интересует «граф» в значении мат. термина, то нужно отбросить исторические источники, худ.литературу, кинофильмы и т.д.
См.:
Всего Спектр выделяет около 60 категорий.
И это безумно мало! И как мне в запросе явно указать категории?
Нужно, чтобы в поиске можно было указать «серьезность запроса». В частности, Алиса должна строго подчиняться команде «фильтруй базар». Просто поболтать в некоторых случаях может быть и хорошо, но когда нужен точный ответ, замена его пустой болтовней вызовет только раздражение. Есть опасность настолько переборщить с утепляжем, что на вопрос «чему равно число пи?» получим ответ «где-то между тремя и четырьмя». Таким образом, Алиса запросто может стать Элизой, несмотря на все уровни своих нейросетей, а может благодаря им.
Если вы хотите, чтобы ваше приложение выводило прогноз погоды в ответ на голосовой запрос [погода], то здесь все просто – сравниваете распознанный текст со словом «погода» и если получаете совпадение, выводите ответ. И это очень примитивный способ взаимодействия, потому что в реальной жизни люди задают вопросы иначе. Человек может спросить у помощника [Какая погода завтра в Питере?], и тот не должен растеряться.
Я как-то не привык отождествлять устройство с человеком, поэтому для меня зажать кнопку и сказать «погода на завтра» гораздо проще (и психологически, и с точки зрения затраченного времени). Так что тут кому как
У меня рацуха — если Алиса умеет в синтез английской речи то сделать игру — Алиса называет английское слово, пользователь говорит что оно значит по русски. Если не отгадал несколько раз может сказать «сдаюсь» чтобы получить правильный ответ.
Как proof of concept можно попробовать для начала такое сделать со словарём токипоны, там меньше 150 слов.
filldens, а как Алиса отвечает на вопросы про суицид и тд? Есть какие-то обработчики, чтобы переправлять на телефоны доверия?
Алиса. Как Яндекс учит искусственный интеллект разговаривать с людьми