Comments 67
Можно дизлайк ей поставить, если ответ не понравился
Алиса, попробуй миелофон)
Много компонентов
P.S. Разработчики из СПб?
Чем дышат рыбы?
— Водой
Сколько ног у многоножки?
— 750
При этом:
Чему равна площадь круга?Очень информативно…
— Давайте поищем!
Крупнейшая река в Сибири?
— Найдётся всё!
Сколько клавиш на клавиатуре?
— Ищу для вас ответ!
Кто изобрёл таблицу Менделеева?
— Сейчас найдём!
* Язык шаблонов вам не кажется переусложнённым? 30 длиннющих строчек для одного малюсенького шаблона. Может, поэтому у вас их так мало?
** Были идеи разнести логику и тексты? Какой-нибудь отдельный банк с вариациями ответов?
*** Python, да ещё с надстройкой — не слишком медленно для такой системы?
* Я специально выбрал для слайдов сложный шаблон, чтобы проиллюстрировать всю мощь шаблонизатора. На практике большинство шаблонов выглядит как «В Москве сейчас {{form.temparature}} градусов»
** Ну, в шаблонах по большому счету нет логики, только тексты.
*** Нет, мы без особых проблем держим весьма немаленькую нагрузку. Весь действительно CPU-intensive код (например, применение нейросетей) написан не на питоне и вызывается через обертки.
А над полнотой базы фактов мы, конечно, постоянно работаем.
Было бы неплохо в будущем увидеть Алису и в IoT в роли центра управления умным домом, например.
А озвучивание текста (если сравнивать русский) безусловно лучшее из всех голосовых помощников. Татьяна Шитова узнаваема).
Мне кажется тут ошибка таргетирования кейсов использования на мобильниках и на компьютере. Приложение делается универсальное, а кейсы использования разные.
Для мобильника — да, хороший кейс спросить что-то быстро и получить голосовой ответ без необходимости искать телефон, разблокировать и запускать приложение.
А когда я работаю за компом — поиск информации не актуален. Мне в разы быстрее вбить руками одну строчку в браузер и получить исчерпывающий ответ с вариантами, чем сперва говорить "Привет, Алиса", ждать пока распознается, потом диктовать запрос, гадать распознается или нет и получать обрывочный ответ из первых 5 слов результата. За компом актуальны вещи которые надо делать не отрываясь от рабочего процесса — запустить фоном музыку (не только Яндекс.Музыку, но и standalone приложенный, причем одной командой сразу запустить на воспроизведение определённый плейлист — и фоном, без разворачивания принудительно окна и переключения фокуса), поставить напоминание/встречу, ответить на всплывшее сообщение в телеграме (опять же сразу, без переключения контекстов), озвучить пришедшую почту и т.п.
А для TTS какую технологию используете? Wavenet или склеивание фонем? На сервере генерируется речь или на клиенте?
Поэтому помчавшись пару раз, идёшь искать сам и про Алису не вспоминаешь. Пока выглядит очень сыро.
Например можно было бы реализовать поиск статьи по запросу в вики и выборка ответа из статьи вики. Вероятно плохо, но лучше чем ничего.
Если ошибаюсь, надеюсь, hr0nix поправит)
Одно непонятно, почему база знаний Алисы не тождественна базе знаний поисковой строки? Сейчас получается так: Алиса посылает за ответом в Яндекс, а Яндекс уже выбрасывает колдунщика с быстрым ответом (вопрос о площади круга). Зачем так? Зачем поддерживать две базы?
А приложение под Linux вы планируете сделать?
Все эти замечательные разработки становятся невостребованными, когда замечаешь, что Алиса подслушивает твои оффлайновые разговоры и Яндекс впоследствии выдает релевантную им рекламу. Я после этого попрощался с болтливой девушкой.
И (чтоб второй раз не вставать) — разработчики потратили время и нашли, видимо, действительно замечательное решение, чтобы Алису нельзя было удалить даже из списка процессов по Ctrl-Alt-Del (ведь завершить программу штатными средствами невозможно...), а надо ли оно голосовому помощнику?
(пишу впечатления по ранней версии, знакомиться с последующими — желания не возникло)
Если на секунду забыть про этическую составляющую вопроса, останется еще инженерная.
Например, на мобильном телефоне подслушивание очень быстро съест весь заряд аккумулятора из-за необходимости постоянно стримить речь на сервер распознавания. Я даже больше скажу, мы очень много инженерных усилий тратим на то, чтобы начинать слушать пользователя только в тот момент, когда мы на 100% уверены, что он обратился к Алисе, и, тем самым, экономить заряд аккумулятора. Пользователь, который удалил приложение из-за того, что оно разряжало его телефон, точно не принесет нам денег. А что мы ему прорекламируем на основе обрывков разговоров — это еще бабка надвое сказала.
Стоит также отметить, что нагрузка, которую создаст на сервера распознавания речи постоянный стриминг разговоров пользователей между собой, будет превышать нагрузку от использования Алисы на порядки. Другими словами, подслушивать — дорого. Есть намного более простые, дешевые и надежные способы понять предпочтения пользователя.
Но все любят теории заговора, я понимаю.
Ну как вы объясните, что я разговаривал с человеком по телефону, он интересовался фрилансингом, я посоветовал ему поискать в гугле "профессия программист фрилансер", и вскоре яндекс на ноутбуке выдал мне рекламу на тему профессии веб программиста и фриланса?
При том, что я фрилансю уже десяток лет и такой рекламы раньше не видел. Подозреваю, что вы не полностью владеете информацией на этот счет, и я далеко не конспиролог, ни в какие лунные заговоры не верю.
Пользователь говорит: «Алиса, какую ожидать завтра погоду?»...
В нем будет написано, что это интент погода, что погода нужна на +1 день от текущего дня, а где — неизвестно.
А если пользователь начал фразу в 23:59, а закончил в 00:03? Или в час ночи спросил?
Другими словами, как дела с обработкой граничных случаев в интентах?
Костыли на шаблонах или что-то более интеллектуальное?
Конечно от дублирования кода всячески пытались избавиться, всю независящую от языков логику выносили в джаваскрипт-методы, которые можно было звать из шаблонов. Но сами правила разбора и паттерны приходилось писать каждый раз заново.
Я: Ты любишь читать?
А: Обожаю
Я: Какие книги тебе нравятся?
А: Я родилась на улице Льва Толстого, поэтому испытываю к графу определенную слабость.
Я: Платоническую?
А: Не без этого.
Я: И какая его книга самая любимая?
А: Люблю книги с захватывающим сюжетом. Чтобы сначала ух, а потом ах, но в конце все хорошо. Например, трехтомник Кнута про алгоритмы. Особенно четвертый том.
Я: И что Кнут пишет в своем четвертом томе?
А: Получил.
Я: О чем Кнут пишет?
А: открываю яндекс
Я: Что тебе нравится в книгах Кнута?
А: 50 оттенков серого.
Я: Да что ты заладила про эти 50 оттенков?
А: Я ее читала.
Я: А получше что есть?
А: Ты читала ее?
Я: Нет, мне она не нравится
А: Почитай, тебе понравится.
Я: Точно нет
А: Не спорь с отцом.
Что? Говорите включить рекламу? По ходу она уже работает.
Я: Дважды два.
А: Четыре.
Я: Прибавь два.
А несёт какой-то бред.
Суть теста такая, что любая интеллектуальная деятельность должна иметь контекст и память того, что было только что. У Алисы этого нет. В этой статье с интересом увидел, что оказывается есть, причём, если верить статье, используется повсеместно, вроде как любое произнесённое заполняет информацию в некоторой виртуальной «форме». И ещё эта, как её, анафора. Со второй попытки я сумел повторить пример с Эверестом из статьи, в первый раз моя фраза распозналась не совсем верно, и оно не сработало. Тогда я попробовал вызвать подобное поведение ещё хоть где-то. Не могу. Не выходит:
Я: Погода на завтра.
А: Завтра в Москве…
Я: А в Воронеже?
А: А ты где живёшь?
Короче, пока Алиса постоянно забывает нить разговора и не помнит даже предыдущей моей фразы, она в лучшем случае похожа на дауна. Человек, который не помнит предыдущей фразы ни своей, ни собеседника в реальной жизни производит пугающее впечатление.
Я думаю, что нужно сделать так, чтобы Алиса как раз всё-всё помнила и отвечала на вопросы только в контектсе предыдущих реплик. Пусть они забываются со временем (через несколько часов), пусть сбрасываются на специальные фразы типа «Так, давай всё с начала», но контекст забывать нельзя.
А болталка — прикольно, но совершенно бесполезно.
И ещё странно, что Алиса всё норовит в поиск послать. Пусть бы сама искала и озвучивала. Если не может от своего имени, то пусть отвечает типа «В этих ваших интернетах говорят ...»
у хабра высокий уровень — ну кто нибудь с плюсами имнйти мужество
алиса это алекса гугла
и даже южный парк постебался
а уж про логистическую регрессию
греф купил яндекс — ему любопытно
ай все равно не опубликуют
мужчины — стыдно!
И все равно.
Удивительно, что купив Яндекс станцию с подпиской музыки от яндекса в подарок, Алиса не может включить конкретный плейлист…
Как устроена Алиса. Лекция Яндекса