Leono Feb 18 2018 at 14:43

Как устроена Алиса. Лекция Яндекса

8 min

88K

Яндекс corporate blogMachine learning*Industrial Programming*

+80

Comments 67

nomadmoon Feb 18 2018 at 17:24

Можно как то подсказать Алисе что она отвечает не в тему если она отвечает не в тему?

hr0nix Feb 19 2018 at 20:11

Можно нажать на кнопку «палец вниз» рядом с ответом

Marui Feb 24 2018 at 00:30

Может есть всякие контрольный фразы типа «За базаром следи!» или «Ты тупая?». И она запускает переучивание на последнюю фразу.

nikitos_2002 Feb 24 2018 at 00:30

В диалоге можно поставить палец внизи выбрать причину некоректности ответа.

kirillkirill000 Feb 24 2018 at 00:30

Там есть кнопка — «Ответ не соответствует запросу»

IvankoPo Feb 24 2018 at 00:30

Этим вроде как занимаются ребята в Яндекс Толоке

mx14 Feb 24 2018 at 00:30

Можно дизлайк ей поставить, если ответ не понравился

ProgerMan Feb 24 2018 at 00:30

Можно нажать на «палец вниз» в приложении.

easty Feb 18 2018 at 18:31

Алиса, попробуй миелофон)

decomeron Feb 18 2018 at 18:36

Много компонентов

iZevs Feb 18 2018 at 19:55

Когда будет колонка с Алисой?

u007 Feb 18 2018 at 22:01

Спросил её, какова скорость расширения вселенной. Не знает.

P.S. Разработчики из СПб?

u007 Feb 18 2018 at 22:30

Хотя есть и положительные моменты:

Чем дышат рыбы?
— Водой
Сколько ног у многоножки?
— 750

При этом:

Чему равна площадь круга?
— Давайте поищем!
Крупнейшая река в Сибири?
— Найдётся всё!
Сколько клавиш на клавиатуре?
— Ищу для вас ответ!
Кто изобрёл таблицу Менделеева?
— Сейчас найдём!

Очень информативно…

* Язык шаблонов вам не кажется переусложнённым? 30 длиннющих строчек для одного малюсенького шаблона. Может, поэтому у вас их так мало?
** Были идеи разнести логику и тексты? Какой-нибудь отдельный банк с вариациями ответов?
*** Python, да ещё с надстройкой — не слишком медленно для такой системы?

hr0nix Feb 19 2018 at 21:38

Что касается остальных вопросов:
* Я специально выбрал для слайдов сложный шаблон, чтобы проиллюстрировать всю мощь шаблонизатора. На практике большинство шаблонов выглядит как «В Москве сейчас {{form.temparature}} градусов»
** Ну, в шаблонах по большому счету нет логики, только тексты.
*** Нет, мы без особых проблем держим весьма немаленькую нагрузку. Весь действительно CPU-intensive код (например, применение нейросетей) написан не на питоне и вызывается через обертки.

hr0nix Feb 19 2018 at 20:13

«Дата основания Петербурга» — это ошибка классификатора интентов :( Починим

А над полнотой базы фактов мы, конечно, постоянно работаем.

u007 Feb 24 2018 at 01:28

Йес :)

mickvav Feb 18 2018 at 22:08

Сколько стоит размещение рекламного интента в алисе?

ozonar Feb 19 2018 at 07:29

Вроде: "- Алиса, какой самый лучший на свете банк?"?

mickvav Feb 19 2018 at 17:07

Меня вполне устроит вариант «Алиса, как подключить интернет в Лобне?»

D_E_S Feb 18 2018 at 22:22

странно почему некто не спросил про взаимодействие с другими приложениями. Очень интересно сможет ли Алиса когда нибудь поставить мне будильник?

ArVaganov Feb 18 2018 at 23:01

Поддержу вопрос. Для старта было бы отлично, если бы Алиса умела включать фонарик / таймер / писать сообщения и отмечать даты в календаре на телефоне.
Было бы неплохо в будущем увидеть Алису и в IoT в роли центра управления умным домом, например.

А озвучивание текста (если сравнивать русский) безусловно лучшее из всех голосовых помощников. Татьяна Шитова узнаваема).

LorDCA Feb 19 2018 at 06:21

вы хотите слишком много от набора шаблонов написанных ручками. причем каждый шаблон выстрадан не по одному месяцу наверняка. я честно говоря вообще не понимаю в чем смысл хайпа, подобная система собирается за пару месяцев силами любителя.

LbISS Feb 19 2018 at 09:35

Мне кажется тут ошибка таргетирования кейсов использования на мобильниках и на компьютере. Приложение делается универсальное, а кейсы использования разные.
Для мобильника — да, хороший кейс спросить что-то быстро и получить голосовой ответ без необходимости искать телефон, разблокировать и запускать приложение.
А когда я работаю за компом — поиск информации не актуален. Мне в разы быстрее вбить руками одну строчку в браузер и получить исчерпывающий ответ с вариантами, чем сперва говорить "Привет, Алиса", ждать пока распознается, потом диктовать запрос, гадать распознается или нет и получать обрывочный ответ из первых 5 слов результата. За компом актуальны вещи которые надо делать не отрываясь от рабочего процесса — запустить фоном музыку (не только Яндекс.Музыку, но и standalone приложенный, причем одной командой сразу запустить на воспроизведение определённый плейлист — и фоном, без разворачивания принудительно окна и переключения фокуса), поставить напоминание/встречу, ответить на всплывшее сообщение в телеграме (опять же сразу, без переключения контекстов), озвучить пришедшую почту и т.п.

VIPDC Feb 24 2018 at 00:29

Про будильник первое что спросил, ответила что то вроде " Алексей обещал доделать к марту, но не сказал какого года"

hr0nix Feb 19 2018 at 21:39

Сможет. Обещаю.

aml Feb 19 2018 at 04:15

А для TTS какую технологию используете? Wavenet или склеивание фонем? На сервере генерируется речь или на клиенте?

kranid Feb 19 2018 at 07:02

Вот это действительно интересно! Если в чем -то и был достигнут успех, то это в синтезе речи.

Aquahawk Feb 19 2018 at 05:05

А вот это правда? pikabu.ru/story/alisa_takaya_umnaya_5673045 может и фейк конечно, но если не фейк, то странно что отличие в регистре одной буквы теряет взаимосвязь. Хотя может как раз и научилась нейросетка имена по большим буквам вылавливать, и при написании с маленькой буквы оно вообще по классификатору в имена не попадает.

hr0nix Feb 20 2018 at 14:47

Будете смеяться, но проблема была в том, что в базе ответов по ошибке была написана латинская «С» в слове «Сталонне». Мне всегда было интересно, о чем думал автор йцукен-раскладки, помещая русскую и латинскую С на одну и ту же клавишу.

Aquahawk Feb 20 2018 at 18:47

Забавно, для обучаемой сети буквы это буквы, в прямом своём значении как абстракции, а для человека это не только абстракции конкретных букв но и визуальные образы, условная средняя яркость буквы, то как она выпирает из слова вверх или вниз. Получается в текущем виде Алиса никогда не поймёт картинки типа такой:

popov654 Mar 2 2018 at 02:37

Я думаю, если будет потребность — такому её без проблем обучат. Распознавание ASCII графики — вполне реальная задача. Есть же уже кучу лет системы распознавания отсканированных текстов вроде FineReader.

ozonar Feb 19 2018 at 07:35

Вообще, пользоваться Алисой пока невозможно как раз из-за того, что Алиса это fallback. На любой мало-мальски серьезный вопрос чат отправляет в Яндекс, а в случае с десктопным приложением это не только неожиданно, но и закрывает, собственно, чат с Алисой.

Поэтому помчавшись пару раз, идёшь искать сам и про Алису не вспоминаешь. Пока выглядит очень сыро.

BOM Feb 22 2018 at 14:09

Алиса смело отправляет меня в поисковик в ответ даже на несерьёзные вопросы. В итоге диалог с Алисой редко длится дольше 2-3 фраз.

erwins22 Feb 19 2018 at 08:09

Как я понимаю проблема Алисы в том, что у Яндекса просто нет ресурсов на массовую реализацию нейросети.
Например можно было бы реализовать поиск статьи по запросу в вики и выборка ответа из статьи вики. Вероятно плохо, но лучше чем ничего.

u007 Feb 20 2018 at 13:01

Почему нет, есть. Так оно и работает скорее всего. У них же есть технологии распознавания текста в свободной форме, и базу знаний наверняка составляли на основе анализа массы статей. Причём, что важно, не только из вики. Анализируются и профильные сайты. Например, на вопрос «земноводное, 5 букв» эта девушка ответит информацией со scanwordhelper.

Если ошибаюсь, надеюсь, hr0nix поправит)

Одно непонятно, почему база знаний Алисы не тождественна базе знаний поисковой строки? Сейчас получается так: Алиса посылает за ответом в Яндекс, а Яндекс уже выбрасывает колдунщика с быстрым ответом (вопрос о площади круга). Зачем так? Зачем поддерживать две базы?

u007 Feb 24 2018 at 01:18

К вопросу о разных базах знаний. Положил телефон рядом с ноутбуком:

Самая высокая гора?

LorHobbit Feb 19 2018 at 09:44

> Она есть в приложении Яндекса на iOS и Android, а также в мобильном браузере и в виде отдельного приложения под Windows.
А приложение под Linux вы планируете сделать?

zzmaster Feb 19 2018 at 10:24

Все эти замечательные разработки становятся невостребованными, когда замечаешь, что Алиса подслушивает твои оффлайновые разговоры и Яндекс впоследствии выдает релевантную им рекламу. Я после этого попрощался с болтливой девушкой.

И (чтоб второй раз не вставать) — разработчики потратили время и нашли, видимо, действительно замечательное решение, чтобы Алису нельзя было удалить даже из списка процессов по Ctrl-Alt-Del (ведь завершить программу штатными средствами невозможно...), а надо ли оно голосовому помощнику?

(пишу впечатления по ранней версии, знакомиться с последующими — желания не возникло)

hr0nix Feb 19 2018 at 21:59

Нет, Алиса никого не подслушивает.

Если на секунду забыть про этическую составляющую вопроса, останется еще инженерная.

Например, на мобильном телефоне подслушивание очень быстро съест весь заряд аккумулятора из-за необходимости постоянно стримить речь на сервер распознавания. Я даже больше скажу, мы очень много инженерных усилий тратим на то, чтобы начинать слушать пользователя только в тот момент, когда мы на 100% уверены, что он обратился к Алисе, и, тем самым, экономить заряд аккумулятора. Пользователь, который удалил приложение из-за того, что оно разряжало его телефон, точно не принесет нам денег. А что мы ему прорекламируем на основе обрывков разговоров — это еще бабка надвое сказала.

Стоит также отметить, что нагрузка, которую создаст на сервера распознавания речи постоянный стриминг разговоров пользователей между собой, будет превышать нагрузку от использования Алисы на порядки. Другими словами, подслушивать — дорого. Есть намного более простые, дешевые и надежные способы понять предпочтения пользователя.

Но все любят теории заговора, я понимаю.

zzmaster Feb 21 2018 at 06:54

Ну как вы объясните, что я разговаривал с человеком по телефону, он интересовался фрилансингом, я посоветовал ему поискать в гугле "профессия программист фрилансер", и вскоре яндекс на ноутбуке выдал мне рекламу на тему профессии веб программиста и фриланса?

При том, что я фрилансю уже десяток лет и такой рекламы раньше не видел. Подозреваю, что вы не полностью владеете информацией на этот счет, и я далеко не конспиролог, ни в какие лунные заговоры не верю.

bzq Feb 22 2018 at 17:26

Дело не в любви к теории заговоров, а в чрезмерной агрессивности яндексных сервисов в сочетании с известными фактами о невидимом стуке. Я вот тоже регулярно смотрю на что-то яндексное из приложений и так же регулярно сношу, так как лезет яндекс в мою личную жизнь через мобильные приложения куда как наглее, чем я готов стерпеть. Nothing personal, как говорится.

Maccimo Feb 19 2018 at 10:26

Пользователь говорит: «Алиса, какую ожидать завтра погоду?»

...

В нем будет написано, что это интент погода, что погода нужна на +1 день от текущего дня, а где — неизвестно.

А если пользователь начал фразу в 23:59, а закончил в 00:03? Или в час ночи спросил?
Другими словами, как дела с обработкой граничных случаев в интентах?
Костыли на шаблонах или что-то более интеллектуальное?

multiprogramm Feb 19 2018 at 12:40

Del

hr0nix Feb 19 2018 at 22:00

Костыли aka бизнес-логика. Более интеллектуальные способы решения подобных проблем человечеству, боюсь, пока неизвестны.

UFO just landed and posted this here

JediPhilosopher Feb 19 2018 at 17:38

Я не из Яндекса, но работал в фирме, делавшей чат-боты по похожей технологии. Да, для отдельных языков были отдельные файлы шаблонов со своими правилами. Грамматика и построение предложений в разных языках отличается достаточно сильно чтобы не имело смысла пытаться натянуть разные языки на один шаблон.

Конечно от дублирования кода всячески пытались избавиться, всю независящую от языков логику выносили в джаваскрипт-методы, которые можно было звать из шаблонов. Но сами правила разбора и паттерны приходилось писать каждый раз заново.

UFO just landed and posted this here

ameli_anna_kate Feb 19 2018 at 13:43

Порой такие перлы выдает. Скрины делать долго, но вот кусочек разговора.
Я: Ты любишь читать?
А: Обожаю
Я: Какие книги тебе нравятся?
А: Я родилась на улице Льва Толстого, поэтому испытываю к графу определенную слабость.
Я: Платоническую?
А: Не без этого.
Я: И какая его книга самая любимая?
А: Люблю книги с захватывающим сюжетом. Чтобы сначала ух, а потом ах, но в конце все хорошо. Например, трехтомник Кнута про алгоритмы. Особенно четвертый том.
Я: И что Кнут пишет в своем четвертом томе?
А: Получил.
Я: О чем Кнут пишет?
А: открываю яндекс
Я: Что тебе нравится в книгах Кнута?
А: 50 оттенков серого.
Я: Да что ты заладила про эти 50 оттенков?
А: Я ее читала.
Я: А получше что есть?
А: Ты читала ее?
Я: Нет, мне она не нравится
А: Почитай, тебе понравится.
Я: Точно нет
А: Не спорь с отцом.

Что? Говорите включить рекламу? По ходу она уже работает.

erwins22 Feb 19 2018 at 14:25

Там есть при регистрации «Вам уже есть 18?»?

perfect_genius Feb 19 2018 at 15:14

Это уже исправили?

hr0nix Feb 19 2018 at 22:03

Мы уже почти отучили Алису говорить о себе в мужском роде. Но иногда нет нет да и прорвется что-нибудь через все наши машинно обученные блокады.

ivodopyanov Feb 19 2018 at 16:40

«Болталка», выходит, не генеративная модель?

hr0nix Feb 19 2018 at 22:03

Выходит, нет.

amavzyutov Feb 24 2018 at 00:30

Видимо генеративная модель им не подошла, т.к. она может в некоторых случаях вернуть полный бред, а это дискредитирует продукт. А выбор из заготовленных кандидатов (их конечно должно быть много) — это может ответ и не совсем в тему, но хотя бы согласованный вариант предложения на целевом языке.

bzq Feb 19 2018 at 23:43

Когда Алиса появилась впервые, её зачем-то назвали ИИ. Было конечно интересно. Первое, что я сделал — проверил её на интеллект нехитрым тестом:
Я: Дважды два.
А: Четыре.
Я: Прибавь два.
А несёт какой-то бред.

Суть теста такая, что любая интеллектуальная деятельность должна иметь контекст и память того, что было только что. У Алисы этого нет. В этой статье с интересом увидел, что оказывается есть, причём, если верить статье, используется повсеместно, вроде как любое произнесённое заполняет информацию в некоторой виртуальной «форме». И ещё эта, как её, анафора. Со второй попытки я сумел повторить пример с Эверестом из статьи, в первый раз моя фраза распозналась не совсем верно, и оно не сработало. Тогда я попробовал вызвать подобное поведение ещё хоть где-то. Не могу. Не выходит:
Я: Погода на завтра.
А: Завтра в Москве…
Я: А в Воронеже?
А: А ты где живёшь?

Короче, пока Алиса постоянно забывает нить разговора и не помнит даже предыдущей моей фразы, она в лучшем случае похожа на дауна. Человек, который не помнит предыдущей фразы ни своей, ни собеседника в реальной жизни производит пугающее впечатление.

Я думаю, что нужно сделать так, чтобы Алиса как раз всё-всё помнила и отвечала на вопросы только в контектсе предыдущих реплик. Пусть они забываются со временем (через несколько часов), пусть сбрасываются на специальные фразы типа «Так, давай всё с начала», но контекст забывать нельзя.

А болталка — прикольно, но совершенно бесполезно.

hr0nix Feb 20 2018 at 14:53

У нас, конечно, пока все не идеально с контекстом, и до ИИ нам пока далеко, но вот про Воронеж обидно было.

bzq Feb 20 2018 at 15:19

Ничего, Воронеж справится. Вот Вам хорошо. Хозяев Алиса слушает внимательно, а у меня забывает всё напрочь. Реакция на предыдущую фразу у меня бывает только если повторяю Ваши примеры. А у меня только так:

И ещё странно, что Алиса всё норовит в поиск послать. Пусть бы сама искала и озвучивала. Если не может от своего имени, то пусть отвечает типа «В этих ваших интернетах говорят ...»

Korhog Feb 24 2018 at 00:29

Хотелось бы больше послушать про синтезатор речи, у Алисы он довольно неплохой.

Oleg_Dolbik Feb 24 2018 at 00:29

Может, я вас немного разочарую, но «хайп» на Алису наблюдаю только среди детишек, которые радостно находят еще одно применение смартфону и могут часами «доставать» родителей найденными приколами Алисы. Взрослая аудитория после второй фразы, как правило, закрывает окно и в следующий раз открывает только когда совсем уж нет чего делать. Голосовое управление от Гугла удобнее, увы. Что в Алисе хорошего — точность распознавания голоса, тут да, почти всегда — точно, но вот дальнейшая реализация — на редкость бесполезная для меня, как пользователя.

duff Feb 24 2018 at 00:29

крутая штука, ребенок постоянно балуется

Michailmi Feb 24 2018 at 00:29

ну как не стыдно
у хабра высокий уровень — ну кто нибудь с плюсами имнйти мужество
алиса это алекса гугла
и даже южный парк постебался
а уж про логистическую регрессию
греф купил яндекс — ему любопытно
ай все равно не опубликуют
мужчины — стыдно!

robotrobot Feb 24 2018 at 00:30

Больше всего меня в Алисе удивило качество генератора речи. Он лучше всех представленных на рынке (не удивительно, ведь она русскоязычная :)
И все равно.

inot Feb 27 2018 at 14:42

А есть в планах выполнение каких-то сценариев? Вот я поставил Алису на компьютер, хочу чтобы Алиса запускала на моем компьютере команду если я попрошу. Помоему гораздо более нужная функция, чем голосом узнать погоду. Но найти упоминания об этом у меня не получилось.

popov654 Mar 2 2018 at 02:38

А что такое «Толок» и как он работает? Если уже писали об этом — хоть бы ссылочку кинули… Интересно же.

ArtRoman Mar 12 2018 at 03:45

Яндекс.Толока. Крауд-сорсинг наоборот: выполнение задач толпой за деньги.

kirillkosolapov Mar 2 2018 at 12:17

Интересно узнать о том, как именно работает ASR Алисы. Есть ли предобработка на телефоне, или всё идёт потоком на сервер? Какая архитектура обеспечивает высокую скорость с хорошим качеством?

akass Jan 14 2019 at 03:19

Удивительно, что купив Яндекс станцию с подпиской музыки от яндекса в подарок, Алиса не может включить конкретный плейлист…