company_banner

Будущее браузеров и искусственный интеллект. Дзен в Яндекс.Браузере

    В будущем, как нам кажется, все популярные браузеры выйдут за рамки программ для открытия веб-страниц и научатся лучше понимать людей, которые ими пользуются. Сегодня я расскажу вам, каким мы видим это будущее на примере персональной ленты Дзен в Яндекс.Браузере, которая теперь доступна пользователям Windows, Android и iOS.



    Несмотря на кажущуюся простоту, в основе Дзена лежат довольно сложные технологии. Я расскажу немного о том, как это реализовано у нас, где и почему мы использовали традиционное машинное обучение, а где — нейронные сети и искусственный интеллект, и буду благодарен за ваше мнение об этом подходе.

    Рекомендации хорошо знакомы всем, кто активно пользуется сетью. Интернет-магазины предлагают схожие товары. Онлайн-кинотеатры советуют фильмы. Музыка, книги, игры, приложения — в любой нише можно найти примеры подобных решений. В современном мире, где количество информации растет в геометрической прогрессии, рекомендации помогают людям найти что-то новое и интересное.

    Яндекс всегда специализировался на поиске. В широком смысле этого слова. Поиск ответов на свои вопросы. Поиск оптимального маршрута. И даже поиск свободного такси рядом с вами. Примерно два года назад у нас появилась еще одна идея. Научить машину искать в сети тот контент, который был бы интересен конкретному человеку. Персонализированный поиск, где в качестве запроса выступают не слова, а интересы. Из этой идеи и родилась лента рекомендованного контента Дзен.

    Дзен


    Дзен – это бесконечная лента контента, которая формируется исходя из интересов конкретного человека. Мы хотим помочь пользователям найти интересный контент, а издателям – целевой трафик (клик по рекомендациям открывает материал на сайте-первоисточнике). Обычно рассказы о новых продуктах начинают с описания идеологии и продуктовой стратегии, и здесь я рекомендую вам прочитать пост Романа kukutz Иванова в блоге Яндекса, а мы с вами сразу перейдем к самому важному для Хабра, к технологиям. Тем более, что именно они отличают Дзен в Яндекс.Браузере от любых других браузерных (и не только) аналогов.



    Кстати, внимательный читатель может вспомнить, что первые эксперименты с Дзеном проводились в 2015 году на странице zen.yandex.ru. Почему теперь лента рекомендаций стала частью Браузера? На этот раз вопрос я обязательно отвечу чуть позже.

    В основе Дзена лежит рекомендательная технология Диско, разработанная в Яндексе и уже нашедшая применение в Яндекс.Музыке и Яндекс.Маркете. Слово «диско» созвучно английскому слову discovery, которое означает «открытие нового» и хорошо описывает суть технологии.

    Упрощенная логическая схема работы Диско в случае с Дзеном выглядит так:



    Начнем с самого начала, с исходных данных, которым еще только предстоит как-то превратиться в факторы.

    С чего начинаются рекомендации


    Прежде чем что-либо советовать человеку, нужно понять его интересы и предпочтения. Дзен для этого использует знания Яндекса о посещаемых людьми сайтах. Благодаря этим знаниям многие новые пользователи Дзена смогут сразу увидеть ленту персональных рекомендаций без необходимости что-то настраивать. Но иногда их недостаточно. Можно было бы попробовать решить эту проблему с помощью ленты, ориентированной на среднестатистического человека. Но мы же знаем, что такого человека в реальности не существует (что хорошо было показано на примере американских военно-воздушных сил). Поэтому пошли другим путем и предложили людям самостоятельно ограничить круг своих интересов. У этих настроек нет своего названия, но внутри мы называем их «Онбордингом».



    Важно понимать, что Онбординг – это не обязательный этап начальных настроек, а лишь резервный вариант для тех, кому точно нечего предложить. Лента рекомендаций сразу после прохождения Онбординга может достаточно сильно отличаться от подборок, формируемых через несколько недель активного использования Дзена. Эти настройки уже доступны пользователям Яндекс.Браузера для Android и iPhone. Для Windows станут доступны в ближайшее время (а пока можно воспользоваться временным решением).

    Знания об интересах человека – это лишь половина необходимой информации. Для того чтобы что-то рекомендовать, нужно для начала это что-то найти. Обычно рекомендательные сервисы решают эту задачу примитивным способом – формируют ограниченный каталог RSS-лент по интересам. В случае с Дзеном таких ограничений нет. Поисковые роботы ищут любые материалы. Это могут быть как авторские публикации с популярных блогов, так и качественные истории с форумов или ролики с YouTube. Это то, что мы называем «диким вебом». Главное, чтобы сайт не был заброшен и на странице содержалось достаточное количество полезного контента.

    Итак, с одной стороны у нас знания о любимых публикациях миллионов пользователей, с другой – вся мощь глобального поискового индекса Яндекса. Осталось самое «простое». Научить машину строить рекомендации.

    Виды рекомендательных систем


    В истории рекомендательных технологий хорошо известны два их основных вида: фильтрация по содержимому и коллаборативная фильтрация. Начнем с первого, который основан на сравнении содержимого рекомендуемых объектов. Для примера предлагаю рассмотреть фильмы. Если два фильма относятся к одному и тому же жанру, и пользователь уже высоко оценил один из них, то с определенной вероятностью можно посоветовать ему и второй. И здесь интересно вспомнить онлайн-кинотеатр Netflix, который увеличил количество жанров с нескольких сотен до десятков тысяч, среди которых можно найти даже «Культовые ужастики со злыми детьми». Большая часть из этих жанров скрыта от глаз зрителей и используется только для построения рекомендаций.



    В нашем случае никаких жанров нет. Чтобы сделать вывод о соответствии веб-страницы интересам человека, нужно сравнить ее контент с известными образцами. Причем заниматься этим должен компьютер, которому нужно не просто прочитать материал, но и понять его смысл. И единственный способ решить эту задачу достаточно точно, это использовать опыт Яндекса в области искусственного интеллекта.

    NLP + CV


    Когда речь заходит об искусственном интеллекте, то многие пользователи представляют себе SkyNet, желающий поработить человечество. К счастью, будущее не предопределено и все в наших руках. Но а если серьезно, то наработки в области ИИ уже сейчас помогают нам решать сложные задачи. Способность машины читать, видеть и, что наиболее важно, понимать смысл открывает большие перспективы.

    Обработка естественного языка (Natural Language Processing, NLP) и компьютерное зрение (Computer Vision, CV) – два широко применяемых в Дзене направления из области искусственного интеллекта.



    Когда мы говорим о рекомендациях, то подразумеваем себе материалы, которые были бы достаточно близки по своему смысловому наполнению к образцам пользователя. Иными словами, машина должна прочитать два текста и сделать вывод: близки ли они по смыслу или нет. Ровно это мы и учимся делать. Специально обученная нейронная сеть преобразует текст в вектор, в котором заключен смысл текста. Два текста могут быть написаны с использованием разных слов и даже на разных языках, но смысл у них будет один. Сравнивая эти векторы, мы можем с определенной вероятностью предсказать интерес человека к новому материалу. Кстати, если векторы почти совпадают, то это уже говорит о смысловом дубликате (рерайт текста или разные статьи об одном и том же событии), с которыми мы боремся в ленте.

    Другой подход к NLP, над которым работает команда Дзена, это автоматическое присвоение меток для любого текста. Вспомните про пример с Netflix'ом и десятками тысяч жанров. Так и здесь. Классификация публикаций с помощью меток помогает повысить точность итоговых рекомендаций.

    Работа с компьютерным зрением в целом похожа на NLP. Только вместо чтения текста машина учится «смотреть» и понимать смысл изображения. Помимо прямого применения в рекомендациях у компьютерного зрения есть и другие задачи в Дзене. Например, миниатюры картинок далеко не всегда удобно масштабируются, и их приходится обрезать, а компьютерное зрение помогает находить на картинках людей и спасает их от судьбы Нэда Старка из «Игры престолов».

    Компьютерное зрение применяется и для нахождение текста на картинках. Некоторые сайты любят дублировать заголовок в виде изображения. В ленте это смотрится далеко не так красиво, поэтому подобные картинки выявляются и не используются в качестве миниатюр. Существует еще такое труднообъяснимое понятие, как «качество» картинки. Машина учится выбирать на сайте те изображения, которые больше нравятся людям, и использует их в качестве все тех же миниатюр.

    SVD


    Выше я рассказал вам о подходе к построению рекомендаций, который основан на фильтрации по содержимому объектов. Теперь пришло время вспомнить о коллаборативной фильтрации. В основе этого подхода лежит идея, что похожим людям нравятся похожие объекты. В этом случае вам не нужно знать свойства рекомендуемых объектов, достаточно собрать статистику о том, насколько они соответствуют интересам пользователей. На примере фильмов это может выглядеть так:



    Опираясь на уже известные оценки, можно выявить закономерности в поведении разных людей и попробовать предсказать реакцию на новый фильм. На математическом уровне для применения коллаборативной фильтрации придуманы разные алгоритмы, о которых в свое время на Хабре хорошо рассказал мой коллега Михаил Ройзнер.

    В случае с Дзеном мы используем коллаборативную фильтрацию (а точнее алгоритм SVD) для предсказания интереса человека к определенному сайту в целом. Эта информация дополняет рекомендации, построенные для отдельных материалов с помощью искусственного интеллекта (NLP+CV). Позволяет отсеять излишний шум и выявить нетривиальные закономерности (скажем, может выясниться, что люди, которые интересуются Хабром и историями с Пикабу, чаще других читают «N+1»).

    Подытожим. Используя исходные данные о сайтах и пользователях, мы с помощью технологий обработки естественного языка, компьютерного зрения и алгоритма SVD формируем комплект различных факторов, которые характеризуют интересы человека к тем или иным сайтам/материалам.



    Точность итоговых рекомендаций напрямую зависит от количества и разнообразия исходных данных, поэтому в качестве факторов используются и многие другие наши знания. Например, знания Яндекса о конкретном сайте или странице, информация о том, как человек использует Дзен, его обратная связь в виде кликов, «больше такого» и «меньше такого», местоположение и даже время суток. Общее количество отдельных факторов, которые мы закладываем в систему рекомендаций, исчисляется тысячами. Сложность системы достигает такого уровня, что одних алгоритмов уже мало. Нужна технология, которая будет сама вычислять идеальную формулу для построения итоговой ленты. И здесь нам пригодился опыт Яндекса в области машинного обучения.

    Матрикснет


    Термин «машинное обучение» появился еще в 50-х годах. Он обозначает попытку научить компьютер решать задачи, которые легко даются человеку, но формализовать путь их решения сложно. В результате машинного обучения компьютер может демонстрировать поведение, которое в него не было явно заложено.

    Каждый день наша поисковая система отвечает на миллионы запросов, многие из которых — неповторяющиеся. Поэтому невозможно написать такую программу, в которой предусмотрен каждый запрос и для каждого запроса известен лучший ответ. Поисковая система должна уметь принимать решения самостоятельно, то есть сама выбирать из миллионов документов тот, который лучше всего отвечает пользователю. Для этого нужно научить ее обучаться.

    С 2009 года поиск Яндекса использует собственный метод машинного обучения Матрикснет. С его помощью можно построить очень длинную и сложную формулу ранжирования, которая учитывает множество различных факторов и их комбинаций. Кроме того, Матрикснет сам определяет разную чувствительность для разных значений факторов ранжирования. Эта технология достаточно универсальна, поэтому впоследствии нашла применение не только в Яндексе, но и в Европейском Центре ядерных исследований.

    Способность компьютера учитывать тысячи факторов и самостоятельно искать наилучшее решение – это то, без чего невозможно построить современную рекомендательную систему. Именно поэтому Матрикснет был взят за основу при создании собственной рекомендательной технологии.

    Результат работы Матрикснета – это именно то, что пользователь и видит в ленте Дзен. Со стороны разработчиков не существует каких-либо правил вида «Если человек любит А, то рекомендуем ему Б». Все подобные закономерности рождаются и постоянно меняются внутри Матрикснета. И чем больше у него данных, тем точнее рекомендации. Именно поэтому Дзен – это часть Яндекс.Браузера, а не самостоятельный веб-сервис или приложение. Отдельному приложению сложнее понять интересы пользователя, который после двух-трех дней может просто перестать его запускать. Чтобы магия Дзена и машинного обучения вступила в полную силу, им нужно активно пользоваться или хотя бы регулярно проходить рядом. И браузер, как единая точка выхода в интернет, подходит для этого лучше всего. Само собой, любой пользователь может отказаться от использования Дзена в Браузере.

    В этом посте я рассказал вам о том, как формируется лента персональных рекомендаций в Яндекс.Браузере, и почему Дзен – это не очередная «лента новостей», а результат работы серьезных технологий. Наработки из области искусственного интеллекта уже сейчас помогают машине понимать смысл контента и интересы человека. Но это лишь самое начало. Кто знает, может быть, однажды компьютеры будут понимать нас лучше, чем мы сами?

    Яндекс

    754,00

    Как мы делаем Яндекс

    Поделиться публикацией
    Комментарии 111
      +2
      Эх… Если-бы остальные браузеры тоже вносили какие-либо новшества — было-бы просто чудесно! А то один Яндекс стремится выпускать новинки, такое чувство что гугл стоит на месте…
        +11
        И к чему они такие новшества?
        Вам мало источников получения «интересного контента»?
          +2
          Подскажите какие есть, те, которые я видел — мне показались неудобными
            –3
            RSS?
              +1
              RSS отличный специализированный инструмент. У меня у самого есть подборка в Feedly. Но это совершенно о другом. С помощью RSS я слежу за несколькими уже известными для меня сайтами. Причем за всеми их публикациями. Дзен же работает иначе. Находит интересные (а не все подряд) публикации и с неизвестных для меня сайтов.
                0
                То есть одно и тоже, но с разных сайтов, а зачем? Вот если сейчас 10-20 айтишных сайтом открыть, то бОльшая часть новостей будет совпадать, ну и нафига мне нужны «неизвестные» мне сайты?
                  +2
                  Почему одно и то же? Смысловые дубликаты вычищаются из Дзена (могут быть баги, но в целом вычищаются). Интересный контент – это близкий по духу, но не совпадающий 1в1 по наполнению.
                    +1
                    Уговорили, посмотрю)
                      0
                      Одно и то же по аналогии с тем, как работает ваша реклама. Поскольку это ваш источник денег, там же самые совершенные алгоритмы, правда?
                      Один раз поискал через яндекс где в городе продают туалетную бумагу. Полтора месяца реклама бумаги теперь преследует… :( да я через 10 минут её купил, зачем вы мне её пихаете с такой настойчивостью? Я ведь правильно понял, что с вашей системой туалетная бумага будет меня преследовать и в подборке публикаций?
                        +3
                        Так у блока с рекламой Яндекса есть крестик, с помощью которого можно сообщить машине о своем недовольстве. Тогда машина переключится на что-нибудь другое.
                          +2
                          Возможно, это будет откровением, но факт в том, что большинство пользователей (голословное утверждение, но я проверил на двух надёжных знакомых) не взаимодействует с рекламой. Не нажимают крестики, не выбирают, насколько им понравилась реклама, не звонят в службу поддержки баннерной сети, чтобы рассказать, как им лучше рекламировать то, что они рекламируют. Они просто ненавидят рекламу всё больше и больше благодаря вашему предположению о том, что незакрытая реклама пользователю понравилась и важна. И ставят адблок, если технически подкованы в этом.
                            0
                            Вот кстати момент. Увидел я у друга велосипед определенной марки, вбил в поиск его название — просто посмотреть характеристики. На десктопе нет проблем — адблок вырезает всю рекламу. А на телефоне у меня теперь весь директ завален предложениями купить велик. И вот как раз на телефоне у меня совершенно никакого желания пытаться ткнуть в крошечный крестик с достаточно большим шансом промахнуться и попасть в рекламу. Яндекс определенно уверен, что все что я ввожу в поисковой строке — я хочу купить, а не просто ищу информацию.

                            У вас нет желания сделать отдельный поиск, типа «Я.Информация», запросы которого будут генерить рекламу не «вот тут можно это купить», а «вот тут можно найти еще инфы по этому вопросу»?
                              +1
                              Дали бы пользователю возможность настроить поиск по ключевым словам. Т.е. если в поисковом запросе есть слова типа «купить» или «цена», то в первую очередь отображать сайты магазинов. Если таких слов нет, то не показывать ссылки на магазины вообще.

                  +1
                  https://surfingbird.ru/
                  +14
                  поддерживаю. основная задача браузера — корректное отображение сайтов, и развивать нужно в первую очередь это направление.
                  а сервисов типа «сейчас мы вам всяких статей накидаем» пруд пруди… еще в браузере этого не хватало.
                    +2
                    Сотовые сети не хотят быть трубой, браузеры не хотят быть телевизором.
                      +3
                      Всегда хорошо когда есть выбор. Но только если это действительно выбор, отключить-то эту функцию можно будет?

                      ps. И название странное. Настоящий дзен сервис не предоставлял бы никакого контента.
                        +8
                        Дзен отключается в настройках, конечно же.
                          0
                          Пресловутый Яндекс.Бар тоже отключался в два клика, но осадочек остался даже у тех, кто его и не видел никогда. Штука, может, и полезная, но уж слишком внезапно вылезшая. Моя мама, увидев невесть откуда появившийся Дзен, сказала, что у нее в Яндекс.Браузере вирус, например.
                        +1
                        А как по-вашему разработчики бесплатных браузеров должны отбивать затраты на разработку без доп. сервисов?
                          +1
                          Как по вашему, владельцы Яндекса зарабатывают на бесплатном поиске?
                            0
                            Продолжим вопросом на вопрос :) Вы хотите, чтобы бесплатный браузер вам во все отображаемые странички вставлял рекламу, как это делают поисковики?
                        +1
                        Как раз наоборот, их слишком много и там слишком много разного контента, не все что интересно многим, интересно мне. Хочется поменьше этих источников и зато поинтереснее контент.
                        –4
                        Ну, такая же лента в MS Edge есть. Не вижу новинки.
                          +3
                          Не такая. «Подборки новостей» в браузерах были и раньше. Рекомендательный сервис, который ищет любой контент в глобальном индексе на основе персональных интересов, появился в браузере впервые.
                            +1

                            Крайний раз, когда я пробовал Яндекс.Браузер, раздражало отсутствие индикации проигрывания звука на вкладках, поэтому снова вернулся к Chrome. Раньше вы говорили, что причина в использовании NPAPI-версии Flash. Если я не ошибаюсь, в Linux уже довольно давно вы используете PPAPI-вариант. В таком случае — когда же уже? Я правда хочу его попробовать, но при этом не хочется лишаться ни одной привычной полезности.

                              +1
                              Ну последние несколько месяцев замечал индикатор проигрывания с возможностью заглушить кликом по нему. Но я 90 процентов времени использую бета-версии, поэтому не могу точно говорить о стабильной.
                                +2
                                В процессе. Мы как раз почти перешли на PPAPI и индикатор звука уже в бете.
                                  0

                                  Значит, с учётом того, что на Linux у вас всё равно только бета — можно уже ставить и всё будет?

                                    0
                                    Должен быть. Но бывают баги.
                                      0
                                      Да, ставить уже давно можно.
                                      Ещё бы они не забывали в эту бету периодически добавлять фичи из маковской и шиндошской.
                                        0
                                        Они где-то писали, что это сделано ради оптимизации. Сначала стабилизируют новый интерфейс на Windows-версии, а потом допилят Mac и Linux версии до него.
                              0
                              В Опере в последнее время тоже много интересных новинок. Например, режим экономии батареи и VPN «из коробки».
                              Я уже не говорю про встроенную банеро-резку и оптимизацию трафика для медленных соединений.

                              Персонализированную ленту новостей там тоже пилят, кстати: http://www.opera.com/blogs/desktop/2016/05/personal-news-feed-vpn-update/
                                0
                                Да, но там принцип работы ленты совсем другой. Пользователю предлагают подписаться на контент тех сайтов, которые он посещает. Как RSS, если простыми словами.
                                0
                                Не знаю, как вам, а мне гугл уже давно присылает рекомендуемые статьи в Google Now, и зачастую довольно точно попадает в мои интересы. Причём это работает не только в Chrome, на телефоне я использую другой браузер и точно также гугл мне рекомендует, что почитать. Да, Яндекс делает много интересного со своим браузером, но мне кажется не совсем корректно говорить, что другие стоят на месте, надо просто смотреть шире.
                                +3
                                «Специально обученная нейронная сеть преобразует текст в вектор, в котором заключен смысл текста. Два текста могут быть написаны с использованием разных слов и даже на разных языках, но смысл у них будет один.»

                                Очень интересно, но не специалист в этой области. Подскажите куда копать, не очень себе представляю как вектор соотносится в итоге со смыслом текста?
                                  0
                                  Смысл смысла для компьютера только в том, что один смысл отличается от другого. Два одинаковых вектора — два одинаковых смысла. Модель, строящая «вектора смыслов» по тексту, — статистическая, она предсказывает вероятность появления того или иного вектора рядом с другим (обучаясь строить вектора так, чтобы эти предсказания становились всё более точными).
                                    0
                                    «Способность машины читать, видеть и, что наиболее важно, понимать смысл открывает большие перспективы.»
                                    «Смысл смысла для компьютера только в том, что один смысл отличается от другого.»

                                    Если Яндекс научился «понимать смысл», то ему надо, как минимум, присуждать Нобелевскую премию.

                                    Пишите, пожалуйста, правду — «С помощью наших математико-лингво-статистических ухищрений мы, как бы, понимаем смысл».
                                      0
                                      Примерно так и было написано.
                                    0
                                    Копайте по «word2veс»
                                      +3
                                      И про Latent Dirichlet allocation.
                                    +6
                                    «текст в вектор» вот из-за таких вот потугов потом не можешь найти конкретный текст. Даже написав его в кавычки. Причём этим страдает и яндекс и гугл.
                                    Попробуйте загуглить «мёд порно». оба поисковика упорно ищут «мед» а надо «мёд». И ничто их разубедить не может.
                                    А когда к этому подключится искусственный интеллект он не только заместо мёда будет предлагать мед-сестёр но и заместо порно будет искать эротику…
                                      +2
                                      А что вы хотели найти по такому запросу, вот чисто для интереса?
                                        –4
                                        Вероятно, энциклопедическую статью https://ru.wikipedia.org/wiki/2_Girls_1_Cup.
                                          +2
                                          Это же очевидно — порно в котором мёд является действующим реквизитом. В общем то всё тоже самое что и со сливками, только с мёдом. Ну уж никак не мЕд сестёр.
                                            0
                                            «порно с мёдом»?
                                              +2
                                              Даже в этом случае оно ищет не «мЁдом», а «мЕдом». Количество релевантных ссылок конечно возрастает, но яндекс всё равно не ищет ИМЕННО то что я написал.
                                              Тем более если попытаться добавить например слово анал. (или «анальное порно с мёдом») всё равно будет предлагать мЕд сестёр.
                                                +6
                                                А вы затейник ))
                                                  +1
                                                  Вот да, даже не нашёлся, что ответить человеку)
                                          0
                                          А что мешает воспользоваться конструкцией « +«мёд» бла-бла-бла -«мед» »?
                                            0
                                            второй уровень: а если я хочу «мёд» или «мед», но не хочу все слова начинающиеся на Медc и Меди ??

                                            И по теме поста: а как и когда мне вообще ожидать появления этих «дзен»?
                                            0
                                            Почему же, мне гугл много ссылок выдал как раз для значения «мёд», а не «медсестра». А вам лучше искать по запросам типа «измазана медом».
                                            +5
                                            В какой-то момент умный браузер начнет становится виртуальным порталом.
                                            С элементами социальных сетей. В рамках модных концепций типа месседжеров.
                                            Всё возвращается на круги своя…
                                              –1

                                              И так немного мыслей. То есть вся технология это:


                                              • какой-нибудь Tensorflow
                                              • обученная модель на русском языке для тэгирования текста, ну вот например
                                              • далее там надо распознавать картинки и текст на них, не вопрос — ловите вот
                                              • надо написать аннотацию к изображению, не вопрос вот
                                              • далее берем это все как признаки и делаем что-нибудь типа классификации или алгоритма ранжирования (тут столько вариантов как это сделать, что жуть)
                                                Если звучит слишком резко, то прошу поправьте. Google имеет полный набор инструментов, чтобы похожий пак алгоритмов собрать у себя на компе. Ну вот с выборкой и индексом правда могут быть проблемы.

                                              По поводу онбординга, судя по тому, что там ограниченный набор, значит и весь индекс рекомендаций содержит ограниченный набор сайтов. Готов поспорить. То есть там не весь индекс Яндекса, а типа 1000-5000 сайтов с контентом.


                                              Ну и наконец последние пять копеек в вижн. А не проще брать сайты из закладок пользователя или табло и выводить заголовки оттуда? Ну типа проверить гипотезу вообще :)

                                                +5
                                                Да там всего-то лишь машинное обучение.
                                                  +1
                                                  По поводу онбординга, судя по тому, что там ограниченный набор, значит и весь индекс рекомендаций содержит ограниченный набор сайтов.


                                                  Онбординг не ограничивает сайты. Он лишь задает вектор для будущих рекомендаций. В ленте будут и другие ресурсы. И даже больше. Будут ресурсы и другой тематики в рамках борьбы с самоизоляцией пользователя.

                                                  делаем что-нибудь типа классификации


                                                  Machine learning так еще никто не называл :)

                                                  А не проще брать сайты из закладок пользователя или табло и выводить заголовки оттуда?


                                                  Это загоняет в очень узкие рамки. У большинства пользователей нет закладок, а 8 сайтов в Табло слишком мало. Получится просто автоматизация RSS-подписок. И замыкание пользователя на тех сайтах, которые он и так посещает.
                                                    0
                                                    А ему надо посещать другие сайты? То есть гипотеза сразу одобрилась и все уверены, что тебе нужно читать еще какие-то похожие на твои любимые темы ресурсы? Тогда мы приходим к предположению, что часто на похожих на твои ресурсы постят то, что ты не читаешь, а это как бы противоречит правилу современной журналистики. Часто на всех сайтах выходят те же самые новости и статьи. Но допустим, что на другом похожем ресурсе есть то, чего нет на моем. Это ведь легко посчитать по основным темам.
                                                    Что будет если вывести рандом из статей с похожих на те, которые я и так посещаю? Проводили сравнение? Например в музыке часто рандом работает лучше чем композиция несколько алгоритмов.
                                                    Machine learning так еще никто не называл :)


                                                    Ну почему, вообще задача классификации это раздел обучения с учителем или без. Простите если вас это задело.
                                                      0
                                                      Ему надо как минимум знать о существовании других сайтов :) А дальше он уже решает, посещать или нет. И лента адаптируется.

                                                      Мне кажется, тут дело не в рандоме vs алгоритмах. А в разнообразии и борьбе с дубликатами. Слишком жесткие алгоритмы, которые ищут слишком похожие материалы, могут плодить дубликаты или замыкать в слишком узкой теме. Неудивительно, что в этом случае рандом сработает лучше – он просто разнообразнее и будет меньшим из двух зол.
                                                      0
                                                      В ленте будут и другие ресурсы. И даже больше. Будут ресурсы и другой тематики в рамках борьбы с самоизоляцией пользователя.

                                                      А можно услышать пару слов о том, как будет осуществляться подбор ресурсов по другой тематике? Просто рандомно, или на основе каких-то данных?

                                                      P.S. Вы не в курсе, ведутся ли какие-то работы, чтобы научить машину слушать музыку, чтобы предлагать хороших исполнителей, которых ты ещё не нашел сам?
                                                        +2
                                                        Нейросеть, способная понять, что такое хорошая музыка для данного конкретного юзера — по-моему, чуточку чересчур. ) До появления strong AI можно обойтись сервисами рекомендаций — на основе плейлистов юзеров со схожими вкусами. А после появления strong AI, возможно, будет вообще не до этого. ;)
                                                          0
                                                          Эх, я-то надеялся что будущее уже почти наступило, а оно ещё и только зарождается.
                                                          Листы рекомендаций на основе вкусов других — не решают проблемы. Наверное мои вкусы слишком специфичны.

                                                          P.S. вы не ответили на главный вопрос ;)
                                                          0
                                                          Небольшой рандом имеет место быть, но не по всем возможным темам, а только по достаточно близким к текущей.

                                                          Насколько я знаю, наши Музыка и Радио уже в какой-то степени учат машину «слушать» музыку.
                                                            0
                                                            Есть много статей на эту тему, которые предлагают разные подходы по генерации плейлиста на основе выбранного трека.
                                                            По факту, достаточно легко можно написать движок, который будет собирать из открытых API данные про ваши песни (которые у вас в вашей медиатеке), и пытаться предложить вам что-то похожее.
                                                            В добавок к этому можно анализировать тексты и само содержание песен, что так же может расширить базу для рекомендаций.
                                                        0
                                                        Всей родне женского пола поставил ЯБраузер, о чем говорил часто. Недавно стали всплывать справа внизу анонсы. У женского населения появились вопросы, которые я не смог снять одним кликом в настройках. Теперь навязывают контент и будет еще больше вопросов. А ставил ЯБраузер для того, чтобы не забивать себе голову
                                                          +3
                                                          Тут сразу два варианта решения. 1. Объяснить суть Дзена (и рассказать о кнопках «меньше такого», «больше такого», «заблокировать этот сайт»). 2. Выключить им Дзен.
                                                          0
                                                          Так и вижу светлое будущее Яндекс броузера. Не просто лента новостей, а бесконечная лента новостей, чтобы человек в ней залип на целый день, чтобы человеку можно было бесконечно откручивать бесконечное кол-во рекламы. Ок. Вот собственно на что идет вся мощь современных технологий в яндексе…
                                                          • НЛО прилетело и опубликовало эту надпись здесь
                                                              +2
                                                              А навигатор ваш теперь такой же fusy logic пользуется? А то невозможно стало ездить по нему с конца мая…
                                                                0
                                                                Ждём Дзен в Линукс версии.
                                                                  +1
                                                                  Он в бете уже должен появиться.
                                                                    0
                                                                    Пользуюсь yandex-browser-beta_16.6.0.6383-1_amd64.deb от 05-May-2016 14:37
                                                                    Где его найти?
                                                                      0
                                                                      Если их нет, то это говорит об отсутствии сформированных рекомендаций. Тут надо подождать онбординг.
                                                                  –1
                                                                  Всё просто — habrahabr.ru/post/301786
                                                                    0
                                                                    Крутая вещь! Но… Очень уж «дёргает» систему. Случайно закрыл вкладку с Дзеном, заметив интересную статью. Открыл, а там уже совсем другие ссылки…
                                                                    Или открыл «woman.ru» и всё! Все ссылки только с него.
                                                                    В мобильной версии не хватает проверки качества сайта. Открываешь интересный материал, а у ресурса нет нормального перенаправления на мобильную версию и открывается главная.
                                                                      +1
                                                                      >Открыл, а там уже совсем другие ссылки…
                                                                      Часто помогает пролистать вниз, и там оказывается то, что вы видели, хотя и не всегда.
                                                                        +1
                                                                        Соглашусь с «дерганьем». Нужно бывает открыть вкладку из табло — новая вкладка — выбор нужной. А внизу тем временем 25-м кадром мелькнул Дзен с каким-нибудь горячим заголовком и согревающей душу темой. Только после загрузки нужного сайта информация доходит до мозга, что было что-то стоящее, но слишком поздно. Даже если пролистывать вниз потом — тематика близкая будет, но конкретно тот заголовок, что задел за живое — я еще ни разу не встретил.
                                                                      • НЛО прилетело и опубликовало эту надпись здесь
                                                                          0
                                                                          Скажите, пожалуйста.
                                                                          Когда планируется
                                                                          1) 64-bit для windows и 32-bit для linux?
                                                                          2) Боковые вкладки
                                                                          3) Вариант оформление браузера в тёмных тонах
                                                                            0
                                                                            +1 за 64 бит на Windows. Вот просто интересно, хром же есть 64-битный, из исходников одних собирают. Ну да конкретно допиливают, но все-таки. Разве нет ключика волшебного для компиляции в 64? Или очень трудозатратно? :)
                                                                              0
                                                                              Chromium – это же лишь один из компонентов Яндекс.Браузера.
                                                                              0
                                                                              Когда именно – не подскажу. Но 64 бита рано или поздно будут. Мак и Линукс уже на них.
                                                                              К идее боковых вкладок вернемся, когда закончим с текущими вкладками (сейчас их активно дорабатываем).
                                                                              Темное оформление – это интересная мысль.
                                                                              +4
                                                                              Мне очень понравился этот функционал. Теперь по несколько часов зависаю в яндекс.дзен, так как реально интересные статьи предлагает)). Только один момент не понравился, я не нашел как оттуда открыть ссылки в фоне (т.е. открытие ссылки в новой вкладке без перевода фокуса на эту новую вкладку). Вообще там это предусмотрено? Может есть какая-то неизвестная мне комбинация клавиш.
                                                                              До этого яндекс браузером не пользовался и удивил один момент, он при установке каким-то образом подтянул не только сохраненные пароли из хрома, но и даже сессии. И все расширения из хрома также подтянулись. Круто!
                                                                                +1
                                                                                Я активно пользуюсь альфами и Яндекс.Браузер мне очень нравится. Но Дзен часто меня расстраивает. Я уже устал блокировать и фишки.нет и навального и дождь, и какие фитхакеры… Я нажимаю «заблокировать сайт», но через некоторое время вновь вылазиет. Очень напрягает.
                                                                                Но вцелом — хорошо. Надеюсь, что чёрный список вскоре полноценно заработает и будет редактируемым.
                                                                                  0
                                                                                  Хорошая идея продвигать рекламу пользователю напрямую, минуя адблоки ))
                                                                                  Но есть гораздо более лучшая стратегия для продвижения такого продукта и соответствующие ей фичи.
                                                                                    0
                                                                                    Запилите в Яндекс Браузере для OS X такой же дизайн, как и в Windows. Давно жду :D
                                                                                      –2
                                                                                      Где отключить этот «дзен» полностью?
                                                                                        +2
                                                                                        В настройках же.
                                                                                        0
                                                                                        В мобильной версии Дзен не бесконечная лента, он закольцован через 30-40 карточек.
                                                                                          0
                                                                                          Подход интересный, но слегка тупиковый. Простое увеличение числа факторов, пихаемых в Матрикс нет, не даст качественного перехода. Просто количественный, находящийся под гнётом эффекта убывающей отдачи.

                                                                                          Как мне кажется, нужен принципиально иной подход. Переходить от плоского вектора цифровых фич в их онтологии.
                                                                                            –1
                                                                                            Согласен. «Простое увеличение числа факторов, пихаемых в Матрикс нет, не даст качественного перехода. Просто количественный, находящийся под гнётом эффекта убывающей отдачи.»

                                                                                            Потом туда будут добавлять рекламу и получим «рекомендательную помойку».
                                                                                              0
                                                                                              А дзен в виде расширения в chrome можно внедрить?
                                                                                                0
                                                                                                Главная проблема всех этих рекомендаций, такая же, как и у обычного окна с часто посещаемыми страницами. Все интересы валятся в одну кучу и не сортируются. Страница быстрого доступа помогает пользователю удобнее и быстрее серфить по любимым сайтам. Вы смотрите, что пользователю интересно и предлагаете ему похожее, на других сайтах. Но проблема в том, что пользователь это не константа. Он изменчив. Я не имею в виду, что человеку нравились боевики, а потом они ему надоели. Я говорю о циклических изменениях. На работе я интересуюсь одним. Дома — совсем другим. Придя на работу я лазил по Stack Overflow, и читал статьи на Хабре, пытаясь разобраться с React.js. А в обед я уже читаю и комментирую статью о новом Яндекс Браузере. Перед этим я почитал новости. Вечером я буду изучать английский язык, а потом, посмотрю какой-нибудь сериал, после чего залезу на сайт его обсудить. В выходные буду изучать Python. А когда ко мне приходят друзья, мы часто смотрим КВН на YouTube. И мне не нужно больше или меньше чего-то из всего этого списка. Мне нужно все это, но в нужное время и в нужном месте. И мне совершенно не нужно, чтобы открыв браузер перед начальством, в рабочее время, я засветил там свои «обеденные» интересы. Попробуй потом докажи, что это ты читаешь только в обед. Так что недостаточно изучать мои интересы. изучайте всего меня, мой распорядок, мои шаблоны поведения. Только тогда ваш сервис достигнет истинного просветления. А еще надо не забыть, что у каждого человека есть интересы, которые он не хотел бы спалить перед другими. Может быть стоит добавить возможность вручную переключаться между несколькими Дзен-профилями.
                                                                                                  –1
                                                                                                  Может быть стоит добавить возможность вручную переключаться между несколькими Дзен-профилями

                                                                                                  Разработчики подобных систем стремятся к тому, чтобы пользователю не нужно было что-либо настраивать/фильтровать. Стоит задача приучить человека доверять выбору системы — она «лучше» знает, что тебе показывать. Только так можно эффективно пропихивать рекламу.
                                                                                                  Когда у человека не будет выбора, можно легко прогнозировать количество показа рекламного контента.
                                                                                                    0
                                                                                                    Рекламу можно «пропихивать» и с настраиваемыми системами ))
                                                                                                      0
                                                                                                      Да ну, разве выбор профиля это сложная настройка? Просто дома мне будет показываться одна реклама, а на работе другая. Не думаю, что с несколькими профилями будет намного сложней что-то прогнозировать и пропихивать. Зато пользоваться будет удобней, а значит пользователей будет больше. Плюс больше вероятность того, что пользователь «в нужном настроении», для соответствующей рекламы. То есть она будет еще более таргетированной, а следовательно более эффективной. Вы только задумайтесь, такого еще ни у кого нет. Все собирают информацию о том, к чему пользователи проявляют интерес, но никто не учитывает, когда и при каких обстоятельствах они это делают. Ведь реклама горящих туров в рабочее время может напрочь сбить с рабочего лада. Да и вообще, наличие в ленте, в рабочее время, чего-то не относящегося к работе, может свести продуктивность к нулю. Решений я вижу два: либо сервис угадывает, не только, что мне интересно в принципе, но и что мне интересно именно сейчас, либо добавляем возможность вручную выбирать профиль: рабочий, домашний, семейный, ночной и т.д. Возможна так же комбинация двух этих методов — что-то доверяем угадывать сервису, а что-то определяем вручную, выбрав профиль. Собственно, именно это я и предложил в своем первом комментарии. А кому несколько профилей не нужно — будут сидеть с одним по умолчанию, то есть и усложнения не заметят. Вообще никаких минусов не вижу, ни для пользователей, ни для компании.
                                                                                                    0
                                                                                                    Лучше бы плавный скроллинг сделали, как в Safari или Edge.
                                                                                                      0
                                                                                                      Так сделали же. Но в Edge он работает все же немного плавнее, да.
                                                                                                      0
                                                                                                      Перешёл на Яндекс.Браузер только чтобы опробовать Ваш «Дзен». Штука довольно интересная, достаточно точно определила мои интересы без каких-либо первоначальных настроек с моей стороны. Но всё же, одна и та же новость всплывает со многих ресурсов по десять, а то и больше раз. Так уж получилось, что новость про «Android запустили на iPhone» (не запустили) мне была показана уже раз 15. Ваши Яндекс.Новости отлично умеют собирать информацию с кучи источников и формировать в отдельные сюжеты. Нельзя ли применить подобную технологию для того, чтобы пользователи на сталкивались с вышеописанной проблемой?
                                                                                                        0
                                                                                                        Да, тут еще есть работа. Некоторые посты сейчас пробиваются в ленту дубликатами. Собственно, Дзен – это не какая-то финальная точка. Постоянная работа над технологией идет. И спасибо за отзыв.
                                                                                                        0
                                                                                                        Яндекс.Браузер мне безумно нравился до тех пор пока вы не сменили Chrome интерфейс на вот этот вот плоский, пресный планшетоподобный фрик. В браузере просто неприятно сидеть несмотря на то что по дефолту он лучше чем Chrome. Вы кстати уже внедрили подобный дизайн в Кинопоиск и там вам влетело от юзеров, потому как аудитория там была глубоко привязана к удобному, компактному старому дизайну. А так как яндекс.браузер у многих просто стоит якобы обеспечивая вам % аудитории, а по факту многие просто мисскликают мимо Firefox или хром, то никто не возразил против смены дизайна на этот богомерзкий интерфейс в духе windows 8.

                                                                                                        Так что любой ваш инженерный функционал гасится об мерзкий нагроможденный прямоугольниками дизайн браузера. И меня удивляет что вы свято считаете его эталонным для себя.
                                                                                                          0
                                                                                                          А так как яндекс.браузер у многих просто стоит якобы обеспечивая вам % аудитории

                                                                                                          Простите, но статистика Ли.ру и Метрики — это статистика именно использования, а не установок. По этой статистике использования он второй после Хрома на десктопе. Поверьте, после запуска альфы и беты мы собрали СТОЛЬКО фидбека, что пришлось долго и нудно допиливать интерфейс. У текущего варианта есть недостатки, но их стало уже сильно меньше. Именно поэтому его раскатили на всю аудиторию (и дали возможность вернуть старый в настройках, конечно же). А сейчас уже идет этап допиливания.

                                                                                                          Можете рассказать, какие проблемы у Вас с ним возникают сейчас?
                                                                                                          0
                                                                                                          Установил Яндекс браузер и через 1 день на хабре теперь отображается яндекс дикрект реклама — которую не блочит адблок… Совпадение?
                                                                                                            –1
                                                                                                            И всё таки это не случайность… На чистой винде установил firefox и яндекс браузер. В яндекс браузере гуглиз как же включить этот долбанный дзен. (который кстати говоря никак себя не проявил). Удалил его нах*уй. Включит firefox и перешол на habrahabr. и пожалуйста: http://imgur.com/jU75tuv
                                                                                                            Вообщем думаю не только не пользоватся яндекс браузером но и вообще сервисами яндекса…
                                                                                                              0
                                                                                                              Используйте uBlock.
                                                                                                            0
                                                                                                            Ради бога уберите меняющие цвет вкладки (подстраивающиеся)!!!
                                                                                                            Вам же цвет дорожных знаков не меняют каждый день?
                                                                                                            Это элемент управления и я не хочу думать куда мне нажать.
                                                                                                            Лично я каждый раз напрягаюсь понимать какая из вкладок сейчас активная.
                                                                                                              –1
                                                                                                              Сейчас меня традиционно дико заминусуют, но принципы прежде всего! Ребята, но перестаньте вы подобную ерунду называть «ишшкуштвенным интеллектом». Ну не серьёзно, ей-богу! Если бы эта статья была бы на каком-нибудь mail.ru, написанная девочкой-журналистом из студенческой курилки, то я бы ещё понял. Но на «Хабре», где достаточно высок процент серьёзных людей, писать о том, что SVD и нейронные сеточки — это «искусственный интеллект»… ага, так мы скоро дойдём до того, что метод наименьших квадратов или максимума правдоподобия тоже в «искусственный интеллект» запишем. Автору не следовало бы держать читателей своей статьи настолько за идиотов :(
                                                                                                                0
                                                                                                                Искусственный интеллект – это же не Скайнет из Терминатора. Это свойство интеллектуальных систем выполнять функции, которые традиционно считаются прерогативой человека.

                                                                                                                Поэтому никто никого за идиотов не держит. На Хабре аудитория совсем другая.
                                                                                                                0
                                                                                                                Очень печально. Вместо удобного инструмента ещё одни «гении», считающие, что знают что нужно клиенту лучше его самого. Установил ваш Дзен на телефон и вместо своих папок, сортирующих приложения по категориям, увидел все приложения, рассортированными по предопределённым классам типа «Игры», «Офис», «Рядом» и т.д… Но у вас нет категорий «Python», «Data mining» или «Математика», и я их не просто так создавал. Хочется вспомнить один из главных принципов Linux, который и сделал его таким популярным — отдавать финальный контроль над всем конечным пользователям. А это недоприложение, принимающее непродуманные решения вместо пользователя и не позволяющее вернуть контроль, если не вернуться к здравому смыслу, никогда не выбьется даже в топ продуктов Яндекса, не то что внесёт что-то ценное в мир.
                                                                                                                  0
                                                                                                                  Дзен – это лента. Никаких папок там нет.
                                                                                                                    0
                                                                                                                    Мне кажется человек путает Дзен и Yandex Launcher. В котором действительно кастомных категорий для сортировки приложений нельзя создать.
                                                                                                                  0
                                                                                                                  Кстати для Дзена как-то писал расширение и теперь оно и турбо-страницы Яндекс поддерживает turbozen.seosm.ru

                                                                                                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                                                                  Самое читаемое