Интернет на основе здравого смысла

http://www.nytimes.com/2006/11/12/business/12web.html
  • Перевод
В то время как «всемирная паутина» состоит из миллиардов документов и ссылок, которые их связывают между собой, разработчики и сотни компаний, создающих всё новые стартапы, ищут новые пути к пониманию потребностей пользователей.

Их цель – поставить эти потребности «во главе интернета», чтобы он стал меньше похож на каталог и больше – на путеводитель. Некоторые из них даже разрабатывают системы, понимающие человеческое поведение. Проблема искусственного интеллекта, когда машины смогут думать вместо того, чтобы просто исполнять команды, занимает исследователей уже не один десяток лет.

«Веб 3.0» – «проект», который находится в самой начальной стадии своего развития и который уже назван скептиками «нереальным». Но соответствующие технологии и их разработка уже нашли своих приверженцев как в крупных корпорациях типа IBM или Google, так и в небольших фирмах. Их проекты сейчас чаще всего концентрируются на возможностях практического применения, вроде рекомендаций по планированию отпуска или прогнозирования будущих музыкальных хитов.

Но в будущем более мощные системы смогут работать как персональные советчики в таких же неоднородных и сложных сферах, как финансовое планирование: например, составление пенсионного плана для семейной пары или образовательный консалтинг, когда тот или иной сервис выберет Вам оптимальный для поступления университет. Всем этим проектам прогресс технологий, более мощные компьютеры – только на руку.

«Это можно назвать Всемирной Базой Данных (World Wide Database)», – говорит Нова Спивак, основатель компании, которая разрабатывает технологию, определяющую отношения между кусочками информации в сети. – «Мы хотим пройти путь от интернета связанных документов к интернету связанной информации».

«Веб 2.0», предполагающий возможность интеграции веб-приложений (например, электронных географических карт) и сервисов (например, фото-хостингов), в последнее время находится в центре внимания компаний Силиконовой долины. Но коммерческий интерес к «Веб 3.0» (или, как его называют некоторые, «семантический Веб») с его идеей «умных сервисов» уже появился.

Классический пример «эры Веб 2.0» – «мэш-ап», термин, предполагающий интеграцию различных сервисов. Например, сайт по поиску недвижимости с интегрированными картами Google Maps в итоге представляет собой новый, более удобный сервис, с помощью которого каждый пользователь может сразу увидеть все предлагаемые для продажи дома на карте.

А разработчиков «семантического Веба» занимает вопрос о том, как создать систему, которая сможет дать чёткий и максимально полный ответ на простой запрос вроде этого: «Я ищу тёплый курорт, чтобы отдохнуть во время отпуска; у меня есть на это $3000. И кстати, со мной будет 11-летний ребёнок». В нынешних условиях поиск такой информации может занять не один час: придётся просмотреть списки авиарейсов, отелей, фирм по аренде автомобилей. В условиях «Веб 3.0» пользователь в идеале должен сразу получить полный пакет информации так же профессионально и оперативно, как если бы это делал агент туристической фирмы.

Как именно будут построены подобные системы, как долго они будут разрабатываться и как скоро начнут выдавать корректные ответы на запросы – вот основные темы для ожесточённых споров учёных и разработчиков. Некоторые из них сосредоточены на создании новой структуры, которая заменит нынешний интернет, другие – на разработке новых приложений, которые смогут «извлекать смысл» из существующих потоков информации. Но все сходятся во мнении о том, что эти системы принесут больший доход, нежели нынешние поисковики, которые выдают тысячи и даже миллионы документов, но не отвечают непосредственно на вопросы.

Для понимания потенциала технологий «понимания человеческих желаний» можно привести пример Page Rank: эта технология позволяет компании Google использовать потенциал человеческих знаний и решений для ранжирования результатов поиска. (Она интерпретирует ссылку с одной веб-страницы на другую как «голос», при этом «голоса» на более популярных страницах имеют больший вес.)

Но исследователи двигаются дальше. Компания уже упомянутого мистера Спивака – Radar Networks – исследует содержание социальных сайтов, которые позволяют пользователям размещать, совместно работать и обсуждать различные виды контента, от описания путешествий до фильмов. Технология этой компании построена на системе баз данных нового поколения, которая определяет и сохраняет ассоциативные связи между частями информации так же, как связи между теми или иными людьми (коллегами, друзьями, родственниками).

Пример использования этой технологии – KnowItAll, проект исследовательской группы Вашингтонского Университета, финансируемый Google. В его рамках создана система Opine, собирающая и сортирующая мнения пользователей с различных тематических сайтов. Демонстрационный проект, посвящённый отелям, «понимает» такие параметры, как температура в номере, комфортабельность кровати и цены, а также различает, что такое «великолепно», «неплохо» и «сойдёт», чтобы выдавать полезные ответы на запросы. На современных сайтах пользователю придётся просмотреть огромные списки комментариев и отзывов от других пользователей, а «вебтринольная» система будет сама взвешивать и ранжировать все комментарии, чтобы найти оптимальное, разумное решение и помочь рядовому пользователю быстро найти нужный отель.

«Система поймёт, что «идеально чистый» – лучше, чем просто «чистый»», – говорит Орэн Эцциони, исследователь из Вашингтонского Университета, руководитель проекта. – «Мы пытаемся дать понять, что текст в интернете – просто огромный источник информации».

Нынешний интернет, можно сказать, находится в «фазе Lego», конструктора, в котором части информации механически стыкуются друг с другом. Приверженцы «Веб 3.0» видят «будущую версию интернета» как эру, в которой машины будут делать интеллектуальную работу.

Исследователи уже сейчас отмечают появление интеллектуальных технологий. К примеру, специальные веб-камеры фиксируют незаконное вторжение на какую-либо территорию, а программы идентифицируют дату, время, место вторжения и иногда даже личность преступников, передавая данные на охранный пульт. Исследователи утверждают, что это и есть зачатки «Веб 3.0».

«Это – важная тема: люди ещё просто не понимают, насколько сильно они зависят от искусственного интеллекта», — говорит Дэниэл Хиллис, специалист в этой сфере, основатель компании Metaweb Technologies. Его компания до сих пор не раскрывает, что за продукты разрабатывает, хотя на их сайте написано, что «Metaweb планирует построить новую инфраструктуру интернета».

И Radar Networks, и Metaweb частично связаны с военными и разведывательными структурами. Начальные исследования в этих компаниях финансировались ЦРУ, АНБ и другими государственными агентствами США; работа началась вскоре после появления концепции «семантического Веба», созданной Тимом Бернерсом-Ли в 1999 году.

Разведслужбы помогли подключить к разработкам исследователя Дуга Лэната, чья компания Cycorp продаёт системы и сервисы правительству и частным корпорациям. Основная разработка компании – система искусственного интеллекта Cyc, которая, как обещает Лэнат, однажды сможет отвечать на любые вопросы, как написанные, так и произнесённые устно. Изначально система строилась на введённых в неё миллионах фактов, которые она должна «выучить», однако на лекции, прочитанной в прошлом году в офисе компании Google, Лэнат сообщил, что сейчас Cyc «учит» сетевой контент. Этот процесс, по словам исследователей, должен продемонстрировать методы построения «Веб 3.0».

Лэнат утверждает, что на данный момент система уже может отвечать на вопросы, заданные на обычном человеческом языке, например, «Какой город в США может быть подвержен эпидемии сибирской язвы летом?»

В это же время сотрудники IBM говорят, что они регулярно используют «цифровой слепок» 6 миллиардов сетевых документов для проведения исследований и ответов на различные вопросы корпоративных клиентов. Компания использовала свою систему в маркетинговом исследовании для телевизионных сетей, собрав и обработав информацию онлайн-сообществ. А при помощи информации о популярности тех или иных музыкальных треков на различных сайтах университетских сообществ исследователи смогли предугадать лидеров хит-парадов следующих двух недель.

Уже ведутся споры о том, смогут ли системы вроде Cyc создать «новую версию интернета» либо человеческий интеллект сможет самостоятельно развиться на новый манер при помощи этих технологий. Сторонники второй точки зрения говорят, что подобное уже происходит, и примеры тому – такие сайты, как del.icio.us и Flickr (система «закладок» и фото-хостинг, приобретённые компанией Yahoo), а также Digg – новостной сервис, чей контент формируют сами пользователи.

Например, на Flickr пользователи помечают фотографии тегами, тем самым помогая другим быстрее находить интересующие их изображения. «С помощью Flickr Вы сможете найти те изображения, которые никогда бы не нашёл компьютер», – говорит Прабхакар Рагнаван, руководитель исследовательского направления в Yahoo. – «То, над чем мы бились в течение долгих лет, вдруг стало таким простым. И это не стало бы столь простым без Всемирной паутины».
Поделиться публикацией
Комментарии 34
    –18
    статью не читал, мужики, у вас дальше трех кликов нет кнопки: НАЧАТЬ НОВЫЙ БЛОГ, чело Я тут ловлю? я пришел пообщаться с интересными людьми об, я надеюсь, им интересном. большая кнопка начать новый блог где?
      –6
      наверное автору не понравился мой ответ, смешно))) юзабилити авторов не продумана, нету кнопочки перенести туда-куда-надо))) даже если это не то что на самом деле надо))) все равно смешно
        –6
        и чата у вас нет, я думаю есть люди, кот. вам денег на него дадут, очень даже приличный качественный чат получится
      +1
      Замечательная статья и перевод хороший.

      Побольше бы таких статей.
        0
        А разработчиков «семантического Веба» занимает вопрос о том, как создать систему, которая сможет дать чёткий и максимально полный ответ на простой запрос вроде этого: «Я ищу тёплый курорт, чтобы отдохнуть во время отпуска; у меня есть на это $3000. И кстати, со мной будет 11-летний ребёнок». В нынешних условиях поиск такой информации может занять не один час: придётся просмотреть списки авиарейсов, отелей, фирм по аренде автомобилей. В условиях «Веб 3.0» пользователь в идеале должен сразу получить полный пакет информации так же профессионально и оперативно, как если бы это делал агент туристической фирмы.


        Не корректный пример. Это не запрос на естественном языке – это описание потребности в конкретной услуге. Ожидать что в будущем поисковые системы будут заниматься организацией туров вместо туристических фирм по крайней мере наивно.
          +1
          Да нет, пример-то вроде корректный, т.е. как раз и хотели показать этот переход от выдачи информации по запросу к выдаче информации по потребностям клиента. Другой вопрос, а решаемая ли это задача? Теоретически - да, особенно если представить, что сбудутся самые худшие прогнозы из статьи Веб 2.0 прикончит частную жизнь. А практически - точно не в ближайшем будущем.

          К тому же, ИМХО, легче осла тащить к озеру (тренировать простых пользователей задавать правильные запросы), чем озеро к ослу :)
            0
            Вот вот и я про тоже +1 :)
              +2
              Почему я написал что пример не корректный – а если точнее не корректный ожидаемый ответ на представленный запрос? Потому что, как Вы правильно написали, это «переход к выдаче информации по потребностям клиента» - то есть, на не четко сформулированный запрос –точный конкретизированный ответ. То есть в примере –
              «Я ищу тёплый курорт, чтобы отдохнуть во время отпуска; у меня есть на это $3000. И кстати, со мной будет 11-летний ребёнок»

              Ответ например – тур компания 1 – Испания – 2999$; тур копания 2 – Турция – 1999$;
              И это вполне разумно.

              В примере же ожидается выдача
              списки авиарейсов, отелей, фирм по аренде автомобилей


              То есть поисковая система WEB 3.0 – 1) сама составит цепочку – страна – город в стране – авиа рейс из места жительства клиента в соответствующий город - гостиница в городе – фирма по аренде автомобилей 2) Просуммирует каждую цепочку (которых не то, что в каждой стране – в каждом городе может быть огромное количество) и отберет из них цепочки с суммарной стоимостью менее 3000$
              То есть тут столько специфической логистики для каждой страны – что страшно представить. Подбирать такие цепочки – это как раз и есть услуги тур фирм. Потому я и написал, что ожидать что поисковые системы web3.0 будут бесплатно оказывать услуги по формированию туров – наивно.
                0
                Подбирать такие цепочки – это как раз и есть услуги тур фирм. Потому я и написал, что ожидать что поисковые системы web3.0 будут бесплатно оказывать услуги по формированию туров – наивно.


                Ну с этим я согласен на все 100. Особенно если учесть, что при таком подходе поисковик вынужден будет бесплатно выполнять работу турфирмы, так еще и рекламу контекстную сложно куда приткнуть :) Под выдачей информации по потребностям я имел ввиду:

                1) поисковик берет из баз данных информацию по тому кто запрашивает, строиться социальный портрет, присваивается какой-то "класс соответствия".
                2) на основе этой информации подбирается выборка сообщений из блогов, форумов и сайтов, где писали/комментировали люди с тем же "классом соответствия"
                3) построение релевантной выдачи - на одной стороне хвалебные отзывы о том "как я хорошо отдохнул в теплом месте, за 3000 $, а 11 летний ребенок так и уезжать потом не хотел", на другой - список турфирм, которые это могут организовать

                Таким образом поисковик и "рыбку съел" - показывает интересную посетителю информацию, и, гм, получил удовольствие - размещая контекстную рекламу. Но даже этот вариант пока практически не реализуем.
              0
              Ожидать что в будущем поисковые системы будут заниматься организацией туров вместо туристических фирм по крайней мере наивно.

              Так здесь совсем не это имелось ввиду. Как я понял имелось ввиду, что в условиях современного интернета поиск с помощью подобных запросов не даст ничего вразумительного, или для получения вразумительных результатов потребуется достаточно много ресурсов и времени.
              А если бы было такое
              Система поймёт, что "идеально чистый" – лучше, чем просто "чистый"

              и если бы интернет был бы организован как
              Всемирная База Данных (World Wide Database)

              то такой запрос поисковая ситема могла бы корректно разобрать и дать человеку нормальные результаты. И разницы не будет, запрос ли это на естественном языке или, как вы сказали, описание потребности в конкретной услуге, система быть максимально "очеловеченной" и понимать что от нее хотят.
                0
                Так здесь совсем не это имелось ввиду. Как я понял имелось ввиду, что в условиях современного интернета поиск с помощью подобных запросов не даст ничего вразумительного, или для получения вразумительных результатов потребуется достаточно много ресурсов и времени.


                Как раз таки имелось ввиду именно это. ТО есть в примере противопоставлялось не нечеткий запрос тур путевки – подбор конкретного тура. А – подбор конкретных составлявших тура, соответствующих заданным условиям.
                То есть вместо
                В нынешних условиях поиск такой информации может занять не один час: придётся просмотреть списки авиарейсов, отелей, фирм по аренде автомобилей.


                Здорово бы это сделала сама поисковая система. Заметьте - ищутся не предложения тур компаний. Ищутся конкретные составляющие поездки. Мне кажется – это не корректное пожелание. Формировать туры – не работа поисковых систем. (так же см ответ выше)
                  0
                  "Лэнат утверждает, что на данный момент система уже может отвечать на вопросы, заданные на обычном человеческом языке, например, «Какой город в США может быть подвержен эпидемии сибирской язвы летом?»"

                  Как Вы думаете, если эта система уже сейчас может ответить на вышеприведенный вопрос про эпидемию, то в будущем она сможет отвечать про туры? Заметьте, что вопрос про туры нисколько не сложнее вопроса про эпидемию ;).

                  cYc реально умеет хранить знания и делать на их основе различные рассуждения. В случае с эпидемией я сам видел ответ. И ответ этот не просто да или нет, а список городов, и рядом с каждым из городов приведен список причин по которым этот город был включен в результат.
              0
              типа web2 + AI = web3?
                0
                Получается так )
                • НЛО прилетело и опубликовало эту надпись здесь
                  0
                  не AI, а новый способ хранения информации в Вебе - в машинопонятном виде
                  0
                  не считаю, что это web 3.0
                  В частности, тот пример что привел автор с "$3000", так точно не тянет на это - доработанный поиск для понимания человеческого языка вместе с расширенным поиском по базе турагентства.

                  Существующему оператору стоит вложить хорошие деньги, чтобы разработать хороший "юзабильный" поиск и готово решение на поставленный вопрос.Да, оно не будет понимать человеческий язык, но как я сказал в предыдущем преждложении, если хорошо подать формы выбора условий, то все можно удобно реализовать.

                  Фактически что приведено в статье - это создание более сложного расширеннего поиска. Тут я согласен, но не более.

                  P.S. Продолжаем думать над идеей web 3.0 дальше :).
                  • НЛО прилетело и опубликовало эту надпись здесь
                      0
                      Ну, как-то обозначать же надо
                      • НЛО прилетело и опубликовало эту надпись здесь
                          0
                          Почему нет смысла объединять?
                          • НЛО прилетело и опубликовало эту надпись здесь
                      +1
                      Насчет "неправильности" терминов "Web 2.0" "Web 3.0" я писал еще в июне
                      http://www.liveinternet.ru/users/tivita2…
                      и под "третьим измерением Web" подразумевал сервисы связи интернета и реального мира и обратные связи второго порядка. А давать ответы на запросы на естественном языке или выращивать сообщества экспертов, как предлагает Андреев, дело третье -:)
                        0
                        Где бы найти Энштейна, чтоб открыть четвертое измерение?
                        0
                        А где можно посмотреть оригинал статьи?
                          0
                          Имя автора статьи - John Markoff - это ссылка на оригинал.
                            0
                            По ссылке попадаю на страницу, где просят ввести логин и пароль. Никакой статьи я не наблюдаю
                              0
                              А там только зарегистрированным юзерам материалы доступны ) Что касается архива, то он вообще платный. Попробуйте зарегистрироваться, it's free.
                                0
                                Зарегился. Не помогло. Статья платная. Если у вас она есть в оригинале, могли бы вы прислать мне ее на e-mail: mr_y@list.ru. Буду очень признателен.
                                  0
                                  и мне тоже, если не сложно: misha@boldov.ru.
                                  Заранее спасибо.
                          0
                          Интересное виденье дальнейшего пути развития веба по мнению Нова Спивак в схеме можно посмотреть у меня по ссылке http://semanticfind.com/2006/11/26/seman… А насчет термина Web 3.0 - такое же раздутое СМИ понятие, как и Web 2.0 (уже давно оспаривается в англоязычном нете)просто попытка описать одним словом эволюционное движение WWW к семантическому описанию данных путем таких спецификаций и технологий как Semantic web, микроформаты и другие.
                            0
                            Искусственый интеллект, нейронные сети, поведенческий тарегтинг - я так понимаю именно это будет основанием для разработки Web 3.0. Исходя из видения Новы Спивак, получается, что на данном этапе у нас есть база данных, содержащая огромное кол-во информации и связанная сеть пользователей. Осталось создать из всего этого семантическую сеть, определив правила (то есть создать базу знаний), возможно при помощи экспертных сетей и проанализировать повдение пользователей сети, затем все это просуммировать.
                              0
                              Включать нейронные сети в прогноз следующей итерации развития веба - несколько неверно.
                              Для использования их в качестве платформы (или наоборот, для ее устранения из веполя потребитель - платформа - сервис) необходимо качественно другая классификации контента и других входящих данных сети. Плавный переход, по-моему, невозможен. Это будет очередная революция.
                                0
                                Базы данных у нас нет. У нас есть база знаний, но знания в ней представлены в виде удобном для восприятия человеком. Задача Веб 3.0 сделать те же знания доступными для софта.

                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                              Самое читаемое