Chrome будет использован для поиска по закрытой части веба?

Original author: Richard MacManus
  • Translation
Перевод статьи от 5-го октября 2008 на тему индексации (теоретической) гуглом закрытой части веба, посредством своего браузера Chrome. Перевод любительский, но я старался чтобы было понятно. Приятного чтения.
____

Прошло больше месяца с того момента, как Google выпустил свой open source браузер, Chrome. Интересная теория, которую мы услышали недавно, о том, что Google использует Chrome для создания индекса закрытой части интернета (страниц защищенных паролем), или «темной стороны интернета»
В данный момент условия лицензионного соглашения (TOS) Chrome не позволяет Google делать индексацию личных данных. Но если представить, что Chrome изначально представлен в качестве браузера приложений, а не веб-страниц, эта теория начинает иметь смысл.
Большинство веб-приложений защищено паролем, так что нет путей для обычного поискового движка проиндексировать эти данные – даже те, которые не относятся к какому-то конкретному пользователю, а являются общими. Но с полноценным браузером в дополнении к поисковой системе, Google может теоретически иметь средства для индексации этой, ранее недоступной информации.
Планирует ли Google в будущем использовать Chrome для индекса закрытой части интернета? Этот вопрос не требует ответа, ведь интернет превратился в нечто, не так просто индексируемое. Нейл МакАлистер написал статью по этому поводу еще в июле статью «Is the Web still the Web?» («Веб это все еще Веб?»), раскрывающую эту тему. Нейл пишет:
«Является ли это все еще Вебом, если это уже не просто гипертекст? Все ли еще это Веб, если ты не можешь перейти непосредственно к содержанию? Все ли еще это Веб, если он не может быть проиндексирован и найден поиском? Это все еще Веб, если он может быть просмотрен только на специальных клиентах или устройствах? Это все еще Веб, если вы не можете увидеть исходник?»

Как он позже отметил, flash и silverlight теперь могут быть проиндексированы.
Так что следующий шаг – это возможность индексации и поиска по контенту, генерируемому пользователями (user-generated content). Chrome лучшее средство для этого. Для этого нужно внести некоторые изменения в лицензионное соглашение (TOS), потому что индексация личных данных — табу для поисковых систем, а особенно для лидера рынка — Google. Индексирование личной истории посещаемых страниц — это будет большая проблема конфиденциальности. Но что если Google сможет убедить пользователей в ценности индексирования данных с их страниц без указания индивидуальности пользователя (анонимно)…
Что вы думаете об этой теории — слишком нереально? Вспомните что Chrome уже на 4-ом месте среди браузеров (после ie, firefox и safari). И уже смог обогнать opera, и это всего за месяц, все еще в бета и без версии для Mac.
Share post

Similar posts

AdBlock has stolen the banner, but banners are not teeth — they will be back

More
Ads

Comments 70

    +5
    ППНХ (первый перевод на хабре), принимаются предложения по улучшению перевода.
      0
      Некоторые личные наименования не с заглавной буквы, как-то: «Планирует ли google в будущем использовать chrome для индекса закрытой части интернета?» Также есть несколько пунктуационных и стилистических ошибок, но копаться пока лень. :) В целом перевод и тема статьи хорошие. По самой теме позволю себе высказаться позже.
        +1
        Да как-то упустил, подправил
        +1
        Поработайте над связностью и смыслом перевода. Следующее предложение не читаеться, чтобы понять смысл надо лезть в первоисточник
        «Должны быть внесены некоторые изменения в соглашение, чтобы позволить это, потому что это индексация персональных данных и это запрет для поисковых систем, особенно для лидера рынка – google»
          0
          Я долго бился над ним, но ничего логичнее чем сейчас не смог выдавить :) Если кто перефразирует со смыслом, буду рад.
            +2
            «Для этого нужно внести некоторые изменения в TOS, потому что индексация личных данных — табу для поисковых систем. Особенно для лидера рынка — Google.»
            Попробуйте так.
              0
              Спасибо, чуть дополнил и подправил
          0
          Все ли еще это
          По-прежнему ли это
          на 4-ом месте
          На 4-м месте
            0
            Я бы посоветовал переводить «user-generated content» как «контент, создаваемый пользователями».

            «Генерируемый», на мой взгляд, не очень уместно в данном контексте.

            В целом перевод хорош и информация полезная. Спасибо :)
            +3
            Выскажу и свое мнение :) Очень интересная теория. В эпоху web2 (а дальше еще хуже), поисковикам пирходится все труднее. Информацию уже не достать так просто как раньше — просканировал страничку и готово. Все извращаются с поиском по флешу, документам, pdf. Google пошел дальше всех и уже ищет по речи в видео, тексту в нем. Планируется и поиск по тексту в изображениях, но все это не бегранично. Настанет такой момент, что доступная информация будет проиндексирована вдоль и поперек, а вся ценность будет только в закрытой, в той, куда поисковикам попасть очень тяжело. Может chrome — не просто браузер? Или это просто «плагин» для поисковой системы гугла? Время покажет :)
              +2
              ну вы и закрутили :)
                +2
                а что имеется в виду под «закрытой» информацией? персональная? тогда однозначно нет. и мое отношение и перспектива. америка — страна частной собственности. гугл там порвут за такую индексацию.
                  0
                  куда без регистрации не пускают, например. но все равно неясно, зачем это, если даже обычные страницы владельцы сайтов просили удалить из индекса. да и шумиха будет
                  +1
                  Эээээм теперь моя личная переписка вконтакте будет светится в поисковой выдаче??? Лучше останусь тогда на лисе.
                  • UFO just landed and posted this here
                  0
                  Паника, паника!
                    +5
                    А зачем сторить теории? Код хрома ведь открыт.
                      0
                      Дело не в коде, дело в самой возможности. Сейчас это только теория, вопрос в том будет ли это на самом деле
                        +1
                        Сама возможность появилась вместе с расширениями google для браузеров, то есть гораздо раньше самого chrome. И вам правильно выше написали, код открыт, по-этому можно воочию контролировать появление темных сторон chrome.
                        0
                        Открыт код Chromium'а. Google Chrome отличается от него по меньшей мере инсталлятором, но вполне может и ещё какие-нибудь фишки содержать. Впрочем сейчас там таких закладок точно нет (столько народу смотрели и ничего не увидели — да и сравнить два бинарника куда проще чем взломать какой-нибудь Skype, опять-таки WireShark'ом на него тоже смотрели), но что будет в будущем? Бог его знает…
                          0
                          Тоже думаю, код открыт — а все кричат, что гугл сканирует, гугл следит. Я думаю, что за месяц в этих исходниках нашли бы все «дополнения к поисковой системе».
                          0
                          Под «темной стороной интернета» обычно подразумевается несколько другое, если мне не изменяет память. Это данные, доступные по запросам из форм — например, интерактивное расписание поездов, которое можно использовать указав город и дату. Обычный поисковик проиндексирует форму — но не базу данных.
                            0
                            В том числе. Вроде принято считать темной стороной любой контент, который не доступен сразу. А туда поподает уже половина интернета
                              +1
                              Кстати ведь можно индексировать неперсональный «тёмный web» с помощью Хрома вполне себе легальным способом: если сколько-то человек (ну там 3-5-10) ткнули по какой-то ссылке, а у нас её нет — можно туда сходить: вдруг чего интересного найдём? Если явок/паролей никто не требует — можно и в базу занести…
                                +1
                                Если ссылка где-то есть, значит находящийся под ней материал, если он не требует регистрации, будет проиндексирован. Поисковики ведь так и работают — перемещаются по ссылкам.

                                Но если регистрация требуется — всё, поисковикам вход заказан. Вот ведь в чём дело.
                                  +1
                                  тогда каким образом можно объяснить, что у гугла есть 12 копий интернета?
                                    0
                                    только открытого интернета — куда пускают «ботаф»
                                      0
                                      сорри за возможно глупый вопрос — что значит 12 копий?
                                        0
                                        в прямом смысле этого слова… а еще они потребляют электричества больше чем сталелитейные заводы и в честь этого решили построить свою маленькую ядерную подстанцию…
                                      +1
                                      Ну да, а речь о том, что хром, как вполне самодостаточное приложение, легко запомнит не только страницу на которую Вы попали залогинившись, но и узнает как на нее самому попасть)
                                        0
                                        Хрому может и не понадобиться самому заходить: просто вся информация о странице будет отправляться сразу при серфинге на сервер гугла.

                                        Хотя теория и параноидальна, но зерно здравого смысла здесь есть.
                                        0
                                        Ссылка может порождаться «на лету» JavaScript'ом — тогда её не так просто отловить.
                                          0
                                          Это как с капчей. Тоже можно понаписать сложнейшую скриптовую функцию для проверки — но робот тупо выполнит ее с помощью своей Java-машины, и получит результат. Так что порождение ссылок «на лету», мне кажется, может ломаться легко.
                                    0
                                    Думаете поисковики postить не умеют? Спокойно они так себе умеют.
                                      +2
                                      Да, но что будет постить поисковик в текстовый инпут?
                                        0
                                        всяческие расписание это обычно выбор из селекта и календаря — думаю догадается тыкнуть и даже javascript отработать (вроде как гугл заявлял что может аджаксовый контент индексить, а значит с джаваскриптом работать)
                                          +1
                                          гугль не инопланетный разум, там такие же люди работают…
                                          может там спецотдел сидит регится на всяких сайтах и индексируют для своих целей эту „тёмную сторону инета” по-тихому
                                            0
                                            Инвайты не везде легко достать.
                                          +1
                                          Я не думаю что они понимают что нужно постить. Форму из одного select'а Гугл может и переберёт, но если запрос сложнее…
                                            0
                                            я отвечал конкретно на ваш вопрос «интерактивное расписание поездов» — обычно это набор предопределенных полей формы.
                                          0
                                          Если гугл использует информацию с тулбаров, то проблема отпадает.
                                          +5
                                          Ненавижу желтые заголовки в виде вопроса.
                                          Если автор сам не знает, чего пишет?
                                            0
                                            А что, все теории сначала подтверждаются а потом публикуются? Автор высказал вполне интересную мысль
                                            +3
                                            Можна будет читать с кеша Лепру? ;) (извините если неправильно выразилась, неосведомлена)
                                              +1
                                              Хмм… ну что-то вроде того
                                                +1
                                                Спасибо. Но что то кажется что это незаконно (Privacy Policy) а если изменят TOS то будут ли потом им пользоватся?
                                                  0
                                                  Это уже вопрос того, как они смогут это преподнести. В находчивости Google я, впрочем, не сомневаюсь.
                                                    +1
                                                    Зашифроватся уже не получится =/
                                              0
                                              Хороший ход со стороны гугла.
                                                +1
                                                причем тут ходы гугла? это просто теория
                                                +13
                                                — Аааа! А что если Chrome пересылает все данные с моих жёстких дисков в Гуголь?!
                                                — Этого нет в его коде, да и лицензионным соглашением запрешено.
                                                — Они могли это хитро спрятать!
                                                — Но исследования сетевого трафика не показывают никакой левой активности.
                                                — Ну и что! Возможность-то всё равно есть. Ааа! Они могут добавить эту фичу в следующем релизе!!! Точно, об этом и будет моя следующая статья…
                                                  +5
                                                  А вы не знали? Google — корпорация зла!
                                                    +1
                                                    Ну вот откуда только гуглофобы берутся? Где их откапывают?
                                                    • UFO just landed and posted this here
                                                        0
                                                        Пока наш мир не идеален подозрения были, есть и будут. И, имхо, должны быть, надо критически относиться к тому, что тебе подносят.
                                                        Это не значит, что я должен подозревать все и вся, но я считаю, все что есть — к лучшему. Борцы за правду могут перегибать палку, но они улучшают и вашу жизнь тоже.
                                                      –3
                                                      … (задумчиво, про себя) — Я как всегда, гениален…
                                                      0
                                                      я бы сказал что это довольно таки не честно… если ресурс закрыт, даже не ресурс, а какая-либо страница(ресурс это понятно, его и создают для получения прибыли, НО не все), с какого такого перепуга Google имеет право её индексировать?!
                                                      Либо «они» должны индексировать с «умом», либо на Google будут поданы миллионы исков о «нарушении авторских прав» или «нарушении права на частную жизнь».

                                                      Цитирую:

                                                      КОНСТИТУЦИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
                                                      Статья 23
                                                      1. Каждый имеет право на неприкосновенность частной жизни, личную и семейную тайну, защиту своей чести и доброго имени.
                                                      2. Каждый имеет право на тайну переписки, телефонных переговоров, почтовых, телеграфных и иных сообщений. Ограничение этого права допускается только на основании судебного решения.
                                                      Статья 24
                                                      1. Сбор, хранение, использование и распространение информации о частной жизни лица без его согласия не допускаются.

                                                      А так же:

                                                      Закон РФ от 9 июля 1993 г. N 5351-I «Об авторском праве и смежных правах»
                                                      (с изменениями от 19 июля 1995 г., 20 июля 2004 г.)
                                                      www.fips.ru/avp/law/5351-1SN.HTM
                                                        0
                                                        так как лицензионное соглашение люди читают с огромным интересом, в Google решили немного намудрить…
                                                          0
                                                          Если это так, то прощай вся закрытая информация Контакта, Фейсбука и прочей нечисти…
                                                            –2
                                                            Контакта, Фейсбука и прочей нечисти просто не пустят к себе гугл — делов то.
                                                              0
                                                              и как же это вы себе представляете? как он бота от человека отличит? будет капчу спрашивать на каждой странице? а что если как бота будут использовать ваш собственный процесс вебсёрфинга?
                                                        • UFO just landed and posted this here
                                                            0
                                                            вот-вот. Всё-равно к ней доступ не получить.
                                                            +1
                                                            мне так кажется, что эта индексация просто неимеет смысла.
                                                              +1
                                                              В следующий раз серьёзней подходите к вопросу о переводе статьи :) Имею ввиду что переводить — нужно выберать. Не каждая статья на дигге на вес золота :)

                                                              По теме: паранойя шизофреников.
                                                                +1
                                                                Если ограничить это проверкой на то, заходит ли у пользователя на этот ресурс с его набором куков, то можно и индексировать. Поиск Бухтоярова от этого выиграет :)
                                                                  +4
                                                                  Очень интересная статья, спасибо.

                                                                  Я тут подумал.., возможно, Гугл собирается предоставить каждому пользователю их браузера специальный личный индекс, который будет строиться на основании посещений закрытых сайтов. С куками, понятно, проблем нет, но зато после этого пользователь смог бы искать не только на вебе, в личных сообщениях на хабре, например, или в сразу во всех веб-мылах. Это было бы интересно пользователям — стало быть, популярность Хрома возрастет. И, главное, вне досягаемости от конкурентов — ни один производитель браузеров не имеет такого сильного движка поиска. Ресурсов — они не особо стесняются — пример GMail — так что выдать каждому свое пространство для поискового индекса — не особо проблематично. Плюс часть функций по индексации можно перекинуть на «толстого» клиента в лице Хрома. Тут, конечно, нужно быть внимательным, так как серьезные алгоритмы реализовывать в открытом коде, по меньшей мере, глупо.
                                                                  Ну, понятно, у пользователя можно «спрашивать», хочет ли он индексировать тот или иной ресурс, продумать удобный интерфейс, но в целом – это, на мой взгляд, может быть очень интересной технологией.
                                                                  Единственное, куки экспирятся, но если пользователь сам заинтересован в индексировании – это можно решить.

                                                                    0
                                                                    А смысл?

                                                                    Проиндексировали «закрытую» часть… И?
                                                                    Другие пользователи через поисковик туда попадут? Нет, конечно… (конечно, если говорить именно о закрытой части, а не той, на которую нет внешних ссылок)

                                                                    Сохранять у себя? За это гугл порвут на кусочки, да и опять-таки смысл?

                                                                    Возожность есть, да, но надобности я не вижу. Приведите пример того что можно найти в закрытой части и почему это нужно отдавать всем, с учетом того что оно все-таки ото всех закрыто…

                                                                    Only users with full accounts can post comments. Log in, please.