Криптосканер Attributor найдет в Сети цифровой контрафакт

    Два дня назад владельцы частной американской компании Attributor Corp. объявили об успешном прохождении второго раунда венчурного финансирования. Таким образом, общая сумма инвестиций в этот стартап достигла $10 млн, причем среди инвесторов числятся очень солидные фонды Selby Venture Partners, Draper Richards, First Round Capital и Amicus Capital.

    Мы сейчас не можем оценить эффективность технологии, но инвесторы наверняка видят работающую демо-версию и получают отчеты лучших технических специалистов. После того, как Attributor получил $10 млн инвестиций, можно с высокой долей уверенности предположить, что их технология действительно работает. Что ж, тогда это будет первый в мире движок, способный автоматически сканировать Сеть в поисках цифрового контрафакта.

    Как сообщается, уникальный поисковый движок Attributor способен находить в Сети контрафакт любого типа, будь то текст, фотографии или видеоролики. Для этого используется техника получения «цифровых отпечатков» (digital fingerprints), которая позволяет надежно идентифицировать файл, даже если его переименовать или заархивировать. Для получения уникального «цифрового отпечатка» (хеш-кода) файла применяются методы криптографии, а именно — хеширование.

    Работа хеш-функции

    Поисковый робот будет индексировать весь контент в Сети, а криптографические алгоритмы будут сканировать его на предмет аутентичных файлов. В первое время не планируется проверять файлообменные сети, а только открытый веб. Система будет работать автоматически, а воспользоваться ее услугами в онлайне смогут и крупные корпорации, и небольшие издательства, и частные лица, желающие проверить интернет на наличие собственного контента.

    В данный момент осуществляется закрытое тестирование системы в партнерстве с несколькими издателями. Публичное открытие сервиса состоится в начале 2007 г.

    Стартап Attributor был основан в 2005 г. Его сооснователем и директором является Джим Брок (Jim Brock), в прошлом один из лучших вице-президентов Yahoo. Позицию технического директора занимает Джим Питков (Jim Pitkow), бывший руководитель компании-разработчика известного ньюс-аггрегатора Moreover, до того работавший в исследовательской лаборатории Xerox PARC. Ему принадлежит авторство нескольких десятков патентов.

    Комментарии 34

      +2
      Интересно как они решат проблему видоизменения нельгального контента. С чего делать хэш для MP3 композиции? А если она с другим или переменным битрейтом?
      Изображения то вроде проще "сворачивать", а что сделать с роликами, особенно несколько раз пережатыми и засунутыми к примеру во флеш.
      Кроме того - чтобы удостовериться в нелегальности контента его надо как минимум скачать к себе желательно целиком. Слабо себе представляю "паука" ползающего по YouTube или сидящего в торрентах.
        0
        Типа юный следопыт по поиску пиратов 21-го века :-)

        У них там может быть как-то и проканает, а у нас полный голяк.
          0
          А у нас какой-то совсем другой интернет? Заметьте - речь не идет о "прижать пирата", речь пока о том чтобы найти что-то и доказать что это контрафакт.
            –1
            А Вы, что разве не в России живёте ???

            Наивная душа...
              0
              Речь идет о математических методах исследования данных на предмет поиска совпадений с имеющимися данными в сети интернет. Или у нас и математика тоже другая?
              Что они будут потом делать с найденным и доказанным контрафактом - другая история. Но сейчас всеже пока математика и программирование.
              • НЛО прилетело и опубликовало эту надпись здесь
                  0
                  В каждой шутке есть доля шутки. Подобные "алгоритмы", в общем, реализованы некоторыми конторами. Но если всерьез лопатить Сеть, и держать соответствующий штат, то сильно растут сопутствующие расходы.

                  А если держать их "на удаленке", то сложнее контролировать работу и управлять данной системой.
                  • НЛО прилетело и опубликовало эту надпись здесь
          0
          Ну а как отслеживать файл, который не то, чтобы переназван, а "стырен" с чужого ресурса? Его владелец всегда может сделать круглые глаза и сказать: а на ем не написано, что краденое! Я его вообще по почте получил! Это правовой аспект. То есть, доказать вину третьего лица будет невозможно.

          Отсюда схема: краденый файл "пилится" на несколько томов в разных местах, а оригинал удаляется сразу же. Тома раскидываются случайно по некоторым серверам, принадлежность которых к базовому пирату недокказуема. При закачке менеджеру закачек передаются несколько линков. Потом файл собирается на машине пользователя.

          То есть, осложнить жизнь пиратам - да, есть немного. А ликвидировать пиратство - не выйдет.
            0
            Это вы p2p придумали фактически :) А с ними вполне успешно борятся. Даже если сайт содержит только хэши контрафакта (см. наезды на p2p сети).
            Да и незнание не освобождает от ответственности.

            Всеже задача интересная. Скорее всего они постараются ее решить в неком виде, а не просто освоить 10 млн.
              0
              С ними борются потому, что есть точки глобального входа, где надо регистрироваться. А если, например, подобные сети организовать на базе почтовых ящиков (только объем нужен огого!) - то вообще неопределяемо. Ибо то, что лежит у меня в почте и кому я это высылаю - мое личное дело. Частная собственность и privacy, ептыть.

              Насчет "незнания" и "неосвобождения" - практически во всех правовых системах существует норма, гласящая: "Имущество, полученное добросовестным приобретателем (ДП), не может быть отчуждено". ДП - это лицо, которое не знало и не могло знать о том, что передаваемое ему имущество было получено тем, кто его передает, незаконно.

              Так что опаньки.
                0
                уже работает. фильмы, ПО раскидываются по почтовым аккам и инфа для спец. собирателя-даунлоадера передается по цепочке. До первого стеревшего.
          • НЛО прилетело и опубликовало эту надпись здесь
            • НЛО прилетело и опубликовало эту надпись здесь
                0
                А вот это интересная мысль, кстати.
                0
                Да выкладывается она не в виде мпега Рамштайна. Она выкладывается в виде десятка кусков, к которым ведут ссылки из разных мест. А у меня в блоге появляется запись: во, я тут интересную запись послушал!
                Народ сразу - ага, выложено новое. И полез качать. Откуда они знают, что я ее покрал? А если я ее не покрал, то бесплатно я могу ее раздавать направо и налево, и в этом отношении концепция DRM меня ужасно раздражает.
                • НЛО прилетело и опубликовало эту надпись здесь
                    0
                    Хм. Насчет блогов и авторских текстов - это, собственно, да. С ними бороться правильно. Не совсем "по лицензии", но хотя бы копирайт ставить.

                    А сайты, где сотнями лежат мп3... Ну да, таких позакроют. А что с локалками делать, где это добро валяется тысячами?
                    • НЛО прилетело и опубликовало эту надпись здесь
                        0
                        То есть в кампусах Оксфорда нет локалок, закрытых со стороны web?
                        А если есть - то там это добро не валяется?
                        Что-то я как-то думаю немного иначе.

                        И профессура, я так думаю, фильмы из локалки качает, не особо заботясь авторскими правами...
                        • НЛО прилетело и опубликовало эту надпись здесь
                            0
                            Согласен. Именно против них и идет борьба: откусить у этих деятелей кусочек денежного потока...

                            А потому предлагаю всяких мелких Васей, делящихся между собой купленным "на одного" контентом, просто не рассматривать.

                            Интересно было бы подумать, как подобный крупняк может отреагировать...
                            • НЛО прилетело и опубликовало эту надпись здесь
                                0
                                Не , я в контент-провайдере работаю. Имею, разумеется, отношение к медийному контенту - но ни BMG, ни Sony Records не являемси... хотя и работаем с ними :) как с правообладателями.

                                Но интерес мой сугубо частный.
                                Кстати, насчет поработать "у вас" - пишите в личку. У нас есть несколько интересных вакансий.
                0
                не понял. хеширование при чем тут? и если оно тут участвует - почему архивирование не поможет?(они будут с собой таскать все возможные архиваторы?)

                ох эти стартапы и венчурные инвестиции...
                  0
                  и главное - зачем для простого паука считающего хеши потребовалось 10млн$?
                  • НЛО прилетело и опубликовало эту надпись здесь
                    0
                    да совсем иначе работает система, просто афтар на хабре не парился с разбирательствами. Вот тут http://webreprints.djreprints.com/161170… есть немного больше подробностей...
                      0
                      Именно там и написано про хеширование: "Attributor analyzes the content, using a technique known as "digital fingerprinting", which determines unique and identifying characteristics of content."

                      как работает система - никому не известно, и "афтар" тут ни при чем. :)
                        0
                        Ну и где тут про хэширование? Вообщето digital fingerprinting не равно hash. Если не сильны в терминах и в иностранных языках, то не надо умничать. Там написано, что система сравнивает ключевые части контента и по ним определяет похожие. Для картинок это может быть например гистограмма, для mp3, как сказали выше, повторяющиеся перепады частот. Для текстов уникальные словосочетания итд...
                          0
                          Цифровые отпечатки (digital fingerprints) - это и есть хеш-код, то есть результат выполнения хеш-функции. По крайней мере, так принято говорить в тех источниках, которые мне доступны. Вот и Википедия так же думает: по запросу "цифровые отпечатки" перенаправляет на "хеширование".

                          Возможно, как вы говорите, в данном тексте имеется в виду более широкое понятие "цифровых отпечатков", как то гистограммы, перепады частот и т.д. Но конкретного указания на такую трактовуку термина я не вижу, так что рассматриваю ваши предположения просто как безосновательные домыслы. Сорри, если обидел.
                            0
                            Извините alizar, мне некогда сейчас спорить, поэтому буду краток, надеюсь, уловите главную мысль. Если взять фотку захэшить - получаем значение. Далее берем и уменьшаем эту фотку на 5% получаем хэш - он совсем другой, естественно. Ок, делаем хитрее, фотку не уменьшаем, а ставим серую точку 1x1px в уголке - хэш другой. Немножко меняем яркость/контрастность - хэш другой. А гистограмма в каждом случае, хотя и немного изменится, но останется более-менее похожей на исходную. Поэтому даже если фотку правили остается шанс ее определить. А при тупом сравнении полученных в результате хэширования значений вы найдете только те фотки, которые были скопированы без изменений. Такой куцый сервис будет никому не нужен.

                            Именно это, кстати, нарисовано на украденной с википедии диаграмме - при любом изменении данных hash sum меняется.

                            Это было про фотки, а с видео еще хуже - каждый сервис типа youtube/metacafe/panjea (а именно они рассматриваются как главные нарушители копирайта) перекодирует залитое видео в flv и ресайзит его. Даже представить не могу где тут хэширование применить, разве, что сервисы обяжут открыть доступ к залитым пользователями оригиналам видео.
                              0
                              украденной с википедии диаграмме
                              Посмотрите лицензию, прежде чем бросаться идиотскими обвинениями.

                              По сути. Все, что вы рассказали - это совершенно очевидные вещи. У нас же речь идет о другом. Я вам говорил про цифровые отпечатки, они же хеши, которые и упомянуты в статье.

                              Ваши фантазии по поводу гистограмм и прочего к статье не имеют никакого отношения. Тот факт, что у вас богатая фантазия и широкая эрудиция, не дают вам право вольной интерпретации терминов. :)

                              Если же поговорить о ваших фантазиях, то хеши, кстати, вполне могут использоваться для поиска модифицированных файлов. Нужно указать такой файл вручную - а система уже найдет все его копии в интернете. Какие проблемы? Думаете, в Сети много модифицированных версий? Несколько версий, не больше. Никто не ставит пикселы 1х1 в уголке фотографии, которую нашел в интернете.

                              Я думаю Attributor - это будет обычный поисковик с настройками на поиск одинаковых файлов, вот и все. Неужели вы верите, что туда встроят серезные системы распознавания образов? Нет, конечно. Даже $10 млн для этого мало.
                                0
                                $10m большие деньги, но т.к. мы явно на разных волнах, думаю не имеет смысла продолжать эти споры - все равно истина будет у каждого своя...

                                спасибо

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое