Этот механизм ведь не панацея от всех проблем свободной правки.
Он сильно поможет как авторам, так и читателям, я думаю. Дыры, конечно, будут. Но, поскольку за корректностью информации следит огромное количество человек, они будут со временем исправляться и уступать место другим дырам :)
Я думаю, что цель этой миссии — получить побольше клиентов для majordomo. Если бы хотели наживаться именно на продаже доменов, то цена была бы не 600 рублей. Причём клиентов планировали получать, в основном, из не сильно знакомых со всякими доменами и хостингами людей. Что неплохо.
Обычная регистрация у них стоит 500 рублей. Они понаходили списки фамилий, разослали их обладателям сообщения про возможность купить именной домен, создали достаточно понятные мануалы по регистрации такого домена. И попросили за это лишние 100 рублей. Айтишникам, понятно, всё это дополнительной ценности почти не представляет, но людям, далёким от понимания механизмов работы интернета, просто и в несколько шагов купить именной домен будет интересно, я думаю. Не уверен, что здесь вреда больше, чем пользы (которая заключается в обучении людей работе с доменами). Тем более 600 рублей — это совсем не сквоттерская цена.
Да, они отдают все права на домен (какие возможно отдать:). Поскольку у них свой регистратор (насколько я знаю), получается обычная регистрация домена на твоё имя. Мне тоже пришло письмо от мажордомо — вот и выяснял. Правда, домен не купил.
з.ы. 1/количество шинглов это у полных дубликатов. Если совпадение не полное — соответственно нужно ещё умношить на процент совпадающих шинглов. Т.е. вероятность найти совпадение при случайной выборке в <количество шинглов> раз меньше.
У меня тоже первая мысль была, что такая выборка похожа на случайную. Но вторая мысль была, что раз об этом пишут, значит всё не так просто и надо ещё чуть-чуть подумать :)
Минимальный хеш будет одинаков для текстов с вероятностью, равной проценту совпадающих шинглов в двух документах. А случайный хеш будет одинаков с вероятностью, равной 1/количество шинглов. Разница очевидна :)
Чтобы найти процент совпадений из 2х наборов по 1000 шинглов, нужно провести 1000000 сравнений. А 1000 шинглов — это совсем немного — только на этой странице их на порядок больше.
Не понял ничего из вашего объяснения, но попробую предположить:
84 функции берутся для того, чтобы можно было выбирать 84 шингла для двух документов, которые будут относиться к разным наборам слов, но, если документы дубликаты, с большой вероятностью будут совпадать у обоих документов. Т.е. для того, чтобы, выбирая «случайные» шинглы из двух документов мы с большой вероятностью выбирали одни и те же наборы слов для документов-дубликатов.
И третим способом скажу то же самое: если в 2х документах совпадает 50% шинглов, то в двумерных таблицах (раздел 3) двух документах будет совпадать 50% строк. Выбирая «случайным» образом 84 ячейки, мы в среднем получим 42 (грубо говоря) совпадающих контрольных суммы для обоих документов (т.к. в среднем половина строк совпадает, а выбираем ячейки мы по определённой функции, то для каждого столбца вероятность выбрать совпадающие для двух таблиц контрольные суммы равна 50% (опять же, грубо говоря). Т.е. проведя всего 84 сравнения, мы определим, что документы являются дубликатами
Определение почерка — только инструмент. Если почерк изменился — это может значить много разных вещей, не обязательно плохих. Но в некоторых случаях это один из самых эффективных интсрументов. Конечно, если правильно его использовать (что касается любого инструмента :).
В одной из текстовых RPG (мад), в которой я играл, очень успешно использовалась проверка людей по «почерку» действий в игре — набору команд и сокращений, которые использовались. Не знаю точно цифры, но передачу аккаунтов и дублирующие аккаунты таким методом определялись часто и надёжно. На сайтах, я думаю, тоже можно это использовать — выделить характерные действия пользователей — в каких местах нажимает на кнопки, на какие именно, какие из идентичных ссылок использует, с какой скоростью страницу скроллит и т.п.
Если правильно подобрать признаки — можно вполне успешно определять передачу аккаунтов, взломы и прочее. Конечно, поведение человека может отличаться на разных компьютерах и из-под разных браузеров, но это тоже можно либо учесть либо проводить дополнительные проверки при подозрении.
Я подробнее и сам не особо знаю :) Были деньги — развивался проект, временно не стало — перестал. Поскольку версия ещё была не сильно стабильная (как тут указали выше, сайт проработал чуть больше месяца), его убрали. Что-то изменится в лучшую сторону (возможно, скоро) — вернётся на место и продолжит развиваться.
Проект развивался не на энтузиазме, а вполне за деньги. Разработчикам надо кушать. Бесплатно разрабатывать его никто не будет. По всей видимости, разработка chat.ru сейчас не является приоритетом для его владельцев.
Возвращение старого сайта на домен я объяснить логически не могу.
Если кому-то интересна эта технология и он хочет создать на её основе другой сервис — можете обращаться :)
Он сильно поможет как авторам, так и читателям, я думаю. Дыры, конечно, будут. Но, поскольку за корректностью информации следит огромное количество человек, они будут со временем исправляться и уступать место другим дырам :)
84 функции берутся для того, чтобы можно было выбирать 84 шингла для двух документов, которые будут относиться к разным наборам слов, но, если документы дубликаты, с большой вероятностью будут совпадать у обоих документов. Т.е. для того, чтобы, выбирая «случайные» шинглы из двух документов мы с большой вероятностью выбирали одни и те же наборы слов для документов-дубликатов.
И третим способом скажу то же самое: если в 2х документах совпадает 50% шинглов, то в двумерных таблицах (раздел 3) двух документах будет совпадать 50% строк. Выбирая «случайным» образом 84 ячейки, мы в среднем получим 42 (грубо говоря) совпадающих контрольных суммы для обоих документов (т.к. в среднем половина строк совпадает, а выбираем ячейки мы по определённой функции, то для каждого столбца вероятность выбрать совпадающие для двух таблиц контрольные суммы равна 50% (опять же, грубо говоря). Т.е. проведя всего 84 сравнения, мы определим, что документы являются дубликатами
Если правильно подобрать признаки — можно вполне успешно определять передачу аккаунтов, взломы и прочее. Конечно, поведение человека может отличаться на разных компьютерах и из-под разных браузеров, но это тоже можно либо учесть либо проводить дополнительные проверки при подозрении.
Проект заморожен/закрылся (нужное подчеркнуть) из-за проблем у владельцев/инвесторов.
Идея не умерла, разработчики тоже :)
И её вы ещё увидите. Насчёт сроков говорить не стану.
Возвращение старого сайта на домен я объяснить логически не могу.
Если кому-то интересна эта технология и он хочет создать на её основе другой сервис — можете обращаться :)