Думаю, нужно уточнить в разделе тестирования условия подборки тестового пула слов: какой объем пула, по какому принципу отбирались слова для тестирования (случайному?).
Для оценки равномерности распределения одной дисперсии маловато будет.
Не стоит ли оценить близость самого распределения, например, через обычную метрику скалярного произведения?
Я об этом способе использования MinHash выше написал.
А Ваш пример мой не опровергает, присмотритесь повнимательнее.
Кстати, интересно, свойство равновероятности для MinHash, хотя бы на уровне ассимптоты доказано?
Это — вопрос терминологии, не более того.
Поясню: кому-то точности MinHash будет вполне достаточно, да и вопрос коллизий не всегда определяющий. В этом случае метод будет вполне полноценно искать похожие множества.
Думаю, нужно добавить, что ошибка при вычислении метрики похожести по методу MinHash нефатальна, поскольку всегда возможно пересчитать оригинальную метрику для близких множеств, выявленных по MinHash.
Иначе говоря, MinHash здесь будет работать, как предварительный фильтр, снижающий вычислительные затраты.
Чисто журналистский прием.
Громкий заголовок, за которым оказывается совсем не такое эффектное содержание.
В принципе нестрашно, но хотелось бы от автора большей корректности, раз уж пишет о такой строгой до бескомпромиссности науке и пропагандирует пользу именно таких четких и доказательных исследований.
Все аналогии чем-то хромают.
Все-таки Хабр — не лавочка у подъезда, а Ваш бизнесмен (не ууу ворюга), вероятно, не брал денег у государства, то есть, у нас, как налогоплательщиков.
Лекарство для тех, кто хочет услышать в данном случае — прозрачность проекта, расходов, а также демонстрация достижений.
Ведь даже о сверхсекретных испытаниях «Булавы» и ПАКФА рассказывают, и не боятся сообщений о неудачах, что «бабки у подъезда» неправильно поймут.
В проекте слишком много неясного, а сумма выложена очень серьезная.
А история госвливаний с такими цифрами, мягко говоря, не слишком чистоплотная.
Так что реакция сообщества вполне понятная.
Очень хорошо, что Аби относительно быстро среагировали на предыдущие посты на Хабре, и хотят что-то объяснить (и плохо, что они не сделали этого раньше).
Вот будет информация, тогда и вопросы к проекту будут более корректными и по делу.
Сергей, насколько я знаю, проект разрабатывается уже около 10 лет.
О каких-либо публичных результатах я не знаю.
Не превратился ли он в долгострой с неясными перспективами?
Свой пейджранк они постоянно переделывают, но Вы же не сомневаетесь, что много качественных ссылок — это хорошо.
Вот так же не превратятся в плохое и предпочтения пользователей.
Исходники же иметь, конечно, нелишне, но…
Анализ точной формулы без пояснений разработчиков, боюсь, и года не хватит даже для профессионала в области алгоритмов. А для любителя это вообще неподъемная задача.
Для серьезного анализа одного факта маловато.
А в данном случае мне показалось, что такое ПО не слишком подходит для простенькой Chrome OS. А вот как инструментарий для серверных систем вполне годится.
Гугл уже выходил с продуктом для корпораций: готовый сервер со встроенным поиском. Но эта система не очень пошла.
Не стоит ли оценить близость самого распределения, например, через обычную метрику скалярного произведения?
А Ваш пример мой не опровергает, присмотритесь повнимательнее.
Кстати, интересно, свойство равновероятности для MinHash, хотя бы на уровне ассимптоты доказано?
Поясню: кому-то точности MinHash будет вполне достаточно, да и вопрос коллизий не всегда определяющий. В этом случае метод будет вполне полноценно искать похожие множества.
Иначе говоря, MinHash здесь будет работать, как предварительный фильтр, снижающий вычислительные затраты.
Громкий заголовок, за которым оказывается совсем не такое эффектное содержание.
В принципе нестрашно, но хотелось бы от автора большей корректности, раз уж пишет о такой строгой до бескомпромиссности науке и пропагандирует пользу именно таких четких и доказательных исследований.
Все-таки Хабр — не лавочка у подъезда, а Ваш бизнесмен (не ууу ворюга), вероятно, не брал денег у государства, то есть, у нас, как налогоплательщиков.
Лекарство для тех, кто хочет услышать в данном случае — прозрачность проекта, расходов, а также демонстрация достижений.
Ведь даже о сверхсекретных испытаниях «Булавы» и ПАКФА рассказывают, и не боятся сообщений о неудачах, что «бабки у подъезда» неправильно поймут.
А история госвливаний с такими цифрами, мягко говоря, не слишком чистоплотная.
Так что реакция сообщества вполне понятная.
Очень хорошо, что Аби относительно быстро среагировали на предыдущие посты на Хабре, и хотят что-то объяснить (и плохо, что они не сделали этого раньше).
Вот будет информация, тогда и вопросы к проекту будут более корректными и по делу.
Вот интересно, а за нарушения ПДД на таком автомобиле Гугл будет отвечать?
О каких-либо публичных результатах я не знаю.
Не превратился ли он в долгострой с неясными перспективами?
Вот так же не превратятся в плохое и предпочтения пользователей.
Исходники же иметь, конечно, нелишне, но…
Анализ точной формулы без пояснений разработчиков, боюсь, и года не хватит даже для профессионала в области алгоритмов. А для любителя это вообще неподъемная задача.
— наличие GPS;
— и, обязательно, цена, желательно, в сравнимых конфигурациях.
А в данном случае мне показалось, что такое ПО не слишком подходит для простенькой Chrome OS. А вот как инструментарий для серверных систем вполне годится.
Гугл уже выходил с продуктом для корпораций: готовый сервер со встроенным поиском. Но эта система не очень пошла.