Обновить
18
0
Александр@Trept

Пользователь

Отправить сообщение
Вроде бы Яндекс (да и Гугл) умеет распознавать контент-генераторы.
Думаю, нужно уточнить в разделе тестирования условия подборки тестового пула слов: какой объем пула, по какому принципу отбирались слова для тестирования (случайному?).
Например, построим гистограмму, и оценим ее отклонения от равномерности.
прошу прощения, не туда ответил
Например, построим гистограмму, и оценим ее отклонения от равномерности.
Для оценки равномерности распределения одной дисперсии маловато будет.
Не стоит ли оценить близость самого распределения, например, через обычную метрику скалярного произведения?
Я об этом способе использования MinHash выше написал.
А Ваш пример мой не опровергает, присмотритесь повнимательнее.
Кстати, интересно, свойство равновероятности для MinHash, хотя бы на уровне ассимптоты доказано?
Это — вопрос терминологии, не более того.
Поясню: кому-то точности MinHash будет вполне достаточно, да и вопрос коллизий не всегда определяющий. В этом случае метод будет вполне полноценно искать похожие множества.
В данной реализации слово, отличное на 1 символ — полностью другое слово, так что все верно.
Думаю, нужно добавить, что ошибка при вычислении метрики похожести по методу MinHash нефатальна, поскольку всегда возможно пересчитать оригинальную метрику для близких множеств, выявленных по MinHash.
Иначе говоря, MinHash здесь будет работать, как предварительный фильтр, снижающий вычислительные затраты.
Чисто журналистский прием.
Громкий заголовок, за которым оказывается совсем не такое эффектное содержание.
В принципе нестрашно, но хотелось бы от автора большей корректности, раз уж пишет о такой строгой до бескомпромиссности науке и пропагандирует пользу именно таких четких и доказательных исследований.
Все аналогии чем-то хромают.
Все-таки Хабр — не лавочка у подъезда, а Ваш бизнесмен (не ууу ворюга), вероятно, не брал денег у государства, то есть, у нас, как налогоплательщиков.
Лекарство для тех, кто хочет услышать в данном случае — прозрачность проекта, расходов, а также демонстрация достижений.
Ведь даже о сверхсекретных испытаниях «Булавы» и ПАКФА рассказывают, и не боятся сообщений о неудачах, что «бабки у подъезда» неправильно поймут.
В проекте слишком много неясного, а сумма выложена очень серьезная.
А история госвливаний с такими цифрами, мягко говоря, не слишком чистоплотная.
Так что реакция сообщества вполне понятная.
Очень хорошо, что Аби относительно быстро среагировали на предыдущие посты на Хабре, и хотят что-то объяснить (и плохо, что они не сделали этого раньше).
Вот будет информация, тогда и вопросы к проекту будут более корректными и по делу.
Допустим, отладят технологию, и можно будет купить такое авто.
Вот интересно, а за нарушения ПДД на таком автомобиле Гугл будет отвечать?
Сергей, насколько я знаю, проект разрабатывается уже около 10 лет.
О каких-либо публичных результатах я не знаю.
Не превратился ли он в долгострой с неясными перспективами?
Свой пейджранк они постоянно переделывают, но Вы же не сомневаетесь, что много качественных ссылок — это хорошо.
Вот так же не превратятся в плохое и предпочтения пользователей.
Исходники же иметь, конечно, нелишне, но…
Анализ точной формулы без пояснений разработчиков, боюсь, и года не хватит даже для профессионала в области алгоритмов. А для любителя это вообще неподъемная задача.
… в котором учитываются предпочтения пользователей.
Табличка хорошая, но минимум двух строчек явно не хватает:
— наличие GPS;
— и, обязательно, цена, желательно, в сравнимых конфигурациях.
Для серьезного анализа одного факта маловато.
А в данном случае мне показалось, что такое ПО не слишком подходит для простенькой Chrome OS. А вот как инструментарий для серверных систем вполне годится.
Гугл уже выходил с продуктом для корпораций: готовый сервер со встроенным поиском. Но эта система не очень пошла.
Конечно, обвинение с угрозой пожизненного не сравнится с очками и одеждой.

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность