All streams
Search
Write a publication
Pull to refresh
28
0
Send message
1) Алгоримт предназначен для массового сравнения, когда обрабатываются не 1-10000 текстов, а гораздо больше.
2) Нет, это разные вещи :) Вот ответ на вопрос: habrahabr.ru/blogs/algorithm/65944/#comment_1850489
Да, когда вы сравниваете 2 документа, этим можно пренебречь. А если вы сравниваете миллион?
1) Сравнение строк более ресурсоёмко, чем сравнение контрольных сумм, по этой причине высчитываются хэши.
2) Количество сравнений, если не выполнять случайную выборку будет экспоненциально зависеть от количества шинглов, для больших документов это выльется в ресурсоемкую задачу. А так мы в 84 сравнения сможем определить, являются документы почти дублями или нет.
Вероятность того, что вы отберете одинаковые шинглы будет минимальна. Для почти дубликатов можно предположить, что одинаковые подпоследовательности слов будут встречаться чаще, следовательно при случайной выборке высока вероятность отбора именно одинаковых контрольных сумм.
А по какому принципу вы будете выбирать случайный шингл для каждой функции?
Использование 84 различных функций нахождения контрольных сумм позволит:
1) Конкретно определять порог, для определения, когда документ является почти-дубликатом. То есть например если 5 из 84х сходятся, то почти дубликаты.
2) Алгоритм супершинглов подразумевает разбиение 84х контрольных сумм на группы (супершинглы), из которых так же, например, могут вычисляться контрольные суммы и сравниваться между собой.

Использовать один алгоритм вычисления контрольной суммы вполне возможно, и этого будет достаточно для малого количества документов, но для оптимизации процесса необходимо сводить к минимуму количество операций сравнения.
Больше не значит лучше :) Белки нужно употреблять в меру, это к диетологу.
Зависит от масштабности организации. Начальник может иметь 2х подчиненных, а может 100.
Ладно, флейм раздувать не имеет смысла. Я все равно придерживаюсь позиции, что рабочий график создан не для того, чтобы «просто быть», а для того, чтобы его придерживались сотрудники.
«Работает» должно пониматься в смысле «выполнять поставленные задачи в указанный срок». Возможно для этого не нужно всегда приходить вовремя в офис, но дисциплина должна быть.
Смысл вас тогда оформлять как офисного работника, если вы работаете дома? Можно перейти на свободное посещение и все вопросы и споры с отделом контроля персонала или начальством отпадут.
Ну а если вы досрочно выполнили задание дома, работая так же и в офисе, думаю вам стоило бы выдать премию и назначить на новый проект :) Таких ценных сотрудников необходимо поощрять.
Время + работа = качественное выполнение обязательств.
Недобросовестное отношение к рабочему графику может послужить началу конфликтов и срыву сроков. Поэтому вводят всевозможные штрафы, если опоздания не разовые и носят систематический характер.
Сотрудник работает в коллективе и его труд является составной частью рабочего процесса, от которого зависит успех компании. Многие просто на это забивают.
За выполненную работу платят, когда форма оклада — сдельщина. Если вы работаете по такой схеме, то вопрос снимаю.
А как начальство реагирует на ваши задержки?
Я считаю что должна быть какая-то ответственность, ведь человеку платят за время проведенное на работе, а причина, что ему удобнее завтракать дома касается только его лично, но никак не рабочий коллектив.
хороший материал стоит денег. Заказал книгу, жду с нетерпением.
Душит змея ))
Что да — то да, слишком уж их много и много времени займет их решение. Но в свободное время порешать их будет очень полезно.
Ну почему у всех? Далеко не у всех :)
PS: Пик сезона — мода в стиле IT :D
Спасибо за статью, было очень интересно почитать! Книги Д. Кнута из серии маст хэв.

Information

Rating
Does not participate
Registered
Activity