Привет. Как ты правильно подметил, эта технология используется у нас именно для борьбы с массовыми атаками, где статистика даёт хороший сигнал. В случае конкретного пользователя мы, конечно, учитываем его поведение, но делаем это с помощью других механизмов, агрегируя информацию о жалобах пользователя (нажатия "Это спам", перекладка между папками). В схему с шинглерами мы байес не включаем
Привет, попробую ответить на твои вопросы. 200 тысяч запросов — это только на запись. И столько же на чтение, соответственно. Как я писал в статье, у нас при записи используется временный буфер в памяти, который агрегирует запросы на запись за последнее время. А для чтения дополнительно используем кэш. Так что итоговая нагрузка на индекс ощутимо меньше.
Что касается Lucene, не буду, положа руку на сердце, гарантировать оптимальность такого выбора, перформанс-тестов мы не проводили. Из опыта работы с Lucene мы были более менее уверены, что с такой нагрузкой он справится, и его настройка обошлась нам дёшево. Так что тут я делюсь нашим позитивным опытом внедрения
Information
Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity
Specialization
Бэкенд разработчик, Архитектор программного обеспечения
😄
Привет. Как ты правильно подметил, эта технология используется у нас именно для борьбы с массовыми атаками, где статистика даёт хороший сигнал. В случае конкретного пользователя мы, конечно, учитываем его поведение, но делаем это с помощью других механизмов, агрегируя информацию о жалобах пользователя (нажатия "Это спам", перекладка между папками). В схему с шинглерами мы байес не включаем
Привет, попробую ответить на твои вопросы. 200 тысяч запросов — это только на запись. И столько же на чтение, соответственно. Как я писал в статье, у нас при записи используется временный буфер в памяти, который агрегирует запросы на запись за последнее время. А для чтения дополнительно используем кэш. Так что итоговая нагрузка на индекс ощутимо меньше.
Что касается Lucene, не буду, положа руку на сердце, гарантировать оптимальность такого выбора, перформанс-тестов мы не проводили. Из опыта работы с Lucene мы были более менее уверены, что с такой нагрузкой он справится, и его настройка обошлась нам дёшево. Так что тут я делюсь нашим позитивным опытом внедрения