Pull to refresh
9
Тимур Нургалиев@tea-mur

Руководитель группы разработки Спамообороны

Send message

Привет. Как ты правильно подметил, эта технология используется у нас именно для борьбы с массовыми атаками, где статистика даёт хороший сигнал. В случае конкретного пользователя мы, конечно, учитываем его поведение, но делаем это с помощью других механизмов, агрегируя информацию о жалобах пользователя (нажатия "Это спам", перекладка между папками). В схему с шинглерами мы байес не включаем

Привет, попробую ответить на твои вопросы. 200 тысяч запросов — это только на запись. И столько же на чтение, соответственно. Как я писал в статье, у нас при записи используется временный буфер в памяти, который агрегирует запросы на запись за последнее время. А для чтения дополнительно используем кэш. Так что итоговая нагрузка на индекс ощутимо меньше.

Что касается Lucene, не буду, положа руку на сердце, гарантировать оптимальность такого выбора, перформанс-тестов мы не проводили. Из опыта работы с Lucene мы были более менее уверены, что с такой нагрузкой он справится, и его настройка обошлась нам дёшево. Так что тут я делюсь нашим позитивным опытом внедрения

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

Бэкенд разработчик, Архитектор программного обеспечения
Старший
Java
Высоконагруженные системы
SQL