Это тема для отдельной статьи как с помощью API VPS-провайдера (DigitalOcean) удалять и создавать новые сервера взамен старых с забаненными адресами.
В целом вы правы — забаненные адреса уже нельзя использовать.
Прокси не использовал, слишком сложно для меня
Анализировать объявления повторно на предмет снятия с продажи требует дополнительных мощностей.
В настоящий момент загрузка однократная — берутся аттрибуты и картинка и больше к этому объявлению не возвращаемся
Картинки есть, но не все.
Это связано с тем, что загрузка картинок писалась после намного позже после запуска загрузчика, а также время от времени останавливалась из-за превышения объема диска. Опытным путем был получен подходящий размер картинок, так что со временем картинки будут для каждого объявления
В части использования пула, такие данные, то есть видно, что
You need buffer pool a bit (say 10%) larger than your data (total size of Innodb TableSpaces) because it does not only contain data pages – it also contain adaptive hash indexes, insert buffer, locks which also take some time.
указанные данные вмещаются в пул с большим запасом
Спасибо за ссылку, почитаю и подумаю что ответить.
Данных именно по объявлениям без учета скриншотов в данный момент >50Gb, а оперативки 4 Gb. Понятно, что хранить все данные в оперативке нереально в данный момент.
Технически плагин к браузеру реализуем, так как все данные есть в БД, но понимать сомнительность объявлений возможно только косвенно непосредственно пользователю, по признакам указанным в комментарии выше
Смысл в том, что если по ссылке на объявление либо номеру телефона нашлось, допустим 5 топовых видеокарт в разных регионах, то очевидно, что здесь что то не чисто. Если же нашлось много объявлений, например про коллекционирование или детскую одежду,- то похоже на правду
На практике пару раз в час
В целом вы правы — забаненные адреса уже нельзя использовать.
Прокси не использовал, слишком сложно для меня
В настоящий момент загрузка однократная — берутся аттрибуты и картинка и больше к этому объявлению не возвращаемся
Это связано с тем, что загрузка картинок писалась после намного позже после запуска загрузчика, а также время от времени останавливалась из-за превышения объема диска. Опытным путем был получен подходящий размер картинок, так что со временем картинки будут для каждого объявления
Когда много капчей, то они уходят на rucaptcha.com.
Это позволяет экономить на разгадывании
указанные данные вмещаются в пул с большим запасом
Данных именно по объявлениям без учета скриншотов в данный момент >50Gb, а оперативки 4 Gb. Понятно, что хранить все данные в оперативке нереально в данный момент.
Когда все бесплатно с рекламой для поддержки оплаты vps — не считаю что это так