All streams
Search
Write a publication
Pull to refresh
1
0

Программист

Send message
Надо попробовать, спасибо
Это при условии, что капчу у вас будет спрашивать на каждом объявлении.
На практике пару раз в час
Это тема для отдельной статьи как с помощью API VPS-провайдера (DigitalOcean) удалять и создавать новые сервера взамен старых с забаненными адресами.
В целом вы правы — забаненные адреса уже нельзя использовать.
Прокси не использовал, слишком сложно для меня
Анализировать объявления повторно на предмет снятия с продажи требует дополнительных мощностей.
В настоящий момент загрузка однократная — берутся аттрибуты и картинка и больше к этому объявлению не возвращаемся
Картинки есть, но не все.
Это связано с тем, что загрузка картинок писалась после намного позже после запуска загрузчика, а также время от времени останавливалась из-за превышения объема диска. Опытным путем был получен подходящий размер картинок, так что со временем картинки будут для каждого объявления
Да, на телефоне выводится картинка, которую я разгадываю.
Когда много капчей, то они уходят на rucaptcha.com.
Это позволяет экономить на разгадывании
В части использования пула, такие данные, то есть видно, что
You need buffer pool a bit (say 10%) larger than your data (total size of Innodb TableSpaces) because it does not only contain data pages – it also contain adaptive hash indexes, insert buffer, locks which also take some time.
указанные данные вмещаются в пул с большим запасом
image
Спасибо за ссылку, почитаю и подумаю что ответить.
Данных именно по объявлениям без учета скриншотов в данный момент >50Gb, а оперативки 4 Gb. Понятно, что хранить все данные в оперативке нереально в данный момент.
Технически плагин к браузеру реализуем, так как все данные есть в БД, но понимать сомнительность объявлений возможно только косвенно непосредственно пользователю, по признакам указанным в комментарии выше
Хотелось бы услышать комментарии по архитектуре и технологиям, а не насчет того, что кто-то не нашел все объявления
Паразитируют, когда просят 300 рублей за «пробивку».
Когда все бесплатно с рекламой для поддержки оплаты vps — не считаю что это так
Для любительского проекта неплохо, что «нашлось несколько объявлений», так как не всегда хватает мощностей, чтобы успевать за всеми объявлениями
Смысл в том, что если по ссылке на объявление либо номеру телефона нашлось, допустим 5 топовых видеокарт в разных регионах, то очевидно, что здесь что то не чисто. Если же нашлось много объявлений, например про коллекционирование или детскую одежду,- то похоже на правду
Разве Big Data определяется именно размером кучи под данные, а не в целом объемами?
2

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity