Pull to refresh

Comments 45

> собственного сервиса sravnito.ru

Вы хотели сказать «собственного паразитирующего на авито сервиса sravnito.ru».

> с простым интерфейсом и бесплатным доступом

и бесплатной рекламой Google Adwords
Паразитируют, когда просят 300 рублей за «пробивку».
Когда все бесплатно с рекламой для поддержки оплаты vps — не считаю что это так
И чем же он вас паразитировал? Комментарий вида: лишь бы придраться к чему нибудь.
Что плохого в бесплатной рекламе Google Adwords?
UFO just landed and posted this here
Разве Big Data определяется именно размером кучи под данные, а не в целом объемами?
UFO just landed and posted this here
Спасибо за ссылку, почитаю и подумаю что ответить.
Данных именно по объявлениям без учета скриншотов в данный момент >50Gb, а оперативки 4 Gb. Понятно, что хранить все данные в оперативке нереально в данный момент.
В части использования пула, такие данные, то есть видно, что
You need buffer pool a bit (say 10%) larger than your data (total size of Innodb TableSpaces) because it does not only contain data pages – it also contain adaptive hash indexes, insert buffer, locks which also take some time.
указанные данные вмещаются в пул с большим запасом
image
UFO just landed and posted this here
имел в виду эти данные:

You need buffer pool a bit (say 10%) larger than your data (total size of Innodb TableSpaces) because it does not only contain data pages – it also contain adaptive hash indexes, insert buffer, locks which also take some time.
UFO just landed and posted this here
В любом случае не понимаю, где можно взять 100, 200,… 500,… 1000Гб оперативной памяти для размещения всех данных в пуле с учетом их непрерывного поступления. Так что рекомендацию автора также можно считать чисто теоретической в данном случае
UFO just landed and posted this here
Вступительная часть статьи вводит в заблуждение — полный тест имеет мало общего со вступлением. Вы бы хотя бы написали, как будете бороться с мошенниками на своем сайте. Показывать все объявления продавца в этом не поможет.
Смысл в том, что если по ссылке на объявление либо номеру телефона нашлось, допустим 5 топовых видеокарт в разных регионах, то очевидно, что здесь что то не чисто. Если же нашлось много объявлений, например про коллекционирование или детскую одежду,- то похоже на правду
Вбил ссылку на объявление, ничего не нашлось. Хотя с этим номером телефона есть еще объявления. По номеру телефона нашлось несколько объявлений, но не все.
Для любительского проекта неплохо, что «нашлось несколько объявлений», так как не всегда хватает мощностей, чтобы успевать за всеми объявлениями
Хотелось бы услышать комментарии по архитектуре и технологиям, а не насчет того, что кто-то не нашел все объявления
Если честно, ожидал что речь пойдет об каком либо плагине для браузера, который при открытии страницы с объявлением рядом с именем или аватаркой автора большими красными буквами пишет слово «мошенник» и ссылку на пруфы…
Технически плагин к браузеру реализуем, так как все данные есть в БД, но понимать сомнительность объявлений возможно только косвенно непосредственно пользователю, по признакам указанным в комментарии выше
Java приложение Android, которое выводит изображение и принимает ответ.

Это вы сами набиваете?
Да, на телефоне выводится картинка, которую я разгадываю.
Когда много капчей, то они уходят на rucaptcha.com.
Это позволяет экономить на разгадывании
распарсить лям записей * 18 рублей/тысячу = 18000 как-то много
Это при условии, что капчу у вас будет спрашивать на каждом объявлении.
На практике пару раз в час
Неудобно, что при выдаче объявлений нет пометки о том, что объявление снято с продажи. Если у человека 80 объявлений, это подозрительно. Но если из них 5 активных — то это нормально :)
Анализировать объявления повторно на предмет снятия с продажи требует дополнительных мощностей.
В настоящий момент загрузка однократная — берутся аттрибуты и картинка и больше к этому объявлению не возвращаемся
Картинки есть, но не все.
Это связано с тем, что загрузка картинок писалась после намного позже после запуска загрузчика, а также время от времени останавливалась из-за превышения объема диска. Опытным путем был получен подходящий размер картинок, так что со временем картинки будут для каждого объявления
Насколько знаю, авито банит айпишники за особый и массовый интерес к телефонам. Как обходили этот момент? Закупили проксей?
Это тема для отдельной статьи как с помощью API VPS-провайдера (DigitalOcean) удалять и создавать новые сервера взамен старых с забаненными адресами.
В целом вы правы — забаненные адреса уже нельзя использовать.
Прокси не использовал, слишком сложно для меня
А поднять тор? Поднимается и настраивается на раз два, а потом юзается как обычная прокся.
Надо попробовать, спасибо
Авито, вроде, через тор забанено? Нет?
Пока не пробовал, но в общем ничто не может помешать авито банить адреса тор-гейтов
image

> как с помощью API VPS-провайдера (DigitalOcean) удалять и создавать новые сервера взамен старых с забаненными адресами

Когда то такой же мудак хороший человек парсил авито так что его забанили, теперь это адрес моего сервера, что особенное примечательно этот блок действует уже больше года т.е. авито никогда не разбанит этот адрес.
А зачем хорошему человеку типа вас понадобилось открывать авито из VPS?
А вы писали им, если считаете что ваш адрес заблокирован по ошибке?
Сообщите, пожалуйста:
* ваш IP-адрес (его можно посмотреть на yandex.ru/internet);
* название интернет-провайдера;
* город проживания

и мы с хабра-сообществом подумаем, чем вам можно помочь
там особо и открывать нечего
Еще один парсер авито.
Телефон кстати легко получить в текстовом виде.
На 1С такое делал )
ИМХО делать копию авито с более удобным поиском — не потянет движок.
А вот локальную базу выборки объявлений по интересующей области — самое то.
Так что делайте на денвере с открытым кодом и будет вам щастя
Как я уже писал, найденные мной парсеры авито, предлагают какие-то нереальные цены (цитаты с их сайтов):
  • -25% на первые 3 месяца, 2400 руб. 1800 руб.
  • Стоимость одной лицензии программы XXX: 550 1350 рублей, лицензия безсрочная!
  • Цена на подключение к API 3000 руб. в месяц (30 дней)
  • Продаю навороченный парсер (граббер) объявлений с avito.ru (авито.ру) Цена 1 лицензии — 2500 рублей + комиссия за перевод.
  • Автоматическая выгрузка объявлений авито.
    Стоимость программы 700р.


Отсюда становится понятен баттхёрт недовольных комментаторов: «как же так? бесплатный конкурент, чёрт бы его побрал»
Также доставляют незатейливые просьбы от открытии, казалось бы тривиального, кода

Кое что про авито. Я не понимаю, почему они банят, при указании телефона как копии оригинала.
Получается они поощряют мошенников.
Так что имейте ввиду, с обьявами еще немного сложнее.

Sign up to leave a comment.

Articles