То есть, сам banki.ru про это явно в курсе? Я думал там какая-то схема завуалированная, типа в офисах банка есть неприметная табличка с этим предложением.
В гугле у меня первой ссылкой идет большой театр / РЖД. Вроде как и надо. В яндексе, вместо РЖД идет tutu. Но это тоже крупная компания, как я понимаю (вроде авиасейлс). У вас другие результаты?
Календарно с момента первой мысли - 3 месяца (в свободное время).
Вот как я с одной стороны почти уверен, что бизнес раскруток можно сильно подкосить или даже совсем уничтожить, так же мне кажется бессмысленным делать сторонний антифрод (особенно, если сами компании его встречают без особой радости).
Они могут сами его сделать, сложных научных открытий в нем нет. Технические специалисты у них есть. В таком случае, все вложенные труды в сторонний - просто пропадают.
Они могут ставить палки в колеса, менять протоколы итд. (но это в теории, на самом деле, мне кажется, это не проблема. Пока эти огромные мамонты поменяются за сто лет, я могу сто лет на диване лежать и потом за 5 минут нагнать. Или просто попросить не развивать (если я получу такую просьбу - то скажу о ней и перестану). Опять же - вложения пропадут.
У меня есть подозрение, предположение, что эта эпоха уходит. Видя, как халтурно оба наших гиганта (Я-К и 2Гис) относятся к теме отзывов. Примерно как убер и яндек-такси вытеснили бомбил, а сервисы бронирования вытеснили тетенек с картонками "сдам квартиру посуточно". Придет какая-то компания (Авито, Озон, Гугл), которая серьезно решит занять этот рынок и не потерпит раскрутчиков. Пару лет и мы про Яндекс.Карты и 2GIS будем вспоминать как сейчас про MySpace, Yahoo, Lycos, Angelfire ("А, вроде что-то такое помню, было"). В IT ведь все быстро меняется, в 2018 году телеграмма у меня еще не было, я в скайпе сидел. А сегодня уже и скайпа самого нет. Не то что малопопулярный, а просто уже похоронен.
2GIS и Я.К. сейчас доминируют в отзывах не потому, что они так уж хороши в модерации, а потому что никто больше всерьез на это не претендует.
Ну и у меня много других идей проектов. Чтобы делать одно - надо отказаться от другого.
Впрочем, сейчас я на 2 недели в отпуск пропаду. Мне приятно, что статью так приняли, я не ожидал, что антифрод будет настолько загружен (там сейчас очередь 120+ заданий). Как вернусь, разгребусь с делами, которые накопятся и переобдумаю это еще. Сейчас есть 2-3 недели на то, чтобы посмотреть и взвесить все.
Вот. И даже следуя точной методологии можно где-то ошибиться (или методология где-то хромает). Даже при всем старании.
И сравним это с политическими опросами, тупо, без подготовки, простые непонятные вопросы, или которые транслируются в "ты родину любишь или за фашистов?".
Где-то было видео, как дядька на улице детей опрашивал "Чупа-чупс или понижение ключевой ставки ЦБ?". И знаете, никому это понижение не было нужно.
В США люди начали получать на почту маленькие пакетики с семенами. Ну большинство, конечно, выбрасывало и забывало. А кто-то тревожился. А самые параноики обращались в спецслужбы.
Представляете реакцию спецслужб, когда они понимают, что их страну атакуют непрошенными семенами? Что это за семена? Какие-нибудь ядовитые растения? Какой-то злостный сорняк, типа борщевика? Что-то еще? Хорошее-то высылать не будут. Что за атака?
А оказалось, что на алике так магазины раскручивают. Магазин выставляет семена (они очень дешевые), ферма создает ботов с разными реалистичными адресами, каждый бот делает покупку на несколько центов, ему летят эти семена, бот потом ставит звезды. Всего несколько центов и доверенный отзыв готов. Даже участие покупателя не требовалось, всю схему мог один человек провернуть.
Так же как в af2gis сейчас. Можно увидеть, что есть тысяча домохозяек с подозрительно одинаковыми покупками. Если мы возьмем честных домохозяек, то они немного разные. Будут, конечно пересечения (из миллиона, 20 купили сегодня одинаковый туалетный ершик). Но если мы видим, что у нас есть особенные домохозяйки, которые по одному шаблону действуют, сегодня ершик купили, завтра стиральный порошок, послезавтра еще что-то эта метрика их выдаст и можно их как-то наказать.
Я бы не стал вкладываться в такого бота. Это дорого и не гарантировано. С одной стороны, вы правы, нет гарантии, что площадка может его вычислить. Но с другой стороны так же нет гарантии, что не сможет. Например, по IP адресам, фингерпринту устройства, шаблонам поведения. Может быть нейросеть 2030 года сделает нам идеального "константина михайловича" и он наставит отзывов, к которым не придраться, а нейросеть 2032 года в пол-секунды скажет, что это бот прошлой версии нейросети.
Представьте, вы продаете квартиру, машину, берете кредиты, нанимаете программистов и выращиваете свою армию таких "зомби". И начинаете ими работать. А через год утром раз - и видите, что 10% их уже нет. А через 2 часа уже 15% заблокированно.
Есть огромная разница между игрой когда мошеннику никто не мешает (как сейчас в 2гис), и игрой, когда с ним всерьез готовы биться. Шансы на победу у него есть в обоих случаях, но во втором он может даже на бой не явиться. Зато в первом случае - точно побеждает.
Календарно если, мимо "манты-плова" я проходил месяца 3 назад. Но я хотя бы 2-3 часа в день трачу на работу и еще прочие дела - это все как хобби-проект делалось, в свободное время (но с увлечением). Примерно месяц на саму программу (основу). Еще месяц думал-писал-сокращал статью (попутно допиливая и отлаживая af2gis). Потом еще долго не мог выложить, подбирал момент (не буду же я в пятницу выкладывать, если через 2 часа на дачу уезжаю).
Мне кажется иногда, эти сервисы ориентированы на 14летних школьников, которые не умеют картину реальности и взаимосвязей составлять. Ну это когда можно им сказать - "Срочно покупай билет в ДК, это же сам Джон Смит приезжает! Какой Джон Смит? Да легендарный Джон Смит, его еще Боб Джонсон считает величайшим!"
Для взрослого человека должен быть понятен смысл числа. 4.8? Окей, как вы это 4.8 получили? Что с чем складывали, на что делили? 4.8 - это сильно от 3.1 отличается?
Если нет этого описания - то я лучше пойду на Джона Смита, которого Боб Джонсон считает величайшим, чем в кафе Альтаир, которое хрен знает кто в Я-К посчитал 4.8, что бы это ни значило.
да редис там нужен вроде только для веб-морды. это взаимодействие между af2web и af2worker. Если хочется просто смотреть отчеты по компаниям для себя через af2gis - то можно без него, все должно работать.
Вообще веб-интерфейс для af2gis - это сейчас такая "затычка", лишь бы было, чтобы можно было поиграться не устанавливая (потому что в браузере многие перейдут, а ставить пайтон и пакет - уже не все). И с медианой я еще вообще не решился - показывать ли ее или может вообще убрать. Ну такая вот черта проекта, который в разработке, с неопределенным будущим.
Мне приятно, что статью и проект хорошо приняли и я вижу, что это нужное. До публикации я вообще допускал, что никто в принципе читать не будет. Поэтому и в af2gis никаких мыслей про "вдолгую" у меня не было.
Но если дорабатывать его, то да, согласен, подсказки или тултипы или другие названия колонок чтобы было понятнее надо будет сделать.
у хинкальной связи с 4 другими хинкальными с этим же названием. и медиана 3. То есть, типичный аккаунт, который их хвалит - оставляет отзывы только на эти хинкальные и ни на что другое. Для живых пользователей это не характерно, они, обычно, еще и на что-то другое хоть иногда отзывы оставляют.
Думаю, загрузка - это временно, хабраэффект. 62 задачи сейчас. Через неделю должна быть спокойная, свободная.
Есть у меня фетиш - мне нравится чтобы железо работало, сервер уже 3 года с нулевым load average стоял, а теперь прямо шуршит! Если нагрузка не снизится - перетащу на более мощную машину, у меня их достаточно.
Как-то ответственно, с цифрами, замерить по яндексу - это надо еще 2-3 месяца потратить :-). Но вот интуитивно тыкая, что мы видим в Яндекс.Картах по нашим рок-звездам из 2GIS:
Мебельный Кристалл - 94 отзыва и 5.0 рейтинг
Воронежское Лимпопо - 4.4 (ну... не так ярко как в 2гис)
Медиана 20, означает, что если мы запишем в список количество отзывов каждого из этих 15 человек и отсортируем, то в серединке будет 20. Как медианная зарплата (отличается от средней), но не зарплату замеряем а количество отзывов. (ну и 20 выглядит как очень правдоподобное реалистичное число. Никак не странное, может даже выше среднего)
Это исторически пошло от того что в первых накрутках которые я смотрел было явно видно, что у всех пользователей в накрутке - малое количество отзывов. Низкое медианное значение - дополнительный критерии, чтобы начать подозревать. Это не слишком надежный критерий сам по себе, иногда бывают и живые пользователи и связи с низкой медианой (например, студенты - они лайкают универ и все общаги и студ. столовую и магазин хотдогов рядом, а другой истории у них нет) и мне встречались раскачанные матерые ботофермы где медиана очень высокая (то есть, этот бот лайкнул не три киоска с шаурмой, а 100+ объектов). Но раз уж показывается - пусть показывается, иногда может и пригодиться.
Про lmdb - у вас windows? На Linux вся моя lmdb база - это 5.1 гигов (там все, что я собрал и все что с хабра сейчас запрашивали и в 5G влезло). Просто на винде, наверное, mmap и sparse files не так работают. Размер должен быть такой, чтобы точно хватило, но такой дикий запас на линуксе не мешает, а на винде вот мешает. Измените в src/antifraud2gis/const.py строчку
LMDB_MAP_SIZE = 1 << 36
на что-нибудь поскромнее. Думаю, что на поиграться и "для дома, для семьи" даже 1 гига будет более чем достаточно.
Так мне кажется, опыт поисковиков - очень неплохой. Первые страницы SERP вполне себе релевантны. А оптимизиторы (смотря кого мы этим словом называем) могут делать хорошее дело. Тупая схема "мыло продаем дешево" красным цветом в H1 повторить 200 раз на странице - давно не работает. Гугл выше ранжирует качественные сайты поэтому есть смысл делать сайт качественным, а не "на тильде", соблюдать всякие Web Vitals (если сайт технически низкокачественный и дешевый - скорее всего и контент на тем не очень). Сайт Леруа будет выше сайта Хозмага на ул Тургенева.
Ну и если есть возможность поднять сайт, то: 1) Не каждый сайт. Совсем плохой не поднимешь. 2) Это стоит немного другие деньги (если запрос популярный), далеко не те, которые могут себе позволить каждый ларек с шаурмой.
Это как с ауди, тойотой и BMW. У них большие бюджеты на рекламу, хорошие режиссеры и маркетологи, и может быть даже успешный рекламный ролик позволит компании с 3го места стать 1ой, но только потому, что у них всех трех - хорошие машины.
Про маркетплейсы у меня есть другая, более мягкая теория. Есть конкретный товар (электронное устройство такой-то модели, например). Оно может быть хорошим или не очень, но есть 1000 продавцов, которые его продают. Пусть даже 10% устройств сгорают в первый же день, все равно у кого-то из этих 1000 будет наиболее успешная история. (так уж совпало, обычная неравномерность, что именно их 100 продаж привели к 10 позитивным отзывам, а у другой компании - к 1 позитивному и 20 негативным. Вторую компанию мы больше не увидим, у нее никто не покупают, а видим - компанию исключение, которой немного повезло).
То есть, сам banki.ru про это явно в курсе? Я думал там какая-то схема завуалированная, типа в офисах банка есть неприметная табличка с этим предложением.
В гугле у меня первой ссылкой идет большой театр / РЖД. Вроде как и надо. В яндексе, вместо РЖД идет tutu. Но это тоже крупная компания, как я понимаю (вроде авиасейлс). У вас другие результаты?
Календарно с момента первой мысли - 3 месяца (в свободное время).
Вот как я с одной стороны почти уверен, что бизнес раскруток можно сильно подкосить или даже совсем уничтожить, так же мне кажется бессмысленным делать сторонний антифрод (особенно, если сами компании его встречают без особой радости).
Они могут сами его сделать, сложных научных открытий в нем нет. Технические специалисты у них есть. В таком случае, все вложенные труды в сторонний - просто пропадают.
Они могут ставить палки в колеса, менять протоколы итд. (но это в теории, на самом деле, мне кажется, это не проблема. Пока эти огромные мамонты поменяются за сто лет, я могу сто лет на диване лежать и потом за 5 минут нагнать. Или просто попросить не развивать (если я получу такую просьбу - то скажу о ней и перестану). Опять же - вложения пропадут.
У меня есть подозрение, предположение, что эта эпоха уходит. Видя, как халтурно оба наших гиганта (Я-К и 2Гис) относятся к теме отзывов. Примерно как убер и яндек-такси вытеснили бомбил, а сервисы бронирования вытеснили тетенек с картонками "сдам квартиру посуточно". Придет какая-то компания (Авито, Озон, Гугл), которая серьезно решит занять этот рынок и не потерпит раскрутчиков. Пару лет и мы про Яндекс.Карты и 2GIS будем вспоминать как сейчас про MySpace, Yahoo, Lycos, Angelfire ("А, вроде что-то такое помню, было"). В IT ведь все быстро меняется, в 2018 году телеграмма у меня еще не было, я в скайпе сидел. А сегодня уже и скайпа самого нет. Не то что малопопулярный, а просто уже похоронен.
2GIS и Я.К. сейчас доминируют в отзывах не потому, что они так уж хороши в модерации, а потому что никто больше всерьез на это не претендует.
Ну и у меня много других идей проектов. Чтобы делать одно - надо отказаться от другого.
Впрочем, сейчас я на 2 недели в отпуск пропаду. Мне приятно, что статью так приняли, я не ожидал, что антифрод будет настолько загружен (там сейчас очередь 120+ заданий). Как вернусь, разгребусь с делами, которые накопятся и переобдумаю это еще. Сейчас есть 2-3 недели на то, чтобы посмотреть и взвесить все.
Вот. И даже следуя точной методологии можно где-то ошибиться (или методология где-то хромает). Даже при всем старании.
И сравним это с политическими опросами, тупо, без подготовки, простые непонятные вопросы, или которые транслируются в "ты родину любишь или за фашистов?".
Где-то было видео, как дядька на улице детей опрашивал "Чупа-чупс или понижение ключевой ставки ЦБ?". И знаете, никому это понижение не было нужно.
Кстати, была интересная тема с брашингом.
В США люди начали получать на почту маленькие пакетики с семенами. Ну большинство, конечно, выбрасывало и забывало. А кто-то тревожился. А самые параноики обращались в спецслужбы.
Представляете реакцию спецслужб, когда они понимают, что их страну атакуют непрошенными семенами? Что это за семена? Какие-нибудь ядовитые растения? Какой-то злостный сорняк, типа борщевика? Что-то еще? Хорошее-то высылать не будут. Что за атака?
А оказалось, что на алике так магазины раскручивают. Магазин выставляет семена (они очень дешевые), ферма создает ботов с разными реалистичными адресами, каждый бот делает покупку на несколько центов, ему летят эти семена, бот потом ставит звезды. Всего несколько центов и доверенный отзыв готов. Даже участие покупателя не требовалось, всю схему мог один человек провернуть.
Так же как в af2gis сейчас. Можно увидеть, что есть тысяча домохозяек с подозрительно одинаковыми покупками. Если мы возьмем честных домохозяек, то они немного разные. Будут, конечно пересечения (из миллиона, 20 купили сегодня одинаковый туалетный ершик). Но если мы видим, что у нас есть особенные домохозяйки, которые по одному шаблону действуют, сегодня ершик купили, завтра стиральный порошок, послезавтра еще что-то эта метрика их выдаст и можно их как-то наказать.
А зачем уничтожать упаковку?
Я бы не стал вкладываться в такого бота. Это дорого и не гарантировано. С одной стороны, вы правы, нет гарантии, что площадка может его вычислить. Но с другой стороны так же нет гарантии, что не сможет. Например, по IP адресам, фингерпринту устройства, шаблонам поведения. Может быть нейросеть 2030 года сделает нам идеального "константина михайловича" и он наставит отзывов, к которым не придраться, а нейросеть 2032 года в пол-секунды скажет, что это бот прошлой версии нейросети.
Представьте, вы продаете квартиру, машину, берете кредиты, нанимаете программистов и выращиваете свою армию таких "зомби". И начинаете ими работать. А через год утром раз - и видите, что 10% их уже нет. А через 2 часа уже 15% заблокированно.
Есть огромная разница между игрой когда мошеннику никто не мешает (как сейчас в 2гис), и игрой, когда с ним всерьез готовы биться. Шансы на победу у него есть в обоих случаях, но во втором он может даже на бой не явиться. Зато в первом случае - точно побеждает.
Календарно если, мимо "манты-плова" я проходил месяца 3 назад. Но я хотя бы 2-3 часа в день трачу на работу и еще прочие дела - это все как хобби-проект делалось, в свободное время (но с увлечением). Примерно месяц на саму программу (основу). Еще месяц думал-писал-сокращал статью (попутно допиливая и отлаживая af2gis). Потом еще долго не мог выложить, подбирал момент (не буду же я в пятницу выкладывать, если через 2 часа на дачу уезжаю).
Да. Я не думал, что кто-то кроме меня будет это делать. Но для этого, да, нужен. Но ради такой большой цели, то почему бы и не поднять
Мне кажется иногда, эти сервисы ориентированы на 14летних школьников, которые не умеют картину реальности и взаимосвязей составлять. Ну это когда можно им сказать - "Срочно покупай билет в ДК, это же сам Джон Смит приезжает! Какой Джон Смит? Да легендарный Джон Смит, его еще Боб Джонсон считает величайшим!"
Для взрослого человека должен быть понятен смысл числа. 4.8? Окей, как вы это 4.8 получили? Что с чем складывали, на что делили? 4.8 - это сильно от 3.1 отличается?
Если нет этого описания - то я лучше пойду на Джона Смита, которого Боб Джонсон считает величайшим, чем в кафе Альтаир, которое хрен знает кто в Я-К посчитал 4.8, что бы это ни значило.
да редис там нужен вроде только для веб-морды. это взаимодействие между af2web и af2worker. Если хочется просто смотреть отчеты по компаниям для себя через af2gis - то можно без него, все должно работать.
Она про количество отзывов пользователей, да.
Вообще веб-интерфейс для af2gis - это сейчас такая "затычка", лишь бы было, чтобы можно было поиграться не устанавливая (потому что в браузере многие перейдут, а ставить пайтон и пакет - уже не все). И с медианой я еще вообще не решился - показывать ли ее или может вообще убрать. Ну такая вот черта проекта, который в разработке, с неопределенным будущим.
Мне приятно, что статью и проект хорошо приняли и я вижу, что это нужное. До публикации я вообще допускал, что никто в принципе читать не будет. Поэтому и в af2gis никаких мыслей про "вдолгую" у меня не было.
Но если дорабатывать его, то да, согласен, подсказки или тултипы или другие названия колонок чтобы было понятнее надо будет сделать.
Вот про медиану интересный пример сейчас в недавних отчетах на af2gis: https://af2gis.ru/report/70000001036200436
у хинкальной связи с 4 другими хинкальными с этим же названием. и медиана 3. То есть, типичный аккаунт, который их хвалит - оставляет отзывы только на эти хинкальные и ни на что другое. Для живых пользователей это не характерно, они, обычно, еще и на что-то другое хоть иногда отзывы оставляют.
Спасибо!
Думаю, загрузка - это временно, хабраэффект. 62 задачи сейчас. Через неделю должна быть спокойная, свободная.
Есть у меня фетиш - мне нравится чтобы железо работало, сервер уже 3 года с нулевым load average стоял, а теперь прямо шуршит! Если нагрузка не снизится - перетащу на более мощную машину, у меня их достаточно.
Как-то ответственно, с цифрами, замерить по яндексу - это надо еще 2-3 месяца потратить :-). Но вот интуитивно тыкая, что мы видим в Яндекс.Картах по нашим рок-звездам из 2GIS:
Мебельный Кристалл - 94 отзыва и 5.0 рейтинг
Воронежское Лимпопо - 4.4 (ну... не так ярко как в 2гис)
РСХБ и Совкомбанк - я в статье привел примеры
wax bar - ну вот например: https://yandex.ru/maps/user/5735e32n2t7b47dv0n59gb0at4
В общем, как мне кажется, хрен редьки не сильно слаще.
Пока что для меня 2gis + af2gis дают более надежные результаты, чем яндекс.карты сами по себе.
Но если яндекс попросит адаптировать антифрод для них - продамся с потрохами!
Да, как-то неожиданно я создал для 2gis конкурентное преимущество :-).
Медиана 20, означает, что если мы запишем в список количество отзывов каждого из этих 15 человек и отсортируем, то в серединке будет 20. Как медианная зарплата (отличается от средней), но не зарплату замеряем а количество отзывов. (ну и 20 выглядит как очень правдоподобное реалистичное число. Никак не странное, может даже выше среднего)
Это исторически пошло от того что в первых накрутках которые я смотрел было явно видно, что у всех пользователей в накрутке - малое количество отзывов. Низкое медианное значение - дополнительный критерии, чтобы начать подозревать. Это не слишком надежный критерий сам по себе, иногда бывают и живые пользователи и связи с низкой медианой (например, студенты - они лайкают универ и все общаги и студ. столовую и магазин хотдогов рядом, а другой истории у них нет) и мне встречались раскачанные матерые ботофермы где медиана очень высокая (то есть, этот бот лайкнул не три киоска с шаурмой, а 100+ объектов). Но раз уж показывается - пусть показывается, иногда может и пригодиться.
Про lmdb - у вас windows? На Linux вся моя lmdb база - это 5.1 гигов (там все, что я собрал и все что с хабра сейчас запрашивали и в 5G влезло). Просто на винде, наверное, mmap и sparse files не так работают. Размер должен быть такой, чтобы точно хватило, но такой дикий запас на линуксе не мешает, а на винде вот мешает. Измените в
src/antifraud2gis/const.py
строчкуLMDB_MAP_SIZE = 1 << 36
на что-нибудь поскромнее. Думаю, что на поиграться и "для дома, для семьи" даже 1 гига будет более чем достаточно.
Так мне кажется, опыт поисковиков - очень неплохой. Первые страницы SERP вполне себе релевантны. А оптимизиторы (смотря кого мы этим словом называем) могут делать хорошее дело. Тупая схема "мыло продаем дешево" красным цветом в H1 повторить 200 раз на странице - давно не работает. Гугл выше ранжирует качественные сайты поэтому есть смысл делать сайт качественным, а не "на тильде", соблюдать всякие Web Vitals (если сайт технически низкокачественный и дешевый - скорее всего и контент на тем не очень). Сайт Леруа будет выше сайта Хозмага на ул Тургенева.
Ну и если есть возможность поднять сайт, то: 1) Не каждый сайт. Совсем плохой не поднимешь. 2) Это стоит немного другие деньги (если запрос популярный), далеко не те, которые могут себе позволить каждый ларек с шаурмой.
Это как с ауди, тойотой и BMW. У них большие бюджеты на рекламу, хорошие режиссеры и маркетологи, и может быть даже успешный рекламный ролик позволит компании с 3го места стать 1ой, но только потому, что у них всех трех - хорошие машины.
Про маркетплейсы у меня есть другая, более мягкая теория. Есть конкретный товар (электронное устройство такой-то модели, например). Оно может быть хорошим или не очень, но есть 1000 продавцов, которые его продают. Пусть даже 10% устройств сгорают в первый же день, все равно у кого-то из этих 1000 будет наиболее успешная история. (так уж совпало, обычная неравномерность, что именно их 100 продаж привели к 10 позитивным отзывам, а у другой компании - к 1 позитивному и 20 негативным. Вторую компанию мы больше не увидим, у нее никто не покупают, а видим - компанию исключение, которой немного повезло).
Но с заинтересованностью площадок - согласен.
Нет, вроде все ок (но я за пивом уходил, может не застали).
Но я вижу, что сервак молотит без перерыва почти!