Комментарии / Профиль dimonenka / Хабр

Пользователь

Профиль Публикации Комментарии 2Закладки

Личное или социальное? Как добиться кооперации в мультиагентной среде

dimonenka 4 мар 2021 в 15:18

Добрый день!

— Я согласен с этим недостатком суммы как SW — что все ресурсы можно дать одному или нескольким удачливым агентам. Я думаю, может быть много вариантов определения SW с разными свойствами. В статье мы исследуем минимум, и такой выбор ведет к более честному распределению ресурсов. Можно также думать о bottom k, взвешенной сумме (как вы предложили), и менее интуитивных вариантах — например, сумме логарифмов. Есть целый пласт литературы — fair division — который задается такими вопросами в контексте экономики, но с мультиагентным обучением его, насколько я знаю, особо не смешивали (хотя другие концепты из экономики, типа inequity aversion, применяли).
— Видимо, недостаточно хорошо описаны графики, я добавлю. На верхних графиках 3 lambda=1 для BAROCCO, CRS, COMA — это я имею ввиду под «выключаем эгоистичную компоненту» в тексте. Selfish — это по сути BAROCCO или CRS с lambda=0 (эгоистичная компонента и там и там одинакова). Но, при lambda=1 BAROCCO, COMA и CRS все еще разные алгоритмы! Везде остается только социальная компонента, но обучаются по-разному. Я некоторые технические детали в пост не стал включать. CRS обучается более простыми алгоритмами из single-agent reinforcement learning и не решает credit assignment. COMA — алгоритм, который предназначен для мультиагентных кооперативных сред и решает credit assignment. В BAROCCO социальная компонента основана на модифицированной COMA.

Посмотреть

Positive-Unlabeled learning and where to find it

dimonenka 22 июл 2020 в 16:37

Привет! Пост все-таки про PU learning, а про нашу статью с аукционами я упоминаю лишь как пример, вскользь, и без деталей. В том числе, я не говорю, что за вид коррупции мы ищем — схем же десятки — а также, что за аукционы мы рассматриваем. Если интересны детали — можете посмотреть в нашей статье, даже могу скинуть актуальную версию — на архиве старая. Статья ответила бы на многие ваши вопросы.

Вкратце:
— Мы ищем утечку ставок в запросах котировок. Запросы котировок — sealed-bid first-price auctions. Утечка ставок — когда организатор сообщает участнику-фавориту ставки других участников. Такой участник-фаворит будет ждать конца аукциона, чтоб все поставили, и подрезать текущего победителя на условные 100 рублей. Такие паттерны и находит классификатор на основе скормленных фичей. Главные фичи: тайминг ставки и нормализованная разница ставок между 1ым и 2ым местом для победителей и между 2ым и 3им местом для проигравших (2ых мест).
— Мы не используем размеченные данные, и размечаем на P и U только согласно нашему предположению.
— Кластеризация не выделяет интерпретируемые кластеры — пробовали. Распределения слишком сильно пересекаются. Кстати, с неинтепретируемостью PU learning я не согласен. Вероятность принадлежности к конкретному классу интерпретируется лучше, чем принадлежность к условному кластеру.
— Мы не ищем collusion — горизонтальный сговор между участниками. Кстати, недавно вышла статья, где в этих же данных ищут именно collusion: «Обнаружение сговора на государственных закупках в России».
— В нашей же задаче поиска утечки ставок, предположение «проигравшие = честные» может лишь занизить нашу итоговую оценку. Такая консервативность нас устраивает.
— Про регионы классификатор не знает, но мы пробовали их добавить, и фича не значимая.

Посмотреть