Zalina 2 авг 2015 в 19:20

Вероятностное программирование

19 мин

42K

Блог компании ЯндексМатематика*Машинное обучение*Поисковые технологии*Программирование*

+38

Комментарии 15

dtestyk 2 авг 2015 в 20:43

какой англоязычный термин соответствует «вероятностное программирование»?

elite7 2 авг 2015 в 22:04

может быть probabilistic programming или probabilistic inference?

dtestyk 2 авг 2015 в 22:24

просто есть Stochastic programming

iHun 3 авг 2015 в 07:26

Probabilistic programming. Как раз недавно начал осваивать Probabilistic Programming and Bayesian Methods for Hackers.

dtestyk 2 авг 2015 в 22:16

Если студент, который ответил на много вопросов так же, как на эти вопросы ответили остальные, то, наверно, этот студент знает, что делает, у него высокие способности.

так же как и с красотой: люди считают лицо тем красивее, чем оно ближе к среднему

Idot 2 авг 2015 в 22:44

Great Minds Think Alike? Не «дураки мыслят одинаково»? Не любите креативных, считая их выпендрёжниками?

dtestyk 3 авг 2015 в 01:57

По поводу разумности индивида: тут очевидно, что она просто является отражением мудрости толпы. Подробнее об этом явлении написано в книге Джеймса Шуровьески — Мудрость толпы.
Условия из книги, при которых эта мудрость работает:

многообразие мнений: каждый человек должен обладать собственным мнением
независимость участников: мнение отдельных членов группы не зависит от суждений окружающих
децентрализация: люди имеют возможность основываться на локальных сведениях
агрегирование: механизм объединения личных мнений в коллективное решение

Когда условия соблюдены, толпа в целом почти наверняка умнее любого конкретного индивида, и студент со средними ответами как раз максимально приближается к ней по интеллекту. А при нарушении условий определить интеллект человека таким способом(не зная правильных ответов) невозможно.

dtestyk 3 авг 2015 в 02:27

например, оно было бы нарушено, если бы студенты знали, что в качестве правильных ответов берутся ответы большинства(независимость), поскольку начали бы рефлексировать о чужих ответах, и в результате рекурсивной рефлексии(студент думает, что думает большинство о том, что думает большинство...) мнение большинства студентов сошлось бы в ответах к аналогам пунктов Шиллера(места, в которых человек ожидал бы встречи в большом городе, если бы не знал точно).

VladX 2 авг 2015 в 23:29

Очевидно же, что неверно. Хотя бы потому, что среднее значение является инвариантом, а вкусовые предпочтения нет и зависят от человека.

dtestyk 3 авг 2015 в 01:40

предпочтения человека формируются средним тех, которые он видел, коротко об этом тут

VladX 3 авг 2015 в 02:31

Не очень убедительно. Доводы как в научно-популярной публикации. То, что «среднее» (матожидание) лица с большой вероятностью красивее отдельно взятого — это весьма логично и понятно без опытов, т.к. вклад каждого «недостатка» из выборки будет мал, а самих вариантов недостатков много. С этим я не спорю. Но почему отклонение (дисперсия?) является мерой красоты? Т.е. почему среднее является самым красивым? Я уверен, что можно найти очертание лица, которое далеко от среднего но покажется человеку красивее среднего.

dtestyk 3 авг 2015 в 02:58

это можно объяснить, например, обучением естественной нейронной сети, раньше было много статей на эту тему, сейчас что-то не получается найти

gydex 3 авг 2015 в 07:31

elite7 3 авг 2015 в 08:27

> если мы посмотрим на реальные клики пользователей, то окажется, что модели, которые я только что предложил, не удовлетворяют в том смысле, что модель все эти паттерны кликов, которые мы наблюдаем в действительности, произвести не может.
> Есть такие платформы, куда приходят люди, которые хотят подзаработать
> А какие правильные, мы не знаем, иначе бы мы эти задания на разметку не отправляли. И вот здесь нужны такие модели, которые позволят среди этого большого количества не всегда правильных ответов однозначно или с некоторым допущением определить правильные.

Всё это в предположении, что Яндекс работает с паттернами кликов реальных пользователей или с действиями людей, которые хотят подзаработать честным способом. Вообще говоря, есть много поводов думать, что это совсем не так.
Учитывая денежный поток в 50 млрд рублей в год, который рекламодатели ежегодно отдают Яндексу, у них есть большой повод сэкономить свои бюджеты. И если стоимость одного виртуального пользователя будет около 500 рублей в год, то чисто теоретически, рекламодатели могут создать для Яндекса матрицу из 100 млн виртуальных пользователей, а также попасть в список тех людей, которые делают разметку. Так как паттерны поведения доступны из различных соревнований, то Яндекс будет думать, что у него всё хорошо — качество относительно конкурентов будет расти как по оценкам, так и по паттернам действий. Разве что доля пользователей среди поисковиков будет падать. Но и это не факт.
Можно предположить, что есть способ выявить кластер таких читеров, но только в предположении, что кластер один, что вряд ли, так как количество кластеров примерно равно количеству крупных рекламодателей или SEO контор.

Возможно чтобы решить эту проблему требуется использование очень дорогой разметки, которая происходит средствами неподкупных сотрудников с записью видео экрана, но и здесь могут быть серьезные проблемы непонимания запроса.

В любом случае спасибо за статью, но хотелось бы больше подробностей про то, как Яндекс понимает, что он не в Матрице.

SADKO 4 авг 2015 в 16:35

Не могут, рекламодатели разрозненны, имеют конфликт интересов, так что матрицу не потянут…
… Яндекс понимает с помощью своих асессоров, хотя я застал времена, когда асессоры имели с яндексом не явные конфликты интересов, и что-то мне подсказывает, что воз и ныне там…

PS.А идея атаки на сервисы изучающие поведение пользователя, роем этих самых пользователей, в принципе здравая, но коммерчески востребована она была в основном на YouTube…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий