blumental May 12 2020 at 10:38

EM-алгоритм для кластеризации

3 min

7.6K

Machine learning*

Technotext 2020

From sandbox

Comments 9

malkovsky May 12 2020 at 15:32

Честно говоря, мне кажется, что структура статьи очень плохая. Прочитав раздел «Идея Решения» создается ощущение, что вы описываете не ЕМ алгоритм, а один его шаг.

Зашел на википедию, увидел там описание алгоритма ничуть не хуже, чем у Вас, да еще и с анимированным примером. В чем преимущество вашей статьи?

По формулам: у вас где-то g_{ij}, а где-то g(ij). Предположу, что это одни и те же величины, та как g(ij) не определяется… обычно в математических формулах так не делают и используют одинаковый стиль обозначений (в данном случае индексирования), чтобы лишний раз не путать читателя.

blumental May 12 2020 at 16:08

> Прочитав раздел «Идея Решения» создается ощущение, что вы описываете не ЕМ алгоритм, а один его шаг.
Подумаю, как это донести яснее, но EM-алгоритм в самом деле направлен на уточнение параметров и повышение правдоподобия.

> Зашел на википедию, увидел там описание алгоритма ничуть не хуже, чем у Вас, да еще и с анимированным примером.
Согласен, хорошая статья на английском. В своём тексте я убрал подробности про гауссовское распределение и ясно описал в чем идея EM-алгоритма (см. псевдокод). Анимация славная, но она не резюмирует весь алгоритм в 4-ех строках.

> По формулам: у вас где-то g_{ij}, а где-то g(ij)
Разделяю Ваше негодование. Хабр не рендерит букву с двумя индексами, если в выражении есть знак суммы (я писал всё в Chrome). Также я хотел везде написать _{i=1}, а не просто i внизу знака суммы, но это тоже не работает, как показал предпросмотр. Наверно, стоит обратиться в поддержку.

malkovsky May 12 2020 at 17:15

Хабр не рендерит букву с двумя индексами, если в выражении есть знак суммы (я писал всё в Chrome). Также я хотел везде написать _{i=1}, а не просто i внизу знака суммы, но это тоже не работает, как показал предпросмотр. Наверно, стоит обратиться в поддержку.

Вот одна из моих статей на хабре, где есть "_{i=1}", пробовал открывать в хроме — вроде бы все отображается. По поводу двух индексов не понял, в чем проблема. Вы уверены, что вы корректное TeX выражение использовали?

blumental May 12 2020 at 17:43

В корректности выражений уверен, потому что сначала набрал черновик на overleaf.com, где эти выражения корректно отображаются. Когда писал статью здесь, увидел, что в предпросмотре часть выражений остается сырой разметкой и не превращается в формулы. Последовательно упрощая их, пришел к выводу, что причина в двойных индексах и нижнем пределе суммирования. Это касалось больших выражений. Отдельные g_{ij} и небольшие суммы отрисовывались.

blumental May 12 2020 at 22:52

Попробовал поправить статью после публикации: все наладилось.

blumental May 12 2020 at 16:05

UFO landed and left these words here

blumental May 12 2020 at 19:23

p(x) — это вероятность принадлежности точки x к нашим данным, которую выдаёт модель. Она может быть меньше единицы.

Распределения g_{ij} и p_j(x_i) в самом деле описывают одно и то же. g_{ij} введено, чтобы мы могли зафиксировать его на M-шаге и абстрагироваться от параметров. По поводу обозначений: как писал в предыдущем в треде выше, на Хабре не рендерятся двойные индексы и нижний предел суммирования в больших выражениях. В overleaf.com вся статья рендерилась без таких woraround'ов.

В тексте НЕ утверждается, что log p(X) и L — это распределения. Как показано в тексте, их разность равна KL-дивергениции распределений g и p(j|x_i). Вот они являются распределениями.

Индексы у g в числителе под знаком матожидания лишние, опечатка. Спасибо, что подметили.

Матожидания берутся по функциям распределения (PMF или PDF), а не по случайной величине. Коротко говорят «взять матожидание по распределению». В статье на вики про KL-дивергенцию как раз пример такого употребления.

Индекс g у знака матожидание полезен: когда берется матожидания логарифмической разности двух распределений одной и той же случайной величины, уместно внести ясность, по которому именно распределению берется матожидание.

blumental May 12 2020 at 22:54

Спасибо, что обратили моё внимание на то матожидание. В этом месте была ошибка: там должна была быть сумма по точкам. Теперь исправлено.