Введение в машинное обучение / Comments / Habr

roryorangepants May 4 2019 at 09:29

Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий.

Как вам указали раньше, sequence2sequence, например, в вашу категоризацию не попадает. Как и не попадает большинство генеративных моделей или, к примеру, ранжирование.
При этом задача выявления аномалий зачастую конечной задачей как раз не является — она обычно формализуется через другие задачи.

качество вина при слепом тестировании

Такое удобно формализовать бинарной классификацией или ранкингом, а не регрессией.

Задача кластеризации – распределение данных на группы: разделение всех клиентов мобильного оператора по уровню платёжеспособности, отнесение космических объектов к той или иной категории (планета, звёзда, чёрная дыра и т. п.).

Описать кластеризацию и привести в качестве примера классификацию — это фиаско. Вам бы основы подучить перед написанием гайдов.

Различие лишь в том, что при обучении с учителем есть ряд гипотез, которые необходимо опровергнуть или подтвердить.

Откуда вы эту чушь взяли?

Основные алгоритмы моделей машинного обучения

За этот раздел вообще двойка. Вы мешаете в кучу модели (например, логрег) и алгоритмы построения моделей (МНК), пишете про деревья решений, но описываете не ML-алгоритм, а бизнес-метод с аналогичным названием, и даже не упоминаете про то, что отдельные деревья сейчас никто не использует (повсюду используют ансамбли).

Я уж не говорю про Naive Bayes, который вы явно вытащили из какого-то туториала для начинающих, потому что если бы вы были практикующим ML-инженером, вы бы понимали, что его никто не использует в реальности для упомянутых вами определения спама, рубрикации и тем более распознавания лиц. То же самое касается SVM. Учите матчасть, прежде чем пытаться учить других.

Кластеризировать объекты можно по разным алгоритмам. Чаще всего используют следующие:

… И дальше идет список из случайных бессвязных слов, часть из которых — надмозговой перевод реальных алгоритмов, а часть родилась на задворках сознания автора.

Последний раздел читать не стал, пожалел свою психику. Не пишите, пожалуйста, ничего больше, пока сами не поработаете в ML хотя бы годика два.

Comments 8

cheaTTer Apr 22 2019 at 06:08

Спасибо, полезно! Особенно приятно, что к терминам прилагаются их английские названия!

ifqthenp Apr 22 2019 at 10:19

Мне понравилась статья. Хорошо, что объяснили главные термины и где они применяются.

shappiron Apr 22 2019 at 11:00

Спасибо за статью! Хотелось бы побольше узнать про методы выявления аномалий. Жду продолжения!

pocheketa May 19 at 11:16

Это самая лёгкая задача. Алгоритмическая, особо ML не требуется Считаем интересующий нас показатель для всей выборки, получаем тем самым распределение - и те, кто попал в хвосты - они и есть аномалии.

Pandorin Apr 24 2019 at 04:54

Спасибо! Очень ждем продолжения с примерами! Такие статьи нужны!

QtRoS Apr 24 2019 at 19:29

А, допустим, машинный перевод, это какой класс?

pocheketa May 19 at 11:14

Кажется, это совсем другой класс. NLP.