AndrewShmig27 мая 2019 в 18:42

Введение в машинное обучение

19 мин

66K

Искусственный интеллектМашинное обучение *

Туториал

+29

Комментарии 25

decomeron 27 мая 2019 в 20:57

Спасибо большое за курс на русском языке

НЛО прилетело и опубликовало эту надпись здесь

qvan 28 мая 2019 в 05:32

оффтоп, а зачем в подборе весов машинное обучение? есть матаппарат для этого, при этом эксель в данном случае выбирает линейную модель, даже если ставишь полином, и не требует 500 итераций на расчет.

Tim06ka 28 мая 2019 в 06:31

Затем, что это обучение, и приведенная модель хотя бы интерпретируемая, что облегчает понимание.
Можно сразу картинки в какой-нибудь GloVe засовывать и получать лейблы: собака, дом, автомобиль, но это сложнее объяснить.

roryorangepants 28 мая 2019 в 07:04

Затем, что это обучение, и приведенная модель хотя бы интерпретируемая, что облегчает понимание.

Линейная модель, разумеется, тоже интерпретируемая.

Можно сразу картинки в какой-нибудь GloVe засовывать и получать лейблы: собака, дом, автомобиль, но это сложнее объяснить.

Может, вы про какой-то другой GloVe, но тот, который я знаю, относится к NLP, а не к computer vision.

x67 29 мая 2019 в 11:03

Это простой пример обучения. Кстати, примерно тоже самое будет, если заставить человека переводить г. Цельсия в Фаренгейты, со временем он будет делать это интуитивно и с высокой точностью (не проводите таких экспериментов над детьми!)
А область эффективного применения МЛ и ДЛ совершенно другая. И не стоит использовать эти штуки там, где можно аналитическими методами построить модель или аппроксимировать по имеющимся данным и опытом в предметной области.

IvanGo82 28 мая 2019 в 06:57

В каждой статье про нейронные сети одно и то же
Пришлось самому разбираться
В итоге пришёл к выводу что промежуточные слои совсем не нужны
Переход от одного слоя к другому можно описать перемножением входного вектора (размерность N) на матрицу коэффицентов (размерность NxM) в итоге получим вектор выходного слоя (размерность M) => IN x M1 x ....x Mk = OUT
пользуясь ассоциативность матриц IN x (M1 x ....x Mk) = OUT, где обозначим M = M1 x ....x Mk, получим IN x M = OUT
Вообще если упростить НС служит для подбора коэффицентов апроксимирующей функции, ну или как то так

roryorangepants 28 мая 2019 в 07:05

В итоге пришёл к выводу что промежуточные слои совсем не нужны

Боюсь, это «революционный» вывод работает ровно до тех пор, пока у скрытых слоев стоит линейная активация.
Нелинейность уже не позволяет «схлопнуть» слои.

IvanGo82 28 мая 2019 в 07:17

Недавно где то читал что от этой активации отказались
и как по мне правильно сделали
ибо ни кто не может толком объяснить смысла этой активации
есть мнение что это из за аппоратного устройства первых нейронов
Вообще если взять ручку с бумагой думаю можно будет придти к формулам что то типа
f (IN x M) = OUT или IN x f(M) = OUT
где f зависит от ф-ии активации, слоёв и тд

roryorangepants 28 мая 2019 в 07:21

Недавно где то читал что от этой активации отказались

От какой? От линейной? Разумеется, десятилетия назад. Причем именно по той причине, которую вы описали.
Сейчас скрытые слои везде идут с нелинейностями семейства ReLU или сигмоид.

IvanGo82 28 мая 2019 в 07:49

Смысл то их какой?

roryorangepants 28 мая 2019 в 10:09

Сделать сеть способной аппроксимировать сложные нелинейные функции.

iovodov 28 мая 2019 в 10:11

Чтобы (ха-ха!) вся многослойность не сводилась и к перемножению 2 матриц, а получалась сильно нелинейная функция. Есть теорема, что при достаточном количестве нейронов и слоев нейросеть может сколь угодно точно приблизить любую непрерывную функцию. Если убрать нелинейности, то приблизить можно будет только линейную. Ну, там F в С пересчитать. А люди хотят распознавать котиков на фото.

IvanGo82 28 мая 2019 в 12:19

Слышал про эту теорему, но не разу не натыкался

Если убрать нелинейности, то приблизить можно будет только линейную

вовсе нет, достаточно передавать не линейные параметры
скажем не Х, а Х2
как используя не линейную активацию получить на выходе значение зависящее от Х2 или sin(X)?
например чтоб НС определила дальность полёта снаряда от угла наклона пушки?
Используйте вы трижды хитрую активацию, если на вход будете подавать только угол наклона, то на выходе будете получать линейную зависимость

IvanGo82 28 мая 2019 в 12:25

Хотя если ещё раз подумать возможно и нет
но это колосальные вычисления по сравнению с перемножением матриц
Вообще желательно любое утверждение подтверждать каким нибудь простеньким примером, а то у большенства адептов ИИ, что не спроси на всё один ответ
Нейронная сеть это чёрный ящик и вообще какая то магия

roryorangepants 28 мая 2019 в 12:43

Вообще желательно любое утверждение подтверждать каким нибудь простеньким примером

Весь computer vision вам в пример.
Если хочется чего-то более простого и наглядного, можно сгенерировать какие-нибудь простые не разделимые линейно датасеты и сравнить сети с линейными активациями и с нелинейными (например, что-то похожее легко сделать здесь: playground.tensorflow.org ).

то у большенства адептов ИИ, что не спроси на всё один ответ Нейронная сеть это чёрный ящик и вообще какая то магия

Чаще всего люди, разбирающиеся в машинном обучении, не называют это термином «искусственный интеллект».

как используя не линейную активацию получить на выходе значение зависящее от Х2 или sin(X)?

аппроксимация
magic

вовсе нет, достаточно передавать не линейные параметры
скажем не Х, а Х2

Это ручной feature engineering, тогда как глубокая сеть с нелинейными активациями нужные признаки в теории выучивает сама.

atercygnus 28 мая 2019 в 10:11

Смысл их в том, что

они не позволяют функции активации нейрона неограниченно расти.
это позволяет строить нелинейные разделяющие поверхности в пространстве признаков.

По факту, без них у вас не получится решить сколько-нибудь сложную задачу, например, классификатор изображений на кошек и собак.

Digan 28 мая 2019 в 12:20

Насколько корретно переводить Feature, как Свойство?
Чаще всего я встречал перевод Feature как Признак.

AndrewShmig 28 мая 2019 в 14:02

Решил глянуть англоязычную часть по этому поводу и проверить, правильно ли я перенёс доносимую суть.

По результатам:

считают термин feature эквивалентным термину measurable property;
признак = свойство объекта или характеристика явления.

Думаю, что в данном случае слово признак является устоявшимся, а термины могут быть взаимозаменяемы.

st0ne_c0ld 28 мая 2019 в 20:57

**offtop для тех кто будет пытаться поставить tensorflow и jupyter в cygwin(надеюсь кому-то сэкономит пару часов жизни): ставите python в windows, делайте там virtualenv, потом переключаетесь в cygwin и там «source Scripts/activate». После чего всё нормально ставится через pip и оттуда же запускается.

oktonion 29 мая 2019 в 06:01

А где можно что-то такое же внятное почитать, но не про сеть в один Dense слой, а про то как выбирать слои под данные (по каким критериям) и как правильно готовить сами данные?
Потому что все туториалы говорят "возьмите этот слой, добавьте такую функцию активации и ещё вот этот слой, возьмите вот тот датасет подготовленный на 100500 картинок — и вот вам 95% точности распознавания". А почему именно эти слои, почему такая последовательность, как данные подготовили и т.д. все опускают.

Plesser 29 мая 2019 в 06:52

Видимо будет дальше. Пока идет рассказ об инструментах которые Вам доступны и о принципах их работы.

AndrewShmig 29 мая 2019 в 07:19

C учетом того, сколько у меня курсов есть полезных в закладках для публикации и переводов — будет в последующих «сериях». Подписывайтесь, отслеживайте. Если есть пожелания по курсам — напишите в личку, добавлю себе в план.

Материалы перерабатываю полностью, поэтому времени занимает прилично, но зато, надеюсь, качество подачи и понимания темы повышается.

oktonion 29 мая 2019 в 09:07

Я был бы очень признателен и ссылкам на английские источники по теме моего вопроса, если такие имеются.

roryorangepants 29 мая 2019 в 09:28

www.coursera.org/specializations/deep-learning

Зарегистрируйтесь на Хабре, чтобы оставить комментарий