Как стать автором
Обновить
207
0
Артем Хуршудов @rocknrollnerd

Пользователь

Отправить сообщение
Привет) Правдоподобие все-таки записывается как-то не так, кажется (у вас оно выглядит как совместное распределение). Индекс i у параметров распределения и у икс действительно один и тот же — тут я просто последовал картинке, которая была нарисована перед этим (с лежащим на боку гауссианом): мы как бы считаем, что у каждой точки "свое" среднее значение и "свое" стандартное отклонение. Второе мы потом фиксируем, так что индекс тут, наверное, действительно может быть обманчив, но первое вроде бы индексировано правильно — на каждую i-тую точку у нас есть i-тое мю.

Следующий абзац я немного не понял. У меня тут нигде нет тестовой выборки (кроме слайда про ансамбли) — везде в остальных местах одни и те же десять точек, а "адекватность" регрессии предлагается оценить на глазок.

По поводу переобучения вот да, возможно, стоило рассмотреть подробнее. Тут дело не столько в дисперсии, сколько в том, сколько у нас есть данных и насколько сложная у нас модель:

  • если данных мало, они могут быть нерепрезентативны (выборка из трех бросков монетки может содержать три орла). "Сложная модель" (полином с большой степенью) при этом подгонится под них идеально, приняв случайные отклонения за закономерность (и шум для этого необязательно должен быть очень большим).
  • классический выход такой: либо использовать больше данных (взять не десять точек из датасета, а сотню), либо если никак, то взять модель попроще.
  • в байесовском случае у нас нет такой проблемы, потому что у нас есть prior — мы с самого начала "верим" одинаково во все возможные кривые, и если данных "мало", то это сдвигает нашу уверенность незначительно (это верно и в случае регрессии с регуляризацией тоже). Более того, мы можем выбирать модель какой угодно сложности, потому что вероятность каждой кривой тем меньше, чем больше у нее параметров (а вот это уже работает только для full Bayes-решения, вроде того, что мы рассмотрели). Я про это впервые прочитал у Хинтона под заголовком "overfitting: a frequenist illusion?", и может быть, вот эта лекция принесет немного больше ясности.
Там в самом начале две ссылки — вообще идея написать пост была про эти две статьи, но пришлось немного разбить его, потому что вводная в Байеса слегка затянулась) Вторая часть будет про сети, с примерами, шахматами и поэтессами.

Если вкратце, то получилось много чего, особенно за последний год — вот небольшое ревью на тему NIPS 2015, и там можно кликать по всему, где есть слово "variational")
О да!)

Про дропаут, надеюсь, будет во второй части немного, но интересующиеся могут сразу заглянуть в статью Бланделла — там итоговая сеть как раз сравнивается с обычной-плюс-дропаут.
Спасибо за фидбек) Не знал, что так можно было — а потом кажется, после создания опроса вариант убрать нельзя.
Упсссс. Спасибо, это косяк, конечно)
О черт, точно. Спасибо, что ткнули пальцем, это опечатка, конечно (как снизу тоже заметили)
Вы правы, но если белых лебедей будет стотыщмиллионов — то получите уже очень близкую к нулевой) "The data overwhelm the prior". Мне просто кажется, что это (черные лебеди) неудачный пример для переобучения — он интуитивно понятный, но неправильный. Когда алгоритму неоткуда узнать о существовании черных лебедей, у него нет никакого резона их предполагать — точно так же как зеленых, синих и фиолетовых)

Спасибо за фидбек)
Т.е., в вашем случае шаги такие:

  • мы набираем случайным образом лебедей. Так уж получилось, что вокруг нас живут только белые.
  • мы делим их случайным образом на обучающую и тестовую выборку
  • классификатор, обучившись на первой, корректно предсказывает лебедей из второй (тестовой)

Черных лебедей он при этом и правда не опознает — точно так же как радужно-урановых лебедей с планеты Солярис, например. Но "узнать о всех лебедях во вселенной" — это не задача машинлернинга, и по-моему, вообще сама по себе задача слабовыполнимая)
А, ну да: обязательным условием к этому делу служит "датасет должен быть собран i.i.d.", т.е. из независимых и рандомизированных примеров. Собрать в датасет только белых лебедей равносильно тому, что я сделаю выборку из одних орлов при бросках монетки)
Я немного удивлен количеству людей в комментах, которые из вашей фразы сделали прямо противоположные выводы) В любом случае, пишите еще, и побольше таких преподавателей)

(напальцево-практический подход недавно очень порадовал вот в этом курсе на Курсере. Кому, казалось бы, легче от того, что функцию Бесселя можно увидеть, если покрутить свободным концом веревки? Мне, например, очень)
Слушайте, но это же не вброс, серьезно) Автор просто говорит, что это такой метод познания, условно говоря — сделать глупое лицо и сказать "я не понимаю, зачем это нужно", чтобы потом получить простой пример — и понять) Нигде же не было фразы "квадратные уравнения не нужны, давайте жечь учебники и выть на луну".

То есть среднестатистический школьник на уроке о квадратных уравнениях должен иметь возможность поднять руку, встать и честно заявить "я не понимаю, зачем эти штуки мне нужны, объясните, пожалуйста?". После чего преподаватель рассказывает ему о компьютерной графике, у школьника загораются глаза, и вернувшись домой, он закапывается в книжки и добирается до линейной алгебры и пишет свой OpenGL. Сейчас школы так не делают, и это плохо, по-моему — в результате, когда среднестатистические школьники потом становятся среднестатистическими родителями, у них вечные проблемы с ответом на вопрос "а зачем моим детям вообще учить математику?", на который они отвечают что-то в духе "ну, чтобы мозги упражнять".

И все то же самое применимо к взрослым людям и чуть более замороченной математике. Вот читал я статью вчера, и не мог понять — нафига мне нужен minimum description length principle? Но я нашел более простую статью и все понял)
А, ну действительно, это же совершенно логично. Спасибо!)
Сейчас я, возможно, буду говорить глупые вещи, но разве не нужно сначала определить i, чтобы потом говорить о действительной и мнимой части? Т.е., ок, я беру ваше определение, только теперь задаю вопрос — "что такое мнимая часть"? И вам придется отвечать что-то типа "это слагаемое с коэффициентом при i", разве нет?
Что-то в вашей версии лучше не стало: "-i — тоже такое число, квадрат которого равен -1", и хоп, у нас два одинаковых определения для двух разных чисел.

Вообще мне всегда казалось, что в определении корня пишут "неотрицательный", но быстренько повикипедив, похоже, что это только для случая, когда нам нужна функция f(x) = корень из x, а вообще определение корня как числа спокойно уживается с неоднозначностью. Поправьте, если я ошибаюсь, конечно.
Я ее слышал про Харди, кажется)
"Вы, конечно, шутите, мистер Фейнман") Не то чтобы он признавался там в том же самом, но я нашел для себя какие-то похожие ощущения — необходимость иметь перед глазами наглядный пример и т.д.
Вот! Заумность уже начинает работать и запугивать аудиторию!

На самой деле виноват, на русском, по-моему, так не говорят вообще.
— Здравствуйте, меня зовут %username%, и втайне раскрываю суммы из сигма-нотации на листочке, чтобы понять, что там происходит.
— Привет, %username%!
Офигенно!
Я долго был уверен, что панический ужас, возникающий при взгляде на любые формулы, и необходимость разжевывать все самому себе на пальцах, хомячках и попугаях — это свидетельство исключительной такой персональной тупости, а остальным, мол, достаточно бросить взгляд и все понять. Почитав Фейнмана, немного успокоился, но ваш пример еще покруче (где Фейнман, а где мы, конечно).

Информация

В рейтинге
Не участвует
Дата рождения
Зарегистрирован
Активность