Search
Write a publication
Pull to refresh
141
0
Павел Нестеров @mephistopheies

data scientist

Send message
кстати статья Unsupervised Cross-Domain Image Generation из обзора использует трехклассовый дискриминатор, что тоже можно трактовать как несколько
да согласен с комментатором ниже, похоже на дропаут, но как и многое в сетях — нужно тестить -)
а что ты имеешь в виду? вот например последняя статья в обзоре CycleGAN, которая затронута только чутка, тк будет подробный пост про нее, там есть два генератора и два дискриминатора и два генератора, которые играют в игру по созданию биекции
CycleGAN пошел бы в прод если бы дошло до этого (пока нет)

да пока не получается натренировать ганы делать лица без артефактов, но зато можно сделать сеть, которая убирает артефакты -)

теоретически можно соединить в одну модель ган, сеть убирающую артефакты и суперрезолюшн, тогда, в теории, все было бы ок, но так не пробовал пока никто вроде (имхо если натренировать каждую в отдельности, а потом соединить и дотюнить, то вполне могло бы заработать)
я хочу исправить все проблемы за раз, будь те добры, помогите сделать пост лучше, расскажите об остальных ошибках
расскажите пожалуйста побольше про глупости в тексте, что бы у меня была возможность исправиться
не перепутано, тут видно что Д стабильно улучшается, и скоро обойдет Г; вообще в своих экспериментах я замечал, что Д по началу хуже, но к концу как и у вас обыгрывает Г; если отрисовать график до эпохи 10к то и у меня будет тоже самое, наверное
фу спам, как жеж тут призвать модератора что бы автора книги забанили
есть принятый перевод, эмбеддинг — это представление, топик закрыт

пс: кто думает иначе, можете и дальше витать в своих выдуманных мирах
ну если лаг 1000 то стоит молиться на LSTM (см ссылку из предыдущего комента), возможно они помогут

но вообще я не имею большого опыта с рекуррентными сетями, если вам интересна эта тема, то советую зарегаться тут ods.ai, это самый большой русскоговорящий слак по датасаенсу, там есть канал про таймсерии и дип лернинг
Но есть и много нюансов. Например, во-первых, надо стационаризовать ряд, иначе локальная корреляция будет наведенная от трендов. Ок, сделали это. Теперь может не быть локальной корреляции (линейной).… Не совсем понятно, поможет ли свертка в таком случае.

да тут вы правы, зависимость может быть не линейной, так что скорее мне нужно говорить про локальную «корреляцию» в кавычках, все таки нейросеть машина нелинейная и можно надеяться что всякие нелинейные зависимости будут найдены; свертка тут как механизм который «декоррелирует» данные, в локальной корреляции мы подразумеваем, что чем точки ближе друг к другу тем они «зависемее» друг от друга, и свертка тогда объединяет несколько похожих признаков в один

на счет трендов и предобработки, то теоретически если свертка на всю длину ряда то никакой предобработки не нужно (в этом и есть фазовый переход от классического машинного обучения=feature extraction + model, к дип лернингу = raw data + deep model), но это естественно не выход, ресурсоемко слишком; но можно юзать например рекуррентные сети, где на каждом шаге вычисляется например свертки по окну и информация о признаках окна заносится в долгосрочную память, вот тут можно глянуть визуально как RNN выявляют такие зависимости http://karpathy.github.io/2015/05/21/rnn-effectiveness/
Почему свёртка 1х1 не может в процессе обучения выучить какие-нибудь огромные веса (+10^9 и -10^9) для коррелированных признаков, став тем самым излишне чувствительной к шуму?

ну во-первых есть регуляризаторы что бы не дать таким весам появиться, все так же как и в линейных моделях

Не очень понятно, как свёртки 1 х 1 убивают/объединяют коррелированные признаки? Нам например известен эффект переобучения линейных классификаторов при наличии коррелированых признаков в объектах обучающей выборки.

когда мы говорим о линейных моделях, то мы имеем в виду скореллированные признаки, т.е. колонки, которые при инвертировании матрицы дадут высокодисперсионное решение

в случае 1х1 свертки мы убираем корреляцию не соседних признаков на одной фича мапе, а в «глубину»; например, допустим что в мире всего 10 цветов и никаких оттенков нет, а у вас слой из 20ти нейронов, и допустим что нейроны этого слоя выучивают только детекторы определенного цвета, на выходе такого слоя будет тензор WxHx20, где WxH это размер картинки, допустим нам повезло и 10 нейронов выучили 10 цветов, а что выучат остальные? вероятно они выучат тоже самое, и если взять любую колонку глубины 20, т.е. сквозь фича мапы, то в ней будет всего 10 уникальных значений, тогда свертка 1х1 это просто сложит их что бы получить более высокоуровневую фичу (например градиентный переход), но вероятно веса на повторных цветах из этих 20ти будут нулевые
шутка? 1 тачка на 2 недели? снять выделенный сервак с gtx 1080 стоит 110$/месяц, вы берете за некоторые курсы по 100к руб с человека, и сейчас вы пишете пост в котором с барского выдаете 60$ на конкурсной основе?
в первую очередь спасибо авторам, а уже затем переводчику, т.к. в этом блоге публикуются только переводы чужих трудов (ну или почти)
так они и не работали, это рекламный блог и тут пишут тексты тупо ради рекламы, так что по контенту бесполезно вопросы задавать
странно, что вас еще не купил гугл
вас не смущает, что в современных учебниках по математике часто говорят о том же, о чем писал Гаусс в своих работах?

и кстати раз уж вы привели ссылки, потрудитесь теперь указать на то, какой параграф данного текста является переводом соответствующего текста оригинала? иначе вы все еще останетесь ценителем накаченных мужских ягодиц
месье, потрудитесь привести ссылку на оригинал, иначе вы ценитель мужской красоты, если вы понимаете о чем я

Information

Rating
Does not participate
Location
Калининград (Кенигсберг), Калининградская обл., Россия
Works in
Date of birth
Registered
Activity