Статья классная, но почему так много народа, занимающегося гроккингом не знают, что в той самой эталонной задачке с картинки про деление нацело просто поиграв гиперпараметрами можно получить гроккинг не за миллион эпох, а на самом деле можно заставить его проявиться ещё до того, как тестовая выборка будет выучена.
Больше смотрите доклады на российском ODS DataFest, у будете знать о гроккинге не просто больше, а на много больше. :) :P
Вы это говорите с таким видом, словно у вас цель какая-то другая. :)
А если кроме шуток, не факт, что главная цель именно такая, но чтобы её понять надо сначала их культуру внимательно изучить и расшифровать. Например, про человека тоже можно так подумать при первом взгляде, но если копнуть глубже, можно заметить, что цель не в том, чтобы максимально быстро получить еду, а в том, чтобы максимально предсказуемо получить еду. А уж если еду удаётся надёжно предсказывать, то и с ей количеством можно дальше разобраться. Будем изучать, а там дальше поймём нюансы.
Очевидно, что если такой сложный комплекс поведженческих навыков, который может обеспечить наличие культуры присутствует, значит он используется. Иначе обычный генетический дрейф его бы давно развалил. Но в чем это использование состоит, в чём заключается культура шмелей, было непонятно. Вот его то прицельно и искали.
Тоесть явление точно есть и в синтетической ситуации воспроизводится, и вопрос в том, как найти его проявления в настоящей природной середе. Исследование страшно интересное для тех, кто эволюцией культуры занимается.
Очевидно для совместимости с огромным и безбрежным парком прицепов, 100% из которых не предназначены быть вне обтекателя. Так что высота и ширина кабины, как в том анекдоте, определяется шириной конской жопы. Кроме того камеры нужно размещать на определённой высоте. а вот длина кабины никаких специальных лимитов не имеет, поэтому она и коротюсенькая.
Большая часть топовых стартапов не ведёт вообще никакого бизнеса и продолжает существовать только на инвесторские, которые сами инвесторы получают в результате рассасывания по системе напечатанного.
Конкретно Uber бизнес ведёт, но это "про е-бизнес" тоесть профессиональный. Компания на момент написания статьи не принесла ни доллара за всё время своего существования. К нынешнему моменту некоторую микроскопическую прибыль по сравнению с вложенным баблом она принести уже смогла, но такие же близкие к месту печатания конкуренты - ни цента. Тут же Lift, прямой конкурент Убера. И это всё в условиях огромных налоговых послаблений, которые этот Uber получает.
Так что им не жалко не потому что код чаще запускается, или не потому что он эффективнее, а потому что это просто вертолётные деньги которые падают на фаундеров с небес за чаще всего заведомо несбыточные обещания. Эффективный код ценится в компаниях второго тира, где он приносит прибыль. Вот для них ваше рассуждение абсолютно верное.
Довольно смешно видеть, как размер зарплат, зависящий только от места в системе распределения напечатанных ФРС денег, пытаются приписывать тому с кем они конкурируют.
В 1993-ему году я выступал на школьно-студенческой конференции с докладом про зеркала микролазеров, создаваемых на кристалле, и тогда это было перспективным направлением развития оптоэлектроники. От матери, оптика по образованию. узнал, что когда она училась в вузе им преподавали оптику углублённо, говоря, что вот скоро электроника будет на оптике и вам всё это понадобится. Учитывая такие невероятные темпы прогресса - я подожду радоваться пока это не станет действительно массовым.
Это при условии, что сила трения пропорциональна только силе реакции опоры, не зависит от площади контакта, температуры контактирующих поверхностей, при условии что эти поверхности слабо деформируются и происходящие в них изменения не влияют но коэффициент трения, при условии, что грузовик оборудован достаточной мощности системой, чтобы довести колёса до полной блокировки при такой нагрузке, и так далее и так далее...
То есть в предельно упрощённой модели, удобной для решения физических задачек. Как только камаз гружёный песком попытается тормозить с полной блокировкой колёс все эти предположения с разгону врежутся в чугунную жёпьу реальности.
Ну так и наши комплексы слежения за обстановкой в комплексе его тоже видели, дело же не в этом, а в том, могли ли они получать все его полётные данные из первоисточника и запретить или наоборот разрешить делать то или иное.
Статья договора, кстати, в условиях современных прокси-войн очень важная стратегически, потому что без неё всегда можно будет сказать, что это не корабль США украл с орбиты ваш разведывательной спутник, это всего лишь частная выходка какого-то частника, миллионера и плэйбоя, а к нам никаких претензий.
Тут помешает, скорее не несовместимость ложементов, а то что американсканская ракетная промышленность постесняется обращаться за помощью к россии в день траура по убитым американской ракетой на пляже российским детям. Хотя с другой стороны Рогозина убрали, подождут недельку, чтобы народ подуспокоился и тихонечко договорятся. Нам слишком нужно это сотрудничество чтобы не разделять такие вещи.
Будут как-то пытаться выкрутиться своими силами. Просить помощи у Роскосмоса в день, когда американская ракета убила детей на крымском пляже будет как-то, не очень красиво в смысле паблик релейшенза. Представьте себе как будут выглядеть все заголовки в этот день? Да и Роскосмосу тогда тоже будет сложновато делать вид, что ничего не происходит.
Учитывая 9000 транзисторов Z80 - его дискретную схему можно можно вырубить на обратной стороне той скрижали, на лицевой стороне которой распечатка кода ос. :))
Спасибо! Действительно интересно и сам бы ни в жизни не полез искать. Учитывая особенности вселенной я бы скорее предположил биоинженерию с подсадкой в глаза или переспециализацией одной из колбочек на ИК диапазон.
Потому что если посмотреть на ситуацию с этой стороны, то рост анизотропии может свидетельствовать только о том, что Большая часть активаций не задействованы в каждом конкретном случае. А из этого могут следовать большие последствия - значительную часть сети можно не учитывать, а сети в процессе обучения сами стараются привести себя к "сигнальному" состоянию даже если об этом их никто специально не просил.
А можно подробнее про то, как в данном случае считается анизотропия в сигнале, и что более важно, как нормируется сигнал прежде чем её считать. Потому что центрирование на среднее очень контрпродуктивно если для сигнала характерно ненормальное распределение.
Например в AlexNet распределение logit-ов такое, что 3/4 значений меньше нуля, то есть активации ReLU будут в 3/4 случаев просто 0, а в остальных сигнал. Если такой треугольник относительно 0 отцентровать на среднее вы получите 3/4 одинаковых но не нулевых значений. Для других сетей у меня под рукой насчитанных активаций сейчас нет, вот тут можно графики посмотреть: https://t.me/GradientWitnesses/38, https://t.me/GradientWitnesses/39, но этот случай наводит на мысль.
Это может порождать проблемы, характерные для проблемы шкурки многомерного арбуза - в сильно многомерном пространстве обычная наша трехмерная интуиция ведёт к неправильным выводам.
Например: если у вас миллион логитов, матрица 1000x1000 и все они равны 0 и только по одному в каждой размерности равны 1, то эти вектора ортогональны интуитивно, но на сколько испортится картина если их отцентровать как-то? Интуитивно кажется, что не сильно.
Но если мы сделаем от такой матрицы активаций softmax как это делает multihead attention - то получим матрицу активаций в которой все элементы 0.001 кроме одного строки со значениями 0.027. Угол между этими двумя векторами - всего 4 градуса. А если миллион не один, а сто, то угол вообще может потеряться на фоне ошибки округления. Как вы справляетесь с этой проблемой?
Вот вы все ржёте, а алгоритмы экстримального сжатия реально существуют. Например почти любой текст можно сжать всего до нескольких бит на слово, и это далеко не первоапрельская шутка.
Просто в наше время уже как-то не принято меряться архиваторами.
Статья классная, но почему так много народа, занимающегося гроккингом не знают, что в той самой эталонной задачке с картинки про деление нацело просто поиграв гиперпараметрами можно получить гроккинг не за миллион эпох, а на самом деле можно заставить его проявиться ещё до того, как тестовая выборка будет выучена.
Больше смотрите доклады на российском ODS DataFest, у будете знать о гроккинге не просто больше, а на много больше. :) :P
Я бы на их месте разучился видеть красный, чтобы нужный выход бып помечен, а другой не помеченый. Эволюционно сильно проще.
Вы это говорите с таким видом, словно у вас цель какая-то другая. :)
А если кроме шуток, не факт, что главная цель именно такая, но чтобы её понять надо сначала их культуру внимательно изучить и расшифровать. Например, про человека тоже можно так подумать при первом взгляде, но если копнуть глубже, можно заметить, что цель не в том, чтобы максимально быстро получить еду, а в том, чтобы максимально предсказуемо получить еду. А уж если еду удаётся надёжно предсказывать, то и с ей количеством можно дальше разобраться. Будем изучать, а там дальше поймём нюансы.
Статью ещё не читал. Был знаменитый опыт на синицах в котором показали, что синицы могут обладать, и по всей видимости обладают кульутрой, основанной, как и у нас, на взаимном обучении, и что менее интуитивно, хотя ожидаемо, на конформизме: https://elementy.ru/novosti_nauki/432371/Kulturnye_traditsii_u_ptits_osnovany_na_sotsialnom_obuchenii_i_konformizme и отдельные опыты на шмелях, показавшие, что у них возможно точно то же самое причём при почти буквально такой же постановке эксперимента: https://elementy.ru/novosti_nauki/434083/Povedencheskie_traditsii_u_shmeley_osnovany_na_sotsialnom_obuchenii_i_konformizme, на сколько я заметил, в статье этих ссылок нет, а без них непонятно зачем учёные всю эту фигню замутили.
Очевидно, что если такой сложный комплекс поведженческих навыков, который может обеспечить наличие культуры присутствует, значит он используется. Иначе обычный генетический дрейф его бы давно развалил. Но в чем это использование состоит, в чём заключается культура шмелей, было непонятно. Вот его то прицельно и искали.
Тоесть явление точно есть и в синтетической ситуации воспроизводится, и вопрос в том, как найти его проявления в настоящей природной середе. Исследование страшно интересное для тех, кто эволюцией культуры занимается.
Очевидно для совместимости с огромным и безбрежным парком прицепов, 100% из которых не предназначены быть вне обтекателя. Так что высота и ширина кабины, как в том анекдоте, определяется шириной конской жопы. Кроме того камеры нужно размещать на определённой высоте. а вот длина кабины никаких специальных лимитов не имеет, поэтому она и коротюсенькая.
На так давно был на рынке труда. Тимлид с 24 годами стажа, из них C# - 10, и что-то я не заметил ажиотажного спроса. Реальностей явно больше одной.
Есть две новости, и обе плохие:
Деда мороза не существует.
Большая часть топовых стартапов не ведёт вообще никакого бизнеса и продолжает существовать только на инвесторские, которые сами инвесторы получают в результате рассасывания по системе напечатанного.
Конкретно Uber бизнес ведёт, но это "про е-бизнес" тоесть профессиональный. Компания на момент написания статьи не принесла ни доллара за всё время своего существования. К нынешнему моменту некоторую микроскопическую прибыль по сравнению с вложенным баблом она принести уже смогла, но такие же близкие к месту печатания конкуренты - ни цента. Тут же Lift, прямой конкурент Убера. И это всё в условиях огромных налоговых послаблений, которые этот Uber получает.
Так что им не жалко не потому что код чаще запускается, или не потому что он эффективнее, а потому что это просто вертолётные деньги которые падают на фаундеров с небес за чаще всего заведомо несбыточные обещания. Эффективный код ценится в компаниях второго тира, где он приносит прибыль. Вот для них ваше рассуждение абсолютно верное.
Довольно смешно видеть, как размер зарплат, зависящий только от места в системе распределения напечатанных ФРС денег, пытаются приписывать тому с кем они конкурируют.
В 1993-ему году я выступал на школьно-студенческой конференции с докладом про зеркала микролазеров, создаваемых на кристалле, и тогда это было перспективным направлением развития оптоэлектроники. От матери, оптика по образованию. узнал, что когда она училась в вузе им преподавали оптику углублённо, говоря, что вот скоро электроника будет на оптике и вам всё это понадобится. Учитывая такие невероятные темпы прогресса - я подожду радоваться пока это не станет действительно массовым.
Это при условии, что сила трения пропорциональна только силе реакции опоры, не зависит от площади контакта, температуры контактирующих поверхностей, при условии что эти поверхности слабо деформируются и происходящие в них изменения не влияют но коэффициент трения, при условии, что грузовик оборудован достаточной мощности системой, чтобы довести колёса до полной блокировки при такой нагрузке, и так далее и так далее...
То есть в предельно упрощённой модели, удобной для решения физических задачек. Как только камаз гружёный песком попытается тормозить с полной блокировкой колёс все эти предположения с разгону врежутся в чугунную жёпьу реальности.
Ну так и наши комплексы слежения за обстановкой в комплексе его тоже видели, дело же не в этом, а в том, могли ли они получать все его полётные данные из первоисточника и запретить или наоборот разрешить делать то или иное.
Статья договора, кстати, в условиях современных прокси-войн очень важная стратегически, потому что без неё всегда можно будет сказать, что это не корабль США украл с орбиты ваш разведывательной спутник, это всего лишь частная выходка какого-то частника, миллионера и плэйбоя, а к нам никаких претензий.
Тут помешает, скорее не несовместимость ложементов, а то что американсканская ракетная промышленность постесняется обращаться за помощью к россии в день траура по убитым американской ракетой на пляже российским детям. Хотя с другой стороны Рогозина убрали, подождут недельку, чтобы народ подуспокоился и тихонечко договорятся. Нам слишком нужно это сотрудничество чтобы не разделять такие вещи.
Будут как-то пытаться выкрутиться своими силами. Просить помощи у Роскосмоса в день, когда американская ракета убила детей на крымском пляже будет как-то, не очень красиво в смысле паблик релейшенза. Представьте себе как будут выглядеть все заголовки в этот день? Да и Роскосмосу тогда тоже будет сложновато делать вид, что ничего не происходит.
Учитывая 9000 транзисторов Z80 - его дискретную схему можно можно вырубить на обратной стороне той скрижали, на лицевой стороне которой распечатка кода ос. :))
Спасибо! Действительно интересно и сам бы ни в жизни не полез искать.
Учитывая особенности вселенной я бы скорее предположил биоинженерию с подсадкой в глаза или переспециализацией одной из колбочек на ИК диапазон.
Ну рутрекере пока не выложили. Ждём-с...
Потому что если посмотреть на ситуацию с этой стороны, то рост анизотропии может свидетельствовать только о том, что Большая часть активаций не задействованы в каждом конкретном случае. А из этого могут следовать большие последствия - значительную часть сети можно не учитывать, а сети в процессе обучения сами стараются привести себя к "сигнальному" состоянию даже если об этом их никто специально не просил.
А можно подробнее про то, как в данном случае считается анизотропия в сигнале, и что более важно, как нормируется сигнал прежде чем её считать. Потому что центрирование на среднее очень контрпродуктивно если для сигнала характерно ненормальное распределение.
Например в AlexNet распределение logit-ов такое, что 3/4 значений меньше нуля, то есть активации ReLU будут в 3/4 случаев просто 0, а в остальных сигнал. Если такой треугольник относительно 0 отцентровать на среднее вы получите 3/4 одинаковых но не нулевых значений. Для других сетей у меня под рукой насчитанных активаций сейчас нет, вот тут можно графики посмотреть: https://t.me/GradientWitnesses/38, https://t.me/GradientWitnesses/39, но этот случай наводит на мысль.
Это может порождать проблемы, характерные для проблемы шкурки многомерного арбуза - в сильно многомерном пространстве обычная наша трехмерная интуиция ведёт к неправильным выводам.
Например: если у вас миллион логитов, матрица 1000x1000 и все они равны 0 и только по одному в каждой размерности равны 1, то эти вектора ортогональны интуитивно, но на сколько испортится картина если их отцентровать как-то? Интуитивно кажется, что не сильно.
Но если мы сделаем от такой матрицы активаций softmax как это делает multihead attention - то получим матрицу активаций в которой все элементы 0.001 кроме одного строки со значениями 0.027. Угол между этими двумя векторами - всего 4 градуса. А если миллион не один, а сто, то угол вообще может потеряться на фоне ошибки округления. Как вы справляетесь с этой проблемой?
Ловите Ветрова, у которого есть грокнутые модели, на простых датасетах, берёте их погонять и прогоняете через свои метрики. Профит.
Вот вы все ржёте, а алгоритмы экстримального сжатия реально существуют. Например почти любой текст можно сжать всего до нескольких бит на слово, и это далеко не первоапрельская шутка.
Просто в наше время уже как-то не принято меряться архиваторами.