All streams
Search
Write a publication
Pull to refresh
112
0
B@rmaley.e⪥e @barmaley_exe

Уверенный пользователь ПК

Send message
почти 100%

Это ваши домыслы, или статистикой подкрепить можете? Давайте откроем список победителей ACM ICPC и посмотрим, сколько же человек оказалось за границей.


  • Года 2000 и 2001: Николай Дуров и Андрей Лопатин приняли участие в создании социальной сети Вконтакте, где и работали, пока Павел Дуров не ушёл делать Телеграм. При этом второй, видимо, вернулся во [вконтакте],
    (https://secretmag.ru/cases/interview/lopatin.htm) и активно занимается обучением новых чемпионов (он тренер прошлогодних абсолютных чемпионов, занявших 4-ое место в этот раз). Виктор Петров, согласно профилю в всё той же социальной сети, живёт в Петербурге и работает в лаборатории Чебышёва при альма-матер. Олег Етеревский работал в Питерском офисе Google, пока последний не прекратил разработку в России.
  • 2004: Павел Маврин тоже живёт в России и активно преподаёт как школьникам, так и студентам. Согласно википедии, так же трудится на благо своей альма-матер. Дмитрия Павлова я запишу в уехавшие, хотя имя-фамилия распространённые и я мог ошибиться. Сергей Оршанский, судя по профилю вконтакте, тоже уехал.
  • 2006: Роман Алексеенков, Игорь Кулькин и Иван Романов уехали
  • 2008: Федор Царев и Дмитрий Абдрашитов, судя по ВК, остались в России, а Дмитрий Паращенко уехал в 2012-ом году.
  • 2009: Владислав Исенбаев уехал, Максим Буздалов и Евгений Капун остались.
  • 2012: Нияз Нигматуллин остался, Михаил Кевер, как я понимаю, уехал.

Статистику по следующим годам подводить не буду, т.к. во-первых, имеющаяся уже достаточно репрезентативна, а, во-вторых, многие участники соревнований 2013-2017 годов все ещё учатся.


Итого 9 уехавших и 9 оставшихся. Далековато до "почти 100%", не находите?

В Москве вообще наблюдается странный крен популярности на послеобеденное время.

Мне кажется, это скорее связанно с тем, что программисты как правило имеют свободный график, поэтому зачастую приходят на работу не к 9 как иностранные коллеги, а к 11-12. Отсутствие провала на обеденный перерыв тоже следует из свободного графика: все пришли в разное время, вот и пообедали в разное время, нет строго заданного времени для обеда.

Ну вообще-то это не я говорю а Карпаты и иже с ними

Это где он такое говорит, можно конкретную ссылку? Хочется избегать седловых точек, да, а вот локальные минимумы нас вполне устраивают (тем более, что их слишком мало, чтобы ими пренебрегать)


когда люди говорят «локальный минимум» в применении к нейросетям они обычно сталкиваются с седловыми точками

Не надо подменять понятия, седловые точки и локальные минимумы – разные вещи.

Жаль

Краткость – сестра таланта. Чем длиннее ваше описание, тем меньше шанс, что Вам удастся донести свою идею до собеседника. Более того, пространные рассуждения плохи ещё и тем, что если собеседник не согласен с одним из ранних тезисов, вся дальнейшая цепь импликаций бессмысленна.


Не имеет значения, география это или математика. Важно лишь то, что это воспроизводимые наблюдения, а Ваше утверждения основываются на частных примерах и "почти уверенности". Как если бы путник, случайно блуждающий в пустыне, говорил о том, что снега не существует.


В рассуждениях про локальные минимумы Вы противоречите себе:


способность миновать ближайшие локальные минимумы может быть важнее чем способность их быстро найти [...] настоящих локальных минимумов в задачах такой размерности почти не бывает, то то что нам касается локальным минимумом на самом деле седловина

Так если локальных минимумов почти нет, зачем же их избегать?

И к чему это полотно текста? Во втором примере Вы специфицировали модель, для которой нашли локальные минимумы. Потрудились бы, что ли, доказать, что нельзя моделью с выпуклой поверхностью задачу решить.


Я не проверял лично, но я почти уверен

Вера – это про религию, а мы здесь науку / инженерию обсуждаем.

И когда я сталкиваюсь с фразами «а давайте, примем для простоты, что она диагональная» и тому подобным меня больше удивляет, что такие методы работают хоть как-то вообще. Она капец какая не диагональная, и непростая.

Всё же лучше, чем считать, что эта же матрица вообще скалярная как в случае простых методов первого порядка.


Но что гораздо более важно. все алгоритмы второго порядка намертво застревают в локальных минимумах если к ним не применять жестокое обращение

А Вы чего хотели? Нахождение глобального минимума невыпуклой задачи – NP сложная задача, никакой надежды на это нет. Радоваться надо тому, что методы второго порядка добираются до локальных минимумов.


А применять глубокое обучение обычно имеет смысл только в тех задачах, где этих локальных минимумов милиарды миллионов

Локальные минимумы есть артифакт модели и функции потерь, непонятно, о каких локальных минимумах Вы говорите, не задав сперва оптимизируемую поверхность.

А что мы копируем? Квантовые состояния мы не копируем. Благо, наши текущие компьютеры работают на макроуровне, поэтому квантовые флуктуации не страшны.

Окей, кажется, здесь спор об определениях. См. мой другой комментарий.

Понятно, тут типичное Disputing Definitions


У Вас какое-то глобальное определение "Я", не зависящее от физического тела. Наверное, в Вашем восприятии человек определяется лишь состоянием его мозга (сюда включается в том числе история, если хотите, можно расширить на состояние тела, не принципиально). Если вдруг 2 человека обладают одним и тем же состоянием (как 2 клона), то это один и тот же человек.


Я же считаю, что "Я" – это лишь ссылка на самого себя, на то, чем я могу управлять (локальное определение). localhost, this, self – в IT есть аналогичные конструкции. Кто угодно может произносить "Я", но если это разные "агенты" (то есть, ни один не может контролировать другого), то и значения у этих слов разные.


Какое из этих определений верное – не имеет значения. Определения не являются верными или ложными, они – своего рода аксиомы нашего мира, в которые мы можем верить, а можем и не верить.


В рассмотренном примере с клоном и кому умереть я выберу смерть клона, ведь я не управляю клоном, его мысли, эмоции и решения мне недоступны, поэтому он – не я, а в момент моей смерти я перестану влиять на происходящее или испытывать какие-либо эмоции. Да, развитие Вселенной будет одинаковым в обоих исходах, но для меня оно будет разным, в этом и проявляется субъективность моего "Я". Приверженец идеи "глобального Я" же скажет, что оба экземпляра обладают одинаковым состоянием, то разницы между ними нет и убивать можно любого. Более того, можно убить вообще всех, предварительно сделав резервную копию, а потом восстановив личность при необходимости.

Не понимаю, о чём Вы вообще спорите.


Очевидно, что слово "Я" субъективно. Я – это то, над чем у Вас есть контроль. Над клоном контроля нет.


Для программистов: Я – это this, а люди – объекты. Можно сделать копию объекта, настолько неотличимую, что operator== / equals вернёт true, что при грамотном дизайне означает их полную взаимозаменяемость, но это 2 разных объекта, находящихся в разных местах памяти и, потенциально, имеющих разное будущее. Мы даже можем определить метод wakeUp, говорящий "Проснулся this", ну и что? Кажется, у вас какое-то глобальное понимание слова "Я" this...


P.S. Я, правда, считаю, что люди – не объекты, и интерфейса проверки на равенство не реализуют, ибо такое сравнение неустойчиво во времени.

No-cloning theorem

Квантовые файлы действительно копировать нельзя.
Современные сети уже пару лет как не предобучают ограниченными машинами Больцмана или автокодировщиками. Их обучают end-to-end обычным (с миллионом разных хаков вроде подбора шага, нормализации, аугментации, правильной инициализации) градиентным спуском. Хинтон говорит, что раньше оно не работало потому что
  • Our labeled datasets were thousands of times too small.
  • Our computers were millions of times too slow.
  • We initialized the weights in a stupid way.
  • We used the wrong type of non-linearity.


Batch Normalization (как и Layer Normalization, Weight Normalization и множество других) не имеет отношения к learning rates. ReLU помогает тем, что у него, в отличие от насыщающихся нелинейностей вроде сигмоиды или гиперболического тангенса, градиент существенно отличен от нуля в гораздо большей части пространства.

ResNet'ы как раз борются с затухающими градиентами, идея там внутри такая же, как и в LSTM (Шмитдхубер даже назвал ResNet'ы частным случаем LSTM)
NAG и Momentum – это разные вещи. Более того, значительная доля того, что придумал Нестеров, не очень полезна в глубоком обучении, т.к. функционалы там невыпуклые.
Смотря какое общество. Я никогда не пил и никаких конфликтов с пьющими (т.е. всеми остальными, в моём окружении всего один-два человека не пьют) не имел (не считая многочисленных инцидентов алкогольной интоксикации различной степени угрозы, невольным свидетелем которых я был). В то же время я всегда был готов прекратить любое общение с человеком, который пытается оказывать на меня давление в пользу употребления алкоголя.
Зачем выдумывать какие-то теории заговора?
Никакого заговора тут нет, просто кому-то нужно зарабатывать деньги. Посмотрите, например, вот это видео про табачные компании.
В фейсбуке есть отдел Applied Machine Learning, где-то там пишут на Хаскелле (вот, например). Но оно и не удивительно, не зря же ФБ Саймона Марлоу нанял.
Я думаю, что в этом случае судьи и комментаторы непременно бы сказали, что машина зря сдалась, или, наоборот, могла бы сдаться.
«А судьи кто?» Люди про оптимальность ничего не знают.

Так это следующий шаг.
Это не просто следующий шаг, а целая пропасть, отделяющая успехи текущего дня от Скайнета. И это будет существенный прорыв, без этого нельзя заявлять «уже почти всё есть».

Настоящая нейросеть работает почти полностью параллельно. Как будто у нее миллиард маленьких процессоров, а не быстрое переключение между сотнями.
Только «процессоры» там довольно малопроизводительные, а на каком-нибудь одном nVidia Titan X находится 3 584 ядер, каждое из которых работает параллельно от остальных при правильной организации вычислений.

Я считаю, что это вопрос ресурсов. На текущем этапе мы просто не можем себе позволить обучить одну сеть всему. Но, повторюсь, это проблема не качественная, а количественная.
Я уже говорил, ручное обучение под конкретную задачу не масштабируется, нужны новые подходы для эффективного обучения без огромного количества размеченных данных.
Я имел ввиду в первую очередь корректность оценки шансов во всем диапазоне вариантов
А откуда Вы знаете про корректность оценки шансов? Никто не знает, действительно ли шансы на победу были 20%. Быть может, существовала детерминированная стратегия, гарантированно приводящая одного из игроков к победе из сложившейся ситуации.

Вообще, все машинное обучение — это построение эмпирическим путем некоей формулы (в линейном случае — полинома, в НС — набора весовых коэффициентов), которая пытается давать ответ в ситуациях, которых не было в процессе обучения. Далеко не все понятно, что там внутри происходит
Для простых алгоритмов вроде логистических регрессий, деревьев решений или даже SVM можно как-то интерпретируемо сказать, почему модель сделала именно такое предсказание. Работы по интерпретации сетей ведутся, но модифицировать уже обученные сети руками это не помогает.

Принципиально то, что одна и та же система с разной обвязкой очень хорошо делает самые разные задачи
Принципиально то, что мы вручную обучаем эту самую систему под разные задачи. В реальном мире у Сильного ИИ таких задач несметное множество, ручное обучение под каждую задачу на это не масштабируется.

Кроме того, уже сейчас все эти системы потребляют на порядки больше электричества и производят больше вычислений, чем человеческий мозг. Это в основном связанно с потребностью в больших объёмах данных для обучения с нуля. В этом, как мне кажется, и кроется проблема: человек (почти) никогда не учится с нуля, у человека всегда (кроме рождения и то не факт) есть какой-то предыдущий опыт, который он использует для анализа новых данных, выстраивая логически согласованную картину у себя в голове. У нейросетей, обученных под конкретную задачу не будет такой общей картины, что и не даст им стать сильным ИИ.
Важно, что оба вида данных с точки зрения вложенной информации эквивалентны.
Получается, что мне надо заранее угадать, какой вид данных придётся нейросети по вкусу.
А вам в любом случае придётся. Можно придумать множество эквивалентных представлений данных различной сложности (кодирование индексами является довольно вычурным преобразованием над one-hot векторами), нет ни единой надежды на то, что существует хоть один метод, который будет хорошо работать с ними всеми, т.к. у любого метода есть какие-то предположения о природе входных данных, но думать о ней Вы не хотите, отсюда и получается GIGO.

Выше мы обсуждали, что свёрточная нейросеть может догадаться применить такого рода фильтр самостоятельно, а это тоже весьма нетривиальное преобразование, вполне сравнимое с превращением предложения в вектор нулей и единиц
Хотите сказать, что сеть сможет научиться конвертировать вектора из индексов в one-hot вектора? Ну, гипотетически, наверное, сможет, но это нетривиальная операция, которую можно будет сложно выучить. В обучении сетей мы, конечно, продвинулись, но это ещё не до конца решённая задача.
Кстати, в одной из партий она сдалась по-джентельменски, то есть адекватно оценила свои шансы и решила, что они меньше 20%.
Конкретно эта логика была запрограммирована человеком, а не «выучена» системой.
Думаю во время партии разработчики нашли массу разных вариантов как улучшить ее работу.
Я сильно сомневаюсь в этом. Разработчики сами признавали, что понятия не имеют, о чём нейросеть «думает» в процессе игры, вряд ли всего лишь 5 партий позволят им внести какие-либо существенные коррективы. В самом деле, в основе AlphaGo лежат миллионы чисел, описывающих используемую нейросеть, и никто не знает, что каждое из них делает, поэтому и как там что-нибудь поправить никто не знает.

Как раз цели машине можно описать очень четко. Например, для воздушного боя
Вот Вы только что взяли и ушли от Сильного ИИ к Слабому, сузив область решаемых задач. Я же говорил про Сильный ИИ, способный делать всё, что делает человек (и человек не рождается пилотом истребителя). Слабый ИИ же почти решён, как мы видим по буму нейросетей почти во всех областях.

Information

Rating
Does not participate
Location
Россия
Works in
Registered
Activity