Подробный разбор матча по Dota 2 между OpenAI и людьми в формате 5x5. Люди проиграли



    Вчера, 5 августа, в Сан-Франциско состоялся шоу-матч между людьми и ботами OpenAI в дисциплине Dota 2. Еще в 2017 году в рамках шоу-матчей The International 2017 люди сражались с OpenAI в формате «1х1 mirror mid» и с целым рядом ограничений в пользу ботов (запрет на использование ряда предметов и механик), что закончилось поражением профессиональных игроков-мидеров.

    Так как Dota 2 — дисциплина крайне разносторонняя и сложная для освоения, встреча между людьми и ИИ вновь проводилась с целым рядом ограничений, которые, однако, не слишком радикально влияли на игровой процесс:

    • пул из 18 героев в режиме Random Draft (Axe, Crystal Maiden, Death Prophet, Earthshaker, Gyrocopter, Lich, Lion, Necrophos, Queen of Pain, Razor, Riki, Shadow Fiend, Slark, Sniper, Sven, Tidehunter, Viper, или Witch Doctor);
    • без Divine Rapier, Bottle;
    • без подконтрольных существ и иллюзий;
    • матч с пятью курьерами (ими нельзя скаутить и танковать);
    • без использования скана.

    Самое серьезное ограничение: крайне малый пул героев для обеих сторон. Сейчас в Dota 2 существует 115 персонажей с различными способностями и механиками их применения. OpenAI пока может совладать лишь с 18 из них. Встреча была максимально приближена к «реальным» условиям и проводилась в формате 5х5. Против ИИ играли обычные люди, в прошлом когда-то причастные к киберспорту, но сейчас не являющиеся киберспортсменами. Единственная поблажка для людей заключалась в том, что реакция ботов была ограничена 200 мс, чтобы избежать ситуаций с мгновенным «прожатием» кнопок. Итог: команда ИИ выиграла у людей со счетом 2-0 по картам. Выиграть у OpenAI удалось только после того, как героев для ИИ выбрал зрительный зал (Slark, Sven, Axe, Riki и Queen of Pain), по оценкам OpenAI шанс на победу с таким драфтом составлял всего 2,9%. Кроме этого, до начала главного матча, с ботами могли сыграть рядовые гости мероприятия, и в этих встречах доминирование ИИ было еще более наглядно, что впечатляет.

    Почему это так важно


    OpenAI — это некоммерческий проект, за которым, однако, стоят вполне известные и влиятельные люди. Проект был основан в 2015 году Илоном Маском, Сэмом Альтманом, а спонсорами выступили Питер Тиль и Джессика Ливингстон. Dota 2 — не единственное направление деятельности команды проекта OpenAI. Если ознакомиться с разделом «Исследования» на официальном сайте проекта, то можно увидеть, что OpenAI активно работает и в направлении создания ИИ для, например, робототехники.

    Но если основатели проекта — столь влиятельные люди, то почему выбор пал на компьютерную игру? Обучение ИИ для работы в динамически изменяемых условиях — задача нетривиальная. Текущие модели ИИ и автопилотов действуют исключительно в жестко заданных условиях, а для их обучения требуются миллионы различных комбинаций событий и факторов для того, чтобы бот не просто действовал по заранее прописанным паттернам, а начал сам анализировать происходящее и принимать решения исходя из контекста ситуации. Выбор Dota 2 в качестве площадки для обучения ИИ и создания ботов для данной дисциплины оказался полезен с множества точек зрения:

    • киберспорт обладает высокой медийностью;
    • это безопасная площадка для отработки методов обучения ИИ;
    • огромная вариативность игровой механики Dota 2 дает практически неограниченное количество сценариев для обучения;
    • открытый доступ к записям игр живых людей предоставляет неисчерпаемый запас данных для анализа.

    Последний пункт этого импровизированного списка, наверное, и самый важный. Одна из проблем всех систем обучения ИИ — создание релевантной выборки, на которой можно обучать систему. Живые игроки абсолютно бесплатно генерируют ежедневно миллионы записей игр в свободном доступе, а исследователям остается лишь выбирать матчи с релевантным набором персонажей. И результат впечатляет.

    Что произошло 5 августа


    Чаще всего боты в компьютерных играх — либо туповатые заскриптованные болванчики, либо непобедимые чудовища с нечеловеческой реакцией. Как пример — «insane»-боты для CS 1.6, которые убивали в голову из дробовика на дистанции в 50+ метров в прыжке с разворота. Добиться реалистичного, но при этом эффективного поведения от игровых ИИ разработчикам не удается уже которое десятилетие, что особенно видно по играм с открытым миром. Собственно, это и стало причиной популярности онлайн-дисциплин.

    После шоу-матчей в 2017 году в формате «1х1 mirror», команда OpenAI заявила, что следующая цель — полноценные игры 5х5. И им почти удалось добиться намеченной цели: ожидать от ботов способности управлять и анализировать синергию всех 115 персонажей в режиме Captain Mode было бы глупо, но уже 18 героев — это очень много. Вот расчет вариантов для пика 5х5 (10 персонажей) для 18 героев:

    $C_{18}^{10} = \frac{18!}{10! \cdot (18-10)!} = \frac{18!}{10! \cdot 8!} = \frac{11 \cdot 12 \cdot 13 \cdot ... \cdot 16 \cdot 17 \cdot 18}{1 \cdot 2 \cdot 3 \cdot ... \cdot 6 \cdot 7 \cdot 8} = 43758$



    А вот такое число вариантов мы получаем уже для 115 персонажей:

    $C_{115}^{10} = \frac{115!}{10! \cdot (115-10)!} = \frac{115!}{10! \cdot 105!} = \frac{106 \cdot 107 \cdot 108 \cdot ... \cdot 113 \cdot 114 \cdot 115}{1 \cdot 2 \cdot 3 \cdot ... \cdot 8 \cdot 9 \cdot 10} = 74540394223878$


    Да, 74,5 трлн комбинаций! Очевидно, что для того, чтобы совладать с таким разнообразием и включить всех 115 персонажей в пул OpenAI, требуется полноценный самообучаемый ИИ, которого у нас пока нет. При этом в расчетах не учитываются способности персонажей (от 4 до 6 «кнопок» на персонажа, без учета Invoker), типы способностей (активные, пассивные, направленные, ненаправленные, AoE, направленные на точку), десятки предметов, активные эффекты предметов, модификаторы и так далее и так далее.

    Но даже для нашего мини-пула в 18 персонажей работа была проведена колоссальная.

    Ниже вы можете оценить, как ведут себя OpenAI боты в играх против людей:


    Чем боты отличались и не отличались от людей


    Для тех, кому лень смотреть 5+ часов записи с Twitch, мы коротко расскажем, чем было примечательно поведение команды ботов OpenAI Five на фоне обычных людей.

    Сразу стоит сказать, что ИИ думал на стадии драфта персонажей, то есть просчитывал шансы на победу той или иной комбинации персонажей на основании имеющихся у него неполных данных. При этом OpenAI сообщал прогнозируемый процент своей победы исходя из драфта. Иногда, по мнению ИИ, он достигал 95%.

    Всю игру OpenAI Five можно охарактеризовать таким популярным среди сообщества термином, как «душили». Да, по ощущениям, боты на самом деле «душили» определенные линии, при этом без каких-либо угрызений совести или опасений заходили под вышки на первых минутах матча для того, чтобы отправить игрока-человека отдыхать под фонтаном на базе. Некоторые моменты можно увидеть на нарезке ниже (название видео не соответствует реальности):


    Кроме бесстрашия (граничащего с наглостью) и организованной работы на ранней стадии игры, боты отметились и собственным пониманием механики Dota 2. Цель игры: сломать главное строение противника, на чем и фокусировались боты. Так, 3-4 персонажа ИИ согласованно ломали вышки противников-людей, виртуозно «танкуя» по очереди башню, чтобы сохранить собственных крипов и быстрее разрушить строение. Кроме этого боты отметились и тем, что нестандартно использовали варды, которые также танковали для них вышки. Как итог, в одной из игр с гостями мероприятия боты зашли на базу противника уже на 9 минуте (подъем на базу противника даже на 15-18 минутах считается исключительно ранним таймингом).

    Также боты эффективно перераспределяли между собой опыт, не допуская просадки персонажей 4-5 позиций, отличились в расчете урона (при нанесении последнего удара бот не продолжал догонять цель, четко понимая, что урона для убийства хватает) и активно использовали некоторые предметы.

    Внимательный зритель заметит на видео и принятие решения исходя из неполных данных (использование AoE-навыков в «туман войны»), принятие нестандартных решений (успешное использование свитка телепортации вместо попытки убежать на своих двоих), заходы в тыл с блокированием противника в лесу и согласованный фокус наиболее опасных противников-людей.

    В оправдание человечества можно сказать, что игроки-люди показали не слишком высокий уровень игры, были ограничены в плане выбора персонажей и допускали множество ошибок, но подобный прогресс ИИ всего за 1 год разработки не может не впечатлять.

    Вполне вероятно, мы увидим еще один шоу-матч, на этот раз на The International 2018 (пойдет 20-25 августа) против профессионалов, которые явно сильнее ИИ. Однако вполне возможно, OpenAI Five смогут нас чем-нибудь удивить.

    Crossover

    499,00

    100% удаленная работа в международных IT-проектах

    Поделиться публикацией
    Комментарии 441
      +1
      Так есть же уже статья об этом ТЫК
        +13
        Да, досадное недоразумение, в котором никто не виноват. Очевидно, мы начали готовить этот материал намного раньше, чем в час дня и параллельно с Артемом, так как за час написать такую статью невозможно физически. Нам кажется, материалы принципиально разные как по формату, так и по содержанию.
          +10

          Тут больше подробностей по ограничениям

        0
        Астрологи объявили неделю OpenAI…
          0
          Да просто в преддверии International'а начинается небольшой шум в СМИ
          +3
          Ну что, можно поздравить ботов! Они отмечают?
          • НЛО прилетело и опубликовало эту надпись здесь
              +13
              Когда ж вы переведетесь. Вечно найдется какой-то нигилист, которому и так нечестно, и сяк. И то не прорыв, и это.
              Любой прорыв начинается с маленьких побед. И OpenAI сделал несколько семимильных, на мой взгляд, шагов за год.

              Атомную бомбу тоже начали с банальных «предположений о ядерных реакциях» в 30-х годах. В 38-39 году увидели, что когда облучали уран нейтронами образовывался вроде бы барий с массой в 2 раза меньше первоначальной. А через 7 лет Хиросимы и Нагасаки остались только угольки.

              Если проводить аналогию, то само открытие ядерного расщепление не является прорывом до тех пор, пока не был построен ядерный реактор.
                +1
                Да и компьютерное зрение по выделению объектов на изображении не сильно связано с мыслительным процессом. И механический удар по кнопкам тоже.
                В исследовательских задач так точно.
                  0
                  Ох блин, надеюсь боты не оставят от нас угольки, следуя примеру, который вы привели :)
                    0

                    хотите чтобы угольков не осталось даже? экий Вы кровожадный.


                    по теме статьи, это не может не радовать. всегда начинается с малого, возможно уже при нашей жизни можно будет наблюдать сюжеты из книг Азимова.

                      +1
                      В которых ИИ робот...
                      … успешно решил медленно поджарить Землю радиацией чтоб насильно разогнать человечество по галактике.
                        0
                        Внезапно, это решил не ИИ. Это решили люди, из первой волны расселения (космониты). И не для того, чтобы разогнать, увы. Недавно перечитывал всю серию «Foundation».
                          0
                          И тут же посыпаю голову пеплом… Все-таки KIVan прав, в итоге ИИ «передумал» в пользу будущего человечества.
                            0

                            Но в последний момент робот решил, что это подтолкнет человечество к расселению по галактике, прекратит долгую стагнацию. И принял решение, руководствуясь 0м законом.


                            Это разве не в конце "Стальных пещер"? А Foundation много-много лет спустя.

                              0
                              Всё так. Это было в «Основание и Империя». После «Стальных пещер».
                      –17
                      Слова не глотайте.
                        –8
                        Любой прорыв начинается с маленьких побед. И OpenAI сделал несколько семимильных, на мой взгляд, шагов за год.

                        Надо только учитывать не сам факт наличия шагов, но и их направление, т.к. часть сделана совсем не вперед. Год назад бот играл на миде на уровне одного из топ-мидеров мира, сейчас — не способен соперничать со средним игроком. Что будет, когда бот научится играть без ограничений и с расширенным пулом? Личный скилл на уровне 500-ммр помойки?

                          +1

                          Вы говорите о другой метрике качества. Качество игры отдельного бота не равно качеству игры команды ботов. Вполне может даже оказаться, что попытка максимизировать качество на отдельном персонаже давала просадку метрики по команде в целом.
                          Тут надо понимать, что мы считаем важной доя нас метрикой и заниматься именно ей, проверяя в действительности, улучшается ли результат, в виде победы.

                            0
                            Вы говорите о другой метрике качества. Качество игры отдельного бота не равно качеству игры команды ботов.

                            Я говорю о том, что чем шире пул проблем, которые умеет решать бот, тем хуже он решает каждую из проблем пула. простая проблема специализации. В данном случае — мы непосредственно наблюдаем, как бот, который год назад выносил вперед ногами лучших мидеров мира, сливает теперь мид средним игрокам.
                            Совершенно очевидно, если бы теперешний бот умел бы играть на миде как тот, старый, то и в целом это бы повысило эффективность бота. Но он не умеет. Почему? Видимо, ограничение размера сети и выч. мощностей. Это важный момент. Если предел, при котором дальнейшее наращивание сложности сети не доступно, уже достигнут, то дальнейшее наращивание пула задач (а наращивать надо, ведь еще более 80 героев, причем среди них всякие "грязные" герои, которые ломают модель игры своим присутствием) не приведет ли к тому, что от бота, который идеально играл на миде на одном персонаже, мы получим бота, который вроде как может играть в доту в общем, в команде, на чем угодно — но делает это предельно плохо?

                              0

                              Не очевидно, что стало бы лучше. Это надо проверять с конкретными метриками.
                              "чем шире пул проблем, которые умеет решать бот, тем хуже он решает каждую из проблем пула."
                              Где-то есть статья из ML на эту тему?

                                0
                                Не очевидно, что стало бы лучше.

                                Совершенно очевидно.


                                Где-то есть статья из ML на эту тему?

                                Да любую книжку по нейросетям откройте, там вам напишут про соотношение между размером сети и количеством стимулов.

                                  0
                                  Открывал, открываю и не одну, поэтому и говорю, что это не очевидно. Это гипотеза, которую надо проверять.
                                  А в мире DL вообще вредно пичкать модель своими априорными знаниями, которые могут оказаться ложными.
                                    0
                                    Открывал, открываю и не одну, поэтому и говорю, что это не очевидно. Это гипотеза, которую надо проверять.

                                    Это не гипотеза, а доказанный факт. При прочих равных с лучшим мидером вы будете иметь преимущество в золоте. Вы можете проигнорировать это преимущество, сведя игру к варианту "с худшим мидером", по-этому не может возникнуть такой ситуации, что наличие лучшего мидера не скажется в плюс.
                                    Другое дело, если проблема в том, о чем я и говорил выше с самого начала — не получается обеспечить "при прочих равных". Можно обучить бота идеальному стоянию на миде невермором, а можно — среднего качества игроком на пуле из 16 героев. Одновременно — сети уже не хватает, вот и приходится выбирать.

                                      0
                                      Вы говорите про человеческий опыт, а не про обучение модели.
                                      Почему-то для вас тут стоит знак равенства. Хотя сами по себе утверждение сомнительно.
                                        0
                                        Вы говорите про человеческий опыт, а не про обучение модели.

                                        Именно про обучение модели я и говорю. С чего вы взяли, что не про него?
                                        У нас ситуация, в которой приходится жертвовать качеством модели ради того, чтобы она стала более универсальной.
                                        Была модель на десяточку для одного персонажа, стала модель на 8, но для любого из 16. Понимаете?

                                          0
                                          Если про обучение модели, то можете подсказать где именно про озвученный вами вопрос почитать?
                                            0

                                            Про какой именно?

                                0

                                В этом и заключается технологическая сингулярность. Машина совершает действия, неочевидные или даже глупые с точки зрения человека, которые он сам бы никогда не совершил, но при этом достигает цели эффективнее, чем человек.

                                  0
                                  Машина совершает действия, неочевидные или даже глупые с точки зрения человека, которые он сам бы никогда не совершил, но при этом достигает цели эффективнее, чем человек.

                                  У нас случай другой — в данном случае машина совершает действия, которые совершенно точно снижают эффективность достижения цели.

                                    0

                                    Извините, но вырву вашу фразу из контекста.
                                    TAS для марио показал, что для того, чтобы развить максимально быстро большую скорость бега нужно сначала развернуться в противоположном направлении. Мне кажется, что это и есть то самое — совершенно точно снижение эффективности — зачем разворачиваться влево, если я бегу вправо? Тем не менее, это быстрее.

                                      0
                                      Мне кажется, что это и есть то самое — совершенно точно снижение эффективности

                                      Нет, это не то же самое, т.к. в вашем случае механика игры предполагает, что можно бежать быстрее, развернувшись влево.
                                      В рассматриваемом случае подобные ситуации логически невозможны.

                                        +1
                                        Я вам тоже напомню, что выиграть матч — это не выиграть мид, не сделать больше убийств и не заработать больше золота. Выиграть — это снести тот самый ancient.
                                        Не стоит из «я не могу связать» делать «логически невозможно». Я не вижу ни одного именно логического обоснования, кроме вашего субъективного взгляда.
                                          +1
                                          Я вам тоже напомню, что выиграть матч — это не выиграть мид, не сделать больше убийств и не заработать больше золота. Выиграть — это снести тот самый ancient.

                                          Так вот, если бы вы играли в доту, то знали бы, что про*б мида никак и ни в каком случае не может вам помочь снести тот самый ancient. Может помешать. А помочь — нет, не может.
                                          С другой стороны, выигрыш мида — может помочь. Но никак не может помешать.
                                          Потому что выиграв мид, вы можете делать все ровно те же самые действия, что и в том случае, если его проиграли. Но не наоборот.
                                          Вы рассуждаете с той точки зрения, что это какой-то хитрый гамбит — пожертвовали пешкой (мидом), чтобы получить ферзя! Но если вы просто берете и на скиле тащите мид — вы ничем не жертвуете. Вы просто забираете ферзя.

                                            +1
                                            Так вот, если бы вы играли в доту, то знали бы, что про*б мида никак и ни в каком случае не может вам помочь снести тот самый ancient. Может помешать. А помочь — нет, не может.

                                            Расскажите это командам, которые играют по стратегии «задавить две линии» и в конкретной игре предпочитают взять более слабый мид, который отстоит кое-как, чтобы загнобить вражеского кора в хардлайне и одновременно выфармить своего керри в изи лайне. Это, конечно, не совсем кейс, когда мид, проигранный из-за скилла, ведёт к победе, но в этом случае мид, проигранный тактически, ведёт к победе.
                                              –2
                                              > Расскажите это командам, которые играют по стратегии «задавить две линии» и в конкретной игре предпочитают взять более слабый мид

                                              Вы вообще читаете, что вам пишут? В нашем случае никто не брал слабый мид, чтобы давить что-то другое. Никто не уходил с мида на ганг, оставляя вражеского мидера на фрифарме. Никто не жертвовал слабым мидером ради того, чтобы саппорты более активно помогали своему керри/давили вражеского керри/хардлайнера.

                                              Мы говорим о том, что один и тот же герой стоит на миде n минут и либо играет хорошо (много добивает и денаит, хорошо давит оппонента), либо играет плохо (добивает/денаит меньше, дает оппоненту чувствовать себя свободнее).
                                              Так вот, нет и не может быть никакой пользы в том, чтобы стоять на миде намеренно плохо вместо того, чтобы стоять там хорошо.
                                              Может быть польза в том, чтобы уйти на ганг, может быть польза в том, чтобы пойти в лес, может быть польза в том, чтобы играть сейфово, может быть польза в том, что будет слабый мид в плане пика, но не может быть пользы в том, чтобы просто _играть хуже_.
                                              +1

                                              У вас, похоже, проблемы с логикой.


                                              Так вот, если бы вы играли в марио, то знали бы, что поворот влево никак и ни в каком случае не может вам помочь добраться до финала справа. Может помешать. А помочь — нет, не может.
                                              С другой стороны, движение вправо — может помочь. Но никак не может помешать.
                                                –2

                                                Но ведь мы выяснили, что в марио, поворот влево может помочь добраться быстрее. Ваша аналогия неуместна.


                                                Еще раз — выиграв мид вы можете сделать все те же самые действия в тот же момент, что и не выиграв его. По-этому ситуация в принципе не может быть хуже. С другой стороны, если вы не развернулись сразу влево в марио, то вы уже не можете повторить те же действия, как с разворотом в тот же момент.

                                                  +1
                                                  выиграв мид вы можете сделать все те же самые действия в тот же момент, что и не выиграв его

                                                  Нет аргументов, значит повторяйте это, пока все вокруг не поверят.

                                                    –2
                                                    Нет аргументов

                                                    Нет аргументов в пользу чего? Вам что в этом тезисе непонятно? Какие действия вы не сможете повторить, выиграв мид?

                                                      +2
                                                      5 борзых саппортов встанут на мид и влегкую выиграют против соломида. А вот дальше могут делать что хотят — скорее всего на этом их достижения на этой карте и закончатся, не будет ни опыта, ни денег, ни удобных позиций. Зато мид выиграли!
                                                        –1
                                                        Вам же уже десяток раз объяснили что речь тут про индивидуальный перформанс игрока на миде. Речь не про помощь саппортов миду, не про ганги мидера на линии (и наоборот линий на мид), а про индивидуальную игру конкретного персонажа. Она стала хуже.
                                                          0
                                                          1. Ни одного объяснения не вижу. В лучшем случае я вижу только субъективное мнение.
                                                          2. Если вы обратите внимание на начало ветки с моим сообщением, то узнаете, что я указывал комментатору, что он приводит оценочное суждение, которое может оказаться и неверным. В ответ я только и слышу «выиграть мид АБСОЛЮТНО ВСЕГДА!!!111АДИНАДИН лучше, чем проиграть». Выиграть мид приятно, полезно и удобно, но это не гарантия победы.
                                                            0
                                                            но это не гарантия победы.
                                                            так такого никто и не заявлял.
                                                            Выиграть мид приятно, полезно и удобно
                                                            да, и ни в одной ситуации не хуже чем проиграть мид (при прочих равных), что вам и повторили десяток раз.
                                                              –3
                                                              1. Ни одного объяснения не вижу. В лучшем случае я вижу только субъективное мнение.

                                                              Для оценки действий мидера есть вполне конкретный объективный фактор — это соотношение кс мидеров к n минуте. В том случае, если в эти n минут мидеры не ходили на ганг/в лес и к мидерам не ходили на ганг/сейв — это оценка конкретно действий мидеров, изолировано от остальной карты.


                                                              Если вы в таких условиях к 10 минуте имеет кс, например, 50 против 30 противника, то вы как мидер лучше, чем если вы имеете кс 30вс50 (наоборот).


                                                              И нет никакого смысла просто взять и отдать противнику кс, не добивая крипов. Это ровно то же самое, что крипов эти 10 минут добивать, а потом передать ему эту часть голды/опыта, например, нафидев под вышкой.


                                                              Мне искренне непонятно, что может быть непонятно в такой простой ситуации. Мне кажется, что вы просто троллируете, пытаясь показать себя сильно глупее, чем вы есть на самом деле.

                                      0
                                      простая проблема специализации

                                      Простая проблема более долгого и качественного обучения. Предполагать, что научить играть в доту НЕ получится — это крайне странно после всех примеров. Вопрос только, насколько быстро. Успеют за месяц или за год? Или придется пять лет ждать новых идей в обучении?

                                        0
                                        Простая проблема более долгого и качественного обучения.

                                        Еще раз — в результате долгого и качественного обучения мы наблюдаем не прогресс, а деградацию бота. Бот, который близко к идеальному играл в одних конкретных условиях, превратился в бота, который играет просто хорошо во многих.


                                        Вопрос только, насколько быстро. Успеют за месяц или за год?

                                        Вопрос не в том, насколько быстро, вопрос в том, хватит ли выч. мощностей.


                                        Или придется пять лет ждать новых идей в обучении?

                                        Новых идей в обучении нейросетей не было уже 50 лет, со времен появления персептрона Розенблатта. Ждать надо будет революции в производстве выч. техники, чтобы закон Мура снова стартовал и лет хотя бы 20-30 проработал.

                                          +1
                                          мы наблюдаем не прогресс, а деградацию бота.

                                          Вы — видимо да. Мы наблюдаем прогресс. Очевидно, что пространство возможностей кардинально расширилось и боты с ним вполне прилично справляются.


                                          Просто прошлый раз они заточили бота на одну операцию (в некотором роде overfitting), а сейчас обучают на большом пространстве. Ваши доводы выше я прочитал, но они не подходят именно из-за того, что пространство расширилось (например, на миду может появиться второй враг, именно поэтому точно та стратегия, которой бот пользовался в 1v1 не подходит, стратегия изменилась. Для вас она выглядит хуже, зато его не будут внезапно забирать с фланга).


                                          Новых идей в обучении нейросетей не было уже 50 лет

                                          Не знаю, в какой заморозке вы были, но Proximal Policy Optimization, разумеется, новая идея.

                                            –1
                                            Вы — видимо да. Мы наблюдаем прогресс.

                                            Значит, вы плохо смотрите. Бот совершенно объективно хуже справляется с задачей стояния на миде.


                                            Просто прошлый раз они заточили бота на одну операцию (в некотором роде overfitting), а сейчас обучают на большом пространстве.

                                            Так я же об этом и говорю. Расширить пространство без падения качества не вышло — а тогда нет причин полагать, что качество и дальше не будет падать. В итоге у нас будет цепь "бот почти идеально играющий в миде на неверморе" -> "бот хорошо играющий одним из 16 героев в доту почти без ограничений" -> "бот плохо играющий любым героем без ограничений".


                                            Не знаю, в какой заморозке вы были, но Proximal Policy Optimization, разумеется, новая идея.

                                            Что в ней нового? Обычный стохастический градиетный спуск, напичканный эвристиками, привет началу 60х. Это не то что шаг вперед — это шаг назад от персептрона Розенблатта (на пол десятка лет), алгоритм которого гарантированно сходится за конечное время с верным результатом.

                                              +2

                                              Если это шаг назад — зачем используют? Логично предположить, что вы просто не видите, в чем тут шаг вперёд, потому вам кажется, что его нет.


                                              Обычный стохастический градиетный спуск

                                              Не обычный. Вообще, ваше высокомерие вряд ли уместно. Если это всё такое тривиальное — аргументируйте. Покажите что-то менее "обычное", если разбираетесь (на самом деле ясно, что нет).


                                              гарантированно сходится за конечное время

                                              Условно конечное. На таких задачах большая плоская сеть конечно гарантированно может дать то же результат, что и глубокая, но не на реальной практике. Добиться сходимости за разумное время (например, месяцы, как в данном случае, а не сотни лет) — это реально достижение и это реально новое. То, что вам проблема скорости обучения не знакома (и вы наивно полагаете, что дело только в железе) — это исключительно ваш просчёт.

                                                0
                                                Если это шаг назад — зачем используют?

                                                А почему нет, если работает?


                                                Не обычный.

                                                Чем необычный?


                                                Покажите что-то менее "обычное", если разбираетесь (на самом деле ясно, что нет).

                                                Менее обычного пока не придумали.


                                                Добиться сходимости за разумное время (например, месяцы, как в данном случае, а не сотни лет) — это реально достижение и это реально новое.

                                                "Добиться сходимости за разумное время" — это когда доказано, что выч. требования для сходимости в некотором классе задач не превышают некоторое Х (которое в каком-то смысле полагается "разумным").
                                                А этого никто не добился, так что не врите. Есть некий набор эвристик, который, как предполагается, иногда может помочь в некоторых (неизвестно каких) случаях. Но при этом никто не гарантирует что сходимость в принципе будет, не говоря уж о том, что она будет за разумное время (или с разумной вероятностью).
                                                В отрасли банально с повторяемостью результатов фундаментальная проблема, а вы про то, кто чего добился рассуждаете.


                                                То, что вам проблема скорости обучения не знакома (и вы наивно полагаете, что дело только в железе)

                                                Именно в железе и дело в первую очередь. Да, когда железо (и размер выборок для обучения) сделало возможным обучение сетей в принципе — то этим занялись, и, что логично, появились некие оптимизированный под задачу версии стандартных и давно известных алгоритмов (того же градиентного спуска). Но именно железо дало возможность. Без скачка производительности никакие оптимизации бы не помогли.

                                                  +2
                                                  Менее обычного пока не придумали.

                                                  А вы в другой области покажите. В любой, за последние 50 лет. А я скажу, "нет, это банальный Х". Поиграем разок в вашу странную игру "ничего нового не придумали". Интересно посмотреть на ваши критерии "нового". Подозреваю, что это ваша особенность мышления "ничего нового не бывает, все похоже на что-то старое".


                                                  когда доказано, что выч. требования для сходимости

                                                  Не врите (с).
                                                  Добиться сходимости за разумное время — это получить результат. Вы можете выставлять какие угодно требования и считать себя самым умным, однако это лично ваше дело. К дискуссии отношения не имеет.


                                                  То, что не любой алгоритм даст математическую гарантию сходимости в любой ситуации тоже к дискуссии отношения не имеет. К реальным практическим задачам — тоже.


                                                  А почему нет, если работает?

                                                  А почему для этой задачи не использовать персептрон? Он лучше, на ваш взгляд, справится?

                                                    0
                                                    А вы в другой области покажите. В любой, за последние 50 лет.

                                                    Метод опорных векторов с нелинейным фильтром?


                                                    Добиться сходимости за разумное время — это получить результат.

                                                    Нет, это не так. То, что у кого-то на конкретной задаче что-то один раз сошлось — ничего абсолютно не значит, это не результат. Так же как если кто-то пошел в казино, дважды поставил на зеро и выиграл — это не результат, до тех пор, пока не предоставлен способ выигрывать ставя на зеро с какими-то разумными гарантиями.


                                                    То, что не любой алгоритм даст математическую гарантию сходимости в любой ситуации тоже к дискуссии отношения не имеет.

                                                    Зачем в любой? Достаточно знать, что он даст сходимость (пусть даже с какой-то вероятностью, но эта вероятность должна быть оценена и желательно выше чем "наугад") в какой-то ситуации, которая четко и явно описана. Иначе — это все становится с точки зрения практики бесполезным.


                                                    К реальным практическим задачам — тоже.

                                                    Как раз-таки имеет это отношение к практике и самое прямое. Отсутствие соответствующих мат. теорем выводит нейросети за пределы инженерных дисциплин в область живописи или стихосложения, т.к. результат становится принципиально неповторяем. Печально, что вы не видите в этом проблемы.


                                                    А почему для этой задачи не использовать персептрон? Он лучше, на ваш взгляд, справится?

                                                    Возможно, и лучше. А возможно — и хуже. У нас же нету никаких свидетельств в пользу того, что те сети, которые используются на данный момент в OpenAI, подходят к задаче лучше обычного однослойного персептрона? Нету. Как нету и обратных.

                                                      +1
                                                      Метод опорных векторов с нелинейным фильтром?

                                                      Обычная минимизация функции. Ничего нового со времён работ Крамера двадцатых годов.


                                                      К тому же, это просто улучшение обычного SVM, которому уже 55.


                                                      У нас же нету никаких свидетельств в пользу того,

                                                      Нет свидетельств? Может вы перепутали и хотели сказать "доказательств"? Свидетельств-то сколько угодно. Конечно глубокие сети справляются лучше, чем перцептрон, на большинстве задач. Да и научных работ на эту тему множество. Вы конечно, можете их все обесценить, мол, это не наука, а художества.


                                                      у кого-то на конкретной задаче что-то один раз сошлось 

                                                      А если у тысячи человек сошлось на определенном классе задач и есть куча информации, в каких условиях не сходится — это уже наблюдение. На него можно опираться и получать практические результаты.


                                                      в какой-то ситуации, которая четко и явно описана. Иначе — это все становится с точки зрения практики бесполезным.

                                                      Так определенные архитектуры и дают результат в четкой ситуации с какой-то вероятностью (выше рандома). Хочешь получить результат в распознавании изображений — бери сверточную сеть. Если не исследование ведёшь, а именно результат нужен. Конечно было бы классно иметь теорему, которая говорит, что сверточная сеть лучше всего на этом классе задач, но её пока нет. Есть наблюдения, исследования и куча практических результатов. Взять сверточную сеть именно с точки зрения практики — разумно.


                                                      Печально, что вы не видите в этом проблемы.

                                                      Вот этот абзац я пишу с помощью распознавания голоса. Печально что вы не видите реальных практических результатов и утверждаете что они неповторимы.

                                                        –1
                                                        Обычная минимизация функции. Ничего нового со времён работ Крамера двадцатых годов.

                                                        Метод опорных векторов — это, содержательно, способ приведения задачи классификации к задаче минимизации. То есть — вы привели, SVM на этом по факту закончился. Саму задачу минимизации вы уже можете решать как хотите, вообще говоря. Так что ваше утверждение не совсем верно.


                                                        К тому же, это просто улучшение обычного SVM, которому уже 55.

                                                        Но он не является его частным случаем. Вы не можете из SVM сделать SVM с нелинейным фильтром, меняя как-либо входные параметры SVM. В случае с PPO — ребята просто предлагает полученную на основе эвристик целевую функцию, которая является входным параметром алгоритма. Замена целевой ф-и не меняет алгоритм.


                                                        А если у тысячи человек сошлось на определенном классе задач и есть куча информации, в каких условиях не сходится — это уже наблюдение.

                                                        Да, но в данном случае сходится одна конкретная сеть на одной конкретной задаче, при этом она же не сама сходится — процесс обучения постоянно контролируется человеком, постоянно вносятся правки в процесс. Если вы поставите другого человека — он будет вносить другие правки и у вас получится другой результат, даже если будет использоваться тот же алгоритм обучения. А если вы даже в рамках той же задачи используете другую обучающую выборку, или, например, сам алгоритм случайно пойдет немного не так (что возможно, если он стохастический) — то, опять же, будут другие наблюдения и другие правки, при этом все эвристики, которые вы делали в прошлом случае, окажутся хорошо если бесполезными (а на практике с большой вероятностью они могут быть вредны!).


                                                        Так определенные архитектуры и дают результат в четкой ситуации с какой-то вероятностью (выше рандома).

                                                        В какой ситуации и с какой вероятностью? Вот PPO хорош в какой ситуации и с какой вероятностью?


                                                        Есть наблюдения, исследования и куча практических результатов. Взять сверточную сеть именно с точки зрения практики — разумно.

                                                        Карго-культ в принципе разумен с точки зрения тех, кто его исповедует, да. При этом он не перестает быть карго-культом.


                                                        Печально что вы не видите реальных практических результатов и утверждаете что они неповторимы.

                                                        А они повторимы? Укажите мне, пожалуйста, каким конкретно алгоритмом. И, пожалуйста, чтобы не пришлось в процессе чего-то подкручивать: просто запустил, сунул выборку и получил результат.

                                                          +1
                                                          Так что ваше утверждение не совсем верно.

                                                          Согласен. Хотя я мог бы, по вашей схеме, настаивать, что это просто комбинация известных вещей — линейные классификаторы были известны ранее, kernel functions — тоже не новое изобретение. Mercer их описал больше ста лет назад (спасибо Гуглу, да).


                                                          В случае с PPO — ребята просто предлагает полученную на основе эвристик целевую функцию

                                                          Так вот целевая функция — и есть новое, в данном случае! Именно она позволяет решать задачу такого размера. Никакой реальный прогресс в вычислительных ресурсах не позволит решить задачу на перцептроне, нужен reinforcement. А для reinforcement нужна хорошая целевая функция.


                                                          PPO, по утверждениям разработчиков, проще настаивать, проще контролировать. Как будет на практике — посмотрим. Ещё несколько команд возьмутся, начнут использовать — тогда и будет ясно, насколько повторяемы результаты на разных задачах.


                                                          Вот PPO хорош в какой ситуации и с какой вероятностью?

                                                          Я с PPO не так хорошо знаком. Будем считать, что идёт этап исследований. Когда изучат — будет понятно, в какой ситуации. Для сверточных сетей ответ известен.


                                                          Карго-культ в принципе разумен с точки зрения тех, кто его исповедует, да.

                                                          Попытка утрировать, возможно, хорошо выглядит в ваших глазах. Но вы прекрасно знаете, что сверточные сети — не карго-культ. И вы знаете, что я это знаю. Так зачем?


                                                          А они повторимы? 

                                                          Если вы запустите обучение с теми же гиперпараметрами — получите тот же результат. Просто сунете выборку, запустите, получите результат.


                                                          В научных работах выбранные гиперпараметры описываются. Методы выбора гиперпараметров — это предмет исследований в настоящий момент.

                                                            0
                                                            Так вот целевая функция — и есть новое, в данном случае! Именно она позволяет решать задачу такого размера. Никакой реальный прогресс в вычислительных ресурсах не позволит решить задачу на перцептроне, нужен reinforcement. А для reinforcement нужна хорошая целевая функция.

                                                            reinfoircement и перцептрон (давайте лучше сразу оговоримся, хоть и запоздало, что под "просто перцептроном" мы понимаем "просто перцептрон с одним скрытым слоем", потому что на самом деле сети используемые OpenAI — это тоже перцептроны, просто многослойные :) вроде из контекста это ясно, но лучше уточнять, чтобы потом не оказалось что все имели в виду что-то свое) ортогональные вещи, вы можете делать reinforcement и на "просто перцептронах" :)
                                                            С-но любой метод, который работает на сети некоторой топологии, будет работать и для любой сети более простой топологии, другое дело, что он может быть не так эффективен (логично, что для более простой сети найдется более специализированный метод, как метод коррекции ошибок в случае "просто перцептрона", который не работает в многослойном случае, но более эффективен с однослойном).


                                                            А для reinforcement нужна хорошая целевая функция.

                                                            Да, но штука в том, что целевая ф-я — не алгоритм. Другое бы дело если бы был какой-то математический результат в стиле: "целевая ф-я вида Х обладает свойствами вида Y для задач, обладающих свойствами Z", где Y — какие-то полезные свойства, а Z — свойства, котоырми обладает какой-то содержательный класс задач. Но такого-то нет, просто кто-то на какой-то задаче потыкал и у него что-то получилось.
                                                            Ну вы всерьез это рассматриваете как сильное свидетельство в пользу того, что метод работает и работает эффективно?


                                                            Для сверточных сетей ответ известен.
                                                            Но вы прекрасно знаете, что сверточные сети — не карго-культ.

                                                            Ответ не известен, у нас просто есть наблюдения (пусть и обширные) того, что сверточные сети хорошо справляются с некоторым классом задач. При этом нет никакого понимания, почему это так. И не факт что это вообще так — вполне может быть, что среди всех топологий сверточные сети далеко не лучший вариант.
                                                            Так что это как раз и есть натуральный карго-культ — когда люди используют что-то, работы чего не понимают.


                                                            Методы выбора гиперпараметров — это предмет исследований в настоящий момент.

                                                            Только это вот ключевой момент, потому что вы же понимаете, что если в методе достаточно параметров, то подгонкой можно сделать так, что любая конкретная задача "решится"?

                                                              +1
                                                              целевая ф-я — не алгоритм

                                                              Целевая функция, конечно, алгоритм. Не алгоритм обучения, это да. Гайка тоже, заметьте, не болт. Значит ли это, что новая гайка не считается новой на этом основании? Не понятна ваша мысль.


                                                              Ну вы всерьез это рассматриваете как сильное свидетельство

                                                              Когда у тысячи людей что-то получилось? А ещё тысяча описали, в каких случаях не работает? Да, рассматриваю. Иначе пришлось б отказаться, например, от лекарств. Вы уже отказались? Вряд ли хоть для одного есть математическое доказательство его работоспособности. Только модель и наблюдения, что реальность этой модели соответствует.


                                                              на самом деле сети используемые OpenAI — это тоже перцептроны

                                                              На самом деле нет. Впрочем, эта ваша стандартная особенность — "всё похоже на всё", не знаю почему, но видеть разницу вы отказываетесь, видите только общие черты (которые, несомненно, есть).


                                                              Ответ не известен, у нас просто есть наблюдения

                                                              Почему тела притягиваются, тоже ответ неизвестен, просто есть модель и наблюдения. Наблюдения — это нормально. Это хороший механизм познания и для сетей он тоже работает.


                                                              Где вы взяли определение карго-культа, кстати, не ясно, от общепринятого отличается, но пофиг.


                                                              любая конкретная задача "решится"

                                                              Если она решится так, как нужно, то кавычки неуместны. Самое банальное — у меня нет математических гарантий, что курьер привезет мне товар (я даже не знаю, как конкретно работает его мозг), но ожидаемая вероятность — высокая.


                                                              Можно наладить службу доставки, подкручивая кучу параметров и не имея ни одной теоремы. Назовёте такую службу доставки карго-культом? Не удивлюсь. Но большинство людей назовут её просто службой доставки. И задача доставки будет решаться без кавычек.


                                                              То есть, для решения задачи далеко не всегда нужны математические гарантии, что решение оптимально. Субоптимальное решение — тоже хорошо.

                                                                –1
                                                                Целевая функция, конечно, алгоритм.

                                                                Алгоритм чего? Вот есть, например, алгоритм сортировки — он принимает несортированный массив и возвращает сортированный, а тот о котором вы говорите что делает?


                                                                Когда у тысячи людей что-то получилось? А ещё тысяча описали, в каких случаях не работает?

                                                                Получилось что, подгонка гиперпараметров под конкретную задачу? Так я вам и без наблюдений сразу скажу, что это возможно.


                                                                Да, рассматриваю. Иначе пришлось б отказаться, например, от лекарств.

                                                                С чего бы это? В случае лекарств мы изучаем, какие в нем активные вещества и каким образом они приводят к конкретному фармакологическому эффекту. То есть мы знаем как и почему работают лекарства, пусть иногда это знание и бывает несколько ограниченным. Мы не пытаемся делать лекарство "наугад", без понимания принципов фармакологии, в надежде на то, что повезет и получится. Но именно так (наугад) делают нейронные сети.


                                                                Только модель и наблюдения, что реальность этой модели соответствует.

                                                                Ну вот, а в случае нейронных сетей нет никакой модели.


                                                                На самом деле нет.

                                                                На самом деле, да, перцептроном является любая нейронная сеть, с-но, по определению. А дальше вы уже можете уточнить, какой у вас перцептрон — однослойный, многослойный, с обратными связями, разными типами передаточной функции и т.д.


                                                                То есть, для решения задачи далеко не всегда нужны математические гарантии, что решение оптимально. Субоптимальное решение — тоже хорошо.

                                                                Ну так у вас есть гарантии субоптимального решения. В случае курьера — вам с высокой долей вероятности гарантируется доставка, пусть и не 100%. В случае нейронных сетей вам никто не гарантирует ничего ни с какой вероятностью, вы играете в угадайку. Любая из эвристик может сработать или не сработать в любой ситуации по неизвестным причинам.

                                                                  0
                                                                  тот о котором вы говорите что делает?

                                                                  Принимает на вход параметры и выдает расстояние от цели.


                                                                  Ну так у вас есть гарантии субоптимального решения

                                                                  На самом деле есть? И какие же это гарантии в случае курьера? Теорему приведёте, может быть? Если нет, то мой довод в силе. Любая ваша эвристика относительно курьера может не сработать по неизвестной причине, но сделать службу доставки всё равно можно (тоже, кстати, без гарантий).


                                                                  Получилось что, подгонка гиперпараметров под конкретную задачу? Так я вам и без наблюдений сразу скажу, что это возможно.

                                                                  Ну и о чем тогда разговор? Какую мысль вы пытаетесь донести? То "нет никаких гарантий", то "100% возможно даже без наблюдений". Вы имеете ввиду какую-то гипотетическую возможность, за триллион лет? Если да, то зачем?


                                                                  Но именно так (наугад) делают нейронные сети.

                                                                  Ваше частное мнение понятно. Собственно, не вижу причины дискутировать о мнении, вы имеете право иметь любое. Даже бездоказательное.

                                                                    0
                                                                    Принимает на вход параметры и выдает расстояние от цели.

                                                                    А как узнать, что алгоритм в принципе работает? Вот в случае сортировки я проверяю, что получившийся в результате массив действительно отсортирован. И могу даже проверить какие-то дополнительные свойства, вроде стабильности. А в нашем случае, как можно убедиться в том, что то, что получается в результате — это действительно расстояние до цели?


                                                                    Любая ваша эвристика относительно курьера может не сработать по неизвестной причине, но сделать службу доставки всё равно можно (тоже, кстати, без гарантий).

                                                                    Конечно, может! Но строго контролируемым и ожидаемым образом. У меня есть четкое понимание, почему курьеры надежнее, чем просьба случайному человеку. И не только у меня, а у всех людей, кто пользуется курьерскими службами. И это не результат наблюдений, вроде "обычно курьеры доставляют", а именно понимание самого процесса — понимание того, почему курьеры "обычно доставляют".
                                                                    В случае же использования обсуждаемых эвристик — ни у кого нет понимания, с какой бы стати данная эвристика должна давать полезный эффект чаще, чем вредить.


                                                                    Какую мысль вы пытаетесь донести?

                                                                    Ту, что факт возможности подгонки гиперпараметров под задачу — с практической точки зрения полностью бесполезен. Любая задача так решается, если повезет. Ключевой здесь момент именно в этом "если повезет". Наука тем и отличается от не-науки, что используя научный метод вы получаете результат ожидаемым образом, а не "как повезет".


                                                                    Вы имеете ввиду какую-то гипотетическую возможность, за триллион лет? Если да, то зачем?

                                                                    Это у вас надо спросить, именно вы ведь выдаете утверждения о гипотетических возможностях получения результата за триллион лет за успех.


                                                                    Ваше частное мнение понятно. Собственно, не вижу причины дискутировать о мнении, вы имеете право иметь любое.

                                                                    При чем тут мнение, если речь о фактах? Если честно, всегда обескураживает эта манера в ответ на конкретные доказуемые утверждения говорить: "это только мнение".
                                                                    Мнение — это что-то вроде "мне нравится музыка Х", а "2*2 = 4" — это факт.

                                                                      +1
                                                                      всегда обескураживает эта манера в ответ на конкретные доказуемые утверждения говорить

                                                                      Утверждения, возможно, доказуемые. Но вы не потрудились их доказать. Если я вас верно понял, вы утверждаете, что выбор эвристик для создания сети происходит по методике мало отличимой от подбрасывания монетки. Но даже для меня, для кого сети — мелкое хобби, это не так. А вы утверждаете, что это так для исследователей, занимающихся этим серьезно. Потрудитесь доказать. Хотя бы объяснить, откуда вы взяли такое мнение. Тогда и отношение будет другое.


                                                                      именно вы ведь выдаете утверждения о гипотетических возможностях получения результата за триллион лет за успех.

                                                                      Не знаю, почему вы так решили, но нет. Если какие-либо мои слова навели вас на эту мысль, то проясню четко. Я не считаю результат за триллион лет, даже если он математически гарантирован — успехом.


                                                                      факт возможности подгонки гиперпараметров под задачу — с практической точки зрения полностью бесполезен.

                                                                      Гипотетическая возможность подгонки — бесполезна. Полезны статистически значимые наблюдения, что определенный класс задач можно решить за вменяемое время.


                                                                      А в нашем случае, как можно убедиться в том, что то, что получается в результате — это действительно расстояние до цели?

                                                                      Моя теоретическая подготовка недостаточна. Вы можете взять какую-либо признанную работу по целевым функциям и показать, что работа — мусор с научной точки зрения и ничего не даёт для понимания. При желании могу даже дать пример работы. Я сам больше опираюсь на мнение научного сообщества в таких вопросах, моя профессия в другом.

                                                                        0
                                                                        Но даже для меня, для кого сети — мелкое хобби, это не так.

                                                                        Подтвердить это несложно — достаточно привести контрпример.


                                                                        Хотя бы объяснить, откуда вы взяли такое мнение. Тогда и отношение будет другое.

                                                                        Оттуда, что нет никакой информации о наличии методов, отличных от подбрасывания монетки. Отсюда вывод — либо таких методов нет вовсе, либо "власти скрывают".


                                                                        Гипотетическая возможность подгонки — бесполезна. Полезны статистически значимые наблюдения, что определенный класс задач можно решить за вменяемое время.

                                                                        Так у вас нет подобных наблюдений.


                                                                        Смотрите, вот есть литература. Писатели, книжки пишут. Есть "Война и Мир" — если случайно жать кнопки, вы напишите ее примерно никогда, но Толстой написал. И вообще бывают хорошие писатели, которые пишут хорошие книги, вероятность написания которых, случайно жмакая кнопки — крайне мала.
                                                                        При этом мы знаем, что для написания хорошей книги — надо собирать правильные слова в грамматически корректные (и при том желательно осмысленные) предложения — и на этом, вобщем-то все. Нет никакого способа сесть и написать хорошую книгу, имея какие-то гарантии. При этом люди пишут. Но не знают, как пишут (в том числе сами авторы) и по какой причине у них вообще что-то получается. То есть — результат неповторяем. Не в том смысле, что вы не можете перепечатать "Войну и Мир" — вы можете, но если сказать Толстому: "напиши-ка мне еще что-то того же уровня, похожее, но другое" (ака реши задачу того же класса), то велика вероятность, что ни черта не выйдет. И еще меньше, что выйдет у другого автора. За тысячелетия истории литературы человечеством было написано огромное количество хороших книг, но при этом мы совершенно не продвинулись в сторону того, что требуется сделать, чтобы вот сесть и написать хорошую книгу. По-этому литература — не инженерная дисциплина.


                                                                        Вот все аналогично с нейросетями. Когда-то в 60-х были сформулированы базовые правила из разряда "выстраиваем слова грамматически верно", вот сейчас у нас есть некоторые люди со своего рода "литературным талантом", которые делают нейросети — при этом никто (даже сами эти люди) не понимает, с какой стати вообще в принципе что-то получается. И за последние полста лет мы в этом понимании не продвинулись ни на сколько, с-но не продвинулись и в разработке методов, которые позволяют "сесть и написать нейросеть". По-этому я и говорю — что прогресса нет. Все эвристики, которые "работают" — это нечто вроде: "писатель Х написал хорошую книгу на тему Y", ну да, типа написал. И это хорошо — чем больше хороших книжек, тем лучше. Только вот это ничего не дает человечеству в плане развития умений писать книжки, учитывая что опыт неповторяем и даже тот же автор в слегка других условиях родит уже что-то другое.


                                                                        Моя теоретическая подготовка недостаточна. Вы можете взять какую-либо признанную работу по целевым функциям и показать, что работа — мусор с научной точки зрения и ничего не даёт для понимания.

                                                                        Нет, погодите. Это же вы назвали целевую функцию "алгоритмом", вы и отдувайтесь. Не надо стрелки переводить на бедных ученых, они этого тезиса не озвучивали :)

                                                                          +1
                                                                          Это же вы назвали целевую функцию "алгоритмом", вы и отдувайтесь.

                                                                          Вопрос-то не об этом. Что бы назвать алгоритм алгоритмом, ссылка на учёных не нужна, достаточно ссылки на словарь. Как убедиться, что алгоритм делает то, что нужно, — это другой вопрос. Но даже если бы не делал, вы можете сказать, что алгоритм ошибочен. Но не можете сказать, что это не-алгоритм.


                                                                          Ваше описание, почему литература — не инженерная специальность, очень хорошее. Но оно не подходит для нейросетей. Например, сверточная сеть вычленяет сначала низкоуровневые признаки. Даже не знаю, что тут может смутить, на этапе выделения линий и углов логика достаточно прозрачна. Переход к более высокоуровневым признакам менее прозрачен, но схема та же.


                                                                          Впрочем, никто не знает толком, чем кошка отличается от собаки (визуально). Что с нейросетью, что без. Само выделение признаков — не магия. Магия — это какие признаки значимы, но разве это вопрос к нейросетям? Они-то их находят.


                                                                          Подтвердить это несложно — достаточно привести контрпример.

                                                                          Нужно распознать изображение — бери сверточную сеть. Простая эвристика, эффективность которой выше подбрасывания монетки. Вы можете выбирать архитектуру монеткой, ваше дело.


                                                                          Для функции активации возьми для начала ReLu — тоже простая эвристика. Потому что формально нас устроит любая нелинейная функция, а сигмоид вычислительно сложнее.


                                                                          Так у вас нет подобных наблюдений

                                                                          Вы понимаете слабость этого утверждения? Хотите усомниться, что мои наблюдения статистически значимы? Но утверждать — "наблюдений нет" — это ж явно топить дискуссию, причем специально. AlphaZero — это наблюдение. Определенный класс задач (игры на доске, написано шахматы, го) можно решить за вменяемое время (они решены, значит решить можно).

                                                                            –1
                                                                            Что бы назвать алгоритм алгоритмом, ссылка на учёных не нужна, достаточно ссылки на словарь. Как убедиться, что алгоритм делает то, что нужно, — это другой вопрос.

                                                                            Нет, это важный вопрос. Точнее, важно то, почему вы на него не можете ответить (или, скорее, почему на него нельзя ответить в принципе). Дело в том, что расстояние до цели — это, по определению, ровно то, что получается в вашей целевой ф-и. Понимаете? Целевая ф-я — это не алгоритм. Это определение. Определение того самого "расстояния до цели". Алгоритмом может быть способ вычисления конкретной целевой ф-и (или некоторого класса). Например, есть у вас целевая ф-я вида Х, все считают ее долго, и вы так оп! Нашли способ считать ее быстро. Или нашли способ считать ее реже. Или как-то хитро пересчитывать на основе предыдущих результатов.
                                                                            Вот этот ваш способ расчета и будет новым алгоритмом расчета целевой ф-и вида Х, но сама ф-я вида Х — это не алгоритм. Это функция. Для любой функции есть много разных алгоритмов вычисления.


                                                                            Например, сверточная сеть вычленяет сначала низкоуровневые признаки. Даже не знаю, что тут может смутить, на этапе выделения линий и углов логика достаточно прозрачна.

                                                                            О, смутить здесь может очень многое. Для начала, то, что следует определить, что такое "низкоуровневые признаки". Мне дано Х, как мне наверняка определить, низкоуровневый это признак (и вообще признак ли) или нет? Где строгое определение? Где доказательство корректности этого определения в принципе или в рамках выполнения каких-то условий? Наконец, после того как мы получим определение — где доказательства того факта, что сверточные нейронные сети действительно "вычленяют сначала низкоуровневые признаки"? Это действительно всегда так? Или нет? Если нет — в каких случаях? Быть может, есть хотя бы вероятностные оценки? Вроде как — сеть данного класса на выборке, удовлетворяющей определенным условиям будет "вычленять сначала низкоуровневые признаки" с вероятностью не большей чем…
                                                                            Почему она эти низкоуровневые признаки вычленяет, если уж вычленяет? Как?
                                                                            И, напоминаю, эти все вопросы заданы при условии, что мы не знаем, что такое, формально, "низкоуровневые признаки"! Это просто бессмыслица.


                                                                            Магия — это какие признаки значимы, но разве это вопрос к нейросетям? Они-то их находят.

                                                                            Смотрите, вы даже не можете дать определение тому, что такое "признак", но между тем утверждаете, что "уж нейросети то их находят"! То есть они находят то, не знаю, что.
                                                                            Да даже если бы у вас было определение признака, то вы действительно с уверенностью можете заявить, что нейросети работают именно так? А может все же немного по-другому?


                                                                            Нужно распознать изображение — бери сверточную сеть. Простая эвристика, эффективность которой выше подбрасывания монетки. Вы можете выбирать архитектуру монеткой, ваше дело.

                                                                            А чем ваш выбор сверточной сети в данном случае отличается от монетки? Вы можете гарантировать что для моей задачи распознавания изображений, на моих данных, с моей конкретной топологией сети, методом обучения, эффективность будет действительно лучше, чем у монетки?


                                                                            Хотите усомниться, что мои наблюдения статистически значимы?

                                                                            Да, именно это я и сказал. Вы же сами прекрасно из контекста все поняли, как видно.

                                                                              0
                                                                              Да, именно это я и сказал. Вы же сами прекрасно из контекста все поняли, как видно.

                                                                              Я из контекста предположил. Вы так точно проводите различие между самой функцией и способом её вычисления, но при этом утверждаете "у вас нет наблюдений". Разумно предположить, что вы это сказали ради красного словца, а имели ввиду "не показали статистическую значимость".


                                                                              Но проблема не в этом. Проблема в том, что опираясь на мой невысокий уровень теоретической подготовки вы пытаетесь доказать, что построение сетей — чистый рандом. Это очень слабая позиция, вы так легко сможете доказать, что черных дыр не существует — я вряд ли приведу статистически значимые наблюдения.


                                                                              То есть, повторюсь, вы не можете сказать "вы не знаете, значит этого нет". Не значит, на самом деле. Я много чего не знаю. Совсем другое дело, когда вы опровергаете мои доводы, показывая, что мое утверждение (предположим), не подтверждено.


                                                                              утверждение — "я вижу примеры, значит это есть" — тоже не ахти. Но мое утверждение не в этом. Вы тоже видите примеры. Вы знаете (или можете проверить), что есть поиск Гугла по картинкам. Есть поиск по фотке у АлиЭкспресс. То есть это как минимум возможно. Но, более того, если вы возьмётесь за задачу по классификации, вы вполне с ней справитесь. Сможете ли написать популярную книгу — хз. А классифицировать животных — да, если не будете специально косячить.


                                                                              Есть вполне себе технические мануалы по сверточным. И вопросы, необходимые для достижения цели там рассматриваются. Это не раскрытие чакр, на курсах рассматривают, как решить ту или иную проблему с определенной гарантией. Тяжело только в новых областях, классические задачи решаются надёжно и стабильно.


                                                                              А чем ваш выбор сверточной сети в данном случае отличается от монетки?

                                                                              Это попробовано сотнями людей. У вас нет строгой теоремы, украдёт ли курьер товар. И даже нет приличной модели, в математическом смысле, его поведения. И вряд ли есть оформленные надлежащим образом статистически значимые наблюдения. И чем тогда выбор курьера отличается от броска монетки?


                                                                              Смотрите, вы даже не можете дать определение тому, что такое "признак"

                                                                              Смотрю, вы настойчиво хотите доказать, что нейросеть не работает, опираясь на то, что я чего-то не знаю. Но уж слишком сильно перегнули. Признак — факт, говорящий о принадлежности к некоторому классу или говорящий о наличии некоего явления. И даже если б я этого не знал, есть же словарь. Просто уводите диалог в сторону такими вещами.


                                                                              вы действительно с уверенностью можете заявить, что нейросети работают именно так

                                                                              На низком уровне — конечно. Нейросеть говорит — на этом изображении есть горизонтальная линия в правой части изображения.


                                                                              А может все же немного по-другому?

                                                                              Для несверточных — да, немного по-другому.


                                                                              что такое "низкоуровневые признаки".

                                                                              Отличить "линия под углом 30 градусов" и "глаз" — не сложно. Первое — низкоуровневый, второе — нет. Я не знаю, есть ли математически строгое определение.


                                                                              Почему она эти низкоуровневые признаки вычленяет, если уж вычленяет?

                                                                              Как активируется нейрон? У нейрона коэффициенты на входы, где может быть линия — положительны, где не должна быть — отрицательны. Если линия будет вертикальной вместо горизонтальной — этот нейрон просто не активируется.


                                                                              Если вопрос, каким образом сеть приходит к такому — так она аппроксимирует функцию котенка. А т.к. она многослойная — нижние слои аппроксимируют более простые признаки. Это вполне прилично изучено. Но я не рекомендую обучаться, задавая вопросы мне — пройдите курс какой-нибудь, ответы будут намного точнее.


                                                                              Мне дано Х, как мне наверняка определить, целевой это признак или нет?

                                                                              Целевой? Статистически. Для этого есть тестовый набор данных.


                                                                              Целевая ф-я — это не алгоритм. 

                                                                              Самая простая — квадратичная.
                                                                              F(x) = (t-x)^2


                                                                              Вы сможете обосновать что это — не алгоритм? Что ж, но алгоритм её вычисления, полагаю, очевиден? t — это цель, x — это результат вычисления сети.


                                                                              Может быть вы хотели сказать, что не ясен алгоритм минимизации этой функции (т.к. мы не можем напрямую менять х)? Что ж, иногда не ясен. Но сам вопрос, что исследователи предложили новый алгоритм (PPO) — можем закрыть? Даже из самого факта, что они могут эту целевую функцию вычислять, ясно, что "способ вычисления" у них есть (к тому же он описан в их работе). Пока не ясно, действительно ли он так хорош, но он явно новый и явно алгоритм. И они, как минимум, уже на этом этапе решили задачу, которую до них никто не решал. Ваш довод, что это что-то типа написания бестселлера, понятен, но они описали технические преимущества. (для написания бестселлеров нам такие детали пока не известны).


                                                                              В случае курьера — вам с высокой долей вероятности гарантируется доставка, пусть и не 100%.

                                                                              И всё-таки, с какой долей вероятности гарантируется доставка? Можно ли оценить эту вероятность надёжно? Есть ли доказательства или статистически значимые наблюдения, что доставка курьером Х действительно будет с вероятностью не ниже У? А нейросети с математической точки зрения изучены намного лучше, чем поведение людей. Так что утверждение, что это "монетка" не состоятельно.

                                                                                0
                                                                                Проблема в том, что опираясь на мой невысокий уровень теоретической подготовки вы пытаетесь доказать, что построение сетей — чистый рандом.

                                                                                Я пытаюсь доказать, что построение сетей — это рандом в том же смысле, в котором написание книги. Или песни. Или картины.
                                                                                У кого-то это получается, и получается, очевидно, статистически чаще, чем должно быть при рандоме. Но при этом нет никакого понимания почему получается и как повторить результат.
                                                                                Мы говорим о разных вещах. Вы говорите, что есть конкретные, обученные сети — они действительно есть, с этим трудно спорить.
                                                                                Речь же о том, что нету методов, при помощи которых эту сеть можно сделать. Точно так же, как нету методов, при помощи которых можно сесть и написать "Войну и мир". Хотя по факту она написана, понимаете?
                                                                                И тот факт, что кто-то написал хорошую книгу (обучил хорошую сеть, решающую полезную задачу), конечно, сам по себе полезен, но он не является достижением в области поиска способов написания хороших книг.


                                                                                Пока не ясно, действительно ли он так хорош, но он явно новый и явно алгоритм. И они, как минимум, уже на этом этапе решили задачу, которую до них никто не решал.

                                                                                Представьте себе, что есть какой-то писатель. Хороший писатель, хорошие книги пишет. И вот он их пишет, каждые пять минут делая тройное сальто назад. Ну вот такой вот странный человек, не может он иначе.
                                                                                Надо ли отсюда сделать вывод, что чтобы хорошо писать книги, следует подучиться акробатике и начать в процессе делать сальто назад, так же как и указанный писатель?


                                                                                И всё-таки, с какой долей вероятности гарантируется доставка? Можно ли оценить эту вероятность надёжно? Есть ли доказательства или статистически значимые наблюдения, что доставка курьером Х действительно будет с вероятностью не ниже У? А нейросети с математической точки зрения изучены намного лучше, чем поведение людей.

                                                                                Смотрите, вы не в том месте видите проблему. Мы можем как для нейронок так и для доставки просто посчитать и получить статистику и в рамках пары предположений это будет вполне корректная статистика. Но корреляция != казуация.
                                                                                И вот тут-то и вступает в дело важный факт — мы понимаем почему статистика на стороне курьерских служб (почему они работают), но не понимаем, почему она на стороне нейронных сетей. Т.о. использование любых эвристик превращается в использования сальто для улучшения писательских качеств.

                                                                                  0
                                                                                  И вот тут-то и вступает в дело важный факт — мы понимаем почему статистика на стороне курьерских служб

                                                                                  А понимаем ли? Вот серьезно, почему статистика на стороне курьерских служб? Я понимаю, что это так, но для меня не очевидно, почему. Почему человек в доставке более надёжный, чем какой-то другой? Ведь им достаточно мало платят, откуда берется надёжность? Почему статистика на стороне нейронок — мне более понятно.


                                                                                  не понимаем, почему она на стороне нейронных сетей

                                                                                  Сверточная напоминает зрительную кору мозга. Да, в ней на самом деле есть нейрон, говорящий — тут есть горизонтальная линия справа. Почему статистика на стороне зрительной коры — понятно. У кого кора неудачная, не оставили потомства. Простой случайный поиск привел к работоспособной архитектуре.


                                                                                  А сверточная успешна потому, что это модель зрительной коры мозга. Да, я понимаю, что это не теорема, а что-то близкое к антропному принципу. Поиск архитектур — это может и искусство. А использование изученной архитектуры — вполне инженерная задача.


                                                                                  Речь же о том, что нету методов, при помощи которых эту сеть можно сделать

                                                                                  Пройдите уже современный курс по ML. Методы построения на основе известных архитектур известны.

                                                                                    0
                                                                                    Почему человек в доставке более надёжный, чем какой-то другой? Ведь им достаточно мало платят, откуда берется надёжность?

                                                                                    Им платят больше, чем случайному человеку которому не платят, и если они работают — то значит считают, что платят достаточно (иначе бы не работали, очевидно). Если человек работает в доставке — значит полученные деньги для него достаточно важны (иначе бы он не работал), а значит он не будет хотеть их потерять. Человек заинтересован лично в том, чтобы доставку выполнить => выполняет.


                                                                                    Почему статистика на стороне нейронок — мне более понятно.

                                                                                    Видимо, вы единственный в мире человек, которому это понятно :)
                                                                                    Не поделитесь?


                                                                                    Сверточная напоминает зрительную кору мозга.

                                                                                    Вы же понимаете, что это такое себе объяснение? :)
                                                                                    Во-первых — со зрительной корой мозга у нейронных сетей гораздо больше различий, чем общего.
                                                                                    Во-вторых — вообще говоря, нет причин полагать, что "алгоритм зрительной коры" хоть сколько-нибудь оптимален.
                                                                                    И, в-третьих — это же не ответ :)
                                                                                    Смотрите, вы заменили: "делаем сети сверточными, потому что сверточные сети, как показывает практика, хороши", на "делаем сверточные сети, потому что они похожи на зрительную кору, а она, как показывает практика, хороша" :)


                                                                                    Пройдите уже современный курс по ML. Методы построения на основе известных архитектур известны.

                                                                                    Так, понимаете, это же все из разряда "делай тройное сальто назад — и напишешь хорошую книгу!"
                                                                                    Почему-то я уверен, что далеко не все люди, прошедшие "современные курсы по МЛ" становятся хорошими специалистами по нейросетям.

                                                                                      0
                                                                                      Им платят больше, чем случайному человку которому не платят

                                                                                      Ну блин, вы серьезно? Давайте я спрошу — а если случайному платят? 500 рублей за доставку вместо 300, т.е. больше — значит надёжность будет выше, чем у курьера? С какой вероятностью можно быть в этом уверенным? Есть ли хотя бы способ посчитать эту вероятность?


                                                                                      (иначе бы не работали, очевидно)

                                                                                      Вы не знаете людей, которые работают, но считают, что им платят недостаточно? Можно ли быть уверенным, что "достаточно" по определению (раз не уходит, значит достаточно) — это надёжно? С какой вероятностью?
                                                                                      Может ли курьер поменять свое мнение? Решить, что ему платят недостаточно и он уволится, как только найдет другую работу? Его надёжность после этого падает? Насколько?


                                                                                      значит он не будет хотеть их потерять.

                                                                                      Некоторые за рулём пьют — значит они хотели потерять права? Не хотели бы, не стали бы пить? Почему же это не очень надежно работает?


                                                                                      По вашим строгим критериям доказательности ваш ответ считается хорошей моделью? Предъявите к своему объяснению ваши же требования. Представьте, что такое объяснение дали не вы сами, а кто-то другой. Полагаю, вы легко разобьёте это объяснение в пух и прах.


                                                                                      Не поделитесь?

                                                                                      Есть гипотеза — любую жизненную ситуацию можно аппроксимировать с помощью функции. Ну а функцию может аппроксимировать нейронная сеть. Проблема только в поиске этой аппроксимации. Не помню теоремы на эту тему, полагаю, что такая возможность доказана не для любых классов функций, но общая идея именно такая.


                                                                                      Лучше спросите, как так вышло, что нам удается найти неплохие способы аппроксимации. Как с любыми изобретениями — точного пути нет. Но когда способ найден, его проверка и использование — вполне инженерная задача. Пока нельзя сказать, что сверточная — лучшая архитектура для изображений. Но можно сказать, что она гарантированно справляется.


                                                                                      они похожи на зрительную кору, а она, как показывает практика, хороша

                                                                                      Как зрительная кора выделяет признаки, более-менее изучено. Я не увидел ваших возражений по поводу выделения низкоуровневых признаков. Есть нейрон, он активируется, если справа есть горизонтальная линия, например. Эта схема понятна? Как он это делает — понятно? Возражений, что он это делает надёжно и предсказуемо — нет?


                                                                                      Ведь можно ж реально задавать вопросы по плохоизученным областям, вместо этого вы утверждаете, что изученное — не изучено и вообще рандом.


                                                                                      Так, понимаете, это же все из разряда "делай тройное сальто назад — и напишешь хорошую книгу!"

                                                                                      Почему-то я уверен, что далеко не все люди, прошедшие курсы по Х, становятся хорошими специалистами по Х. К чему вообще приводить такой сверхуниверсальный довод? Предложение-то было не для всех, а для вас.


                                                                                      К тому же это из разряда — отучись в техникуме, возможно станешь нормальным сантехником. Не каждый, кто отучился в техникуме, станет хорошим специалистом. Но утверждать, что ремонт сантехники — это творческая профессия, а результат — рандом — вряд ли кто-то станет.

                                                                                        0
                                                                                        Ну блин, вы серьезно? Давайте я спрошу — а если случайному платят?

                                                                                        То как вы его тогда отличите от курьера?


                                                                                        Вы не знаете людей, которые работают, но считают, что им платят недостаточно?

                                                                                        Конечно, знаю. Но если бы человеку не было ценно рабочее место он бы, очевидно, просто не работал.


                                                                                        Предъявите к своему объяснению ваши же требования.

                                                                                        Смотрите, даже плохое объяснение примерно раз эдак в бесконечность больше, чем вообще никакое :)
                                                                                        В данном случае у нас есть вполне адекватная модель, которая описывает происходящее и позволяет делать вполне корректные выводы, которые подтверждаются практикой.
                                                                                        В случае сетей — нету такой модели.


                                                                                        Некоторые за рулём пьют — значит они хотели потерять права? Не хотели бы, не стали бы пить?

                                                                                        Обратите внимание, пьют гораздо меньше, чем пьют в принципе :)
                                                                                        С-но вариант с "не хочу потерять права" или "понимаю что опасно" вполне объясняет, почему мы наблюдаем тот факт, что люди редко пьют за рулем.


                                                                                        Лучше спросите, как так вышло, что нам удается найти неплохие способы аппроксимации.

                                                                                        Ну, именно об этом и речь.


                                                                                        Но можно сказать, что она гарантированно справляется.

                                                                                        Так в том и дело, что нельзя, пока вы не объясните механизм работы.


                                                                                        Есть нейрон, он активируется, если справа есть горизонтальная линия, например.

                                                                                        Есть нейроны которые вообще никак с низкоуровневыми признаками не связаны. Например, один нейрон может отвечать за распознавание конкретного лица.


                                                                                        Возражений, что он это делает надёжно и предсказуемо — нет?

                                                                                        Есть. Из самого алгоритма надежность и предсказуемость никак пока не следует :)
                                                                                        Это только наблюдаемый необъяснимый факт (который, в силу отсутствия измерений, может быть неверен)


                                                                                        вместо этого вы утверждаете, что изученное

                                                                                        Утверждать, что работа мозга изучена — это как-то очень поспешно. На самом деле даже в алгоритмическом плане наши знания весьма ограничены. Мы не можем мозг вскрыть и посмотреть "а как оно работает" (то есть вскрыть и посмотреть можем, но не увидим ничего), то что есть — это все больше гипотезы, основанные на косвенных свидетельствах.


                                                                                        Почему-то я уверен, что далеко не все люди, прошедшие курсы по Х, становятся хорошими специалистами по Х.

                                                                                        А я не говорил про курсы. Я говорил про тройное сальто с целью научиться писать. Разница же ощутима, нет? :)

                                                                                          0
                                                                                          То как вы его тогда отличите от курьера?

                                                                                          Остановили случайного человека, предложили пару тысяч. Не первый, так пятый согласится. Это надёжнее, чем курьер на зарплате? Почему, с какой вероятностью?


                                                                                          В данном случае у нас есть вполне адекватная модель, 

                                                                                          "Платят деньги — значит достаточно надёжно" — это модель? "Нейросеть аппроксимирует функцию, которая отражает реальность" — не модель? Вы предвзяты. Если не согласны — опишите подробнее, почему ваше описание курьеров более "моделистое".


                                                                                          плохое объяснение примерно раз эдак в бесконечность больше

                                                                                          Плохое объяснение, откуда мы взялись — "нас создал бог". Я точно не согласен, что оно в бесконечность более хорошее, чем ответ "не знаю".


                                                                                          Но к главному мы пришли — нет никакой математической модели (ни строгой, ни вероятностной) доставки товара конкретным человеком. Ваше "плохое объяснение" не говорит ни о каких вероятностях вообще. Тезис "можно пользоваться инструментом, оценив вероятности по наблюдениям. Такое использование отличается от броска монетки в лучшую сторону" можно считать подтвержденным? Вы с ним согласны?


                                                                                          С-но вариант с «не хочу потерять права» или «понимаю что опасно» вполне объясняет, 

                                                                                          С какой вероятностью? Вы уверены, что объясняет? Это может быть ложной корреляцией? Если нет, то почему? Заметьте, вопросы не сложнее тех, что вы задаёте про нейросети.


                                                                                          неплохие способы аппроксимации.
                                                                                          Ну, именно об этом и речь.

                                                                                          А как нам удается найти законы природы? Каким образом? Я не знаю, а вы? Насколько я понимаю, ответа на такие вопросы в принципе пока нет, но я хотел бы их знать когда-нибудь.


                                                                                          Так в том и дело, что нельзя, пока вы не объясните механизм работы.

                                                                                          В том-то и дело, что можно и что механизм есть. Пример с курьерами именно для этого — показать вам наглядно, что достаточно механизма работы (я его дал выше), философские вопросы "почему этот механизм работает" полезны, но на вероятность работы не влияют.


                                                                                          Есть нейроны которые вообще никак с низкоуровневыми признаками не связаны. 

                                                                                          Конечно есть, согласен. Если это какой-то далеко идущий тезис, то разверните.


                                                                                          Из самого алгоритма надежность и предсказуемость никак пока не следует :)
                                                                                          Это только наблюдаемый необъяснимый факт (который, в силу отсутствия измерений, может быть неверен)

                                                                                          Конечно. Предсказуемость следует из наблюдений. Из самого алгоритма работы мозга тоже никак не следует, что курьер доставит товар. Мы даже это алгоритма толком не знаем. Учитывая, что измерений достаточно, сам факт можно считать достаточно надёжным.


                                                                                          Почему для вас факт "необъяснимый" мне всё ещё не ясно. Что не так с возможностью аппроксимации реальности? Вы сомневаетесь в такой возможности? Для непрерывных функций даже теорема есть — теорема Цыбенко. Для прочих теоремы пока нет, но в категорию "необъяснимых" этот факт не попадает уж точно. Скорее в категорию недоказанных гипотез.


                                                                                          Утверждать, что работа мозга изучена — это как-то очень поспешно.

                                                                                          Работа мозга? Неуместное обобщение с вашей стороны. Речь шла о зрительной коре.


                                                                                          Мы не можем мозг вскрыть и посмотреть «а как оно работает» 

                                                                                          Зрительная кора так и изучалась. Вскрыли, вставили датчики, измерили. Почему вы утверждаете, что "не можем", опять же не ясно.


                                                                                          это все больше гипотезы, основанные на косвенных свидетельствах.

                                                                                          Не более косвенные, чем изучение кварков. Уж тут-то точно нельзя "вскрыть и посмотреть". К тому же там ещё и вероятностное всё. Но я бы не стал утверждать, что предсказание поведения кварков не отличается от броска монетки.


                                                                                          А я не говорил про курсы. Я говорил про тройное сальто с целью научиться писать. 

                                                                                          Вы сказали, цитирую


                                                                                          Почему-то я уверен, что далеко не все люди, прошедшие "современные курсы по МЛ" становятся хорошими специалистами по нейросетям.

                                                                                          Вот этот довод мы можем считать бесполезным и выкинуть его? Он же вообще ни к чему не ведёт, согласны?


                                                                                          Аналогия с сальто забавна, но не более того. Есть объяснение, зачем его делать? И пример сотни людей, которые его сделали и написали бестселлер? Если да — это вполне причина тоже пробовать. Но ведь нет объяснения.


                                                                                          А зачем использовать ReLu — объяснение есть. Зачем использовать свёртки вместо полносвязанной сети — объяснение есть. Зачем использовать валидационный сет (а не только тестовый) — объяснение есть. На какие правила построения сетей вам не хватает объяснения? Может мы сможем разговор перевести в практическую плоскость. Какой элемент в нейросетях напоминает вам тройное сальто? Желательно конкретно.

                                                                                            0
                                                                                            > Остановили случайного человека, предложили пару тысяч. Не первый, так пятый согласится. Это надёжнее, чем курьер на зарплате?

                                                                                            Нет, потому что в отличии от курьера этот рандомный человек может спокойно уйти с деньгами и все.

                                                                                            > «Платят деньги — значит достаточно надёжно» — это модель?

                                                                                            Человек заинтересован в выполнении задачи методом «кнута и пряника», по-этому, скорее всего, будет ее выполнять.
                                                                                            Мы можем просто посмотреть на ситуацию и сделать гипотезу (теоретическую). А потом посмотреть на статистику и увидеть, что она подтверждает нашу гипотезу.

                                                                                            > «Нейросеть аппроксимирует функцию, которая отражает реальность»

                                                                                            Вопрос в том, как выходит, что нейросеть начинает апроксимсировать функцию, отражающую реальность. А не какую-то другую. Смотрите, у нас есть очень много классов функций, которые могут отражать реальность, и есть очень много способов, которыми мы можем эти функции строить. Я бы сказал — таких классов и способов бесчисленное множество. Какие есть основания выбирать одно конкретное конечное подмножество?

                                                                                            > Почему для вас факт «необъяснимый» мне всё ещё не ясно. Что не так с возможностью аппроксимации реальности?

                                                                                            Вы куда-то в сторону ушли. Нейронные сети это не про то как функции аппроксимируют реальности, это все очевидно. Нейронные сети — про _методы построения_ некоего класса таких аппроксимирующих функций. И вопрос не про то, почему функции аппроксимируют, тут как раз наблюдений достаточно, потому что само понятие «аппроксимирует реальность» — это и есть «соответствует наблюдаемым величинам». Вопрос именно в том, _почему мы получили_ такую полезную функцию данным конкретным методом. Почему в результате действия этого метода мы не получили фигню?
                                                                                            Вот почему курьер вам посылку доставил — потому что хочет деньги за доставку получить.

                                                                                            > Работа мозга? Неуместное обобщение с вашей стороны. Речь шла о зрительной коре.

                                                                                            А кора — это часть мозга. И то о чем вы говорите — это гипотезу. Пусть весьма достоверные, достаточно достоверные, чтобы ими было разумно пользоваться, — но пока только гипотезы.

                                                                                            > Вскрыли, вставили датчики, измерили. Почему вы утверждаете, что «не можем», опять же не ясно.

                                                                                            Пока что непосредственно на нейроны датчики, по-моему, не ставят. Снимают, например, ЭЭГ.

                                                                                            > Не более косвенные, чем изучение кварков.

                                                                                            Вот это вы очень хорошо вспомнили. Какими практическими достижениями на данный момент может похвастаться квантовая хромодинамика? Где мой кварк-глююнный генератор энергии? :)
                                                                                            Мы очень плохо сейчас понимаем, как взаимодействуют кварки, и вот есть, например, конфайнмент — наблюдаемое явление. Но мы не знаем, как его объяснить, откуда он берется, почему. И это очень плохо, и физики не спорят с тем, что это плохо, это проблема, это надо решать :)

                                                                                            > Аналогия с сальто забавна, но не более того. Есть объяснение, зачем его делать? И пример сотни людей, которые его сделали и написали бестселлер?

                                                                                            Пример с сальто, конечно, намеренно утрирован и сомневаюсь что вы найдете много людей, которые так написали бестселлер, потому что сомневаюсь вообще, что вы хоть одного человека найдете, который так пишет книгу. Но можно взять любые действия, которые люди совершают довольно-таки часто. Ну, например какой-то автор любил абсент. А потом бестселлер написал. Уверен, такие найдутся.

                                                                                            > А зачем использовать ReLu — объяснение есть. Зачем использовать свёртки вместо полносвязанной сети — объяснение есть. Зачем использовать валидационный сет (а не только тестовый) — объяснение есть.

                                                                                            И зачем? Вы сейчас скажете: «потому что лучше работает!», а я спрошу: «а с чего вы взяли что лучше работает?», а вы ответили: «ну вот кто-то делал и у него работало», а я отвечу: «ну если кто-то что-то сделал и у него получилось — это не значит, что это хороший способ, может, кто-то и книги через сальто пишет!» и мы пойдем по кругу :)

                                                                                            > Какой элемент в нейросетях напоминает вам тройное сальто? Желательно конкретно.

                                                                                            Ну вот например — использование многослойных сетей. Математически многослойные сети ничем не лучше однослойных, зачем их использовать? :)
                                                                                              0
                                                                                              может спокойно уйти с деньгами и все.

                                                                                              А может не уйти. И курьер тоже может уйти. Что вероятнее? Есть ли статистически значимые наблюдения, что случайный человек уйдет с деньгами? Короче, без цифр всё, на какой-то интуиции. Тем не менее как-то работает. И лучше, чем рандом. Почему работает — не знаю. Нейросети понимаю лучше, чем людей.


                                                                                              Гипотеза, говорите? "Скорее всего будет выполнять задачу" — это на гипотезу не тянет.


                                                                                              Какие есть основания выбирать одно конкретное конечное подмножество?

                                                                                              Никаких. Я не утверждал, что сверточная — это лучшая архитектура. Она работает. Но есть шанс, что другая сработает лучше. Тезис "она работает" от этого не становится ошибочным.


                                                                                              Вопрос именно в том, почему мы получили такую полезную функцию данным конкретным методом. 

                                                                                              А "данным конкретным методом" — это вы про какой метод? Градиентный спуск? Тут ответ ясен. Мы катимся к минимуму функции. Вроде ответ очевиден, разве нет? Проблема в том, что ваш вопрос расплывчат. Конкретизируйте.


                                                                                              Если вы спрашиваете, "почему нейросети в принципе работают". Не как они достигают цели (это понятно, как), а почему так вышло, что они работают, то отвечу вопросом.


                                                                                              Почему тела притягиваются? Почему при синтезе гелия выделяется энергия? (Да, это всё тот же вопрос, почему светит солнце).


                                                                                               > И то о чем вы говорите — это гипотезу. 


                                                                                              Не понимаю суть тезиса. Вы утверждаете, что зрительная кора работает не так? Или что это недостаточно изучено? Недостаточно наблюдений, нужно сомневаться?


                                                                                              Пока что непосредственно на нейроны датчики, по-моему, не ставят. Снимают, например, ЭЭГ.

                                                                                              Если бы. Нет, прямо втыкают иглы прямо в зрительную долю (со снятым черепом) и замеряют потенциалы. Конечно, это грубое измерение, но мы многое так измеряем. Протон тоже в микроскоп не разглядишь, но никто ж не назовет его гипотезой.


                                                                                              что это плохо, это проблема, это надо решать :)

                                                                                              Я ж не против матмоделей нейросетей. Наоборот, будет круто. Мой тезис, что построение сети — не рандом. Вполне инженерная задача, как в 17м веке строительство храма — современного сопромата ещё не было, но это не было броском монетки.


                                                                                              Ну, например какой-то автор любил абсент

                                                                                              Абсент наверняка помогает написать бестселлер. :)


                                                                                              И зачем? Вы сейчас скажете: «потому что лучше работает!», 

                                                                                              Вот зачем делать такие предложения? Валидационный сет нужен потому, что для нейросети надо настраивать гиперпараметры. И гиперпараметрами можно случайно заточить сеть под тестовый сет. Потому гиперпараметры проверяют на валидационном сете. А по тестовому смотрят уже в самом конце — сеть построила абстракции или просто заточилась под валидационный. Надеюсь, смог понятно написать.


                                                                                              Математически многослойные сети ничем не лучше однослойных

                                                                                              Сходимость лучше. Т.е. обучать быстрее до такого же качества (но сложнее было изобрести алгоритмы). Почему она лучше, думаю, понятно. Меньше связей у конкретного нейрона, значит меньше шагов до оптимума для этого нейрона. Если вы скажете, что это не строгая теорема, соглашусь. Не знаю, всегда ли это так. Но это достаточно часто так и вполне логично, что чем меньше параметров, тем быстрее нейрон сойдется.

                                                                                                0
                                                                                                А может не уйти. И курьер тоже может уйти. Что вероятнее?

                                                                                                Может. Но курьер это сделает значительно реже.


                                                                                                Есть ли статистически значимые наблюдения, что случайный человек уйдет с деньгами?

                                                                                                Так в том и суть, что в данном случае наблюдения не нужны, мы можем просто это вывести, логически, как теорему. И именно по-этому мы пользуемся курьерами — потому что понимаем, что они работают. Не потому что такова статистика. Статистика — не причина как раз, не важно, есть она или нет.
                                                                                                Статистикой, вообще говоря, теории опровергают, а не подтверждают.


                                                                                                Она работает.

                                                                                                Неверно. Правильно — она сработала. По факту. Некоторое количество раз, в некоторых конкретных случаях. Но то, что она работает — мы утверждать не можем. То, что курьеры будут доставлять — мы утверждать можем, а то, что нейронка сработает — не можем. Потому что это не вопрос статистики и наблюдений. Это вопрос наличия объяснений.


                                                                                                А "данным конкретным методом" — это вы про какой метод?

                                                                                                Ну начать надо с того, что данная конкретная функция в принципе окажется достаточно сложна, чтобы описать требуемую зависимость. Это понятно, что в классе найдется функция, которая все что надо отобразит с любой точностью, но почему именно вот эта, соответствующая, например, 200 нейронам подходит? Почему не потребовалось 2 миллиона нейронов?


                                                                                                Градиентный спуск? Тут ответ ясен. Мы катимся к минимуму функции. Вроде ответ очевиден, разве нет? Проблема в том, что ваш вопрос расплывчат. Конкретизируйте.

                                                                                                Вы явно на практике никогда градиентный спуск не применяли :)
                                                                                                В реальности обычно возникает множество проблем и, да, обычная ситуация — это когда градиентный спуск не работает нормально, а не наоборот :)


                                                                                                Почему тела притягиваются? Почему при синтезе гелия выделяется энергия?

                                                                                                Это вопрос неинтересный, т.к. относится к физической реальности. В случае же с нейросетями — вопрос чисто математический, о том, что выдумано нами самими.


                                                                                                Вы утверждаете, что зрительная кора работает не так? Или что это недостаточно изучено? Недостаточно наблюдений, нужно сомневаться?

                                                                                                Я говорю о том, что нет никаких достоверных свидетельств, что она работает именно так.
                                                                                                То есть, если завтра внезапно окажется, что она работает не так, то не будет особого удивления, не будет такого, что: "АХ ТЫ Ж БЛИН ДА КАК ЖЕ ЭТО ВОЗМОЖНО ТО??7??".
                                                                                                На самом деле, мы даже не знаем как слух работает, хотя он работает на порядок проще. А вы про зрение.


                                                                                                Вполне инженерная задача, как в 17м веке строительство храма — современного сопромата ещё не было, но это не было броском монетки.

                                                                                                Ну, почему, до сопромата — именно чем-то вроде броска монетки и было.


                                                                                                Сходимость лучше… Почему она лучше, думаю, понятно.

                                                                                                Нет, непонятно. И, представьте себе, никому в мире на данный момент не понятно.


                                                                                                Не знаю, всегда ли это так. Но это достаточно часто так и вполне логично, что чем меньше параметров, тем быстрее нейрон сойдется.

                                                                                                Логично, что Земля — плоская. Достаточно из окна выглянуть, и убедиться в этом логичном предположении. Для меня вот совсем не логично то, что сходимость будет быстрее с "маленьким числом параметров". Мне если честно даже непонятно, по какой логике к такому умозаключению вообще можно прийти.

                                                                                                  0
                                                                                                  Для меня вот совсем не логично то, что сходимость будет быстрее с "маленьким числом параметров". 

                                                                                                  Вычислительно, поиск в 10-мерном пространстве не сложнее поиска в 1000-мерном. Ну да, совсем не логично.


                                                                                                  А польза от снижения размерности данных для вас тоже не логична? Зачем эти странные и нелогичные датасаентисты стараются отбросить несущественные параметры — не ясно?


                                                                                                  PCA — вообще мусор, не доказано же, что снижение размерности полезно. Извините за сарказм, но вы ж не спросили логику, вы явно отвергли — нет, не логично и вообще не ясно, как до этого можно было додуматься.


                                                                                                  То есть, если завтра внезапно окажется, что она работает не так, то не будет особого удивления, не будет такого, что

                                                                                                  Конечно же будет удивление. Ваша убежденность, что мы ничего точно не знаем про зрение и слух, забавна, но не более того. Я же не предлагаю вам тайное знание, альтернативщину или верить мне на слово. Просто отложите учебники 70-х и прочитайте современную позицию по этим вопросам. Сразу скажу — не уверен, что есть что-то приличное на русском. Я не в курсе. А английском материалы подробные.


                                                                                                  Почему 70-е? Потому что премия по физиологии 81-го года — за открытие, в частности, нейронов отвечающих за наклон линий, наличие точек и т.п. david hubel and torsten wiesel, если интересны подробности.


                                                                                                  Думаю, поймёте, почему я считаю ваши утверждения про зрительную кору — полным п, уж не обижайтесь. Почти 40 лет прошло, перепроверено кучей людей, а вы всё ещё "нет никаких достоверных свидетельств" и "не будет особого удивления". Если у человека вдруг окажется 2 печени, тоже наверное, не будет особого удивления. Нет же достоверных свидетельств, что должна быть одна.


                                                                                                  Про курьеров. Дадите ссылку на доказательство теоремы, что случайно взятый курьер надёжнее случайно взятого прохожего — вместе посмотрим, нет ли там каких-то нестрогих утверждений. До тех пор утверждение "мы можем просто это вывести, логически, как теорему" — пустое бахвальство. Ну или такая гипербола. Мол, ну конечно не прям строгую математическую теорему, но можем просто по-рассуждать и будет похоже на неё.


                                                                                                  Что в итоге есть — ничего. Никаких цифр и вероятностей. Вы НЕ знаете, какие параметры существенны для надёжности курьера, не знаете, с какой вероятностью он доставит посылку. Даже утверждение, что случайный человек менее надёжен пока не доказано. Он ведь тоже хочет получить деньги, так что довод одинаков. Даже то, что он хочет получить деньги — не доказано. Да, я считаю это очень вероятным (и вы, полагаю, тоже), но почему вы так считаете?


                                                                                                  Только честно. Серьезно, задумайтесь. Вы отдаете товар курьеру, он должен доставить покупателю. Его мотивация — это деньги? Почему так считаете? Лично я — потому что проецирую на курьера себя. Но я-то не всегда хочу их получить! Даже когда работаю и делаю дело хорошо. Вы мне, ясное дело не поверите, но это не существенно. Теорема же, просто докажите. Учтите, сомнительные утверждения тоже придется доказать. Или признать, что теоремы пока нет и её возможность под вопросом.

                                                                                                    0
                                                                                                    Вычислительно, поиск в 10-мерном пространстве не сложнее поиска в 1000-мерном. Ну да, совсем не логично.

                                                                                                    С маленьким параметром сходимости может вообще не быть как раз из-за того, что пространство маленькая. Или функция будет такой формы, что спуск на ней будет очень плох.


                                                                                                    Ваша убежденность, что мы ничего точно не знаем про зрение и слух, забавна, но не более того.

                                                                                                    Ну вы видимо плохо разбираетесь в в вопросе :)


                                                                                                    Потому что премия по физиологии 81-го года — за открытие, в частности, нейронов отвечающих за наклон линий, наличие точек и т.п. david hubel and torsten wiesel, если интересны подробности.

                                                                                                    Это все замечательно, но знание о наличии нейронов, реагирующих на линии и точки нас не особо к пониманию общих принципов работы зрительной кары приближает. Ну есть нейроны, которые хорошо откликаются на линии, точки, цвета, есть те, что на прямоугольники или овалы. Есть те, что на более сложные фигуры и образы. И что дальше, с-но?


                                                                                                    Про курьеров. Дадите ссылку на доказательство теоремы, что случайно взятый курьер надёжнее случайно взятого прохожего

                                                                                                    Так я же говорю — случайно взятый курьер заинтересован в том, чтобы доставлять вашу посылку. По-этому доставляет. Что вам тут непонятно?


                                                                                                    Вы НЕ знаете, какие параметры существенны для надёжности курьера, не знаете, с какой вероятностью он доставит посылку.

                                                                                                    Так мне это и не надо знать. Я знаю, что есть причины, по которым курьем должен посылку доставить. Я хзнаю эти причины. По-этом я пользуюсь курьерскими службами, и другие люди пользуются и это нормально.
                                                                                                    Но никто в мире не знает причин, по которым должна работать конкретная нейронка.

                                                                                                      0
                                                                                                      Ну вы видимо плохо разбираетесь в в вопросе :)

                                                                                                      Или я плохо разбираюсь в вопросе или вы. Учитывая, что вы считали, что потенциалы нейронов не снимают датчиками и что "нет никаких достоверных свидетельств" о том, как кора работает на низком уровне, что более вероятно?


                                                                                                      Или, переформулирую, насколько вероятно, что вы хорошо разбираетесь в вопросе, имея ещё пару дней назад такие заблуждения? Мне можете не отвечать, я явно вижу тут Даннинга-Крюгера. И это не наезд, вы легко можете исправить ситуацию, если захотите.


                                                                                                      Есть те, что на более сложные фигуры и образы. И что дальше, с-но?

                                                                                                      Это всё, это конец тезиса. Полагаю, что вам не до конца понятно, но это нормально. Я всего лишь показал, что источники информации есть. Теперь вы уже не сможете сказать "нет никаких достоверных свидетельств, что она работает именно так". Теперь у вас есть свидетельства.


                                                                                                      Так я же говорю — случайно взятый курьер заинтересован в том, чтобы доставлять вашу посылку. По-этому доставляет. Что вам тут непонятно?

                                                                                                      Непонятно, где теорема? Ваше нижеследующее утверждение — ложно.


                                                                                                      Так в том и суть, что в данном случае наблюдения не нужны, мы можем просто это вывести, логически, как теорему. 

                                                                                                      Но никто в мире не знает причин, по которым должна работать конкретная нейронка.

                                                                                                      Ещё одно ложное утверждение. Вы бы как-то более внимательно относились к квантору всеобщности.


                                                                                                      Впрочем, плевать. "Никто не знает", значит никто. По всей видимости это ваше мнение, а мнения доказывать не принято. Попробую уважать ваше право такое мнение иметь. Про курьеров, кстати, тоже. Если это ваше мнение, что теорема возможна или что ваши логические построения похожи на теорему — полностью ваше право. Дискуссия о мнениях не несёт смысла, на мой взгляд.

                                                                                                        0
                                                                                                        Учитывая, что вы считали, что потенциалы нейронов не снимают датчиками и что "нет никаких достоверных свидетельств" о том, как кора работает на низком уровне, что более вероятно?

                                                                                                        Учитывая, что я прав по обоим пунктам? Ответ, думаю, очевиден.


                                                                                                        Или, переформулирую, насколько вероятно, что вы хорошо разбираетесь в вопросе, имея ещё пару дней назад такие заблуждения?

                                                                                                        Какие заблуждения? Как вы сами же согласились — нейроны датчиками не меряют. Ваша убежденность в том, что "все хорошо, все понятно и все известно" — просто от банального недостатка знаний.


                                                                                                        Это всё, это конец тезиса.

                                                                                                        Конец какого тезиса? Ну распознают какие-то нейроны какие-то стимулы, это очевидно, нейроны для того и есть. Дальше то что? Как вы из этого выводите принципы работы зрительной коры?


                                                                                                        Теперь вы уже не сможете сказать "нет никаких достоверных свидетельств, что она работает именно так".

                                                                                                        "так" — это как? Вы же не указали, как. Есть нейроны, которые что-то распознают, да. А дальше-то что? Вы остановились даже не на полпути, а на 10% самого общего описания, пропустив еще 90%. И это ведь общее описание, а если начать вдаваться в подробности?


                                                                                                        Непонятно, где теорема? Ваше нижеследующее утверждение — ложно.

                                                                                                        Что ложно? Какая из посылок по-вашему ложна — что курьер заинтересован, или что из заинтересованность ведет к повышению вероятности выполнения задачи? Вы же как-то уточняйте.


                                                                                                        Впрочем, плевать. "Никто не знает", значит никто. По всей видимости это ваше мнение, а мнения доказывать не принято.

                                                                                                        При чем тут мнение, когда речь о фактах? Вы сейчас утверждаете существование чайника Рассела — что есть в мире кто-то, кто знает ответ на соответствующий вопрос, но почему никто кроме вас не знает о существовании этого человека. Почему нет никаких свидетельств в пользу его существования? С чего вы взяли что такой человек в принципе существует?
                                                                                                        Мой логика проста — раз нету никаких свидетельств в пользу его существования, значит, считаем, что он не существует.

                                                                                                          0
                                                                                                          Учитывая, что я прав по обоим пунктам?

                                                                                                          Вы издеваетесь?


                                                                                                          Как вы сами же согласились — нейроны датчиками не меряют

                                                                                                          Да, похоже издеваетесь. Ради шутки попрошу цитату, где я согласился с этим явно ложным мнением.


                                                                                                          Как вы из этого выводите принципы работы зрительной коры?

                                                                                                          На сарказм не похоже. Дайте угадаю, троллинг?


                                                                                                          И это ведь общее описание, а если начать вдаваться в подробности?

                                                                                                          Учебник в помощь. Мне всё равно, будете ли вы считать себя правым. Ваши знания — ваша ответственность, нужны — учитесь. Абсолютно мейнстримовая область, никаких секретных и "сакральных" вещей.


                                                                                                          Что ложно? Какая из посылок по-вашему ложна

                                                                                                          Посылки? Ложно утверждение, что вы можете собрать из этого теорему. Впрочем, вы это явно понимаете, теорему сформулировать не удастся, просто переводите тему.


                                                                                                          почему никто кроме вас не знает о существовании этого человека

                                                                                                          Тысячи людей, а не человека.


                                                                                                          Почему нет никаких свидетельств в пользу его существования?

                                                                                                          Почему нет никаких свидетельств в пользу существования самолётов? Я понимаю, что просто троллите, но ваш вопрос звучит именно так. Нет, блин, свидетельств. Никто не знает людей, кто в курсе, как собирать самолёты. Вывод? Таких людей (знающих, как собирать самолёты) не существует.


                                                                                                          Мой логика проста

                                                                                                          Логика ваша верна. Просто вы ради развлечения берете очевидно ложные посылки.

                                                                                                            0
                                                                                                            Вы издеваетесь?

                                                                                                            Совсем нет. Я же озвучил два тезиса:


                                                                                                            1. нейроны не меряют, только косвенно (и это так, вы и сами согласились)
                                                                                                            2. мы на данный момент не знаем, как работает зрительная кора (и даже более простые механизмы — тот же слух) — что тоже верно, т.к. если бы было неверно — были бы какие-то научные статьи, в которых эти вещи бы описывались. А их не существует в природе.

                                                                                                            Да, похоже издеваетесь. Ради шутки попрошу цитату, где я согласился с этим явно ложным мнением.

                                                                                                            Вот же: "Нет, прямо втыкают иглы прямо в зрительную долю (со снятым черепом) и замеряют потенциалы. Конечно, это грубое измерение, но мы многое так измеряем."


                                                                                                            Учебник в помощь.

                                                                                                            Учебник чего? Подобной информации нету не то что в учебниках — а и в современных научных статьях по теме. Потому что ее вообще нет :)


                                                                                                            Посылки? Ложно утверждение, что вы можете собрать из этого теорему.

                                                                                                            Это как? Если у нас есть посылки Х и X => Y то мы выводим Y по modus ponens. И это строгая теорема по определению понятия "теорема".


                                                                                                            Впрочем, вы это явно понимаете, теорему сформулировать не удастся, просто переводите тему.

                                                                                                            Тему как раз переводите вы :)(
                                                                                                            Смотрите, вы попросили дать объяснение про курьеров — я его дал. Далее вы пытаетесь показать, что объяснение в том или ином смысле неиделаьно и может быть гипотетически неверно — все так, как и для любого другого объяснения. В случае нейросетей проблема не в том что объяснение плохое, его просто тупо нет. Вообще никакого.


                                                                                                            Тысячи людей, а не человека.

                                                                                                            Где эти люди? Почему они скрываются да так, что о их существовании неизвестно?


                                                                                                            Почему нет никаких свидетельств в пользу существования самолётов?

                                                                                                            Почему же нет? Они есть! Вот я за окно выглянул — самолет летит. Вот в гугле написал "самолет" — мне фото с видео и фото самолетов :)
                                                                                                            Захочу — найду инфу, как и из чего самолеты строятся, почему они летают, с расчетами.
                                                                                                            А вот с сетями это не работает. Не получится у вас найти какую-то научную статью, в которой объясняются обсуждаемые вещи, как ни старайтесь.


                                                                                                            Просто вы ради развлечения берете очевидно ложные посылки.

                                                                                                            Ну так вы легко можете их опровергнуть контрпример. Как в случае чайника Рассела — показали его в телескоп и все.
                                                                                                            Вместо этого вы просто голословно утверждаете существование чего-то, но пример привести не можете.

                                                                                                              0

                                                                                                              Во-первых, слух более сложно устроен. Но это так, к слову. Можете не верить, для вас же статей "не существует" об устройстве слуха.


                                                                                                              были бы какие-то научные статьи, в которых эти вещи бы описывались.

                                                                                                              Всё верно. И они существуют и там описано. Вам фамилии недостаточно? Вам ссылку на работу, за которую он Нобелевку получил? Ссылки на статьи, развивающие тему? Вы правда полагаете, что это всё фейк? Начните с Википедии. Там есть ссылки на книги, которых "не существует".


                                                                                                              Я просто сути вашего троллинга не понимаю. Вроде разговор начинался разумно, а скатился — "нет, его научная работа не считается, потому что чайник Рассела и они не существуют". Сам David Hubel хотя бы существует или тоже чайник, по вашей теории?


                                                                                                              Вы же понимаете, что пытаетесь отрицать общедоступную информацию? Если вы продолжите это делать и не опишите причины, если просто опять скажите "статей не существует" — я проигнорирую. Вы можете закрывать глаза сколько угодно, работы по зрительной коре от этого не исчезнут. Можете сравнивать их с чайником. Та же курсера с общедоступными курсами видна любому, у кого есть интернет. Она не видна только вам.


                                                                                                              Ну так вы легко можете их опровергнуть контрпример. 

                                                                                                              Именно так. Я и привёл. Вы хоть как-то обоснуйте, чем этот контрпример не подходит. Чем ссылка на ученого плоха? Он изучал мозг НЕ с помощью ЭЭГ.


                                                                                                              Почему они скрываются да так, что о их существовании неизвестно?

                                                                                                              Неизвестно вам? Не знаю. Может вы от них скрываетесь? Эндрю Ын известен многим, например.


                                                                                                              Вот же: "Нет, прямо втыкают иглы прямо в зрительную долю (со снятым черепом) и замеряют потенциалы. Конечно, это грубое измерение, но мы многое так измеряем."

                                                                                                              Нет — это значит "нет, не ЭЭГ". Возможно, фраза сформулирована не совсем ясно, прошу прощения. Но как вы из неё сделали вывод, что я считаю, мол "нейроны не меряют, только косвенно", мне до сих пор непонятно. Грубое измерение — это в смысле меряют потенциал, а не каждую химическую реакцию отдельно (хотя такие подобные исследования тоже есть).


                                                                                                              В Вики есть статья, "single-unit recording". Её тоже не существует? Это не свидетельство существания метода?


                                                                                                              Что же до вашего мнения, будто я считаю, что отдельные нейроны не меряют — я считаю, что отдельные нейроны меряют. На основе общедоступных данных. Если вы читаете, что я считаю, что нейроны не меряют — ваше право. Можете продолжать думать, что я так считаю. Как я на самом деле считаю, я сказал. Надеюсь, не запутал, не было такой цели.


                                                                                                              Если у нас есть посылки Х и X => Y то мы выводим Y по modus ponens

                                                                                                              Верно. Только у вас нет Х и нет "X => Y", в остальном верно. "Если хочет получить деньги, значит сделает работу" — это утверждение не доказано. Докажите. Оно не очевидно. "Хочет получить деньги" — это утверждение не доказано. Оно верно для любого курьера в любой день? Если да — докажите. Если нет — то когда верно, когда нет?


                                                                                                              Вот я за окно выглянул — самолет летит. 

                                                                                                              Где этот самолёт? Почему он скрывается да так, что о его существовании неизвестно?


                                                                                                              Вот в гугле написал "самолет" — мне фото с видео и фото самолетов :)

                                                                                                              Почему-то погуглить "самолёт" вы справились, а прочитать статью в Википедии об учёном — нет. Даже там написано, что измерялись отдельные нейроны. Вы всё ещё уверены, что "отдельные нейроны не меряются"? Вам нужны ещё свидетельства?

                                                                                                                0
                                                                                                                Вместо этого вы просто голословно утверждаете существование чего-то, но пример привести не можете.

                                                                                                                Если вам действительно не понятен пример с учёным, сформулируйте, пожалуйста, точнее, пример чего вам нужен. Если вам действительно нужен пример (а не просто издевательство по кругу), я попробую найти что-то, что подходит под ваши условия. Опишите, какими качествами должен обладать пример, подтверждающий, что "отдельные нейроны меряют".

                                                                                                                  0
                                                                                                                  Если вам действительно не понятен пример с учёным, сформулируйте, пожалуйста, точнее, пример чего вам нужен.

                                                                                                                  Пример человека, который знает, почему работает конкретный алгоритм обучения нейронной сети и с-но сама сеть (естественно, мы сейчас не про какие-нибудь однослойные персептроны — те понятно, почему работают, на то есть соответствующие теоремы, так что не работать они просто не могут. мы про сети вроде той, что из обсуждаемой статьи). В качестве подтверждения того, что он правда знает — вполне пойдет статья с указанным объяснением.

                                                                                                                    0
                                                                                                                    Опишите, какими качествами должен обладать пример, подтверждающий, что "отдельные нейроны меряют".

                                                                                                                    Пример человека, который знает, почему работает конкретный алгоритм обучения нейронной сети.

                                                                                                                    То есть вы даже мой комментарий не дочитали? Ну да пофиг. Я думаю, по зрительным нейронам у вас возражений уже нет?


                                                                                                                    Могу предложить по сверточным, как работает, какими свойствами обладает и к каким результатам приводит, если интересно.


                                                                                                                    Взял старую работу (30 лет прошло), которая показывает, как сверточная архитектура достигает position-shift invariant. Человек — Wei Zhang.


                                                                                                                    Рассматривается, фактически, только один вопрос, другие вопросы рассматриваются в других работах.

                                                                                                                      0
                                                                                                                      То есть вы даже мой комментарий не дочитали?

                                                                                                                      Я прочитал, но полагал, что вы просто запутались. Мы же говорили не про подтверждение мерянья нейронов, а про подтверждение понимания работы нейронных сетей. С-но и ответил.


                                                                                                                      И вы дайте конкретную ссылку-то. Можете на старую работу, можете не на старую, это не важно.

                                                                                                                        0

                                                                                                                        Вы не держите полный контекст. Мы пришли вот к этому. "Совсем нет. Я же озвучил два тезиса:".


                                                                                                                        Мы разобрались? Вы согласны с тем, что ваш первый тезис неверен?


                                                                                                                        Смотрите, вы попросили дать объяснение про курьеров — я его дал.

                                                                                                                        Вы отредактировали комментарий, потому я пропустил это ваше утверждение. Вы сказали, что можно доказать, как теорему. Так докажите. Дело не в "неидеальности" объяснения, дело в том, что теорема не доказана вами. Всё просто, либо теорема доказана, либо нет. Суть не в том, что бы прижать вас к стенке, а что бы продолжить рассуждения. На наличие теоремы опирается ваше "наблюдения не нужны".


                                                                                                                        И вы дайте конкретную ссылку-то.

                                                                                                                        Потерялась, извините. Место хранения не очень, но я думаю, подлинность работы не сложно будет подтвердить, если возникнет потребность. Таких работ (по разным аспектам) десятки, это не что-то секретное.


                                                                                                                        https://drive.google.com/file/d/0B65v6Wo67Tk5ODRzZmhSR29VeDg/view

                                                                                                                          0
                                                                                                                          Вы не держите полный контекст.

                                                                                                                          Я как раз о полном и говорю.


                                                                                                                          Вы согласны с тем, что ваш первый тезис неверен?

                                                                                                                          Нет, но это, вообще говоря, не относится к предмету разговора, потому я и предлагаю оставить.


                                                                                                                          Таких работ (по разным аспектам) десятки, это не что-то секретное.

                                                                                                                          Ну так а где там ответ-то на вопрос, почему работать должно? Штука с реализацией на оптических фильтрах прикольная, конечго, но не про то.

                                                                                                                            0
                                                                                                                            Нет, но это, вообще говоря, не относится к предмету разговора, потому я и предлагаю оставить.

                                                                                                                            Относится. Потому я и говорю, вы не держите полный контекст. Только изначальный вопрос. А почему и зачем мы пришли с этим частностям — забыли. Это не критично, могу напомнить, мы легко вернёмся по цепочке наверх, когда достигнем согласия по этим пунктам.


                                                                                                                            Так всё же, какими качествами должно обладать подтверждение, что "отдельные нейроны меряют". Я понял, что статья в Википедии про измерения отдельных нейронов для вас подтверждением не является, вы всё ещё уверены, что это то ли невозможно, то ли не используется (не ясно, в чем конкретно вы уверены, но видимо уверены, что "не меряют").


                                                                                                                            почему работать должно

                                                                                                                            Почему должно — без понятия. Есть подтверждение, что работает и как работает. Почему должно работать доказательство иррациональности числа пи — я тоже не знаю. И почему оно иррациональное — не знаю. А во то, что оно иррациональное — это без сомнения. Сверточные сети позволяют достигнуть инвариантности к сдвигу и повороту изображения. Это без сомнения и никаким броском монетки не является.


                                                                                                                            По поводу теоремы мы пришли к согласию? Доказанная теорема о доставке товара конкретным курьером (которая скажет, доставит или нет) — отсутствует. Её возможность не подтверждена ничем. А значит утверждение "наблюдения не нужны" — не верно. Наблюдения в данном случае необходимы, без них никак.

                                                                                                                              0
                                                                                                                              Относится.

                                                                                                                              Нет, не относится.


                                                                                                                              А почему и зачем мы пришли с этим частностям — забыли.

                                                                                                                              А в том и дело, что мы к нему не приходили. Это был просто случайный высосанный из пальца тезис, который не имеет отношения к предмету обсуждения. То есть он никак не следовал из предыдущего контекста.


                                                                                                                              Так всё же, какими качествами должно обладать подтверждение, что "отдельные нейроны меряют".

                                                                                                                              Да мы вообще это подтверждение не обсуждали.


                                                                                                                              Я понял, что статья в Википедии про измерения отдельных нейронов для вас подтверждением не является

                                                                                                                              Она является подтверждение того факта, с которым я и не спорил. Вы же сами прекрасно понимаете, что между изучением работы одного единственного нейрона в принципе и изучением некоего процесса на уровне отдельных нейронов (о чем мы и говорили) — гигантская пропасть. Так чего придуриваетесь?


                                                                                                                              По поводу теоремы мы пришли к согласию? Доказанная теорема о доставке товара конкретным курьером (которая скажет, доставит или нет) — отсутствует.

                                                                                                                              В смысле? Вы так и не указали, какая из сформулированных посылок неверна. Я напомню вопрос: "Какая из посылок по-вашему ложна — что курьер заинтересован, или что из заинтересованность ведет к повышению вероятности выполнения задачи?".


                                                                                                                              Почему должно — без понятия.

                                                                                                                              То, что вы без понятия — я прекрасно понимаю, ведь, мой тезис состоит в том, что все без понятия. И вы в том числе, конечно :)
                                                                                                                              Но вы же утверждаете что есть люди, которые понимают, почему нейронные сети работают. Я у вас попросил соответствующую статью, в которой бы такой человек изложил это свое понимание: "вот нейронная сеть, работает так-то и так-то, результат дает по тем-то и тем-то причинам таким-то таким-то способом". А вы мне привели опять статью, в которой просто констатируется факт работы.
                                                                                                                              Я у вас не прошу очередного подтверждения, что существуют хорошие книги. Я прошу ссылку на способ написания хороших книг с обоснованием того, почему этот способ должен работать. Мой тезис — нету таких людей, которые это знают/понимают, никто вам не скажет, как написать хорошую книгу с объяснением, почему так.


                                                                                                                              А значит утверждение "наблюдения не нужны" — не верно. Наблюдения в данном случае необходимы, без них никак.

                                                                                                                              Как раз наблюдения и несущественны. Важно понимание процесса.


                                                                                                                              В этом разница между вашей логикой и моей. Я когда рассуждают о том, что что-то работает, исхожу из того, что понимаю процесс этой работы, с-но "не работать оно и не может".
                                                                                                                              А вы просто смотрите, и из того что монета два раза подряд выпала решкой делаете вывод, что она только решками и выпадает.

                                                                                                                                0
                                                                                                                                А в том и дело, что мы к нему не приходили.

                                                                                                                                Повторюсь, не держите контекст. Тем не менее, вы можете высказать свою позицию по вопросу, даже если он, по вашему, не относится к теме. Или сказать "не знаю", если не знаете.


                                                                                                                                между изучением работы одного единственного нейрона в принципе и изучением некоего процесса на уровне отдельных нейронов

                                                                                                                                Я не знаю, что заставляет вас придуриваться, однако речь именно об изученности процесса. Процесс распознавания низкоуровневых признаков изображения изучен на уровне отдельных нейронов. По этому тезису у вас возражений нет?


                                                                                                                                Вы так и не указали, какая из сформулированных посылок неверна.

                                                                                                                                Я не планирую доказать "неверность", что за бред, просить о таком? Ни одна из ваших посылок не доказана, вот и всё. Докажите их, пожалуйста или переформулируйте так, что б доказательство не требовалось.


                                                                                                                                Если вы сами тщательно рассмотрите граничные случаи, вы увидите, что заинтересованность курьера в получении денег не всегда ведёт к увеличению вероятности. А некоторые условия могут убрать заинтересованность. Деньги ему всё ещё будут нужны, а посылку доставлять откажется.


                                                                                                                                Если у нас есть посылки Х и X => Y то мы выводим Y по modus ponens

                                                                                                                                Разве из посылки "заинтересованность ведет к повышению вероятности" следует, что посылка будет доставлена? Вы можете в одном комментарии сформулировать и посылки и ваш вывод? Это нужно затем, что бы вам самому было видна необходимость переформулировать. Т.к. вы не видите неконсистентность формулировок, если они в разных комментариях.


                                                                                                                                мой тезис состоит в том, что все без понятия.

                                                                                                                                Тут я без сожалений признаю вашу вероятную правоту. Почему некоторые вещи "должны работать" (нейронные сети в частности), вполне возможно, все в мире без понятия. Соглашаюсь, что мне неизвестны люди, знающие об этом.


                                                                                                                                Ваш более ранний тезис, что построение нейронных сетей — бросок монетки — неверен. Много людей знают, как они работают и каким образом получается результат. Сделать нейронку для изученной области — инженерная задача.


                                                                                                                                Но вы же утверждаете что есть люди, которые понимают, почему нейронные сети работают. 

                                                                                                                                Есть люди, которые знают, как они работают и как их делать. В обычном разговоре это то же самое, что "почему", но учитывая предыдущий разговор, я не стану утверждать, что они знают, "почему". Мне достаточно "как".


                                                                                                                                Важно понимание процесса.

                                                                                                                                Для понимания процесса нужно знать существенные факторы. Вы указали один — человек согласился работать. Исходя из "несущественных наблюдений" я знаю, что этого фактора недостаточно. Вы — нет. Потому что модели у вас нет (её но у кого нет), а наблюдения вы игнорируете.


                                                                                                                                исхожу из того, что понимаю процесс этой работы

                                                                                                                                В этом и ошибка. Не изучив должным образом процесс доставки вы считаете, что "понимаете процесс этой работы". А правда ли понимаете?
                                                                                                                                Так же, не изучив должным образом литературу по нейронным сетям, вы опять же считаете, что "понимаете процесс", а точнее, что понимать там нечего, сплошной рандом. Да и про изучение зрительной коры аналогично.


                                                                                                                                Исходить из того, что вы понимаете процесс работы можно, когда вы действительно его понимаете. А не думать так по-умолчанию.


                                                                                                                                А вы просто смотрите, и из того что монета два раза подряд

                                                                                                                                Очень странное предположение. Оно, конечно, неверно, но ваше право его придерживаться. К озвученным фактам это отношения не имеет.

                                                                                                                                  0
                                                                                                                                  Повторюсь, не держите контекст.

                                                                                                                                  Повторюсь, это у вас проблема с удержанием контекста :)
                                                                                                                                  Отмотайте назад и перечитайте сообщения, если забыли разговор.


                                                                                                                                  Процесс распознавания низкоуровневых признаков изображения изучен на уровне отдельных нейронов.

                                                                                                                                  Нет, не изучен. Только по косвенным (очень косвенным) данным. Если вы считаете иначе — ну подтвердите это какими-то ссылками.


                                                                                                                                  Я не планирую доказать "неверность", что за бред, просить о таком? Ни одна из ваших посылок не доказана, вот и всё.

                                                                                                                                  Эм, посылки и не требуется доказывать, на то они и посылки.
                                                                                                                                  Смысл доказательства всегда состоит в том, что из конкретных посылок следует некий факт. Истинность посылок к доказательству уже не относится.
                                                                                                                                  По-этому я и спрашиваю — какую из посылок вы ставите под сомнения? Без указания этого дальнейший разговор смысла не имеет. Если никакую не ставите — значит, все в порядке.


                                                                                                                                  Если вы сами тщательно рассмотрите граничные случаи, вы увидите, что заинтересованность курьера в получении денег не всегда ведёт к увеличению вероятности.

                                                                                                                                  Как вообще что-то может вести к увеличение вероятности ВСЕГДА или НЕ ВСЕГДА? Что-то лили увеличивает вероятность (в принципе увеличивает) или не увеличивает (в принципе не увеличивает). Понятия вроде "в конкретном случае" или "всегда" или "иногда" тут неприменимы. Это не имеет смысла.
                                                                                                                                  Вы как-то переформулируете свой тезис, чтобы он не был случайным набором слов, а то так невозможно понять, что вы имеете ввиду.


                                                                                                                                  А некоторые условия могут убрать заинтересованность.

                                                                                                                                  Конечно, могут. Тогда курьер перестанет быть курьером, ведь зачем ему быть курьером, если он в этом не заинтересован? Человек в принципе никогда не делает ничего осознанно, если он в этом не заинтересован.
                                                                                                                                  На самом деле "быть курьером" и "быть заинтересованным в доставке" — это одно и то же утверждение, просто сформулированное по-разному.


                                                                                                                                  Тут я без сожалений признаю вашу вероятную правоту. Почему некоторые вещи "должны работать" (нейронные сети в частности), вполне возможно, все в мире без понятия. Соглашаюсь, что мне неизвестны люди, знающие об этом.

                                                                                                                                  Тогда с чем вы спорите? Это же и есть мой изначальный тезис.


                                                                                                                                  Очень странное предположение.

                                                                                                                                  Это не мое предположение, это вы сами озвучили. Вы верите в то, что нейронные сети работают, потому что вы это статистически наблюдали (монетка выпала дважды), но при этом не понимаете почему получился такой результат наблюдений (не понимаете, почему нейронные сети работают, то есть почему монетка выпала дважды).
                                                                                                                                  Я же не верю в работу нейронных сетей до тех пор, пока не узнаю, почему они работают — то есть, почему монетка дважды выпала орлом. Может, окажется, что у нее два орла? И тогда, действительно, она всегда выпадает орлом. Или ее хитро бросают. А может — она просто случайно двумя орлами выпала. И тогда тут ни о каком "работает" речи нет.

                                                                                                                                    +1
                                                                                                                                    Отмотайте назад и перечитайте сообщения,

                                                                                                                                    Окей, вы не понимаете, как мы к этому пришли. Пропущу, что бы не усложнять дерево обсуждения. Не существенно.


                                                                                                                                    Нет, не изучен. Только по косвенным (очень косвенным) данным. Если вы считаете иначе — ну подтвердите это какими-то ссылками.

                                                                                                                                    Второй раз? А с первого раза что не так пошло? "single-unit recording", первая ссылка в Гугле на Вики. Вы по прежнему будете считать, что "процесс не изучен"? Прочитайте, пожалуйста, прежде чем писать ещё раз "не изучено" и "нет наблюдений". Там все подтверждения, что распознавание низкоуровневых признаков изучено.


                                                                                                                                    По-этому я и спрашиваю — какую из посылок вы ставите под сомнения?

                                                                                                                                    Обе, я же вполне четко об этом сказал. Обе ваши посылки может сработают в конкретном случае, а может нет. С какой вероятностью они сработают — вы не знаете.


                                                                                                                                    Прочитал ниже и понял, что конкретно вы не догоняете. Вы берете один параметр (курьер/не курьер). Я спрашиваю — от каких ещё параметров вероятность доставки зависит существенно? В этом и суть модели — знать все существенные параметры, согласны? Если считаете, что других существенных параметров нет — скажите прямо. Если не знаете — тоже скажите прямо.


                                                                                                                                    Понятия вроде «в конкретном случае» или «всегда» или «иногда» тут неприменимы.

                                                                                                                                    Применимы, конечно. Есть десять курьеров. Есть десять вероятностей доставки (курьер Х доставит посылку с вероятностью У). Повышаем зп, у пяти вероятность доставить следующую посылку растет, у пяти — не растет. ЗП — это существенный параметр, но не единственный.


                                                                                                                                    а то так невозможно понять, что вы имеете ввиду.

                                                                                                                                    А для вас в принципе невозможно сформулировать понятно, если вы понимать отказываетесь. В Вики вот вроде для всех понятно сформулировано. А вы всё ещё считаете, что распознавание низкоуровневых признаков зрительной корой мозга не изучено. И что предлагаете? Формулировать яснее, чем в Вики?


                                                                                                                                    Вы как-то переформулируете свой тезис

                                                                                                                                    Мой тезис — вы не знаете, какой полный набор существенных параметров, от которых зависит вероятность доставки. Значит вы не можете достоверно сказать, что курьер Х более надёжен, чем случайный прохожий У. Может проявиться фактор, про который вы не в курсе.


                                                                                                                                    Могу в значках. Мы обсуждаем, что
                                                                                                                                    Р(D|X) > P(D|Y), для любых D, X, Y
                                                                                                                                    где D принадлежит множеству доставок, X — множеству курьеров, Y — множеству случайных прохожих.


                                                                                                                                    Так вот, это утверждение не верно. Если ваше утверждение в другом — пожалуйста, изложите его в одном комментарии целиком.


                                                                                                                                    Это не мешает в обычной жизни, т.к. можно предположить примерно, а потом исправить ошибку, если что. Мой вышестоящий тезис в этом и состоял — нет никакой хорошей модели доставки (в которой есть список всех существенных параметров). Для зрительной коры такая модель есть (есть основания считать, что учтены все существенные параметры).


                                                                                                                                    Тогда курьер перестанет быть курьером, ведь зачем ему быть курьером, если он в этом не заинтересован? 

                                                                                                                                    Подмена понятий. Речь в моем комментарии о заинтересованности в получении денег. А не в том, что бы быть курьером. Пожалуйста, не надо так, это не хорошо.


                                                                                                                                    Повторю ещё раз. Вы можете в одном комментарии сформулировать и посылки и ваш вывод? Что бы можно было рассмотреть вашу предлагаемую модель целиком.


                                                                                                                                    Тогда о чем вы спорите? Это же и есть мой изначальный тезис.

                                                                                                                                    Если уж быть точным, ваш изначальный тезис — что разработка сети — это как в казино на зеро, а сверточные сети — как карго-культ. Полагаю, что уж этот "изначальный тезис" отпал и вами больше не поддерживается.


                                                                                                                                    Плюс прочитайте следующий абзац моего прошлого комментария.


                                                                                                                                    Ваш более ранний тезис, что построение нейронных сетей — бросок монетки — неверен. Много людей знают, как они работают и каким образом получается результат. Сделать нейронку для изученной области — инженерная задача.


                                                                                                                                    Остались возражения?


                                                                                                                                    Это не мое предположение, это вы сами озвучили.
                                                                                                                                    потому что вы это статистически наблюдали (монетка выпала дважды), но при этом не понимаете почему получился такой результат наблюдений

                                                                                                                                    Вот утверждение, что я НЕ понимаю, почему получился такой результат, во оно ещё более странное. Как вы такой вывод сделали, например, после ссылки на ту работу по сверточным? Ну да хз, ваши выводы о моем понимании к делу не относятся, какие б странные они ни были.


                                                                                                                                    не понимаете, почему нейронные сети работают,

                                                                                                                                    Ещё более странно. Опять же, оставляю на вашей совести, особенно после моего прямого опровержения. Видимо вы противопоставляете — если я вам рассказал про статистику, а не начал сразу с ссылок — значит видимо я не понимаю, как работает внутри.


                                                                                                                                    Так вот, как работают простые архитектуры — понимаю (сложные — пока нет, в процессе). И не только я, конечно. Пару фамилий я назвал, ещё сотню можете нагуглить сами. Но это так, к слову. Ваше предположение о моем понимании не существенно, я ж не использую это как довод, просто удивился вашему выводу.


                                                                                                                                    А может — она просто случайно двумя орлами выпала. И тогда тут ни о каком "работает" речи нет.

                                                                                                                                    Может быть. А может быть я осмотрел монетку, прочитал, как эту монетку бросали тысячу раз, узнал, из какого материала состоит и теперь предсказываю — упадет орлом, вероятность 100%, она действительно с двумя орлами.


                                                                                                                                    А вы мне в ответ — вы же даже не знаете, почему два тела притягиваются. И никто не знает. Поэтому ставка, что она вообще упадет — это как в казино на зеро. Слабенький довод, не находите?

                                                                                                                                      0
                                                                                                                                      Второй раз? А с первого раза что не так пошло? "single-unit recording", первая ссылка в Гугле на Вики. Вы по прежнему будете считать, что "процесс не изучен"?

                                                                                                                                      Там нет ничего про изучение процессов.


                                                                                                                                      Прочитал ниже и понял, что конкретно вы не догоняете. Вы берете один параметр (курьер/не курьер). Я спрашиваю — от каких ещё параметров вероятность доставки зависит существенно? В этом и суть модели — знать все существенные параметры, согласны?

                                                                                                                                      Нет, суть модели как раз в том, чтобы не знать параметры. Иначе это бесполезная модель. В случае курьера — я знаю что он курьер, и мне этого достаточно, чтобы сделать совершенно строгий логический вывод о том, что моя посылка будет скорее доставлена, чем нет. я понимаю, почему это так, я вижу статистику, которая это подтверждает. Что еще нужно?


                                                                                                                                      Мой тезис — вы не знаете, какой полный набор существенных параметров, от которых зависит вероятность доставки. Значит вы не можете достоверно сказать, что курьер Х более надёжен, чем случайный прохожий У.

                                                                                                                                      А мне это и не нужно, я говорю, что он более надежен при прочих равных.


                                                                                                                                      Могу в значках. Мы обсуждаем, что
                                                                                                                                      Р(D|X) > P(D|Y), для любых D, X, Y
                                                                                                                                      где D принадлежит множеству доставок, X — множеству курьеров, Y — множеству случайных прохожих.

                                                                                                                                      Так смотрите, P(D | X) — условная вероятность события D при условии выполнения события Х. Вы зачем-то формулируете утверждение как
                                                                                                                                      forall D, X, Y: Р(D|X) > P(D|Y), где D — событие доставки конкретной посылки, а X/Y — конкретный некурьер или курер.


                                                                                                                                      Любая такая вероятность либо 100%, либо 0%, потому что конкретная посылка совершенно точно либо доставлена либо не доставлена конкретным человеком.


                                                                                                                                      Так вот утверждение должно быть такое:
                                                                                                                                      Р(D|X) > P(D|Y), где D — событие доставки посылки, X — доставка курьером, Y — доставка некурьером.
                                                                                                                                      Обратите внимание — никакой квантификации по событиям нет, потому что у нас просто три события, вполне конкретных.
                                                                                                                                      То есть не "для любой посылки, курьера и некурьера, вероятность доставки данной посылки при условии, что она доставляется этим курьером, выше, чем вероятность доставки посылки при условии, что она доставляется этим некурьером", а "вероятность доставки посылки при условии, что она доставляется курьером, выше, чем вероятность доставки посылки при условии, что она доставляется некурьером".


                                                                                                                                      Если уж быть точным, ваш изначальный тезис — что разработка сети — это как в казино на зеро, а сверточные сети — как карго-культ. Полагаю, что уж этот "изначальный тезис" отпал и вами больше не поддерживается.

                                                                                                                                      В смысле отпал? Это тот же самый тезис и есть.


                                                                                                                                      Много людей знают, как они работают и каким образом получается результат.

                                                                                                                                      подождите мы только что выше пришли к согласию, что не существует ни одного человека, который бы знал как работают сети и как получается результат, разве нет? А теперь вы говорите совершенно противоположное.


                                                                                                                                      Сделать нейронку для изученной области — инженерная задача.
                                                                                                                                      Остались возражения?

                                                                                                                                      Конечно же есть. Что-то является инженерной задачей если вы можете взять и по определенным правилам повторить результат. В случае нейронных сетей зачастую даже одна и та же команда разработчиков не может повторить результат, не говоря уже о другой команде. По-этому я и считаю, что на данный момент обучение нейронных сетей — ровно в той же степени инженерная задача, как живопись или литература.


                                                                                                                                      А может быть я осмотрел монетку, прочитал, как эту монетку бросали тысячу раз, узнал, из какого материала состоит и теперь предсказываю — упадет орлом, вероятность 100%, она действительно с двумя орлами.

                                                                                                                                      Так в том и дело, что вы ничего не осмотрели и не узнали. И единственная причина, по которой вы что-то предсказываете — потому что так уже было.
                                                                                                                                      Никаких других причин у вас нет.

                                                                                                                                        0

                                                                                                                                        Обращу ваше внимание только на три пункта.


                                                                                                                                        Нет, суть модели как раз в том, чтобы не знать параметры. Иначе это бесполезная модель.

                                                                                                                                        Не бывает моделей без параметров. Курьер/не курьер — это параметр. Откуда вы взяли, что "суть модели — не знать примеры", не ясно. Если вы сможете подтвердить это ссылками, буду искренне благодарен, т.к. либо вы говорите о чем-то очень интересном, либо крайне заблуждаетесь.


                                                                                                                                        Любая такая вероятность либо 100%, либо 0%, потому что конкретная посылка совершенно точно либо доставлена либо не доставлена конкретным человеком.

                                                                                                                                        "Доставлена" — видимо вы говорите о событии в прошлом. Такое событие конечно либо 0%, либо 100%. Всегда. Нас интересует событие в будущем. "Будет доставлена". Утверждение, что вероятность "конкретная посылка будет доставлена", всегда либо 0%, либо 100% — очевидно неверное.


                                                                                                                                        подождите мы только что выше пришли к согласию, что не существует ни одного человека, который бы знал как работают сети и как получается результат, разве нет? А теперь вы говорите совершенно противоположное.

                                                                                                                                        Вы крайне, запредельно невнимательны. И это при том, что сообщения можно перечитывать. Я говорил, что не знаю людей, которые знают, "почему" они работают. Людей, которые знают, "как" — сотни (а может десятки тысяч, но тут не уверен). И предлагал вам обсуждать именно "как".


                                                                                                                                        Пример, как работают свёртки, был дан выше (есть и другие материалы по этой теме, возможно более подходящие). Если вы внимательно прочитаете, вы тоже будете знать, как достичь position shift invariance в нейронной сети. Или можете продолжать настаивать, что вы не знаете, как это сделать.


                                                                                                                                        Остальное не интересно. Если вы настаиваете на своем непонимании — ваше право, мне без разницы.

                                                                                                                                          –1
                                                                                                                                          Не бывает моделей без параметров. Курьер/не курьер — это параметр.

                                                                                                                                          Конечно, речь о том, что некоторыми параметрами, да и вообще в принципе некоторыми свойствами моделируемой системы, мы намеренно пренебрегаем. Именно по-этому модель — это, собственно, модель, а не сама моделируемая система.


                                                                                                                                          Если вы сможете подтвердить это ссылками, буду искренне благодарен

                                                                                                                                          См. выше — это включает понятие модели само по себе.


                                                                                                                                          "Доставлена" — видимо вы говорите о событии в прошлом. Такое событие конечно либо 0%, либо 100%. Всегда. Нас интересует событие в будущем.

                                                                                                                                          А событие в прошлом и будущем — это одно и то же событие в рамках конкретного вероятностного пространства, так что его вероятность никак не может поменяться во времени.


                                                                                                                                          Это, впрочем, как раз не важно, вы почему-то откомментили несущественный для разговора момент но пропустили существенную часть — там, где я объяснял, что вы неверно сформулировали утверждение.


                                                                                                                                          Я говорил, что не знаю людей, которые знают, "почему" они работают. Людей, которые знают, "как" — сотни (а может десятки тысяч, но тут не уверен).

                                                                                                                                          А какая разница между "как" и "почему"? Вы какой-то софистикой занимаетесь. На мой взгляд — это ровно одно и то же. По-этому "никто не знает, почему работают нейросети" = "никто не знает, как работают нейросети".
                                                                                                                                          Ну это с-но не важно, окей, допустим вы интерпретируете "как" как-то иначе, пусть, ну вроде как — никто не знает, почему написанная таким-то автором книга стала шедевром, но при этом понятно КАК он ее написал (тыкал пальцем по клавиатуре, ну или определенным образом пером бумагу шкрябал, если брать более ранний период), и в итоге так и останавливаемся на том, что разработка нейросетей — в точности такая же инженерная дисциплина, как литература, живопись, или музыка.
                                                                                                                                          Музыка, кстати, лучший пример — там есть весьма глубокая тональная теория, которая описывает, какие конкретно звуки нравятся человеку и как их следует совмещать друг с другом, кроме того — есть еще и достаточно годные гипотезы (пусть и гипотезы, но они есть), которые достаточно содержательно объясняют ПОЧЕМУ это так. То есть музыка на данный момент — строго более инженерная дисциплина (если под "уровнем инженерности" подразумевать уровень понимания, почему и как что-то работает), чем нейросети, если уж объективно смотреть.
                                                                                                                                          Так что, поздравляю, вы объявили музыкантов инженерами.

                                                                                                                                            –1
                                                                                                                                            А событие в прошлом и будущем — это одно и то же событие в рамках конкретного вероятностного пространства, так что его вероятность никак не может поменяться во времени.

                                                                                                                                            Вы хоть раз слышали про априорные и апостериорные вероятности?

                                                                                                                                              0
                                                                                                                                              Вы хоть раз слышали про априорные и апостериорные вероятности?

                                                                                                                                              Апостериорная вероятность условная, с-но она тут не при чем.

                                                                                                                                                –1
                                                                                                                                                Нет, именно они тут и «причем». Когда интересующее нас событие перестает быть «в будущем» и начинает быть «в прошлом» — у нас появляется некоторый известный факт. А значит, условное вероятностное пространство меняется, и апостериорные вероятности меняются вместе с ним.
                                                                                                                                                  –1
                                                                                                                                                  А значит, условное вероятностное пространство меняется, и апостериорные вероятности меняются вместе с ним.

                                                                                                                                                  Апостериорные могут сколько угодно меняться, нас это совершенно не интересует, т.к. мы эти вероятности не рассматриваем. Нас волнует вероятность событий сама по себе, не условная.

                                                                                                                                                    0

                                                                                                                                                    Нет, судя по вот этой цитате, вас интересуют именно апостериорные:


                                                                                                                                                    Любая такая вероятность либо 100%, либо 0%, потому что конкретная посылка совершенно точно либо доставлена либо не доставлена конкретным человеком.

                                                                                                                                                    Потому что априорные вероятности рассматриваемых событий не могут быть равны ни 0, ни 100%.

                                                                                                                                              0
                                                                                                                                              некоторыми свойствами моделируемой системы, мы намеренно пренебрегаем

                                                                                                                                              Вот именно. Параметры есть, но не все возможные, а существенные. Я ещё неделю назад попросил вас дать список существенных параметров для этой вашей модели. Он что, только один? Курьер/не курьер? А если у него сегодня первый день работы — это тоже не параметр? Не существенно? А сумма, которую платят за доставку — не существенно? Всё равно курьер надёжнее, чем не курьер?


                                                                                                                                              См. выше — это включает понятие модели само по себе.

                                                                                                                                              Вы подтвердили, что параметр есть. Пусть даже он в вашей тривиальной модели всего один. Просьба по возможности формулировать чуть точнее, а не в стиле "суть модели как раз в том, чтобы не знать параметры".


                                                                                                                                              А событие в прошлом и будущем — это одно и то же событие в рамках конкретного вероятностного пространства, так что его вероятность никак не может поменяться во времени.

                                                                                                                                              То есть вероятность дождя 8-го сентября либо 100%, либо ноль? И эта вероятность никак не поменяется спустя пару дней? Вы тщательно обдумали этот довод?


                                                                                                                                              откомментили несущественный для разговора момент но пропустили существенную часть 

                                                                                                                                              Это очень существенный момент. Он важен для процесса рассуждения, но проще объяснить сам момент, чем то, как он будет влиять на дальнейший диалог.


                                                                                                                                              Вероятности меняются со временем, есть вероятность не только для категорий, но и вероятность единичного события. Обратите внимание на вероятность дождя. Вероятность завтрашнего дождя (8-го числа) сегодня и послезавтра одинакова? Она больше нуля? Она меньше 100%?


                                                                                                                                              Это, опять же, не какая-то эзотерика или альтернативщина, это вообще-то common knowledge. Probability of a single event отнють не является либо 0, либо 100.


                                                                                                                                              Далее. Суть не в том, что я сформулировал неверно. Формулировка конечно верная по форме. Просто вы говорите, что это утверждение вы не поддерживали, а поддерживаете другое.


                                                                                                                                              Р(D|X) > P(D|Y), где D — событие доставки, X — доставщик курьер, Y — доставщик не курьер.

                                                                                                                                              Хорошо, так можно. Если вы скажете — я вывел это из наблюдений за людьми, плюс у меня есть более сложная модель (с желанием денег, согласием на работу и т.п.), которая тоже в целом соответствует наблюдениям — я с вами соглашусь. Не 100% надёжно, но вполне приемлимо.


                                                                                                                                              Но вы стали утверждать не это! Вы утверждали, что наблюдения не нужны, а Р(D|X) > P(D|Y) вы сможете доказать строго как теорему. Вот это — неверно. Не получится. Если не согласны — продемонстрируйте доказательство.


                                                                                                                                              А какая разница между "как" и "почему"? Вы какой-то софистикой занимаетесь

                                                                                                                                              Если никакой, давайте остановимся на слове "как"? Вам всё равно, а мне удобнее. Никакую софистику по этому поводу разводить не будем.


                                                                                                                                              Я ещё раз обращу ваше внимание (вы проигнорировали) на position shift invariance. Есть люди, которые знают, как достичь этого свойства в нейросети при распознании изображений. Есть работы, где описывается, как это сделать. Совсем не монетка. Если с этим доводом что-то не так — аргументируйте.

                                                                                                                                                –1
                                                                                                                                                Вот именно. Параметры есть, но не все возможные, а существенные. Я ещё неделю назад попросил вас дать список существенных параметров для этой вашей модели. Он что, только один?

                                                                                                                                                Поскольку мы один параметр и рассматриваем — ну да, один. Зачем нам другие и на что они могут в принципе повлиять?


                                                                                                                                                А если у него сегодня первый день работы — это тоже не параметр?

                                                                                                                                                А почему это может быть существенно, если мы смотрим по всем курьерам? Мы же говорим не о ком-то конкретном. Обо всех. Туда входят и те, что первый день работают и те, что не первый. Те, кому платят много и те, кому платят мало. Нас не волнует вероятность доставки конкретным курьером, мы ее не обсуждаем, нам она неинтересна. Мы говорим об интегральном показателе.


                                                                                                                                                Вы подтвердили, что параметр есть. Пусть даже он в вашей тривиальной модели всего один.

                                                                                                                                                Я и не говорил нигде, что параметров вообще не должно быть, вы как-то странно поняли.


                                                                                                                                                То есть вероятность дождя 8-го сентября либо 100%, либо ноль? И эта вероятность никак не поменяется спустя пару дней?

                                                                                                                                                Конечно, дождь, совершенно точно, либо произойдет, либо нет. То, что вы не знаете, как оно будет — это уже другое дело. Я, например, если монетку подкинул и закрыл глаза — то тоже не знаю, чем там она выпала. Хотя чем-то же выпала, вполне определенно.


                                                                                                                                                Это очень существенный момент. Он важен для процесса рассуждения

                                                                                                                                                Вообще-то он никак не влияет на дальнейшее рассуждение. Он совершенно отдельно.


                                                                                                                                                Вероятности меняются со временем

                                                                                                                                                В вероятностном пространстве нету вообще такого понятия, как время. Возьмем ту же монетку, вам дано множество {орел, решка}, сигма-алгебра подмножеств на нем: {{орел, решка}, {орел}, {решка}, {}} и конечная, конечно-аддитивная мера, отнормированная на единицу:
                                                                                                                                                P({орел, решка}) = 1
                                                                                                                                                P({орел}) = 1/2
                                                                                                                                                P({решка}) = 1/2
                                                                                                                                                P({}) = 0
                                                                                                                                                никакого ВРЕМЕНИ и каких-то еще прочих бредней тут нет.


                                                                                                                                                Но вы стали утверждать не это! Вы утверждали, что наблюдения не нужны, а Р(D|X) > P(D|Y) вы сможете доказать строго как теорему.

                                                                                                                                                Ну так еще раз:


                                                                                                                                                1. люди, которые, в среднем, более заинтересованы в выполнении задачи, выполняют задачу в среднем лучше, чем те, что заинтересованы меньше
                                                                                                                                                2. курьеры в среднем заинтересованы в доставке посылки больше, чем некурьеры

                                                                                                                                                => в среднем курьеры выполняют задачу доставки посылки лучше


                                                                                                                                                Если никакой, давайте остановимся на слове "как"? Вам всё равно, а мне удобнее.

                                                                                                                                                Давайте по порядку:


                                                                                                                                                1. вы согласны с тем, что никто не знает, почему
                                                                                                                                                2. я согласен с тем, что кто-то знает, как (в вашем понимании "как")
                                                                                                                                                  верно?
                                                                                                                                                  тогда давайте перейдем к следующему тезису

                                                                                                                                                Совсем не монетка.

                                                                                                                                                Литература — тоже не монетка, но при этом не является инженерной дисциплиной.
                                                                                                                                                С-но и вот следующий мой тезис — разработка и обучение нейронных сетей — не инженерная дисциплина. Потому что для того, чтобы быть инженерной дисциплиной, не достататочно понимания "как" (иначе бы инженерной дисциплиной была литература или музыка), но нужно еще понимание "почему", причем достаточно глубокое (см. тот же пример с музыкой — понимание "почему" есть, но не достаточно глубокое).

                                                +1
                                                Новых идей в обучении нейросетей не было уже 50 лет, со времен появления персептрона Розенблатта

                                                Рекуррентные сети — 1980. Энкодеры — конец 80-ых. Свёрточные сети — 1988. LSTM — 1997. GRU — 2014. GAN — 2014.
                                                Да что там говорить, backprop в современном виде был описан только в 1986 году.
                                                Да, не всё из этого про «обучение нейросетей», но, например, backprop и BPTT, а также GANы — это именно про оптимизацию.
                                                А я ведь сейчас прошёлся только по самым известным и высокоуровневым штукам.
                                                Говорить, что после персептрона Розенблатта ничего не появилось — это мягко говоря преувеличение.
                                                  0
                                                  Новых идей в обучении нейросетей не было уже 50 лет, со времен появления персептрона Розенблатта.

                                                  Новых идей космонавике не было со времен многоступенчатой ракеты К.
                                                  Семеновича в 17 веке!
                                                  В машинном обучении куча новых идей. Я уж даже не говорю, что к одним нейронным сетям оно вообще-то не сводится.
                                                    –1
                                                    Я уж даже не говорю, что к одним нейронным сетям оно вообще-то не сводится.

                                                    Об ML никто не говорил, мы конкретно нейросети обсуждаем.
                                                    Так можете какие-то конкретные новые идеи в области нейронных сетей за последние 50 лет назвать?
                                                    А то это очень странно — все говорят, что идеи есть, но назвать ни одной не могут.

                                                      +1
                                                      Вам их уже назвали выше. Вы их просто проигнорировали. Ганы и другие генеративные модели (FLOW, Vae), капсульные сети, сверточные сети, дифференцируемый нейрокомпьютер и нейронная машина Тьюринга
                                                      Кучи новых алгоритмов оптимизаторов как Adam, например.
                                                        0
                                                        Ганы и другие генеративные модели (FLOW, Vae), капсульные сети, сверточные сети,

                                                        Было описано у Розенблатта. Или с тех пор появились какие-то новые результаты, доказаны новые важные теоремы о свойствах таких сетях? Можно примеры? Я бы с удовольствием ознакомился.


                                                        дифференцируемый нейрокомпьютер и нейронная машина Тьюринга

                                                        Ну здесь можно в какой-то мере согласиться.


                                                        Кучи новых алгоритмов оптимизаторов как Adam, например.

                                                        Adam сам по себе к нейронным сетям никакого отношения не имеет, по такой логике можно "прорывом в области нейросетей" назвать любой новый эффективный метод оптимизации. Видимо, остальная "куча новых алгоритмов" попадает туда же.

                                                          0
                                                          Было описано у Розенблатта.

                                                          ГАНы были описаны у Розенблатта?
                                                          Я конечно не спец, но везде написано, что их описал в 2014 году Гудфеллоу.
                                                          Капсульные сети предложил Хинтон и его команда в 2017 году.
                                                          Про аутоэнкодеры я не знаю, но не думаю, что они были у Розенблатта.
                                                          Или с тех пор появились какие-то новые результаты

                                                          Ну например были открыты adversarial attacks. Это было довольно неожиданное открытие. И сейчас это активно изучается.
                                                          по такой логике можно «прорывом в области нейросетей» назвать любой новый эффективный метод оптимизации.

                                                          Я не называл это прорывом в области нейросетей. Это просто новый алгоритм оптимизации в области машинного обучения. Как раз в нейросетях применяется регулярно. А во времена Розенблатта такого алгоритма не было.

                                                            –1
                                                            ГАНы были описаны у Розенблатта?
                                                            Я конечно не спец, но везде написано, что их описал в 2014 году Гудфеллоу.
                                                            Капсульные сети предложил Хинтон и его команда в 2017 году.
                                                            Про аутоэнкодеры я не знаю, но не думаю, что они были у Розенблатта.

                                                            Все эти сети попадают в тот или иной класс, описанный у Розенблатта. Немного тонкий вопрос с ганами — в прямом виде их нет, но пару из состязательных сетей можно заменить одной эквивалентной сетью.


                                                            Я не называл это прорывом в области нейросетей. Это просто новый алгоритм оптимизации в области машинного обучения. Как раз в нейросетях применяется регулярно.

                                                            Давайте договоримся, мы говорим конкретно о нейронных сетях. Просто универсальные математические алгоритмы, применимые, в силу универсальности, к нейронным сетям не относятся к разговору.


                                                            Ну например были открыты adversarial attacks. Это было довольно неожиданное открытие.

                                                            Серьезно, неожиданно? Нет, штука конечно интересная и прикольная, тут я без вопросом соглашусь, но как и для кого может быть неожиданным факт невозможности построить гомеоморфизм между пр-вами разной размерности?

                                                              +1
                                                              Все эти сети попадают в тот или иной класс, описанный у Розенблатта.

                                                              Нет не попадают. Розенблат придумал перцептрон. Если у вас есть докозательства, что он описал что-то похожее на вариационные аутоэнкодеры или капсульные сети, то покажите где это описано. Было бы интересно, узнать мнение Хинтона по вопросу, что все что он придумал за свлю жизнь «было описано у Розенблата»
                                                              Серьезно, неожиданно? Нет, штука конечно интересная и прикольная, тут я без вопросом соглашусь, но как и для кого может быть неожиданным факт невозможности построить гомеоморфизм между пр-вами разной размерности?

                                                              Как именно гомеоморфизмы между пространствами разной размерности связаны с adversarial attacks?
                                                              И если это так тривиально, то почему статья в которой они были описаны называется «Intriguing properties of neural networks» а не «Trivial properties of neural networks»?
                                                              Статья кстати заканчивается так «We demonstrated that deep neural networks have counter-intuitive properties both with respect to the semantic meaning of individual units and with respect to their discontinuities. The existence of the adversarial negatives appears to be in contradiction with the network’s ability to achieve high generalization performance.» Как то не похоже на очевидный и всем известный феномен.
                                                                –2
                                                                Нет не попадают. Розенблат придумал перцептрон.

                                                                Он придумал нейронные сети в принципе и назвал их "перцептрон". "Просто перцептрон Розенблатта" (без уточнений, какой именно) — это "просто нейронная сеть". Любая.


                                                                Как именно гомеоморфизмы между пространствами разной размерности связаны с adversarial attacks?

                                                                Напрямую. Любая "неполная" (в том смысле, что неспособна в силу недостатка количества нейронов распознать полный набор стимулов — то есть в общем-то все применяемые на данный момент сети как раз в этом смысле неполные) выполняет проекцию из пр-ва высшей размерности в пр-во низшей. Гомеоморфизма между ними нет в принципе. Кроме гомеоморфизма нам еще подойдет просто непрерывное вложение — но непрерывных вложений сильно меньше по сравнению с разрывными. Иными словами — чтобы сеть сошлась к непрерывному вложению должно очень и очень сильно повезти, и никаких внешних причин для такого везения — нет.
                                                                Почему для кого-то стал неожиданным тот факт, что не реализовался сценарий, вероятность которого крайне мала и которому нет никаких причин реализовывать — мне искренне непонятны, это вы не у меня спрашивайте. Действительно странной (и удачной) была бы как раз обратная ситуация.
                                                                Можно лишь сказать, что:


                                                                The existence of the adversarial negatives appears to be in contradiction with the network’s ability to achieve high generalization performance.

                                                                на ТАКОМ уровне рассуждения (просто словами, без четкого смысла) действительно может много чего быть неожиданно, с математической же точки зрения — неожиданностей никаких.

                                                                  +1
                                                                  Он придумал нейронные сети в принципе и назвал их «перцептрон». «Просто перцептрон Розенблатта» (без уточнений, какой именно) — это «просто нейронная сеть». Любая.

                                                                  Казимир Семенович придумал многоступенчатую ракету. С 17 века в ракетостроении не придумали ничего нового.
                                                                  Напрямую. Любая «неполная» (в том смысле, что неспособна в силу недостатка количества нейронов распознать полный набор стимулов — то есть в общем-то все применяемые на данный момент сети как раз в этом смысле неполные) выполняет проекцию из пр-ва высшей размерности в пр-во низшей. Гомеоморфизма между ними нет в принципе. Кроме гомеоморфизма нам еще подойдет просто непрерывное вложение — но непрерывных вложений сильно меньше по сравнению с разрывными. Иными словами — чтобы сеть сошлась к непрерывному вложению должно очень и очень сильно повезти, и никаких внешних причин для такого везения — нет.

                                                                  Вы мне напоминаете философов, которые используют математические термины безо всякого смысла, чтобы запудрить мозги читателю. Например, Лакан рассказывал, что шизофрения имеет топологию тора и так далее. Какие такие наборы стимулов? Что значит распознать их? А SVM эти загадочные наборы может «распознать» или рэндом форест? С какой это стати сети выполняют проекцию из пространства высшей размерности в низшую? Ну есть такая штука как dimensionality reduction. Только к нейросетям она отношения не имеет.
                                                                  Почему для кого-то стал неожиданным тот факт, что не реализовался сценарий, вероятность которого крайне мала и которому нет никаких причин реализовывать — мне искренне непонятны, это вы не у меня спрашивайте.

                                                                  Вы сейчас с пафосом рассказываете, что вы умнее, чем Ян Гудфеллоу. Беда в том, что это выглядит несколько самонадеянно.
                                                                  на ТАКОМ уровне рассуждения (просто словами, без четкого смысла) действительно может много чего быть неожиданно,

                                                                  Ну вы можете почитать статью, если хотите. Она доступна на архиве. Я же просто вывод в заключении привел.
                                                                    0
                                                                    Вы мне напоминаете философов, которые используют математические термины безо всякого смысла, чтобы запудрить мозги читателю.

                                                                    Если вы не понимаете математических терминов на уровне первого курса матфака — это же ваша проблема, а не моя, разве нет?
                                                                    Я думал, вы имеете какой-то базовый набор знаний, сразу бы предупредили, что нет.


                                                                    С какой это стати сети выполняют проекцию из пространства высшей размерности в низшую?

                                                                    Ну это даже не смешно. Не вижу смысла разговор продолжать. Вы себя выше вроде за такого специалиста выставляли, а в итоге не знаете даже самых базовых вещей. Естественно, для вас будут всякие "неожиданности".

                                                                      0
                                                                      Ну вы можете почитать статью, если хотите.

                                                                      Ну окей, я не поленился, в самой же статье в п.4.3 делается анализ неустойчивости (причем вполне себе тривиальный анализ, буквально в пару строк), где получены оценки, согласно которым нет никаких причин полагать, что сети устойчивы.


                                                                      Для меня теперь стало все еще более непонятно — каким образом один и тот же человек в одной и той же статье называет явление "неочевидным и неожиданным", а потом там же при помощи несложных математических выкладок показывает, что ничего неожиданного в этом нет.

                                                –2
                                                Качество игры отдельного бота не равно качеству игры команды ботов. Вполне может даже оказаться, что попытка максимизировать качество на отдельном персонаже давала просадку метрики по команде в целом.
                                                Может в какой-то другой игре, но не в Доте.
                                                  0
                                                  В ML надо все проверять, интуиция ОЧЕНЬ часто подводит.
                                                  Нам кажется, что надо каждому игроку играть лучше, а обученная модель спокойна могла получить процент побед с более слабым middle персонажем в 76% против 67% с более сильным, но при изменненных других параметрах.
                                                  Задача модели это иметь как можно лучшую заданную метрику, а она может оказаться
                                                  1. довольно хитрой или комбинацией нескольких
                                                  2. не коррелировать с нашей интуицией.

                                                  Те же шахматисты подскажут, что модель часто делает шаги контринтуитивные шаги, но они оказываются выигрышными.
                                                    0
                                                    Нам кажется, что надо каждому игроку играть лучше, а обученная модель спокойна могла получить процент побед с более слабым middle персонажем в 76% против 67% с более сильным, но при изменненных других параметрах.

                                                    Так я же об этом и говорю. Для того, чтобы обучить бота играть более универсально, приходится ухудшить более специфичные навыки. В итоге чем больше мы будем обучать, тем хуже бот будет играть.

                                                      0
                                                      Не факт. Затем мы можем продолжить обучать модель и «сильный мид» (еще бы формализовать эту метрику) вновь окажется выигрышным в обучении фактором. И получим условные 81% побед с сильным игроком в середине.
                                                        0
                                                        Не факт. Затем мы можем продолжить обучать модель и «сильный мид» (еще бы формализовать эту метрику) вновь окажется выигрышным в обучении фактором.

                                                        Но сеть то уже не сможет играть сильно на миде, не влезет в нее.

                                                          0
                                                          Почему вы так решили?
                                                            0

                                                            Ну так из примера выше. Была сеть, которая умела стоять на миде, стала — та, которая разучилась.
                                                            Поскольку навык стояния на миде качество игры не может уменьшить никак, то может такое возникнуть только в том случае, если "разучиться" требуется, чтобы научиться чему-то другому.

                                                              0
                                                              Навык этот окажется активностями, возможно, тысяч нейронов во множестве сетей. Так что штука не бинарная ВКЛ/ВЫКЛ.
                                                                0
                                                                Навык этот окажется активностями, возможно, тысяч нейронов во множестве сетей. Так что штука не бинарная ВКЛ/ВЫКЛ.

                                                                Так речь и не идет о есть/нету, речь о качестве навыка (хорошо/плохо с практически непрерывным спектром).

                                                                  0
                                                                  Как насчет такого варианта: нынешняя сеть играет сразу всей командой, а не только на миде. Допустим, она решает, что есть смысл чуточку слить мид, чтобы спровоцировать человека на агрессивное поведение, которое в итоге выливается в большие локальные победы за счет лучше откормленных (и менее тормозных) саппортов. Именно то, о чем говорили выше в нескольких комментариях: контринтуитивные шига, которые в итоге приводят к желаемому результату.
                                                                    0
                                                                    Зачем, имея более откормленных саппортов, что-то сливать, если можно идти в атаку? о_О А если человек просто заберет мид и уйдет в лес качаться, то ИИ будет сидеть как дурак без мида?
                                                                      –1
                                                                      . Допустим, она решает, что есть смысл чуточку слить мид

                                                                      Нет, не может быть в доте никакого смысла слить мид. Никак и никогда. Дота так не работает.
                                                                      Не надо обманываться, это никакой не контринтуитивный шаг, а просто бот разучился тащить на миде. Такой же косяк, как свен, разменивающий себя в т2, даблшрапнель снайпера и т.п. вещи.


                                                                      в большие локальные победы за счет лучше откормленных (и менее тормозных) саппортов

                                                                      От слива мида сапортам будет хуже, а не лучше.

                                                        0
                                                        обученная модель спокойна могла получить процент побед с более слабым middle персонажем в 76% против 67% с более сильным
                                                        Откуда информация? С кем играла обученная модель и сколько раз? Что понимается под «сильным» мид персонажем?
                                                          0
                                                          Вот именно про это я и говорю.
                                                          Мы не можем сказать, какие свойства окажутся выигрышными для какой модели заранее. Если бы могли, то нам был бы ML и DL не нужен, мы бы просто писали линейные алгоритмы, которые дофига умны.
                                                            0
                                                            Мы не можем сказать, какие свойства окажутся выигрышными для какой модели заранее.

                                                            Нет, мы можем, потому что знаем, как игра устроена.

                                                              0
                                                              ОК. шахматисты тоже так думали.
                                                                +1

                                                                Так ведь и правильно думали, разве нет? Никаких неожиданностей нейросети в шахматы не принесли.

                                                              0
                                                              Ахаха, вы просто напарываетесь на бритву Оккама, пытаясь приписать маловероятным сценариям наиболее вероятные шансы, не более того. Говорю вам как человек, который убил лучшие годы студенчества на Доту.

                                                              Доте нужен ИИ только для того чтобы разработать стратегию взаимосвязанных действий 5 персонажей на карте (т.е. принять решение, когда идти в атаку, когда зачищать лес, когда уйти в оборону, когда сосредоточиться на заработке золота и т.д.). Это нетривиальная проблема, а то что касается отдельных битв, которые уже начались, тут задача сводится чуть ли не элементарному решению (битвы легко просчитываются, т.к. скилов и возможных действий у героев не много).
                                                                0
                                                                Говорю как человек убивший пару лет на DL :)
                                                                  0
                                                                  Говорю как человек убивший пару лет на DL :)

                                                                  Быть специалистом предметной области полезнее в данном случае, чем знать DL.
                                                                  Да и вообще всегда полезнее.

                                                                    0
                                                                    По вашей же логике: что если ваш опыт игры в DL имеет обратно пропорциональное влияние на вашу способность разбираться в механике Доты? Ведь это, на минуточку, разные игры со своими особенностями. Вполне возможно, что не будь у вас 2-летнего опыта, сейчас бы вы имели другое, более корректное мнение :)
                                                                      0
                                                                      Понимаете, вы говорите о том, что пачка экспертов способны сделать «умную» модель, ибо разбираются в вопросе.
                                                                      Это уже проходили. Экспертные системы заняли свою узкую нише и не более. В мире ML подобные рассуждения не работают.
                                                                        0
                                                                        Понимаете, вы говорите о том, что пачка экспертов способны сделать «умную» модель, ибо разбираются в вопросе.

                                                                        Нет, мы говорим о том, что эксперты обычно знают некоторые вещи, которые гарантированно правильны. Например, эксперт в шахматах знает, как ставить детский мат. И что надо сделать, чтобы его гарантированно не поставили.
                                                                        Есть просто некоторые вещи которые очевидно верны, в силу просто того как устроена игра. Например, в случае доты, абсолютно во всех практически осуществимых случаях при прочих равных лучше заработать больше золота и голды на команду, чем меньше (или не дать заработать противнику, например). Ситуация в которой это не так, практически неосуществима просто в силу игровой механики. Это утверждение из разряда того, что бкб работает 10-5 секунд. Ну вот столько оно работает иничегонисделать.

                                                                          0
                                                                          эксперты обычно знают некоторые вещи, которые гарантированно правильны

                                                                          Не так. Эксперты знают некоторые вещи, которые работают для них. Это не значит что они гарантировано правильны.


                                                                          Например, в случае доты, абсолютно во всех практически осуществимых случаях при прочих равных лучше заработать больше золота и голды на команду, чем меньше

                                                                          Это очевидно не так. Выиграв на 10 минут быстрее можно заработать заметно меньше золота за игру. Станете утверждать что выиграть на 10 минут раньше — хуже чем на 10-20-30 позже? Можно еще придумать ситуации когда лучше пойти и продавить линию чем разбежаться на фарм. Или такого тоже никогда не случается и нужно фармить как можно больше?

                                                                            0
                                                                            Это очевидно не так. Выиграв на 10 минут быстрее можно заработать заметно меньше золота за игру. Станете утверждать что выиграть на 10 минут раньше — хуже чем на 10-20-30 позже?
                                                                            Очевидно, что у вас неправильно задана целевая функция: вопрос не во времени или золоте, а в наборе действий, при которых шанс на победу будет максимальным. С более лейтовым составом высока вероятность, что пойти заработать золота будет менее рискованно, чем пытаться закончить матч сразу.
                                                                              0

                                                                              Это не у меня задана целевая функция неправильно, а у комментатора которому я отвечаю. И я пытался сказать именно то, что говорите и вы.

                                                                              0
                                                                              Не так. Эксперты знают некоторые вещи, которые работают для них. Это не значит что они гарантировано правильны.

                                                                              Нет, именно гарантированно правильны. В принципе, объективно, для всех.


                                                                              Это очевидно не так.

                                                                              Это, очевидно, так.


                                                                              Выиграв на 10 минут быстрее можно заработать заметно меньше золота за игру.

                                                                              Вы намеренно опустили "при прочих равных"? Не существует такого варианта, где вы при прочих равных зарабатывая больше золота выигрываете игру позже.
                                                                              Т.к. вы можете просто совершать все те же самые действия, не обращая внимания на то, что лишнее золото у вас есть (и, с-но, выигрываете игру ровно в тот же момент, как если бы золота у вас не было). То есть это, как минимум, не ухудшает вашей ситуации, но при этом дает вам возможность делать некоторые действия, которые без золота вы бы делать не могли (то есть ситуацию потенциально улучшает).
                                                                              Есть конечно нюанс — это механика расчета золота за убийство, но чисто математически то, что вы таким образом бонусно получите, абсолютно всегда будет меньше того, что получил ваш противник.


                                                                              Станете утверждать что выиграть на 10 минут раньше — хуже чем на 10-20-30 позже?

                                                                              Это не лучше и не хуже, это одинаково (а для бота играющего против игроков — чем позже тем лучше, как раз, т.к. бот в отличии от человека не выматывается, а дота когнитивно дает очень большую нагрузку). В доту играют не на время.
                                                                              И, да, имея преимущество, его обычно наращивают — забирают товера, дофармливают нужные айтемы, забирают рошана, и уже потом идут пушить наверочку, на 10-20-30 минут позже. Но зато с бОльшими гарантиями успеха.

                                                                                –1
                                                                                Не существует такого варианта, где вы при прочих равных зарабатывая больше золота выигрываете игру позже.

                                                                                То есть вариант сидеть в защите пока часть команды фармит и выиграть в эндгейме не существует? Всегда идет раш с самого старта? Мне кажется вы либо не разбираетесь в теме, либо уперлись и в упор не видите ошибок в своих рассуждениях. При каких прочих равных? При всех? Но при всех прочих равных у ваас и золота будет одинаково, невозможно зарабатывать больше золота делая то же самое. А значит количество золота зависит от выбранной стратегии, от конкретных действий в каждый конкретный момент. И вариантов как можно заработать больше золота в ущерб другим параметрам — масса.

                                                                                  +1
                                                                                  То есть вариант сидеть в защите пока часть команды фармит и выиграть в эндгейме не существует?

                                                                                  Вы о чем?


                                                                                  Мне кажется вы либо не разбираетесь в теме, либо уперлись и в упор не видите ошибок в своих рассуждениях.

                                                                                  Вы просто не можете понять, что вам пишут.


                                                                                  При каких прочих равных? При всех?

                                                                                  Да, при всех.


                                                                                  Но при всех прочих равных у ваас и золота будет одинаково, невозможно зарабатывать больше золота делая то же самое.

                                                                                  Конечно можно! Если вы выигрываете мид, то вы получаете больше золота/опыта при прочих равных


                                                                                  И вариантов как можно заработать больше золота в ущерб другим параметрам — масса.

                                                                                  Конечно же, их масса! Но если вы выигрываете мид, а не сливаете — вы зарабатываете больше золота без ущерба каким-то другим параметрам.
                                                                                  И вы этого никак не хотите понять.
                                                                                  У того, что вы выигрываете мид — нет никаких возможных негативных последствий.
                                                                                  Речь ведь даже не о том, что вы можете либо стоять и тащить мидл, либо пойти гангать, нет — речь именно о стоянии на миде, где вы либо забираете больше крипов и гнобите противника, либо нет. В первом случае вы не жертвуете абсолютно ничем, вы просто получаете больше к моменту Х, и это никак не влияет на то, что происходит на остальной карте.


                                                                                  Вы сейчас полагаете что бот какой-то сверхумныйй и делает какие-то сверхгениальные вещи. Это не так. Текущий бот (если посмотреть игру) — довольно глуп, часто тупит, очень плох в макроигре, единственное что у него действительно хорошо выходит — это стак скилов в замесах.
                                                                                  Так что глупость бота в данном случае — это именно глупость бота, а не какой-то хитрый план, что "иначе было бы хуже".

                                                            0
                                                            в доте — равно.
                                                            идеально играющий инвокер может удержать от проигрыша и выиграть игры практически сам.
                                                            в ЛоЛе — нет, там концепция игры совершенно другая
                                                              0
                                                              У вас есть вся полнота ститискими обучения той модели бота, чтобы такое утверждать?
                                                                0
                                                                Идеально играющий инвокер ничего не сможет сделать против своей прямой контры. Ему нужны сапорты, а откуда они возьмутся в команде оптимизирующих личную эффективность ботов?
                                                                  0
                                                                  Идеально играющий инвокер ничего не сможет сделать против своей прямой контры.

                                                                  Это какой? ;)


                                                                  Ему нужны сапорты

                                                                  В том случае, если сапорты противника на миде поселятся. А иначе — отъестся на мидере противника и начнет нагибать всю карту с 10 минуты.

                                                                    0
                                                                    Мидер противника может и не позволить на себе отъесться…

                                                                    А еще тут могут и свои тиммейты «помочь» — они же тоже личную эффективность оптимизируют! Курьера отобрать, например. Или просто тоже прийти на мид.
                                                                      –1
                                                                      Мидер противника может и не позволить на себе отъесться…

                                                                      Мы же говорим о ситуации, когда скил инвокера значителньо выше.


                                                                      А еще тут могут и свои тиммейты «помочь» — они же тоже личную эффективность оптимизируют! Курьера отобрать, например. Или просто тоже прийти на мид.

                                                                      Давайте ближе к реальности все-таки ;)

                                                                      0
                                                                      Практически любому мидеру. Инвокер один из слабейших героев в миде на самом деле.
                                                                        –2

                                                                        Мы же не про мид а про контру по игре. Законтрить хорошего инвокера в целом именно через мидера — задача практически нереальная.

                                                                0
                                                                У меня сложилось впечатление, что хотели сделать матчи зрелищными, а не уничтожение людей, учитывая игроков, которых valve выбрали играть. Вы только представьте, как бы это смотрелось, играй все 5 ботов как тот с мида ;)
                                                                  +1

                                                                  Тогда лучше бы было дать стимул на победу, чтобы игроки всерьез играли :)

                                                                    0
                                                                    С другой стороны закрадывается мысль, что бот реально слабоват.
                                                                    В общем как по мне, получилось, какое-то двоякое впечатление. Вроде и круто, что команда разработчиков так продвинулась за год, а с другой стороны не понятен выбор игроков и их отношение к игре.
                                                                    То есть, если в том году, каждый хотел попробовать выиграть того бота на миде, то здесь получился какой-то вялый эффект :(
                                                                      0
                                                                      С другой стороны закрадывается мысль, что бот реально слабоват.

                                                                      Ну я об этом ниже говорил, игра вышла не показательной из-за плохой игры людей. Если Денди год назад против бота нормально отыграл и уровень бота был виден, то тут ничего не понятно.

                                                                  0
                                                                  Вы не заметили ограничения на реакцию в 200 мс? Это между прочим почти вдвое больше, чем реакция опытного игрока.
                                                                  Одного этого ограничения достаточно, чтобы сильно порезать возможности ботов.

                                                                  Сделать, чтобы боты легко убивали человека 1 на 1 — несложно. Основная задача — научить их принимать долгосрочные тактические решения.
                                                                    0
                                                                    Вы не заметили ограничения на реакцию в 200 мс? Это между прочим почти вдвое больше, чем реакция опытного игрока.

                                                                    А вы сможете указать в каких моментах игры это порешало?
                                                                    Вы доте реакция (и вообще микро) не так важны как кажется.

                                                                      0
                                                                      В каждом моменте, где из кустов выходит герой, или когда игрок видит что-то появляющееся из тумана войны — это реакция.

                                                                      Каждый раз в тимфайте, можно попытаться увернуться или побежать в определенном направлении и противник должен на это среагировать — это реакция.

                                                                      В любой игре реакция и микро важны, просто до определенного уровня. и 200 мс (целая пятая часть секунды) это уровень весьма средненького игрока.