Pull to refresh
28
0

Data Scientist

Send message

Sample-efficient reinforcement learning: пытаемся воспроизвести обучение в воображении

Reading time20 min
Views4.2K

Одна из крупных проблем обучения с подкреплением - это неэффективность по данным. Да, мы можем обучить нейросеть, которая будет играть в Пакмена лучше человека. Для этого ей потребуется сделать огромное, прямо-таки астрономическое число попыток. Для сравнения: мой кот тоже умеет разрабатывать сложные стратегии, и при этом ему не нужны тысячи повторений, чтобы обучиться чему-то элементарному.

В 2020 году Google выпустил статью “Dream to control: learning behaviours by latent imagination”. В статье описывался новейший алгоритм обучения в подкреплением - Dreamer. Алгоритм примечателен тем, что относительно быстро выучивает выигрышную стратегию - совершая относительно мало взаимодействий со средой.

После этого я очень захотел свой собственный Dreamer - желательно не как у гугла, а лучше. Кроме того, по математическому описанию код можно написать сильно по-разному - я хотел понять, какие есть подводные камни.

Дисклеймер:

Я не пытаюсь сделать ИИ похожим на человека, я не утверждаю, что нейросети похожи на нервную систему каких-либо организмов. По моему опыту, машинное обучение обычно превосходит человека в тех задачах, где есть бигдата и легко проверяемая функция ошибки. Большинство известных мне исключений связаны с тем, что либо эволюция предобучила человека на огромном датасете, либо в детстве человек собрал огромную статистику. Как только задача требует непредвзятого универсального интеллекта - оказывается, что с хорошими шансами XGBoost работает точнее любого эксперта.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments73

Теория познания, основанная на поведенческих моделях

Reading time14 min
Views3.5K

Я не знаю, как она точно называется. Феноменология, эмпирио-критицизм, махизм - вот близкие течения. Ближе будет рациональность по Юдковскому. Формализация данной теории называется AIXI.

Идейно похоже на научный метод, но немножко шире. Придумал не я, лишь немного систематизирую и прохожусь по известным мне возражениям.

В какой-то мере данный подход альтернативен философским течениям материализма и идеализма, кроме того, он лежит в основе одной из теорий ИИ.

Читать далее
Total votes 9: ↑5 and ↓4+2
Comments13

Постановка задач для универсального интеллекта: у нас нет общего языка

Reading time12 min
Views5.5K

Итак, допустим, мечта сингуляристов исполнилась, и универсальный ИИ создан. Как заставить его делать именно то, что нужно?

Нынешние технологии уже позволяют создавать творческие и изобретательные “машины результатов”, которые находят решения, незаметные для людей. Но эти системы не понимают человеческих слов. А те ИИ, которые могут общаться текстом, как, например, GPT-3, не приспособлены к достижению целей, они не являются “машинами результатов”.

Кроме того, я намерен показать, какие есть проблемы с использованием reinforcement learning в продакшне, и как их можно обойти.

Читать далее
Total votes 7: ↑5 and ↓2+5
Comments122

Искусственный интеллект общего назначения. ТЗ, текущее состояние, перспективы

Reading time12 min
Views16K
В наше время словами «искусственный интеллект» называют очень много различных систем — от нейросети для распознавания картинок до бота для игры в Quake. В википедии дано замечательное определение ИИ — это «свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека». То есть из определения явно видно — если некую функцию успешно удалось автоматизировать, то она перестаёт считаться искусственным интеллектом.

Тем не менее, когда задача «создать искусственный интеллект» была поставлена впервые, под ИИ подразумевалось нечто иное. Сейчас эта цель называется «Сильный ИИ» или «ИИ общего назначения».
Читать дальше →
Total votes 24: ↑22 and ↓2+20
Comments63

Дрон боевой, полностью твой. Обучаем игровой AI методом перебора стратегий

Reading time13 min
Views14K
В продолжение статьи «Поиск в пространстве стратегий. AI водитель». Я сделал мини-игру жанра «файтинг», где обучаемый AI дерётся с другими, рукописными ботами, и разрабатывает стратегию победы методом проб и ошибок.
В этой игре дерутся два парня вроде такого:


Читать дальше →
Total votes 31: ↑30 and ↓1+29
Comments27

Learning to learn. Создаём self-improving AI

Reading time5 min
Views8.1K

Learning to learn


В этот раз я проводил эксперименты на тему learning to learn, то есть алгоритмов, которые могут учиться, как лучше учиться.

Цели эксперимента:

1) Создать алгоритм оптимизации, который можно некоторым стандартным способом приспособить к любой оптимизационной задаче или множеству задач. Под словом «приспособить» я имею в виду «сделать, чтобы алгоритм очень хорошо справлялся с этой задачей».
2) Подстроить алгоритм под одну задачу и посмотреть, как изменилась его эффективность на других задачах.
Читать дальше →
Total votes 15: ↑12 and ↓3+9
Comments7

Поиск в пространстве стратегий. AI водитель

Reading time6 min
Views9K

Выкладываю отчёт о своём эксперименте в области машинного обучения. В этот раз темой эксперимента было создание AI для управления моделькой автомобиля.
Читать дальше →
Total votes 24: ↑22 and ↓2+20
Comments10

Information

Rating
Does not participate
Registered
Activity