Как стать автором
Обновить
28
0

Data Scientist

Отправить сообщение

Sample-efficient reinforcement learning: пытаемся воспроизвести обучение в воображении

Время на прочтение20 мин
Количество просмотров4.1K

Одна из крупных проблем обучения с подкреплением - это неэффективность по данным. Да, мы можем обучить нейросеть, которая будет играть в Пакмена лучше человека. Для этого ей потребуется сделать огромное, прямо-таки астрономическое число попыток. Для сравнения: мой кот тоже умеет разрабатывать сложные стратегии, и при этом ему не нужны тысячи повторений, чтобы обучиться чему-то элементарному.

В 2020 году Google выпустил статью “Dream to control: learning behaviours by latent imagination”. В статье описывался новейший алгоритм обучения в подкреплением - Dreamer. Алгоритм примечателен тем, что относительно быстро выучивает выигрышную стратегию - совершая относительно мало взаимодействий со средой.

После этого я очень захотел свой собственный Dreamer - желательно не как у гугла, а лучше. Кроме того, по математическому описанию код можно написать сильно по-разному - я хотел понять, какие есть подводные камни.

Дисклеймер:

Я не пытаюсь сделать ИИ похожим на человека, я не утверждаю, что нейросети похожи на нервную систему каких-либо организмов. По моему опыту, машинное обучение обычно превосходит человека в тех задачах, где есть бигдата и легко проверяемая функция ошибки. Большинство известных мне исключений связаны с тем, что либо эволюция предобучила человека на огромном датасете, либо в детстве человек собрал огромную статистику. Как только задача требует непредвзятого универсального интеллекта - оказывается, что с хорошими шансами XGBoost работает точнее любого эксперта.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии73

Теория познания, основанная на поведенческих моделях

Время на прочтение14 мин
Количество просмотров3.5K

Я не знаю, как она точно называется. Феноменология, эмпирио-критицизм, махизм - вот близкие течения. Ближе будет рациональность по Юдковскому. Формализация данной теории называется AIXI.

Идейно похоже на научный метод, но немножко шире. Придумал не я, лишь немного систематизирую и прохожусь по известным мне возражениям.

В какой-то мере данный подход альтернативен философским течениям материализма и идеализма, кроме того, он лежит в основе одной из теорий ИИ.

Читать далее
Всего голосов 10: ↑6 и ↓4+2
Комментарии13

Постановка задач для универсального интеллекта: у нас нет общего языка

Время на прочтение12 мин
Количество просмотров5.4K

Итак, допустим, мечта сингуляристов исполнилась, и универсальный ИИ создан. Как заставить его делать именно то, что нужно?

Нынешние технологии уже позволяют создавать творческие и изобретательные “машины результатов”, которые находят решения, незаметные для людей. Но эти системы не понимают человеческих слов. А те ИИ, которые могут общаться текстом, как, например, GPT-3, не приспособлены к достижению целей, они не являются “машинами результатов”.

Кроме того, я намерен показать, какие есть проблемы с использованием reinforcement learning в продакшне, и как их можно обойти.

Читать далее
Всего голосов 9: ↑7 и ↓2+5
Комментарии122

Искусственный интеллект общего назначения. ТЗ, текущее состояние, перспективы

Время на прочтение12 мин
Количество просмотров16K
В наше время словами «искусственный интеллект» называют очень много различных систем — от нейросети для распознавания картинок до бота для игры в Quake. В википедии дано замечательное определение ИИ — это «свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека». То есть из определения явно видно — если некую функцию успешно удалось автоматизировать, то она перестаёт считаться искусственным интеллектом.

Тем не менее, когда задача «создать искусственный интеллект» была поставлена впервые, под ИИ подразумевалось нечто иное. Сейчас эта цель называется «Сильный ИИ» или «ИИ общего назначения».
Читать дальше →
Всего голосов 24: ↑22 и ↓2+20
Комментарии63

Дрон боевой, полностью твой. Обучаем игровой AI методом перебора стратегий

Время на прочтение13 мин
Количество просмотров14K
В продолжение статьи «Поиск в пространстве стратегий. AI водитель». Я сделал мини-игру жанра «файтинг», где обучаемый AI дерётся с другими, рукописными ботами, и разрабатывает стратегию победы методом проб и ошибок.
В этой игре дерутся два парня вроде такого:


Читать дальше →
Всего голосов 31: ↑30 и ↓1+29
Комментарии27

Learning to learn. Создаём self-improving AI

Время на прочтение5 мин
Количество просмотров8.1K

Learning to learn


В этот раз я проводил эксперименты на тему learning to learn, то есть алгоритмов, которые могут учиться, как лучше учиться.

Цели эксперимента:

1) Создать алгоритм оптимизации, который можно некоторым стандартным способом приспособить к любой оптимизационной задаче или множеству задач. Под словом «приспособить» я имею в виду «сделать, чтобы алгоритм очень хорошо справлялся с этой задачей».
2) Подстроить алгоритм под одну задачу и посмотреть, как изменилась его эффективность на других задачах.
Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии7

Поиск в пространстве стратегий. AI водитель

Время на прочтение6 мин
Количество просмотров9K

Выкладываю отчёт о своём эксперименте в области машинного обучения. В этот раз темой эксперимента было создание AI для управления моделькой автомобиля.
Читать дальше →
Всего голосов 24: ↑22 и ↓2+20
Комментарии10

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность