Articles / Profile of Kilorad / Habr

@Kilorad

Data Scientist

Profile Publications 7Comments 639Bookmarks 22

Kilorad Jul 20 2021 at 11:46

Sample-efficient reinforcement learning: пытаемся воспроизвести обучение в воображении

20 min

4.4K

Machine learning*Artificial Intelligence

Одна из крупных проблем обучения с подкреплением - это неэффективность по данным. Да, мы можем обучить нейросеть, которая будет играть в Пакмена лучше человека. Для этого ей потребуется сделать огромное, прямо-таки астрономическое число попыток. Для сравнения: мой кот тоже умеет разрабатывать сложные стратегии, и при этом ему не нужны тысячи повторений, чтобы обучиться чему-то элементарному.

В 2020 году Google выпустил статью “Dream to control: learning behaviours by latent imagination”. В статье описывался новейший алгоритм обучения в подкреплением - Dreamer. Алгоритм примечателен тем, что относительно быстро выучивает выигрышную стратегию - совершая относительно мало взаимодействий со средой.

После этого я очень захотел свой собственный Dreamer - желательно не как у гугла, а лучше. Кроме того, по математическому описанию код можно написать сильно по-разному - я хотел понять, какие есть подводные камни.

Дисклеймер:

Я не пытаюсь сделать ИИ похожим на человека, я не утверждаю, что нейросети похожи на нервную систему каких-либо организмов. По моему опыту, машинное обучение обычно превосходит человека в тех задачах, где есть бигдата и легко проверяемая функция ошибки. Большинство известных мне исключений связаны с тем, что либо эволюция предобучила человека на огромном датасете, либо в детстве человек собрал огромную статистику. Как только задача требует непредвзятого универсального интеллекта - оказывается, что с хорошими шансами XGBoost работает точнее любого эксперта.

Kilorad Jun 13 2021 at 14:36

Теория познания, основанная на поведенческих моделях

14 min

3.6K

Reading roomPopular science

Я не знаю, как она точно называется. Феноменология, эмпирио-критицизм, махизм - вот близкие течения. Ближе будет рациональность по Юдковскому. Формализация данной теории называется AIXI.

Идейно похоже на научный метод, но немножко шире. Придумал не я, лишь немного систематизирую и прохожусь по известным мне возражениям.

В какой-то мере данный подход альтернативен философским течениям материализма и идеализма, кроме того, он лежит в основе одной из теорий ИИ.

Kilorad Jan 21 2021 at 16:23

Постановка задач для универсального интеллекта: у нас нет общего языка

12 min

5.7K

Machine learning*Artificial Intelligence

Итак, допустим, мечта сингуляристов исполнилась, и универсальный ИИ создан. Как заставить его делать именно то, что нужно?

Нынешние технологии уже позволяют создавать творческие и изобретательные “машины результатов”, которые находят решения, незаметные для людей. Но эти системы не понимают человеческих слов. А те ИИ, которые могут общаться текстом, как, например, GPT-3, не приспособлены к достижению целей, они не являются “машинами результатов”.

Кроме того, я намерен показать, какие есть проблемы с использованием reinforcement learning в продакшне, и как их можно обойти.

122

Kilorad Sep 23 2019 at 00:49

Искусственный интеллект общего назначения. ТЗ, текущее состояние, перспективы

12 min

16K

Artificial Intelligence

В наше время словами «искусственный интеллект» называют очень много различных систем — от нейросети для распознавания картинок до бота для игры в Quake. В википедии дано замечательное определение ИИ — это «свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека». То есть из определения явно видно — если некую функцию успешно удалось автоматизировать, то она перестаёт считаться искусственным интеллектом.

Тем не менее, когда задача «создать искусственный интеллект» была поставлена впервые, под ИИ подразумевалось нечто иное. Сейчас эта цель называется «Сильный ИИ» или «ИИ общего назначения».

Читать дальше →

+20

Kilorad Mar 10 2017 at 16:39

Дрон боевой, полностью твой. Обучаем игровой AI методом перебора стратегий

13 min

14K

Mathematics*Machine learning*Game development*

В продолжение статьи «Поиск в пространстве стратегий. AI водитель». Я сделал мини-игру жанра «файтинг», где обучаемый AI дерётся с другими, рукописными ботами, и разрабатывает стратегию победы методом проб и ошибок.
В этой игре дерутся два парня вроде такого:

Читать дальше →

+29

Kilorad Mar 9 2017 at 12:39

Learning to learn. Создаём self-improving AI

5 min

8.1K

Mathematics*Machine learning*

Learning to learn

В этот раз я проводил эксперименты на тему learning to learn, то есть алгоритмов, которые могут учиться, как лучше учиться.

Цели эксперимента:

1) Создать алгоритм оптимизации, который можно некоторым стандартным способом приспособить к любой оптимизационной задаче или множеству задач. Под словом «приспособить» я имею в виду «сделать, чтобы алгоритм очень хорошо справлялся с этой задачей».
2) Подстроить алгоритм под одну задачу и посмотреть, как изменилась его эффективность на других задачах.

Читать дальше →

Kilorad Mar 7 2017 at 15:59

Поиск в пространстве стратегий. AI водитель

6 min

Mathematics*Machine learning*

Выкладываю отчёт о своём эксперименте в области машинного обучения. В этот раз темой эксперимента было создание AI для управления моделькой автомобиля.

Читать дальше →

+20