Comments / Profile of Artgor / Habr

Андрей Лукьяненко @Artgor

Data scientist @ Careem (Dubai)

Как сделать проект по распознаванию рукописных цифр с дообучением онлайн. Гайд для не совсем начинающих

Artgor Dec 17 2017 at 17:44

Добрый вечер.

Для этого надо смотреть в сам код (строки 182, 183, 187, 188, 189): github.com/Erlemar/digit-draw-recognize/blob/master/functions.py#L182

cnn = CNN()
cnn.train(X, y)
		
response = self.save_weights_amazon('data-all_2_updated.chkp.meta', './tmp/data-
                                    all_2_updated.chkp')
response = self.save_weights_amazon('data-all_2_updated.chkp.index', './tmp/data-
                                    all_2_updated.chkp')
response = self.save_weights_amazon('data-all_2_updated.chkp.data-00000-of-00001', 
                                    './tmp/data-all_2_updated.chkp')

Что здесь происходит:

Модель инициализируется и тренируется;
В результате тренировки обновлённые веса сохраняются локально в папке tmp (на Heroku), это 3 отдельных файла (так работает tensorflow);
А затем используется метод save_weights_amazon для заливки обновлённых файлов на Amazon;

Возможно есть более элегантные способы делать это, но у меня получилось вот так.

Look

Как сделать проект по распознаванию рукописных цифр с дообучением онлайн. Гайд для не совсем начинающих

Artgor Dec 16 2017 at 05:20

Доброе утро.

Действительно, упустил этот момент. В данном случае y — все лейблы для исходных данных. Вообще говоря, это нужно только для того, чтобы OneHotEncoder превращал вектор с 10 классами в матрицу с 10 столбцами. Можно использовать любой вектор из имеющихся (y_train, y_val или какой-то другой), главное, чтобы в нём были все 10 классов.

Look

ИИ от Google обучил дочерний ИИ, который превосходит все ИИ, созданные человеком

Artgor Dec 7 2017 at 15:46

Эти числа я взял из оригинальной статьи ;) " The method in this paper uses 500 GPUs across 4 days resulting in 2,000 GPU-hours."

Look

ИИ от Google обучил дочерний ИИ, который превосходит все ИИ, созданные человеком

Artgor Dec 5 2017 at 07:39

Конечно. Я имею ввиду, что использовать AutoML для подбора моделей — как в статье — пока неоправданно для большинства компаний.

Look

ИИ от Google обучил дочерний ИИ, который превосходит все ИИ, созданные человеком

Artgor Dec 5 2017 at 05:50

Очень важный момент — в статьте сказано, что они использовали 500 GPU (NVidia P100) 4 дня, то есть 2000 GPU-часов. Я бы сказал, что это пока слишком дорого для нормального использования, если не считать Google и других огромных компаний.

Look

Как сделать проект по распознаванию рукописных цифр с дообучением онлайн. Гайд для не совсем начинающих

Artgor Nov 22 2017 at 04:33

Хороший вопрос, наверное, стоило его осветить. Это делается в 2 этапа с помощью библиотеки boto3: вначале с помощью функции list_objects получаем список объектов, потом в цикле их скачиваем. Важно, что Амазон ограничивает «размеры» запросов, так что взять больше 1000 объектов за раз не получился. Есть 2 варианта для скачивания больше 1000 объектов: либо указывать параметры запроса и с помощью этого выбирать объекты (не пробовал), либо после каждого скачивания перемещать/удалять объекты в корзине.

Мой код для скачивания картинок выглядит так:

s3 = boto3.client('s3', aws_access_key_id=AWS_ACCESS_KEY_ID, aws_secret_access_key=AWS_SECRET_ACCESS_KEY)
for obj in s3.list_objects(Bucket=BUCKET)['Contents']:
    filename = obj['Key']
    if 'digit' in filename:
        # The local directory must exist.
        localfilename = os.path.join('my_images/', filename)
        s3.download_file(BUCKET, filename, localfilename)
    else:
        pass

Look

Как полюбить машинное обучение и перестать страдать

Artgor Apr 6 2017 at 07:24

Если это инструмент для вхождения в область — это хорошо :)
Возможность настраивать параметры и использовать собственный код — удобная вещь. Учитывая это, действительно, хорошо для начала.

Кстати говоря, если есть желание попробовать машинное обучение на практике с использованием программирования, то Kernels на Kaggle — хорошая идея. Ничего не надо устанавливать и большое количество рабочих примеров, которые можно поизменять.

Look

Как полюбить машинное обучение и перестать страдать

Artgor Apr 6 2017 at 06:45

У меня опыт машинного обучения не слишком большой — начал изучать его в августе-сентябре 2016 и недавно нашёл работу (до этого программирование практически не знал). Я могу ошибаться, но считаю, что начинать знакомство с машинным обучением с готовых инструментов — не самая хорошая идея. Многие алгоритмы регрессии и классификации радикально отличаются друг от друга и стоит понимать их особенности.

Кроме того, данные обычно нужно обрабатывать.

Ну и к тому же, если нужно что-то кроме простой классификации/регрессии и нужно построить рекомендательные системы, обработку естественного языка или что-то ещё или использовать нейронные сети, то явно придётся программировать.

Look

Обзор альтернатив Fidget Cube

Artgor Dec 26 2016 at 16:01

А мне всё же Fidget Cube нравится :) Жду доставку двух штук в марте. Кстати, доставка не дорогая, если пользоваться услугами логистических операторов.

Look

Дизайн города, основанный на данных

Artgor Oct 30 2016 at 12:17

Тоже волнует это. Маршрутки отменяют одну за другой, остаются автобусы. На остановках скапливается большое количество людей, особенно вечером в будние дни.

Look

Закат Stack Overflow

Artgor Oct 1 2016 at 08:34

Замечал подобное, поэтому задаю вопросы на reddit. Там дают вполне неплохие ответы.

Look

1 2 3

Information

Specialization