Статьи / Закладки / Профиль rubezhanin / Хабр

Юрий @rubezhanin

Пользователь

Профиль Статьи Посты Новости Комментарии 34

mryab 26 авг 2021 в 10:07

DeDLOC: обучаем большие нейросети всем миром

7 мин

12K

Блог компании ЯндексOpen source*Искусственный интеллектМашинное обучение*Распределённые системы*

Как показывает опыт последних лет, самые интересные результаты в deep learning получаются при использовании больших нейросетей, обученных на массивах неразмеченных данных. Правда, для создания этих моделей нужен суперкомпьютер с десятками или сотнями мощных видеокарт, а также быстрым соединением между серверами. Но что делать, если таких ресурсов нет, а в открытом доступе хорошей модели под вашу задачу не нашлось?

Сегодня я расскажу про технологию, которая позволяет учить нейросети, объединяя через интернет вычислительные мощности энтузиастов из любой точки мира. В её основе лежит совместная научная работа Yandex Research, Hugging Face, студентов ШАД, ВШЭ и МФТИ, а также профессора Университета Торонто. Технология уже получила боевое крещение в ходе реального эксперимента, подробно описанного ниже. В конце статьи вы узнаете, как поставить такой эксперимент самостоятельно — модель и код доступны всем желающим.

Претрейн для всех, и пусть никто не уйдёт обиженным

За последние несколько лет во многих областях deep learning (например, в обработке естественного языка) стала популярной идея self-supervised learning. Оказалось, что для получения полезных в целевой задаче представлений не нужна большая размеченная выборка. Достаточно обучить модель на какой-то простой сигнал, построенный из неразмеченных данных, которых чаще всего в достатке. В частности, известные многим архитектуры BERT, GPT и языковая модель YaLM обучаются именно так.

Заблуждение / опасная привычка	На самом деле …	Наш совет прост:
1. Мы создали программу и автоматически стали ее авторами и правообладателями. Для охраны и продажи программы никаких документов оформлять не нужно, ведь она охраняется авторским правом — ©!	Действительно: программа для ЭВМ охраняется авторским правом как литературное произведение (п.1 ст. 1259, ст. 1261 ГК РФ). Но то, что для возникновения авторских прав не требуется регистрация или соблюдение каких-либо иных формальностей (п.4 ст. 1259 ГК РФ), ни в коем случае не освобождает: − от соблюдения набора критериев, установленных законом; − от необходимости документально доказать факт создания программы и свои права на них. Неоформленный SOFT закон не охраняет. Всё просто: если у вас спор о правах на программу, то без документов вы не сможете доказать, что (1) у вас были права и (2) ваши права нарушены, (3) что сама эта совокупность данных и команд на языке программирования является интеллектуальной собственностью (ведь различные версии и релизы никакой новой интеллектуальной собственности не создают). То же самое – при постановке на бухгалтерский учёт и оформлении бухгалтерских проводок. Коротко говоря: нет документов = нет интеллектуальной собственности = нет нарушений прав = нет компенсации за нарушение прав.	Оформляйте много хороших и разных документов при создании программ для ЭВМ: — договоры с авторами; — договоры с подрядчиками; — технические задания; — протоколы совещаний и тестов; — соглашения между соавторами; — авторское свидетельство; — сертификат признания интеллектуальной собственности; — спецификация РИД; — свидетельство о регистрации программы для ЭВМ (Роспатент).

Претрейн для всех, и пусть никто не уйдёт обиженным

Теория

Предисловие

Предыстория

1. Размер резервной копии