Как стать автором
Обновить
1
0

Пользователь

Отправить сообщение

Как дообучать огромные модели с максимальным качеством и минимальными затратами? LoRA

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3.7K

paper link

hf implementation

Для ответа на вопрос в заголовке - погрузимся в статью.

Саммари статьи:

Обычно LLM-ку предобучают на огромном корпусе, потом адаптируют на down-stream tasks. Если LLM-ка была большая, то мы не всегда можем в full fine-tuning. Авторы статьи предлагают Low-Rank Adaptation (LoRA), который замораживает предобученные веса модели и встраивает "rank decomposition matrices" в каждый слой трансформера, очень сильно понижая кол-во обучаемых параметров для downstream tasks.

Compared to GPT-3 175B fine‑tuned with Adam, LoRA can reduce the number of trainable parameters by 10,000 times and the GPU memory requirement by 3 times. LoRA performs on‑par or better than finetuning in model quality on RoBERTa, DeBERTa, GPT-2, and GPT-3, despite having fewer trainable parameters, a higher training throughput, and, unlike adapters, no additional inference latency.

Многие NLP-приложения требуют решения разных задач, что зачастую достигается путем дообучения большой модели на несколько разных downstream tasks. Самая важная проблема в классическом fine-tuning'е - новая модель содержит столько же параметров, сколько начальная.

Есть работы, где авторы адаптируют только некоторые параметры или обучают внешний модуль для каждой новой задачи. Таким образом, нам необходимо для каждой новой задачи хранить лишь веса, связанные с этой задачей. Однако, имеющиеся методы страдают от:

Inference latency (paper 1 - Parameter-Efficient Transfer Learning for NLP).

Reduced model's usable sequence length (paper 2 - Prefix-Tuning: Optimizing Continuous Prompts for Generation).

Часто не достигают бейзлайнов, если сравнивать с "классическим" fine-tuning'ом

Читать далее
Всего голосов 5: ↑4 и ↓1+5
Комментарии0

Запустили Директ и нет лидов? 7 шагов базовой оптимизации рекламы

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.9K

К нам в агентство часто обращаются клиенты с проблемой — запустили контекстную рекламу, а она не работает. Рекламные бюджеты сливаются, заявки отсутствуют (в некоторых случаях их мало и они дорогие). В общем, реклама не окупается, поставленные KPI не достигаются. Почему же контекст не работает? А главное — как это исправить, чтобы заявки наконец пошли?

Читать далее
Всего голосов 5: ↑1 и ↓4-1
Комментарии0

Как Осборн Рейнольдс пришёл к своему числу. Часть 4

Время на прочтение11 мин
Количество просмотров2.3K

Перевод классической научной работы, вышедшей в 1883 году.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии4

Надеть Telegram на OpenVPN и завернуть это в Docker

Время на прочтение8 мин
Количество просмотров16K

Мигрируя в этом году свою инфраструктуру в новый датацентр, поймал себя на мысли о том, что возраст моей виртуальной частной сети (VPN) для доступа к серверам и устройствам перевалил за 10 лет.

Мой старый товарищ OpenVPN ни разу не подвел меня.

Подумав обо всех неудобствах и издержках я решил улучшить имеющийся механизм управления всем VPN-хозяйством.

Под катом вы найдете детали того, что получилось. Кратко, результат следующий: композиция из двух docker-контейнеров, которые превращаются в telegram-бота для управления VPN сервисом. И для этого нужно выполнить всего две команды в консоле.

Механизм управления VPN сервисом теперь не требует каких-либо навыков системного администрирования или доступа к Linux-консоли при выполнении рутинных операций. Например, чтобы сделать сертификаты новому пользователю вам достаточно иметь телефон с telegram-клиентом.

Для тех же, кому интересны технические детали реализации (помимо готового кода), в статье есть описание подходов, которые упрощают сопряжение систем в нескольких контейнерах. Раньше я "ходил более сложными тропами"...

Полезного чтения
Всего голосов 23: ↑21 и ↓2+20
Комментарии2

Технооптимизм. Разбираемся, как киберпреступники могут использовать машинное обучение

Время на прочтение6 мин
Количество просмотров3.1K

Как правило, первое, с чем ассоциируется словосочетание «машинное обучение» (machine learning) — это цифровизация, наращивание темпов производства всего на свете, распознавание речи, умные помощники и прочее. Однако, как и у всех продвинутых технологий, у ML есть две стороны медали. С одной стороны, машинное обучение действительно позволяет (вкупе с развитием вычислительных технологий) шагнуть на новую ступень восприятия реальности. Но с другой стороны, применение этой технологии в информационных системах дает злоумышленникам дополнительный вектор атак, как показано ниже.

Как именно киберпреступники используют ML?
Всего голосов 13: ↑13 и ↓0+13
Комментарии4

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность