rplacroix 14 часов назад

Рекурретные нейронные сети наносят ответный удар

Простой

3 мин

5.7K

Искусственный интеллектМашинное обучение*Python*

Обзор

Комментарии 5

nikolz 7 часов назад

Полагаю, что это не обзор, а перевод статьи, в которой приведено описание модификации RNN.

-----------------------------------

Уберите номера страниц из под рисунков.Очевидно забыли убрать из авто перевода.

------------------------------

Название не соответствует содержанию статьи. Статья не про бокс и не про бои без правил. Авторы описывают свой алгоритм упрощения RNN моделей.

Статья называется " Were RNNs All We Needed?", что в переводе

"Были Ли RNNs Всем, Что Нам было Нужно? "

Авторы пишут:

В этой работе мы вновь обратились к RNN, которые были созданы более десяти лет назад: LSTM и GRU. Мы показываем, что эти модели можно обучать с помощью алгоритма параллельного сканирования, удаляя скрытые зависимости от состояния их элементов управления. Еще больше упростив эти модели, мы устранили ограничения на диапазон выходных данных и обеспечили, чтобы их масштаб не зависел от времени. В результате этих шагов были созданы их минимальные версии (minLSTM и minGRU). Эмпирически мы показали, что minLSTM и minGRU устраняют вычислительные ограничения своих традиционных аналогов и являются такими же эффективными в вычислительном отношении, как Mamba, популярная современная модель рекуррентных последовательностей, и конкурируют по производительности с новейшими моделями последовательностей. Учитывая высокую эмпирическую эффективность этих упрощенных RNN и их фундаментальное сходство со многими недавно предложенными методами рекуррентной последовательности, мы задаемся вопросом: ”Были ли RNN всем, что нам было нужно?”

До кучи ( в статье этого нет):

MiniLLM - это минимальная система для запуска современных LLM на графических процессорах потребительского уровня. Ее функции включают:
Поддержка нескольких LLM (в настоящее время LLAMA, BLOOM, OPT) с различными размерами моделей (до 170B)
Поддержка широкого спектра графических процессоров Nvidia потребительского уровня
Крошечная и простая в использовании кодовая база, в основном на Python (<500 LOC)
В основе MiniLLM лежит алгоритм GPTQ, который обеспечивает сжатие до 3 бит и значительно сокращает использование памяти графического процессора. Дополнительную информацию о том, какие LLM поддерживаются различными графическими процессорами, можно найти в разделе «Требования к оборудованию».
MiniLLM — это исследовательский проект Корнеллского технологического института и Корнеллского университета. Его цели:
Обеспечивает простую в использовании платформу для творческих экспериментов с большими языковыми моделями
Облегчить проведение исследований по согласованию LLM, устранению предвзятости, эффективному выводу и другим темам

https://github.com/kuleshov/minillm

rplacroix 4 часа назад

Приветствую!
Отвечу по пунктам.
0. Я затрудняюсь провести грань между обзором и переводом статьи. Не скрою, что я накидал этот "обзор" за час, выделив самые важные моменты из статьи. Переводом я это тоже назвать не могу, потому что а) многое опустил и б) писал своими словами.

1. Нет, номера рисунков пришли не из автоперевода, а добавлены мной лично для стилизации. Если вы обратитесь к оригинальной статье, то увидите, что рис. 1 и 2 вообще не подписаны в статье, а рис. 3 это figure 2. Подписи я добавил, чтобы указать страницу оригинальной статьи с этим графиком.

2. По поводу названия статьи. "Наносит ответный удар" не ассоцируется с боксом/боями без правил с 1980 года, когда вышел одноименный фильм по Звездным Войнам. Действительно, рекуррентные нейронные сети никого не бьют и не проводят революцию в мире. Вы можете считать это название пошлым или устаревшим, но тем не менее я его выбрал для привлечения внимания, не более того.

3. Про miniLLM вы ввели меня в замешательство. В статье действительно про нее ничего нет, но она даже никаким образом не относится к теме RNN, разве что min в названии.

Вывод: моя статья вообще не шедевр, но Ваших претензий я не понимаю.
Приятного дня.

nikolz 3 часа назад

Согласен, что Вы выдернули некоторые фрагменты из статьи. Если это обзор, то скорее статьи, а не темы, которая заявлена в названии.

Прикольно указание страниц без указания где они находятся при отсутствии страниц в Вашей статье , которая по Вашим словам является пересказом содержания источника. В источнике тоже нет номера страниц под рисунками, так .как число страниц не является признаком статьи а определяется лишь форматом ее отображения.

Поясните, что Вы этим хотели сказать:

Про miniLLM вы ввели меня в замешательство. В статье действительно про нее ничего нет, но она даже никаким образом не относится к теме RNN, разве что min в названии.

Вы сами в своем обзоре написали:

Эти изменения привели к созданию "облегченных" версий (minLSTM и minGRU), которые используют значительно меньше параметров по сравнению с традиционными вариантами и могут обучаться параллельно.

В источнике сказано:

Основываясь на этом, мы еще больше упростили LSTM и GRU, устранив их ограничения на диапазон вывода (т. Е. Использование tanh) и гарантировав, что масштаб их вывода не зависит от времени. Результатом этих шагов являются минимальные версии (minLSTMs и minGRUs), которые (1) используют значительно меньше параметров, чем их традиционные аналоги, и (2) могут обучаться параллельно (175× быстрее при длине контекста 512).

Таким образом, именно miniLLM и является результатом, работы авторов статьи. Что Вы очевидно и не поняли.

-1

rplacroix 55 минут назад

Да, это обзор именно этой статьи, как и заявлено в введении. Про страницы и номера я вообще не понял - причем здесь номера страниц в моей статье, если мы в рамках формата Хабра? Я указываю номера страниц из оригинального источника, где находятся эти картинки, чтобы читатель мог сам перейти и изучить подробнее. Поэтому в источнике и нет номеров страниц - это бессмысленно. Формат отображения одинаков - это pdf по ссылке в статье.

miniLLM и minLSTM/minGRU являются разными алгоритмами. В последних используется paralel prefix sum, у miniLLM - GPTQ. Те фрагменты, которые вы приводите, никак не подсвечивают связь между ними. miniLLM не является результатом работы авторов статьи, поскольку как вы сами заметили - ее и нет в статье.

В дополнение отмечу, что последнее обновление miniLLM на гитхабе было год назад. Статья, о которой мы толкуем, вышла 2 октября 24 года. Как в таком случае miniLLM может быть результатом?

nikolz 23 минуты назад

Про страницы и номера я вообще не понял - причем здесь номера страниц в моей статье, если мы в рамках формата Хабра? Я указываю номера страниц из оригинального источника, где находятся эти картинки, чтобы читатель мог сам перейти и изучить подробнее.

Если я не ошибаюсь, то по Вашей ссылке видим это:

Где здесь страницы?

В дополнение отмечу, что последнее обновление miniLLM на гитхабе было год назад. Статья, о которой мы толкуем, вышла 2 октября 24 года. Как в таком случае miniLLM может быть результатом?

То что miniLLM результат, написано в источнике. Я привел дословный перевод, а не пересказ своими словами и не обзор. Можете снова прочитать статью.

---------------

Относительно даты . Обычно статью пишут по результатам, а не наоборот.

------------------

Вообще-то, я высказал свое мнение потому, что Ваш "обзор" не содержит ничего конкретного, а является обрезками первоисточника.

-1

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Рекурретные нейронные сети наносят ответный удар

Комментарии 5

Публикации

Истории