Как стать автором
Обновить

Комментарии 5

Полагаю, что это не обзор, а перевод статьи, в которой приведено описание модификации RNN.

-----------------------------------

Уберите номера страниц из под рисунков.Очевидно забыли убрать из авто перевода.

------------------------------

Название не соответствует содержанию статьи. Статья не про бокс и не про бои без правил. Авторы описывают свой алгоритм упрощения RNN моделей.

Статья называется " Were RNNs All We Needed?", что в переводе

"Были Ли RNNs Всем, Что Нам было Нужно? "

Авторы пишут:

В этой работе мы вновь обратились к RNN, которые были созданы более десяти лет назад: LSTM и GRU. Мы показываем, что эти модели можно обучать с помощью алгоритма параллельного сканирования, удаляя скрытые зависимости от состояния их элементов управления. Еще больше упростив эти модели, мы устранили ограничения на диапазон выходных данных и обеспечили, чтобы их масштаб не зависел от времени. В результате этих шагов были созданы их минимальные версии (minLSTM и minGRU). Эмпирически мы показали, что minLSTM и minGRU устраняют вычислительные ограничения своих традиционных аналогов и являются такими же эффективными в вычислительном отношении, как Mamba, популярная современная модель рекуррентных последовательностей, и конкурируют по производительности с новейшими моделями последовательностей. Учитывая высокую эмпирическую эффективность этих упрощенных RNN и их фундаментальное сходство со многими недавно предложенными методами рекуррентной последовательности, мы задаемся вопросом: ”Были ли RNN всем, что нам было нужно?”

До кучи ( в статье этого нет):

MiniLLM - это минимальная система для запуска современных LLM на графических процессорах потребительского уровня. Ее функции включают:

  • Поддержка нескольких LLM (в настоящее время LLAMA, BLOOM, OPT) с различными размерами моделей (до 170B)

  • Поддержка широкого спектра графических процессоров Nvidia потребительского уровня

  • Крошечная и простая в использовании кодовая база, в основном на Python (<500 LOC)

В основе MiniLLM лежит алгоритм GPTQ, который обеспечивает сжатие до 3 бит и значительно сокращает использование памяти графического процессора. Дополнительную информацию о том, какие LLM поддерживаются различными графическими процессорами, можно найти в разделе «Требования к оборудованию».

MiniLLM — это исследовательский проект Корнеллского технологического института и Корнеллского университета. Его цели:

  • Обеспечивает простую в использовании платформу для творческих экспериментов с большими языковыми моделями

  • Облегчить проведение исследований по согласованию LLM, устранению предвзятости, эффективному выводу и другим темам

https://github.com/kuleshov/minillm

Приветствую!
Отвечу по пунктам.
0. Я затрудняюсь провести грань между обзором и переводом статьи. Не скрою, что я накидал этот "обзор" за час, выделив самые важные моменты из статьи. Переводом я это тоже назвать не могу, потому что а) многое опустил и б) писал своими словами.

1. Нет, номера рисунков пришли не из автоперевода, а добавлены мной лично для стилизации. Если вы обратитесь к оригинальной статье, то увидите, что рис. 1 и 2 вообще не подписаны в статье, а рис. 3 это figure 2. Подписи я добавил, чтобы указать страницу оригинальной статьи с этим графиком.

2. По поводу названия статьи. "Наносит ответный удар" не ассоцируется с боксом/боями без правил с 1980 года, когда вышел одноименный фильм по Звездным Войнам. Действительно, рекуррентные нейронные сети никого не бьют и не проводят революцию в мире. Вы можете считать это название пошлым или устаревшим, но тем не менее я его выбрал для привлечения внимания, не более того.

3. Про miniLLM вы ввели меня в замешательство. В статье действительно про нее ничего нет, но она даже никаким образом не относится к теме RNN, разве что min в названии.

Вывод: моя статья вообще не шедевр, но Ваших претензий я не понимаю.
Приятного дня.

Согласен, что Вы выдернули некоторые фрагменты из статьи. Если это обзор, то скорее статьи, а не темы, которая заявлена в названии.

Прикольно указание страниц без указания где они находятся при отсутствии страниц в Вашей статье , которая по Вашим словам является пересказом содержания источника. В источнике тоже нет номера страниц под рисунками, так .как число страниц не является признаком статьи а определяется лишь форматом ее отображения.

Поясните, что Вы этим хотели сказать:

 Про miniLLM вы ввели меня в замешательство. В статье действительно про нее ничего нет, но она даже никаким образом не относится к теме RNN, разве что min в названии.

Вы сами в своем обзоре написали:

Эти изменения привели к созданию "облегченных" версий (minLSTM и minGRU), которые используют значительно меньше параметров по сравнению с традиционными вариантами и могут обучаться параллельно.

В источнике сказано:

Основываясь на этом, мы еще больше упростили LSTM и GRU, устранив их ограничения на диапазон вывода (т. Е. Использование tanh) и гарантировав, что масштаб их вывода не зависит от времени. Результатом этих шагов являются минимальные версии (minLSTMs и minGRUs), которые (1) используют значительно меньше параметров, чем их традиционные аналоги, и (2) могут обучаться параллельно (175× быстрее при длине контекста 512). 

Таким образом, именно miniLLM  и является результатом, работы авторов статьи. Что Вы очевидно и не поняли.

Да, это обзор именно этой статьи, как и заявлено в введении. Про страницы и номера я вообще не понял - причем здесь номера страниц в моей статье, если мы в рамках формата Хабра? Я указываю номера страниц из оригинального источника, где находятся эти картинки, чтобы читатель мог сам перейти и изучить подробнее. Поэтому в источнике и нет номеров страниц - это бессмысленно. Формат отображения одинаков - это pdf по ссылке в статье.

miniLLM и minLSTM/minGRU являются разными алгоритмами. В последних используется paralel prefix sum, у miniLLM - GPTQ. Те фрагменты, которые вы приводите, никак не подсвечивают связь между ними. miniLLM не является результатом работы авторов статьи, поскольку как вы сами заметили - ее и нет в статье.

В дополнение отмечу, что последнее обновление miniLLM на гитхабе было год назад. Статья, о которой мы толкуем, вышла 2 октября 24 года. Как в таком случае miniLLM может быть результатом?

Про страницы и номера я вообще не понял - причем здесь номера страниц в моей статье, если мы в рамках формата Хабра? Я указываю номера страниц из оригинального источника, где находятся эти картинки, чтобы читатель мог сам перейти и изучить подробнее. 

Если я не ошибаюсь, то по Вашей ссылке видим это:

Где здесь страницы?

В дополнение отмечу, что последнее обновление miniLLM на гитхабе было год назад. Статья, о которой мы толкуем, вышла 2 октября 24 года. Как в таком случае miniLLM может быть результатом?

То что miniLLM результат, написано в источнике. Я привел дословный перевод, а не пересказ своими словами и не обзор. Можете снова прочитать статью.

---------------

Относительно даты . Обычно статью пишут по результатам, а не наоборот.

------------------

Вообще-то, я высказал свое мнение потому, что Ваш "обзор" не содержит ничего конкретного, а является обрезками первоисточника.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории