yarn, dynamic ntk, etc. Методы основанные на изменении существующих positional embedding - большинство из них даже не требуют finetune и работают с существующими моделями. Они отвечают на вопрос в заголовке и оказались настолько влиятельны, что сейчас есть в движках из коробки типа llamacpp. И настолько просты что зарождение можно было видеть на 4chan,localllama а не arxiv
block recurrent transformer. Тот который схож с rmt, но память и веса памяти отдельны, а не встроены в основной поток.
long range area. Не модель. Но хлеб и масло длинных текстов и тестов. У фейсбук есть описание многих моделей и их тестирование. Насколько помню Nystromformer там хорош.
mega. retnet строго не является трансформером так как self attention выкинут и заменён как было сказано в статье. MEGA, если прищуриться, имеет схожую идею(умножай прошлое @ прибавляй настоящее) + суёт выход в настоящий self attention. И лидирует на lra согласно paperswithcode.
S4 и прочие голодные гиппопотамчики. Тоже не трансформер. Но раз retnet упомянут. Как и retnet имеет 2 представления (cnn, rnn). На этом мое понимание кончается. Хороших объяснялок по s4 нет. Есть мало непонятных(и это не только моё имхо - s4 annotated упомянул неинтуитивность модели) где к середине мозги отрубаются . У меня от этого подгорает сильнее всего. Это один из самых удачных современных отказов от трансформеров. Большое количество материалов по llm говорят про исторические lstm, gru, Transformer(хорошо если rope упомянут) но про h3, s4, s5 ни слова. И они созданы для длинных текстов. Из топ10 моделей в lra половина основаны на structural state space. Половина. Это не rwkv который большую часть времени используется только автором поэтому хороша она или нет неясно. Эти модели явно уже доказали что они могут. И по ним очень мало доступных материалов
Landmark attention пропущен. Он совсем плохой, никому не нужный? В июне вышло несколько моделей (minotaur, manticore) когда он был свеж и... Всё. Random-Access Infinite Context Length for Transformers забыт и оставлен во времена лламы1.
Я несколько не понимаю почему трансформерам нужно O(nn) памяти. Вместо Softmax(Q[:N] k[:N].T)V один раз можем же сделать частями, грубо softmax(Q[i] K[:N].T)V N раз (для I=0,1,2...) и будут те же O(N) памяти и O(NN) расчётов
Не нравятся такие задачи: решение в лоб думается(вру, думать не надо) и пишется ну пусть за пару минут и рассчитывается за секунду. Итоговое время - 2м 1с. Решение не в лоб - если думается и пишется за 3 минуты то оно уже хуже "неоптимального" решения в полтора раза. А если это собес, начинается игра "угадай что от меня хотят" - послушать про "какая гадость этот полный перебор. это зло" или "Преждевременная оптимизация — корень всех зол. KISS"
Не понял о каком cross layer attention идёт речь. XLnet использует two-stream self attention, но они текут исключительно в будущее (либо в следующий слой за счёт обычного механизма transformers, либо в следующий слой в будущем чанке за счет xl)
"дайка я подсожу психически слабых людей на гачу и хуже, высосу деньги а потом будут троллололить что к голове пистолет не приставлял(нанял психолуха чтобы эффект был лучше пистолета)"
Какая благородная "работа" . Обесценивание ее - самое доброе и светлое чего такая" "работа" заслуживает
Отмазка про ide какая-то левая. Ему что - vim дали? Или сразу ed? Мне как-то доводилось в нотепад++ писать. Я вообще невразумею какие там шорткаты. Бугурт был, так как он форматирование ломал и автодополнения не было, но не настолько подгорело чтобы решение заняло сильно больше чем если бы была idea.
Опыт? На реддите и ютубе эти первые шаги чуть ли не каждый день разные люди делают. Начало ничего не стоит. Ладно если бы о нем написали когда он мог бы соперничать с тем же TempleOS, но ведь не может. И авторы этого не скрывают - у них очень честно написано, что ничего практически ещё не реализовано. Смотреть не на что.
Ладно если бы было что-то не совсем уже сейчас. Ну хотя бы не сишка, а зиг или раст(см Redox) .
Ну и приоритеты странные - поддержка tga появилась до поддержки клавиатуры. Из файловых систем в родмапе ext2.
В llm такое сплошь и рядом. На реддите в некоторых сравнениях выводы с личным опытом не совпадают, в некоторых модели галюционируют так, что есть очень сильные подозрения в том что им промпт составлен по формату другой модели.
И ладно если бы это был только реддит. Статьи о том что "гпт от опенаи сумел пройти экзамен,"(у него было n попыток, любая удачная защитывалась) или что "вам не кажется - гпт стал глупее"(авторы не учли что гпт по другому оформляет код) претендовали на серьёзность. По-моему обе были на arXiv, что не то же самое что и уютный дневничок
Пишу для себя в стол рассказы и touhou фанфики, например как персонажи соревнуются в генсековском аналоге шоу taskmaster
1000 токенов уходит на краткое описание персонажей в сцене и их способности. Ещё 1000-2000 токенов на "исторический контекст" или его пересказ, чтобы модель видела как персонажи себя ведут. Остальное на текущий.
Остальные куски текста помечаются как "не кормить модели" и выкидываются препроцессором
Сейчас померял токенизатором, мой самый большой опус - ~21 тыс токенов на ~70кб текста. Последний раз на общее описание сеттинга и персонажей ушло ~4300 символов и ~1100 токенов
В 7б сейчас наиболее интересен mistral а не ллама, и обе доступны без смс и регистрации. Особенно мистрал.
>Контекст большинства современных языковых моделей начинается с 2 тысяч токенов,
Скорее для большинства БОЛЬШИХ языковых моделей на 100500+B параметров, которые если влезут в одну гпу - уже хорошо. Для 7б модели это уже не торт, мы избалованы нормальным контекстом. ллама2 и мистрал используют 4к токенов. Xgen - есть 4k, есть 8k. Mpt7b - есть и 2к, но есть и 65536 токенов(через алиби).
После использования 4к, использовать 2к очень тяжко.
REST Client. Для отправки REST запросов. Я не знаю как postman написан так, что он грузится полдня
vscode-background. Добавляет тохо девочек на фон. Менять фоновую картинку - это костыль и не поддерживается официально. Потому при установке этот плагин(и другие подобные ему) хочет рута так как меняет css в /var. К счастью можно обойтись "всего лишь" поменяв разрешения файла на который он жалуется на 0666, поставить плагин, затем обратно, не давая root всему плагину.
Vim. Добавляет сносную vim эмуляцию. К недостаткам - главное меню начинает глючить. Например file-exit(хоткей ctr q) входит в режим visual block, а не выходит из vs code. Даже если выбрать из меню, а не хоткее
Пикабу невозможно читать из-за постоянной рекламы тг каналов. Теперь это и на хабр приносить стали.
Может в отсутствии шифрования вся фишка как в случае с ANOM
Тогда ещё добавлю пожеланий на будущее
yarn, dynamic ntk, etc. Методы основанные на изменении существующих positional embedding - большинство из них даже не требуют finetune и работают с существующими моделями. Они отвечают на вопрос в заголовке и оказались настолько влиятельны, что сейчас есть в движках из коробки типа llamacpp. И настолько просты что зарождение можно было видеть на 4chan,localllama а не arxiv
block recurrent transformer. Тот который схож с rmt, но память и веса памяти отдельны, а не встроены в основной поток.
long range area. Не модель. Но хлеб и масло длинных текстов и тестов. У фейсбук есть описание многих моделей и их тестирование. Насколько помню Nystromformer там хорош.
mega. retnet строго не является трансформером так как self attention выкинут и заменён как было сказано в статье. MEGA, если прищуриться, имеет схожую идею(умножай прошлое @ прибавляй настоящее) + суёт выход в настоящий self attention. И лидирует на lra согласно paperswithcode.
S4 и прочие голодные гиппопотамчики. Тоже не трансформер. Но раз retnet упомянут. Как и retnet имеет 2 представления (cnn, rnn). На этом мое понимание кончается. Хороших объяснялок по s4 нет. Есть мало непонятных(и это не только моё имхо - s4 annotated упомянул неинтуитивность модели) где к середине мозги отрубаются . У меня от этого подгорает сильнее всего. Это один из самых удачных современных отказов от трансформеров. Большое количество материалов по llm говорят про исторические lstm, gru, Transformer(хорошо если rope упомянут) но про h3, s4, s5 ни слова. И они созданы для длинных текстов. Из топ10 моделей в lra половина основаны на structural state space. Половина. Это не rwkv который большую часть времени используется только автором поэтому хороша она или нет неясно. Эти модели явно уже доказали что они могут. И по ним очень мало доступных материалов
Landmark attention пропущен. Он совсем плохой, никому не нужный? В июне вышло несколько моделей (minotaur, manticore) когда он был свеж и... Всё. Random-Access Infinite Context Length for Transformers забыт и оставлен во времена лламы1.
Я несколько не понимаю почему трансформерам нужно O(nn) памяти. Вместо Softmax(Q[:N] k[:N].T)V один раз можем же сделать частями, грубо softmax(Q[i] K[:N].T)V N раз (для I=0,1,2...) и будут те же O(N) памяти и O(NN) расчётов
Не нравятся такие задачи: решение в лоб думается(вру, думать не надо) и пишется ну пусть за пару минут и рассчитывается за секунду. Итоговое время - 2м 1с. Решение не в лоб - если думается и пишется за 3 минуты то оно уже хуже "неоптимального" решения в полтора раза.
А если это собес, начинается игра "угадай что от меня хотят" - послушать про "какая гадость этот полный перебор. это зло" или "Преждевременная оптимизация — корень всех зол. KISS"
Можно, но уже есть SearXNG
Не понял о каком cross layer attention идёт речь. XLnet использует two-stream self attention, но они текут исключительно в будущее (либо в следующий слой за счёт обычного механизма transformers, либо в следующий слой в будущем чанке за счет xl)
Достопримечательность xlnet - "перемешивание" слов.
Бумага по xlnet была опубликована в 2019,не 2017. Название xlnet происходит от TransformerXL, которая была взята за основу.
Авторы - Google и Carnegie Melon university, не Microsoft
Слово cross в бумаге (архив 1906.08237) не встречается - только across.
Где ссылка на бумагу кстати?
Я ничего не понял, ощущение будто галлюцинации чатгпт прочитал
"дайка я подсожу психически слабых людей на гачу и хуже, высосу деньги а потом будут троллололить что к голове пистолет не приставлял(нанял психолуха чтобы эффект был лучше пистолета)"
Какая благородная "работа" . Обесценивание ее - самое доброе и светлое чего такая" "работа" заслуживает
Отмазка про ide какая-то левая. Ему что - vim дали? Или сразу ed? Мне как-то доводилось в нотепад++ писать. Я вообще невразумею какие там шорткаты. Бугурт был, так как он форматирование ломал и автодополнения не было, но не настолько подгорело чтобы решение заняло сильно больше чем если бы была idea.
Опыт? На реддите и ютубе эти первые шаги чуть ли не каждый день разные люди делают. Начало ничего не стоит. Ладно если бы о нем написали когда он мог бы соперничать с тем же TempleOS, но ведь не может. И авторы этого не скрывают - у них очень честно написано, что ничего практически ещё не реализовано. Смотреть не на что.
Ладно если бы было что-то не совсем уже сейчас. Ну хотя бы не сишка, а зиг или раст(см Redox) .
Ну и приоритеты странные - поддержка tga появилась до поддержки клавиатуры. Из файловых систем в родмапе ext2.
В llm такое сплошь и рядом. На реддите в некоторых сравнениях выводы с личным опытом не совпадают, в некоторых модели галюционируют так, что есть очень сильные подозрения в том что им промпт составлен по формату другой модели.
И ладно если бы это был только реддит. Статьи о том что "гпт от опенаи сумел пройти экзамен,"(у него было n попыток, любая удачная защитывалась) или что "вам не кажется - гпт стал глупее"(авторы не учли что гпт по другому оформляет код) претендовали на серьёзность. По-моему обе были на arXiv, что не то же самое что и уютный дневничок
Пишу для себя в стол рассказы и touhou фанфики, например как персонажи соревнуются в генсековском аналоге шоу taskmaster
1000 токенов уходит на краткое описание персонажей в сцене и их способности. Ещё 1000-2000 токенов на "исторический контекст" или его пересказ, чтобы модель видела как персонажи себя ведут. Остальное на текущий.
Остальные куски текста помечаются как "не кормить модели" и выкидываются препроцессором
Сейчас померял токенизатором, мой самый большой опус - ~21 тыс токенов на ~70кб текста. Последний раз на общее описание сеттинга и персонажей ушло ~4300 символов и ~1100 токенов
Бумага на arXiv будет с вкусными подробностями?
В 7б сейчас наиболее интересен mistral а не ллама, и обе доступны без смс и регистрации. Особенно мистрал.
>Контекст большинства современных языковых моделей начинается с 2 тысяч токенов,
Скорее для большинства БОЛЬШИХ языковых моделей на 100500+B параметров, которые если влезут в одну гпу - уже хорошо. Для 7б модели это уже не торт, мы избалованы нормальным контекстом. ллама2 и мистрал используют 4к токенов. Xgen - есть 4k, есть 8k. Mpt7b - есть и 2к, но есть и 65536 токенов(через алиби).
После использования 4к, использовать 2к очень тяжко.
>А быть может эта новая функциональность уже ждет на ПРОДЕ и самодеятельность инженера оттягивает ее сдачу.
Если поручаете критику джуну, то ссзб.
Какое то nft.
Так он и написал всего пару предложений. На большом объёме текста может возникнуть вопрос "а че это он о себе в" нулевом" лице говорит"
Torch.compile уже успел устареть - с питоном 3.11 не работает. Требует 3.10. В nightly говорят пофиксили. В 2.0.1 - нет
На 3.10 в трансформерах у меня с ним файнтюнинг получился медленнее. Не разбирался почему, не исключаю кривизну рук
REST Client. Для отправки REST запросов. Я не знаю как postman написан так, что он грузится полдня
vscode-background. Добавляет тохо девочек на фон. Менять фоновую картинку - это костыль и не поддерживается официально. Потому при установке этот плагин(и другие подобные ему) хочет рута так как меняет css в /var. К счастью можно обойтись "всего лишь" поменяв разрешения файла на который он жалуется на 0666, поставить плагин, затем обратно, не давая root всему плагину.
Yuyuko-vim-vsc. Продолжаем тохонизацию vsc цветовой темой.
Vim. Добавляет сносную vim эмуляцию. К недостаткам - главное меню начинает глючить. Например file-exit(хоткей ctr q) входит в режим visual block, а не выходит из vs code. Даже если выбрать из меню, а не хоткее