Comments / Profile of Aykeye / Habr

@Aykeye

User

ProfileArticlesPostsNewsComments38

Эксперимент: сделать Telegram канал и зарабатывать на рекламе больше 500 тысяч в месяц

Aykeye Nov 23 2023 at 05:57

Пикабу невозможно читать из-за постоянной рекламы тг каналов. Теперь это и на хабр приносить стали.

Эксперты: мессенджер Nothing не имеет сквозного шифрования в исходном коде

Aykeye Nov 19 2023 at 20:03

Может в отсутствии шифрования вся фишка как в случае с ANOM

«ИИ без границ»: как научить Transformer обрабатывать длинные тексты

Aykeye Nov 18 2023 at 11:05

Тогда ещё добавлю пожеланий на будущее

yarn, dynamic ntk, etc. Методы основанные на изменении существующих positional embedding - большинство из них даже не требуют finetune и работают с существующими моделями. Они отвечают на вопрос в заголовке и оказались настолько влиятельны, что сейчас есть в движках из коробки типа llamacpp. И настолько просты что зарождение можно было видеть на 4chan,localllama а не arxiv
block recurrent transformer. Тот который схож с rmt, но память и веса памяти отдельны, а не встроены в основной поток.
long range area. Не модель. Но хлеб и масло длинных текстов и тестов. У фейсбук есть описание многих моделей и их тестирование. Насколько помню Nystromformer там хорош.
mega. retnet строго не является трансформером так как self attention выкинут и заменён как было сказано в статье. MEGA, если прищуриться, имеет схожую идею(умножай прошлое @ прибавляй настоящее) + суёт выход в настоящий self attention. И лидирует на lra согласно paperswithcode.
S4 и прочие голодные гиппопотамчики. Тоже не трансформер. Но раз retnet упомянут. Как и retnet имеет 2 представления (cnn, rnn). На этом мое понимание кончается. Хороших объяснялок по s4 нет. Есть мало непонятных(и это не только моё имхо - s4 annotated упомянул неинтуитивность модели) где к середине мозги отрубаются . У меня от этого подгорает сильнее всего. Это один из самых удачных современных отказов от трансформеров. Большое количество материалов по llm говорят про исторические lstm, gru, Transformer(хорошо если rope упомянут) но про h3, s4, s5 ни слова. И они созданы для длинных текстов. Из топ10 моделей в lra половина основаны на structural state space. Половина. Это не rwkv который большую часть времени используется только автором поэтому хороша она или нет неясно. Эти модели явно уже доказали что они могут. И по ним очень мало доступных материалов

«ИИ без границ»: как научить Transformer обрабатывать длинные тексты

Aykeye Nov 15 2023 at 05:36

Landmark attention пропущен. Он совсем плохой, никому не нужный? В июне вышло несколько моделей (minotaur, manticore) когда он был свеж и... Всё. Random-Access Infinite Context Length for Transformers забыт и оставлен во времена лламы1.
Я несколько не понимаю почему трансформерам нужно O(nn) памяти. Вместо Softmax(Q[:N] k[:N].T)V один раз можем же сделать частями, грубо softmax(Q[i] K[:N].T)V N раз (для I=0,1,2...) и будут те же O(N) памяти и O(NN) расчётов

Разбор классического тестового задания на позицию Python Developer

Aykeye Nov 14 2023 at 06:10

Не нравятся такие задачи: решение в лоб думается(вру, думать не надо) и пишется ну пусть за пару минут и рассчитывается за секунду. Итоговое время - 2м 1с. Решение не в лоб - если думается и пишется за 3 минуты то оно уже хуже "неоптимального" решения в полтора раза.
А если это собес, начинается игра "угадай что от меня хотят" - послушать про "какая гадость этот полный перебор. это зло" или "Преждевременная оптимизация — корень всех зол. KISS"

Здравствуйте, достала навязчивая реклама. Наберёшь в...

Aykeye Nov 13 2023 at 06:01

Можно, но уже есть SearXNG

Что такое XLNet? XLNet, или eXtreme Language Model — это...

Aykeye Nov 10 2023 at 11:27

Не понял о каком cross layer attention идёт речь. XLnet использует two-stream self attention, но они текут исключительно в будущее (либо в следующий слой за счёт обычного механизма transformers, либо в следующий слой в будущем чанке за счет xl)

Достопримечательность xlnet - "перемешивание" слов.

Бумага по xlnet была опубликована в 2019,не 2017. Название xlnet происходит от TransformerXL, которая была взята за основу.

Авторы - Google и Carnegie Melon university, не Microsoft

Слово cross в бумаге (архив 1906.08237) не встречается - только across.

Где ссылка на бумагу кстати?

Я ничего не понял, ощущение будто галлюцинации чатгпт прочитал

Геймдев в России: Реальность и Перспективы

Aykeye Nov 10 2023 at 11:26

"дайка я подсожу психически слабых людей на гачу и хуже, высосу деньги а потом будут троллололить что к голове пистолет не приставлял(нанял психолуха чтобы эффект был лучше пистолета)"

Какая благородная "работа" . Обесценивание ее - самое доброе и светлое чего такая" "работа" заслуживает

Автор книги You Don’t Know JS Yet рассказал, что его не взяли на работу из-за недостаточных технических навыков

Aykeye Nov 4 2023 at 15:28

Отмазка про ide какая-то левая. Ему что - vim дали? Или сразу ed? Мне как-то доводилось в нотепад++ писать. Я вообще невразумею какие там шорткаты. Бугурт был, так как он форматирование ломал и автодополнения не было, но не настолько подгорело чтобы решение заняло сильно больше чем если бы была idea.

-1

Вышел начальный релиз ядра БМПОС (Базовая Модульная Платформа Операционных Систем) 0.1.231

Aykeye Oct 24 2023 at 09:09

Опыт? На реддите и ютубе эти первые шаги чуть ли не каждый день разные люди делают. Начало ничего не стоит. Ладно если бы о нем написали когда он мог бы соперничать с тем же TempleOS, но ведь не может. И авторы этого не скрывают - у них очень честно написано, что ничего практически ещё не реализовано. Смотреть не на что.

Ладно если бы было что-то не совсем уже сейчас. Ну хотя бы не сишка, а зиг или раст(см Redox) .

Ну и приоритеты странные - поддержка tga появилась до поддержки клавиатуры. Из файловых систем в родмапе ext2.

Aykeye Oct 23 2023 at 06:08

В llm такое сплошь и рядом. На реддите в некоторых сравнениях выводы с личным опытом не совпадают, в некоторых модели галюционируют так, что есть очень сильные подозрения в том что им промпт составлен по формату другой модели.

И ладно если бы это был только реддит. Статьи о том что "гпт от опенаи сумел пройти экзамен,"(у него было n попыток, любая удачная защитывалась) или что "вам не кажется - гпт стал глупее"(авторы не учли что гпт по другому оформляет код) претендовали на серьёзность. По-моему обе были на arXiv, что не то же самое что и уютный дневничок

GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера

Aykeye Oct 21 2023 at 17:31

Пишу для себя в стол рассказы и touhou фанфики, например как персонажи соревнуются в генсековском аналоге шоу taskmaster

1000 токенов уходит на краткое описание персонажей в сцене и их способности. Ещё 1000-2000 токенов на "исторический контекст" или его пересказ, чтобы модель видела как персонажи себя ведут. Остальное на текущий.

Остальные куски текста помечаются как "не кормить модели" и выкидываются препроцессором

Сейчас померял токенизатором, мой самый большой опус - ~21 тыс токенов на ~70кб текста. Последний раз на общее описание сеттинга и персонажей ушло ~4300 символов и ~1100 токенов

GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера

Aykeye Oct 21 2023 at 08:54

Бумага на arXiv будет с вкусными подробностями?

В 7б сейчас наиболее интересен mistral а не ллама, и обе доступны без смс и регистрации. Особенно мистрал.

>Контекст большинства современных языковых моделей начинается с 2 тысяч токенов,

Скорее для большинства БОЛЬШИХ языковых моделей на 100500+B параметров, которые если влезут в одну гпу - уже хорошо. Для 7б модели это уже не торт, мы избалованы нормальным контекстом. ллама2 и мистрал используют 4к токенов. Xgen - есть 4k, есть 8k. Mpt7b - есть и 2к, но есть и 65536 токенов(через алиби).

После использования 4к, использовать 2к очень тяжко.

Примета джуна #1 «С шашкой наголо»

Aykeye Oct 17 2023 at 06:36

>А быть может эта новая функциональность уже ждет на ПРОДЕ и самодеятельность инженера оттягивает ее сдачу.

Если поручаете критику джуну, то ссзб.

Роскомнадзор рекомендовал не передавать операторам данные цифровых паспортов

Aykeye Oct 15 2023 at 04:08

Какое то nft.

Как я учился не перебивать собеседников

Aykeye Oct 10 2023 at 12:46

Так он и написал всего пару предложений. На большом объёме текста может возникнуть вопрос "а че это он о себе в" нулевом" лице говорит"

Тест-драйв PyTorch 2.0 и заглядываем под капот «двушки»

Aykeye Oct 2 2023 at 05:31

Torch.compile уже успел устареть - с питоном 3.11 не работает. Требует 3.10. В nightly говорят пофиксили. В 2.0.1 - нет

На 3.10 в трансформерах у меня с ним файнтюнинг получился медленнее. Не разбирался почему, не исключаю кривизну рук

Плагины для Visual Studio Code, актуальные в 2023 году

Aykeye Sep 25 2023 at 05:37

REST Client. Для отправки REST запросов. Я не знаю как postman написан так, что он грузится полдня

vscode-background. Добавляет тохо девочек на фон. Менять фоновую картинку - это костыль и не поддерживается официально. Потому при установке этот плагин(и другие подобные ему) хочет рута так как меняет css в /var. К счастью можно обойтись "всего лишь" поменяв разрешения файла на который он жалуется на 0666, поставить плагин, затем обратно, не давая root всему плагину.

Yuyuko-vim-vsc. Продолжаем тохонизацию vsc цветовой темой.

Vim. Добавляет сносную vim эмуляцию. К недостаткам - главное меню начинает глючить. Например file-exit(хоткей ctr q) входит в режим visual block, а не выходит из vs code. Даже если выбрать из меню, а не хоткее