Articles / Profile of derunat / Habr

How to become an author

Natalia Deryugina @derunat

Пишу обзоры статей, веду тгк Pro AI

Profile Publications 19Comments 3Bookmarks 1

derunat Sep 3 at 14:07

Как устроена языковая модель без перемножения матриц

Medium

4 min

6.4K

Machine learning*Artificial Intelligence

Review

Нейросети любой архитектуры построены на перемножении матриц. Например, трансформеры из входного вектора создают (тоже перемножением) три матрицы, Q, K и V, которые затем несколько раз перемножаются на пути к получению выходного вектора. Именно умножение матриц с его кубической сложностью (если не прибегать к разного рода ухищрениям) занимает большую часть вычислительных мощностей.

Поэтому возникает естественное желание облегчить эту самую массивную часть вычислений и ускорить таким образом любую архитектуру. Периодически возникают новые подходы и идеи, тут расскажем о последней громкой статье по этой теме — Scalable MatMul-free Language Modeling.

Читать далее

+22

derunat Aug 11 at 14:13

На каком языке думают языковые модели

Easy

4 min

7.5K

Machine learning*Artificial Intelligence

Review

Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще. Тем интереснее понять, как с этим обстоят дела у больших языковых моделей. Их обучают преимущественно на английских текстах, но как-то невзначай они вдруг начинают неплохо говорить и на других языках. Да, похуже, чем на английском, но всё-таки вполне достойно. Так что закономерно, что на общей волне интереса к интерпретируемости AI возникает запрос разобраться с этой мультиязычностью моделей.

Интуитивно (а вообще просто по аналогии с человеком) кажется, что раз модель обучалась на английском, то он должен быть ее “родным” языком. То есть когда мы спрашиваем GPT на русском, он внутри сначала переводит на английский, там же формулирует ответ, а затем переводит обратно на русский. Если это действительно верно, то это означает, что у модели есть некоторый уклон не только к англоязычной грамматике и лексике, но отсюда и к соответствующим метафорам, логике, поведению. То есть, к менталитету англоязычного мира. А если это неверно? Тогда еще хуже — тогда совершенно непонятно, как модель достигает такого хорошего результата на таком скромном объеме обучающих данных.

Читать далее

+27

derunat Jun 10 at 19:18

TransformerFam от Google и другие попытки улучшить память LLM

Medium

4 min

1.5K

Machine learning*Artificial Intelligence

Review

Трансформеры, несмотря на всю их мощь, всё ещё легко заболтать до беспамятства, то есть дать им на вход такой длинный контекст, что они не смогут удержать его весь. В целом, это наверное главный, если не единственный их недостаток и потому улучшить память трансформеров — главная, если не единственная мечта их авторов. И тут пускают в ход всё, меняют механизм внимания, создают всевозможные гибриды с RNN в поисках успешного подхода.

Читать далее

+6

derunat May 30 at 15:04

Как устроен Representation Finetuning, родившийся из идеи интерпретируемости LLM

Medium

3 min

1.2K

Artificial IntelligenceMachine learning*

Review

Black box AI is bad AI — гласит слоган исследовательской группы Pr(AI)2R (Practical AI Alignment and Interpretability Research). Её основал прошлым летом стэнфордский автор Аттикус Гигер (Atticus Geiger). Своей миссией группа считать превратить AI в “хороший AI”, то есть сделать его интерпретируемым.

Пока авторы выпустили три работы: Rigorously Assessing Natural Language Explanations of Neurons (лучшая статья 2023 по версии BlackBoxNLP), в которой попытались провести интерпретацию на уровне нейронов, Linear Representations of Sentiment in Large Language Models, где исследовали репрезентацию настроения в LLM и RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations, где представили бенчмарк для оценки интерпретируемости. Есть и более ранние работы Гигера, в частности, он предложил исследовать внутренности LLM с помощью интервенций (изменения внутренних состояний). Суть проста: если зафиксировать скрытое состояние, и выход модели поменяется так, как будто какой-либо компонент производил это состояние, то это даёт нам право установить причинно-следственную связь. Но тут расскажем о том, к каким конструктивным идеям приводит исследование интерпретируемости. Как говорится, критикуешь — предлагай.

Читать далее

0

derunat May 20 at 09:32

Как ИИ и методы прошлого века обошли золотых медалистов IMO в геометрии

Easy

4 min

2.6K

Machine learning*Artificial Intelligence

Review

Решение геометрических задач, даже обычной школьной сложности, — процесс довольно творческий. Нужно что-то заметить, где-то проявить интуицию, пробовать разные подходы и придумывать свои. Отсюда возникает два вывода. Первый — раз задача творческая и не всегда понятно, какими именно принципами руководствоваться, значит она прекрасно подходит для искусственного интеллекта. Второй — противоположный, о котором наверняка думали хоть раз все, у кого с геометрией в школе было туго: нужно максимально формализовать решение, найти законы и превратить творческий процесс в набор правил. Как это обычно бывает, лучшим решением оказывается объединение противоположностей. Но обо всём по порядку.

Читать далее

+4

derunat May 3 at 16:17

Как LLM учат понимать синтаксис

Medium

4 min

3K

НТР corporate blogMachine learning*Artificial Intelligence

Review

Скорее всего, вы поняли заголовок правильно, хотя в нём есть стилистическая ошибка — двусмысленность (кто-то учит LLM, или они учат кого-то?).

Человеческое понимание языка остается ориентиром и пока недостижимой целью для языковых моделей. При всей небезошибочности первого и при всех невероятных успехах последних. Например, человеку обычно не составляет труда однозначно трактовать двусмысленные фразы исходя из контекста. Более того, мы с удовольствием используем такие каламбуры в шутках разного качества. Из самого известного приходит на ум только “В Кремле голубые не только ели, но и пили” (предложите свои варианты в комментариях — будет интересно почитать). Есть ещё “казнить нельзя помиловать”, но эта двусмысленность разрешается запятой.

Самый известный пример в английском: “Time flies like an arrow; Fruit flies like a banana”.

Человек скорее всего после некоторых раздумий поймёт это как “Время летит как стрела, мухи любят банан” (хотя мне, например, понадобилось на это несколько секунд). Яндекс переводчик понимает эту фразу так: “Время летит как стрела, фрукты разлетаются как бананы”. Google translator демонстрирует зоологическую эрудированность: “Время летит как стрела; Фруктовые мушки, как банан”, а ChatGPT предлагает “Время летит как стрела; Мухи на фруктах летают как бананы”. В общем, никто не справился.

Читать далее

+11

derunat Apr 23 at 11:44

N-граммная языковая модель в эпоху LLM — как устроена и зачем нужна

Medium

3 min

1.7K

НТР corporate blog

Review

Тренды трендами, а всегда найдутся те, кто плывет против течения. Пока трендом становится уменьшение размеров модели, авторы из университета штата Вашингтон решили вообще не обращать внимание на размер и проверить, имеет ли смысл в эпоху LLM вернуться к N-граммным языковым моделям. Оказалось, что имеет. Во всяком случае, хотя бы просто из интереса.

На N-граммы, пожалуй, действительно давно никто не обращал внимания. Техники масштабирования, выведшие трансформеры на заоблачные высоты, к ним не применяли. Но авторы статьи Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens обучили N-граммную модель на 1,4 триллиона токенов — это самая гигантская модель такой архитектуры. Она занимает 10 тебибайт, зато ей нужно всего 20 миллисекунд, чтобы подсчитать n-граммы, вне зависимости от того чему равно n. Самое интересное — возможные значения n.

Читать далее

+7

derunat Apr 12 at 13:31

LOCOST и SPECTRUM, два подхода к суммаризации

Medium

4 min

787

НТР corporate blogArtificial IntelligenceMachine learning*

Review

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

Читать далее

+2

derunat Apr 9 at 12:14

Как устроен RAPTOR — новый подход для RAG, который понимает контекст сразу всей книги

Medium

4 min

2.2K

НТР corporate blogMachine learning*Artificial Intelligence

Review

Помните, как на школьных уроках литературы иногда надо было развернуто ответить на вопрос о сюжетной линии героя или каком-то событии книги? Например, объяснить мотивацию и развитие Евгения Онегина. Чтобы ответить на этот вопрос на пятёрку, мало пролистать краткий пересказ романа — придётся прочитать его весь.

Примерно для этого в 2020 году предложили RAG (retrieval-augmented generation) методы. Есть и другая мотивация для RAG — после обучения LLM на большой базе данных возникает вопрос, что делать с обновлением этой самой базы. Дообучение — не беспроигрышный вариант, так как это не всегда удобно для гигантских объемов данных. В базовом подходе RAG база знаний нарезается на небольшие куски текста, chunks, в 100-1000 слов, которые в виде эмбеддингов хранятся, как правило, в векторной БД, пока не понадобятся. Запросы пользователя дополняются найденными чанками в качестве контекста и выглядят для модели как один большой запрос.

Так вот, большинство существующих RAG методов способны переварить только небольшое количество достаточно коротких и последовательных чанков. Это ограничивает возможность оперировать крупномасштабным контекстом. Возвращаясь к уроку литературы, если перед тем, как выдать ответ, прочитать несколько последовательных строф романа, этого явно будет недостаточно. Недавно вышедшая Стэнфордская статья RAPTOR: Recursive Abstractive Processing for Tree-organized Retrieval призвана решить эту проблему. Основная идея заключается в том, чтобы обобщать отдельные куски большого материала, затем обобщать обобщения и так дальше.

Читать далее

+4

derunat Apr 2 at 15:09

Что такое task contamination и почему one-shot и zero-shot заподозрили в нечестности

Medium

3 min

893

НТР corporate blogMachine learning*Artificial Intelligence

Recovery Mode

Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.

Читать далее

+3

derunat Mar 25 at 12:52

Весь мир — это модель, а LLM в нём — бэкенд

Hard

4 min

4.8K

НТР corporate blogMachine learning*

Review

Весь мир — это модель, а LLM в нём — бэкенд

На любом этапе развития AI активно идут философские или около того рассуждения. Сейчас, например, мы спорим насчет того, что такое AGI или world model. Последняя концепция впервые появилась, наверное, несколько десятков лет назад, но на новый уровень её вывел Ян Лекун.

Как сделать, чтобы машины обучались настолько же эффективно, как люди или животные? Как машины могут обучиться репрезентациям и планировать действия на нескольких уровнях абстракции? Для этого, по мнению Лекуна, машине нужна такая же внутренняя модель мира, которая есть у животных. Когда в 2022 году он высказался о своем дальнейшем видении AI, вопросов было больше чем ответов. С тех пор концепция world model постепенно вошла в оборот, хотя до сих пор не совсем понятно, что же имеется в виду (совсем недавно Лекун дал что-то вроде формального определения модели мира — скрины ниже) Но тем не менее, что-то, что называют world model появляется.

Читать далее

+6

derunat Mar 20 at 15:57

Как графы знаний и LLM могут друг другу помочь

Medium

4 min

5K

НТР corporate blogMachine learning*Artificial Intelligence

Review

Recovery Mode

Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.

Читать далее

+15

derunat Mar 13 at 15:05

Диффузионные текстовые модели — между двух миров

Medium

3 min

2.4K

НТР corporate blogArtificial Intelligence

Review

Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где‑то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.

Читать далее

+4

derunat Mar 12 at 17:08

«Надо включать мозги, руки в ноги и что-то делать» — интервью с Мариной Аншиной об IT в индустрии в 2024

Easy

6 min

17K

НТР corporate blog

Interview

В конце прошлого года мы поговорили с цифровыми директорами и лидерами IT-индустрии для нашего тг-канала об IT в индустрии Цифровой директор. Нас интересовали надежды (и опасения) коллег на 2024 год в IT. Из-за чего в России страдает ввод в эксплуатацию решений, почему мода на технологии — это не всегда хорошо, и зачем айтишникам своя “клятва Гиппократа” — читайте в интервью с Мариной Аншиной, председателем Правления Российского Союза ИТ-директоров, президентом фонда ФОСТАС.

Читать далее

-13

derunat Mar 7 at 13:46

Выбор данных, малые языковые модели и причём здесь Шмидхубер

4 min

2.3K

НТР corporate blogMachine learning*Artificial Intelligence

Review

Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.

Возможно, тут стоит вспомнить теорию Шмидхубера, который, как известно, всё придумал.

Читать далее

+7

derunat Mar 4 at 14:50

Цифровой клон свиньи — как фермы становятся умнее

Easy

1 min

1.3K

НТР corporate blog

Case

Отслеживать состояние скота на фермах с помощью дистанционных методов становится мировой нормой. Или, по крайней мере, трендом.

В Южно-китайском сельскохозяйственном университете, например, научились определять вес свиней по камерам, установленным в коридоре перед убойным цехом. Модель компьютерного зрения определяет отдельных особей и оценивает вес по снимкам сверху. Главное, что всё это происходит не в закрытом загоне, а в движении — за 0,34 секунды.

Читать далее

+3

derunat Feb 26 at 11:10

Нео-РНН или Make RNNs great again

Medium

3 min

1K

НТР corporate blogMachine learning*Artificial Intelligence

Review

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.

Читать далее

+4

derunat Feb 16 at 17:43

Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Medium

5 min

2.8K

НТР corporate blogArtificial Intelligence

Review

Накатившая волна LLM с правилом “чем больше, тем лучше” уже вызывала естественный запрос — хочется повысить эффективность не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше хитрых подходов, которые делают ставку не на размер. Мы разберем некоторые из них.

Читать далее

+8