Комментарии / Профиль Inkor / Хабр

Как стать автором

Пользователь

Профиль Публикации Комментарии 21Закладки

GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

Inkor 16 мая в 09:25

С видео непонятно, в прес релизе заявлены текст, аудио и изображения, то есть она теперь их может как понимать, так и генерировать. Про видео не говорится. Но в одном из примеров была показана генережка 3D объекта. Так что диапазон модальностей там возможно больше. Эмпирически пока не проверить, выкатили пока только возможности с текстом и принятием изображений, остальное пока тестят на безопасность.

0

Посмотреть

Quantization Deep Dive, или Введение в современную квантизацию

Inkor 20 мар в 09:22

Из интересного еще хотелось бы почитать про AWQ и квантизацию реализованную в llama.cpp. И если AWQ еще можно полезть в оригинальную статью, то насколько я понимаю описание того как реализована квантизация в llama.cpp существует только в коммитах репы.

+1

Посмотреть

Mixtral 8x7B – Sparse Mixture of Experts от Mistral AI

Inkor 18 дек 2023 в 09:12

GPTQ и GGUF от TheBloke уже есть, но они конечно работают пока не в основных ветках библиотек.

0

Посмотреть

О методах позиционного кодирования в Transformer

Inkor 13 дек 2023 в 22:10

Гугли механизм kv -кэша. Это стандартный способ ускорения работы трансформерных llm-ок, засчет некоторого оверхеда по памяти, позволяющий при инференсе сделать вычислительную сложность атеншена линейной, а не квадратичной от количества токенов при авторегресивной генерации. По сути это сохранения результатов после k, v линейных слоев в память, что бы их каждый раз не пересчитывать. Это также позволяет считать атеншн только по последнему токену, а не по всем. Но вот только это работает, когда уже что-то закешировано. Когда же к нам приходит начальный набор токенов, что бы запустить генерацию для них нужно все посчитать все честно по старинке, что бы закешировать весь этот набор присланных начальных токенов.

+3

Посмотреть

16-, 8- и 4-битные форматы чисел с плавающей запятой

Inkor 29 ноя 2023 в 10:32

Ну мало делают это смотря где. Если embedded разработка и нужно что бы работало на какой-нибудь платке да еще и в реальном времени, то делают часто.
Опенсурсные энтузиасты LLM-ок тоже активно юзают и фактически развивают сейчас это направление. Ибо модели огромные и всем охота поиграться на домашних видеокартах, а не лезть в облака за A100 какой-нибудь. И тут весь цвет общества применяется. 16 бит для весов это уже стандарт, 8 бит и 4 бита легко. Плюс всякие GPTQ и AWQ методы.
Другое дело что это у энтузиастов и всяких ребят решивших срубить денег как хостинги для опенсусрных моделей. Применяют ли все это большие ребята типа OpenAI или Anthropic в продакшене, черт его знает.

+1

Посмотреть

16-, 8- и 4-битные форматы чисел с плавающей запятой

Inkor 29 ноя 2023 в 08:25

4 бита еще не самая большая наркомания в машинном обучении. Как вам 3 и даже 2 бита? Правда тут конечно уже не плавающая точка. И квантизация не везде проходит до 2 битов, но тем нем менее. Причем активно используется, когда дело касается опенсурсных LLM. Поддерживается библиотекой transformers.

+1

Посмотреть

Гипотеза континуума, современное состояние

Inkor 16 окт 2023 в 11:15

Он наверное имел ввиду что Гедель под конец жизни стал параноиком с психическим расстройством личности. Наверное думает что платонизм его до такого довел, ну или что платонизм следствие этих проблем.

0

Посмотреть

Локальные нейросети (генерация картинок, локальный chatGPT). Запуск Stable Diffusion на AMD видеокартах

Inkor 11 апр 2023 в 09:35

Поэтому большинство таких моделей обучают на порно/эротике для улучшения понимания анатомии, ну и соответственно при денойзе без гайданса (промпта) она склоняется к тому, на чём её обучали.

Скорее потому что на это есть большой спрос и первые люди которые дообучали обнаженку неплохо так с патреона денег собирали.

0

Посмотреть

Локальные нейросети (генерация картинок, локальный chatGPT). Запуск Stable Diffusion на AMD видеокартах

Inkor 10 апр 2023 в 09:39

Тут

https://arxiv.org/pdf/2203.15556.pdf

это наиболее влиятельная работа по оценке оптимальной тренировки языковых моделей для заранее заданных вычислительных бюджетов.

+2

Посмотреть

Локальные нейросети (генерация картинок, локальный chatGPT). Запуск Stable Diffusion на AMD видеокартах

Inkor 9 апр 2023 в 18:59

Ну можешь глянуть тут.

https://arxiv.org/abs/2303.18223

Но не от больших корпораций сеток немного BLOOM, gpt-j и т.д. Просто потому что языковые модели самые большие монстры в плане требований на компьютерные вычисления при обучении. И если не можешь себе позволить пару сотен a100 на несколько месяцев, то с нуля ты ничего не сделаешь. Поэтому языковыми моделями в основном занимаются только большие ребята.

+1

Посмотреть

Проклятие мракобесия над отечественной генетикой. Update: Кудрявцева уволили

Inkor 29 мар 2023 в 07:47

Леметр вообще очень четко разделял науку и религию. И когда папа римский говорил, что теория большого взрыва это доказательство творения, Жорж был против таких высказываний.

+1

Посмотреть

DALL·E 2 — мои первые эксперименты с возможностями нейросети

Inkor 1 авг 2022 в 10:03

Ну кстати. Если прямо запрашивать портрет, то результат обычно заметно лучше.

+1

Посмотреть

Получил доступ к Dalle-2. Вы не поверите, что может нарисовать машина… Дизайнеры больше не нужны

Inkor 27 июл 2022 в 09:51

Надписи на изображениях это бич dall-e2. Но в гугловских imagen и parti это вроде как нормально работает.

+1

Посмотреть

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Inkor 1 июл 2022 в 17:51

А в более общем смысле, это что-то вроде ассоциативных связей между понятиями, получается?

Ну что-то вроде того.

А ванильные трансформеры на самом деле достаточно простые. В оригинале это архитектура энкодер декодер, то есть для перевода одних последовательностей токенов в другие, перевод языков к примеру. Взяли только энкодер получили Берта, который отлично подходит для энкодинга текстов и потом это можно использовать для классификаторов дополнительно присобачев и обучив соответствующий выходной слой. Взяли и нарезали изображение на патчи и превратили их в эмбединги используемые вместо эмбедингов токенов слов в Берте, привет VIT для компьютерного зрения. Взяли только декодер и получили GPT, который хорош для генережки. Но с фантазией их функции могут быть и более широкими. А дальше всякие локальные модификации этих штук и скрещивание с другими вещами.

0

Посмотреть

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Inkor 1 июл 2022 в 16:26

Не, порядок в сетках трансформерах там вполне себе задается, через positional encoding который кодирует порядковую информацию о расположении по отношению друг к другу токенов подслов и эта информация добавляется к самим эмбедингам токенов. Кодироваться может явно через определенный алгоритм, либо да, можно сделать так, что бы это тоже выучивалось. Обычно для NLP берется первый вариант.

Основная же штука в трансформерах это механизм self-attention, который учится пониманию взаимоотношения поступивших токенов всех ко всем. Этих атеншенов там много и каждый из них учится какому-либо типу оценивающиму взаимотношения токенов друг к другу, условно к примеру смысловых или грамматических, ну или как раз к примеру сцеплять подслова в слова. Но опять же это условно, чему по итогу выучивается атеншен на практике часто очень сложно интерпретировать.

0

Посмотреть

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Inkor 1 июл 2022 в 10:44

Если под ассоциативной памяти имеешь ввиду насколько большой контекст разговора может удержать сетка, то у разных моделей по разному, у GPT3 к примеру контекстное окно равно 2048 токенам, что грубо говоря около 500-1000 слов.

+1

Посмотреть

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Inkor 1 июл 2022 в 08:35

Также там приводятся примеры решения простых математических и физических задач, например, на преодоление расстояний. Но в этой нейросети общение идёт не просто диалогом, а сначала ей даются пара примеров вопроса и ответа и уже по этому образцу на следующий вопрос она даёт свои ответы, например, объясняя шутки.

А это очень интересная штука. Называется chain of thought prompting. Если давать достаточно большим моделям в качестве затравки, такой пример с вопрос и ответом с рассуждениями, нейронки достаточно сильно становится лучше в этой задаче. Но без этого, к примеру как тут затравить их как диалоговых чат-ботов они заметно тупеют в этом плане

*Блин, не туда ответил.

0

Посмотреть

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Inkor 1 июл 2022 в 08:01

Раскладываются на буквы и заполняют входы нейронной сети? То есть длина сообщения ограничена?

Это забыл уточнить, у каждого подслова в сформированном словаре имеется уникальный индекс и с ними как раз и работает сетка, onehot encoding и заворачивается в эмбеддинг, который учится совместно со всей остальной сеткой.

И да, у сеток обычно есть максимальная длина, с которой они могут работать.

0

Посмотреть

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Inkor 1 июл 2022 в 07:54

Интересно, каким образом вообще поступают тексты на вход модели? Раскладываются на буквы и заполняют входы нейронной сети? То есть длина сообщения ограничена?

В NLP есть куча разных способов кодирования текста. Но для языковых моделей обычно используется Byte Pair Encoding или его вариации. Это алгоритм для формирования словаря из подслов, он тоже обучается на корпусе текстов, ну а точнее тупо итеративно строится статистика по частоте каких-либо сочетаний букв, добавляя то что встречается чаще, пока не достигается заданное ограничение на размер словаря.

+1

Посмотреть

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Inkor 1 июл 2022 в 07:41

А правда, от чего зависит пол нейронки?

От статистики текстов на которых мы обучали нейронку, контекста заданного на первых словах которые мы послали в нейронку и богов рандома, когда мы выбираем слова из генерируемого сетью распределения вероятностей по словарю.

+1

Посмотреть

1