Shannon Jul 25 2024 at 06:21

Представлена языковая модель Mistral Large 2 размером 123B. Как запускать. Локальный Сopilot. Открытый конкурент GPT-4o

5 min

29K

Programming*Artificial Intelligence

Review

+28

Comments 13

d2d8 Jul 25 2024 at 06:28

remius07 Jul 25 2024 at 06:39

Повторяются абзацы, начинаю бредить и галлюцинировать :D "Модель обучалась меньше бредить и галлюцинировать, если она не уверена в ответе или у неё нет точного ответа. и про GPU. Или это для тех кто с первого раза не понял?!)

Vedomir Jul 25 2024 at 08:13

Статья про Mistral Large 2 123B а потребление памяти приведено для Codestral 22B?

Shannon Jul 25 2024 at 08:45

Редактор как-то на хабре по особенному заглючил, как и комментарий выше про дубли. Я удалял этот блок полностью, так как он тут не нужен, но вся эта мешанина всплыла после сохранения.

Vedomir Jul 25 2024 at 11:01

Так в итоге сколько для нее надо?

Shannon Jul 25 2024 at 11:15

От 26 гб до 130гб, смотря какое квантование выбрать. Модель в формате gguf мапится в память, поэтому размер файла примерно равно объем занимаемой памяти. Поэтому просто смотрите размеры gguf и это и будет объем занимаемой памяти.

Vedomir Jul 25 2024 at 11:24

Возможно наивный вопрос, но может ответ пригодится не только мне - я правильно понимаю что речь идет о видеопамяти и на стандартной потребительской машине больше 24 ГБ у 4090 особо не получить и все это уже сугубо для серверов?

Shannon Jul 25 2024 at 11:47

Тут речь про обычную память. Например, версия IQ2_XS, для работы ей нужно 39гб обычной памяти.

На обычной ddr4 в двухканале скорость чтения примерно равна 50гб/с, если вы будете запускать на CPU, то вы получите скорость примерно равную 0.3 t/s.
Если вы выгрузите 55 слоев из 89 на 4090, включив cache_8bit и cache_4bit чтобы высвободить еще пару гб vram, вы получите скорость примерно 1.14 t/s.
Скорость стала в 3 раза выше, но бутылочным горлышком является ddr4 память и 34 слоя крутящихся на ней.

Если бы все слои удалось перенести на GPU, то скорость бы выросла на порядок, так как скорость памяти в 4090 равна 1000 гб/c, что в 20 раз быстрее.

Поэтому, по цене одной 4090 можно купить серверную материнку, два дешевых эпика и горсть серверной недорогой ddr4 памяти общим объемом 512гб. В 16 канале это будет работать на скорости 250гб/с (тут обсуждение на эту тему).

Pol1mus Jul 25 2024 at 12:28

Можно поставить несколько видеокарт в один компьютер, их память сложится.

Зы оно того не стоит, все эти вбросы про то что новая лама/мистраль/итп догнали и перегнали гпт4о - тупое вранье.

Shannon Jul 25 2024 at 13:13

По тестам она нигде не догнала и не обогнала. Она приблизилась, и среди открытых это вполне достойный конкурент, в отличии от других открытых.

Но в целом, есть примеры?
Я вот тестировал всякое, и не сказать, что GPT-4o сильно вырывается вперед, если не затрагивать вопросы знаний (очевидно, что модель в 123B не может вместить в себя столько же знаний, сколько 850-1700B).

Например запрос:

Напиши на js код с отрисовкой рей трейсинга. В кадре должны быть серый пол, красный шар, оранжевый куб и фиолетовая пирамида, фон должен быть светлый, как будто бы день. Они должны крутиться, на них должна падать тень и свет от зеленого и розового источников. Мышкой можно крутить сцену. Всё это в одном файле.

И обе справились с 1 раза, без правок, сразу запустилось и сцена крутиться, вертится, приближается: