Dmitrii-Chashchin Aug 20 at 09:16

GPT-OSS-20B / 120B: Сухие цифры после реальных тестов

Medium

5 min

6.3K

Artificial IntelligenceMachine learning *

From sandbox

Comments 13

AndyGhost Aug 20 at 10:42

Интересный момент. Когда gpt думает - ассоциирует себя с "мы" ("thinking": "We need ...", "we should"). Это и есть тот самый mix of experts - несколько разно-обученных моделей под капотом?

peterjohnsons Aug 20 at 21:18

Нет, MOE это скорее по аналогии с разными областями в человеческом мозгу. Для разных процессов у вас задействованы разные области, каждая специализируется на своей функциональной области. А вместе это единый мозг. То, что мозг задействует разные области в разное время и для разных задач не говорит о том, что мы себя воспринимаем как множественность Я. Я имею в виду здоровых людей.

Kiridan Aug 26 at 05:31

Это всего лишь следствие перенятия "публицистического" стиля, где зачастую текст пишется от второго лица. То есть, (мы) представим, (нам) нужно подумать.

Dmitrii-Chashchin Aug 20 at 11:01

Да, думаю это особенность идет из chain-of-thought, где идет подбор "коллегиального" ответа!

FSmile Aug 20 at 13:01

И для чего ее использовать? На моей 7900xtx работает быстро, а толку. Тестил на анализе документах и книг. Галюны пошли с первых промтов.

Tttttttgg Aug 21 at 12:46

Здравствуйте, Дмитрий, а вы пробовали реальные философские вопросы задавать? Дело в том, что я - да) https://habr.com/ru/companies/spbu/articles/851090/ Могли бы что-то вместе сделать

Dmitrii-Chashchin Aug 21 at 19:52

Давайте коллабиться, я только за! :)

thethee Aug 23 at 16:19

Автор, отличное начало, но хочется продолжение. Чтобы полностью покрыть технические особенности (time to first token, vram, tps) нужно тестировать с разным набором параметров. Доступное окно контекста влияет на заполнение VRAM, фактически заполненное контекста влияет на TPS и time to first token. Очень хочется посмотреть на результаты такого тестирования.

А попробуйте кстати спросить большую модель мнение о своей статье, что скажет? Какие метрики посоветует оценить?

Dmitrii-Chashchin Aug 24 at 16:18

Спасибо за конструктивный комментарий! В следующих статьях я посвящу этому отдельную часть 🙏

Kiridan Aug 26 at 05:34

Мне кажется, было бы куда интереснее увидеть ответы модели на загадку, нежели унылое сравнение дедлайна.

Mortello Sep 9 at 09:05

Зачем на олламе скорость замерять?
vllm и 50 параллельных запросов, тем более если есть h100

На ollama даже 4060 не раскроется, чего уж говорить о картах мощнее

Dmitrii-Chashchin Sep 10 at 07:37

на vllm я замерил в другой статье - https://habr.com/ru/articles/939950/ .

тут я скорее показывал, как ее развернуть и показал простой тест. да и на vllm 4090/5090 слабо адаптирована (именно версия по gptoss). там прям геморой. они сами пишут на сайте, что пока прорабатывают стабильную поддержку для 5090 и пока ее нету, только какие-то пользовательские костыли

Dmitrii-Chashchin Sep 10 at 07:37

на vllm я замерил в другой статье - https://habr.com/ru/articles/939950/ .

тут я скорее показывал, как ее развернуть и показал простой тест. да и на vllm 4090/5090 слабо адаптирована (именно версия по gptoss). там прям геморой. они сами пишут на сайте, что пока прорабатывают стабильную поддержку для 5090 и пока ее нету, только какие-то пользовательские костыли